标题
内容
发现一个不错的project,它演示了用于分析澳洲卫生支出的端到端Azure ETL Data Engineering解决方案。其中用到了各种Azure services,比如Azure数据工厂、 DataBricks、Data Lake、Key Vault和Power BI等等
比较特别的有3个点: 1数据集选择上:为了optimise costs来进行演示,他们选择了一个小型数据集。能够有效地管理计算和存储costs,同时还能展示ETL流程的重要功能。 2参数化数据提取上:使用了JSON配置文件来提取数据。通过将参数传递到Azure数据工厂管道,强调了自动化和可扩展性,方便未来的扩展。 3用Databricks进行处理:Azure数据工厂数据流和自定义Python脚本等alternatives很有灵活性,users能根据自己的needs,pick适合的处理引擎
未来的增强功能:即将到来的项目将包括 Incremental loading 和 CICD。
建议对data有意思的,或者想往Data Engineer方向发展的澳洲留学生,可以尝试操作和复现一下 举手【DE】发!
链接:https://github.com/Andy-Hoang/Azure-Data-Engineering-with-AU-Health-Expnd#project-overview
参考
封面图




