logo

标题

内容

发现一个不错的project,它演示了用于分析澳洲卫生支出的端到端Azure ETL Data Engineering解决方案。其中用到了各种Azure services,比如Azure数据工厂、 DataBricks、Data Lake、Key Vault和Power BI等等

比较特别的有3个点: 1数据集选择上:为了optimise costs来进行演示,他们选择了一个小型数据集。能够有效地管理计算和存储costs,同时还能展示ETL流程的重要功能。 2参数化数据提取上:使用了JSON配置文件来提取数据。通过将参数传递到Azure数据工厂管道,强调了自动化和可扩展性,方便未来的扩展。 3用Databricks进行处理:Azure数据工厂数据流和自定义Python脚本等alternatives很有灵活性,users能根据自己的needs,pick适合的处理引擎

未来的增强功能:即将到来的项目将包括 Incremental loading 和 CICD。

建议对data有意思的,或者想往Data Engineer方向发展的澳洲留学生,可以尝试操作和复现一下 举手【DE】发!

链接:https://github.com/Andy-Hoang/Azure-Data-Engineering-with-AU-Health-Expnd#project-overview

参考

封面图

JR Academy · Blog职业洞察

澳洲卫生支出Azure数据工程project…

标题 内容 发现一个不错的project,它演示了用于分析澳洲卫生支出的端到端Azure ETL Data Engineering解决方案。其中用到了各种Azure services,比如Azure数据工厂、 DataBricks、Data Lake、Key Vault和Power BI等等 比较特别的有3个点: 1数据集选择上:为了optimise ...

发布日期
阅读时长1 分钟
作者
Loading Notion content...
作者
一键分享或复制链接

相关文章推荐

查看全部文章 →