<p>Data engineering is about developing the software (and hardware) infrastructure to support data science. This unit introduces software tools and techniques for data engineering, but not hardware. It will cover:</p> <ul> <li>introduction to big data processing, covering volume, variety, and velocity;</li> <li>large volume data processing using parallel technologies;</li> <li>variety data formats, including unstructured and semi-structured data, using NoSQL databases;</li> <li>velocity data processing, covering data streaming;</li> </ul> <p>数据工程是关于开发支持数据科学的软件(和硬件)基础设施。 本单元介绍了数据工程的软件工具和技术,但不介绍硬件。 它将涵盖:</p> <p>介绍大数据处理,涵盖数量,种类和速度;<br />使用并行技术的大容量数据处理;<br />使用NoSQL数据库的各种数据格式,包括非结构化和半结构化数据;<br />速度数据处理,涵盖数据流;</p> <p><strong>本课程介绍是由往届学长学姐回忆编辑而成。</strong></p> <p><strong>这门课的中文是 - 高级分布式平行系统。翻译成大家容易理解的话:这门课你会接触到超级计算机的构造原理以及运行方式,神经元的一些高级概念并且会用到C语言。如果你对自己的代码没有足够的信心以及各种需要大量查阅资料的决心,那么不要选这门课。</strong></p>
