冬季实战营第五期学习报告

第一天 基于EMR离线数据分析

本实验免费提供EMR集群,基于EMR集群进行离线数据分析。

体验收获

  • 登录EMR集群。
  • 上传数据到HDFS。
  • 使用hive创建表,并从hadoop文件系统加载数据。

背景知识

E-MapReduce(简称“EMR”)是云原生开源大数据平台,向客户提供简单易集成的Hadoop、Hive、Spark、Flink、Presto、Clickhouse、Delta、Hudi等开源大数据计算和存储引擎。EMR计算资源可以根据业务的需要调整。EMR可以部署在阿里云公有云的ECS和ACK、专有云平台。产品文档地址:https://www.aliyun.com/product/emapreduce

产品优势

开源生态:提供高性能、稳定版本Hadoop、Spark、Hive、Flink、Kafka、HBase、Presto、Impala、Hudi等开源大数据组件,客户可根据场景灵活搭配使用

引擎优化:多引擎性能优化,如Spark SQL较开源版本提升6倍。采用JindoFS+OSS,保证数据可靠性基础上,性能大幅提升


上一篇:使用replicate-rewrite-db 实现复制映射 + Replicate_Wild_Do_Table实现复制过滤


下一篇:冬季实战营第五期学习报告