基于阿里云EMR初期集群选购指南

 

  • 业务数据量

       业务库:累计15G

       日志:累计3T;日增量13G

 

  • 集群配置

     方案制定:

  1. 高可用(建议):

       集群有两个NameNode节点,一台处于active状态,一台处于standby状态,两台机器实时同步元数据信息,但整个集群工作由active状态的NameNode负责,当此台NameNode出现故障(宕机等情况),standby状态的NameNode会立刻转为active模式,保证集群正常运行。

 

  1. 方案:

 

方案一

方案二

方案三

方案四

是否高可用

总机器数

4

4

3

3

Master节点数

2

2

1

1

Master核心数

16

16

16

16

Master内存

64G

64G

64G

64G

Master磁盘

120G ESSD系统盘+1T ESSD硬盘

120G ESSD系统盘+1T高效云盘

120G ESSD系统盘+1T ESSD硬盘

120G ESSD系统盘+1T高效云盘

Worker节点数

2

2

2

2

Worker核心数

16

16

16

16

Worker内存

64G

64G

64G

64G

Worker磁盘

120G ESSD系统盘 + 4*2T ESSD硬盘

120G ESSD系统盘 + 4*2T 高效云盘

120G ESSD系统盘 + 4*2T ESSD硬盘

120G ESSD系统盘 + 4*2T 高效云盘

预估价格

26592.00/月

14611.20/月

23528.00/月

12212.80/月

 

 

 

 

 

 

  1. 磁盘性能对比

       可选磁盘:ESSD PL0 ,高效云盘

基于阿里云EMR初期集群选购指南

       磁盘类型后续不可修改,但可增加不同类型磁盘混用;

       现有业务高效云盘可以支撑,需考虑后续需求情况;

 

  • 技术选型

基于阿里云EMR初期集群选购指南

       集群版本:阿里云EMR-3.29.0

       Hadoop版本:hadoop2.x       

       可选组件:

  1. Zookeeper(高可用默认安装):分布式服务框架,Hbase和手动安装低版本Kafaka会用到
  2. Impala:快速查询HDFS或HBase中的数据的查询系统
  3. Flume:数据采集工具,可用来做日志采集
  4. Flink:现在非常流行的实时数据处理工具

 

  • 其他

       MySQL(云):1.用来存放各组件的原数据;2.离线数据导出

       Kafka(云或自建):消息中间件,减少业务间耦合度,统一数据源等

       Redis(云或自建):NoSQL数据库,读写速度快,实时项目存储数据,保存偏移量

       Airflow(自建):调度工具,调度任务

       DataX(自建):数据仓库-业务库间数据导入导出

       FileBeat(自建):日志采集

 

  • 数据流

基于阿里云EMR初期集群选购指南

 

  • 数据门户

       阿里云 Quick BI

基于阿里云EMR初期集群选购指南

上一篇:通过AWS EMR降低集群计算成本


下一篇:阿里云 EMR Delta Lake 在流利说数据接入中的架构和实践