一分钟了解阿里云产品:E-MapReduce体验之常见问题

 

在Aliyun E-MapReduce中,要运行作业,需要分成两个步骤,分别是:

 

  • 创建作业

在E-MapReduce中创建了一个“作业”,实际上只是创建了一个“作业如何运行的配置”,这份配置中包括该作业要运行的jar包,数据的输入输出地址,以及一些运行参数。当你需要调试运行作业的时候就需要执行计划了。

 

  • 创建执行计划

通过执行计划我们可以把多个作业组合成一个作业序列,为作业准备一个运行集群,为这个作业序列设置周期执行计划,并在完成任务后自动释放集群。

 

在E-MapReduce系统里,系统已经将作业运行日志按照jobid的规划上传到OSS中,用户可以直接在网页上点击查看作业日志。用户也可以直接从OSS上直接查找所有的日志文件,并下载。

 

集群运行时间的计算策略为 运行时间 = 集群释放时刻 - 集群开始构建时刻。即集群一旦开始构建就开始计时,直到集群的生命周期结束。

 

在执行计划的运行记录列表,可以看到每次执行记录运行的时间,该时间的计时策略总结为两种情况:

 

1.如果执行计划是按需执行的,它的运行时间计算策略为,运行时间 = 构建集群的时间 + 执行计划包含所有作业全部运行结束的总耗时 + 集群释放的时间。

 

2.如果执行计划是关联已有集群运行的,整个运行周期不涉及到创建集群和释放集群,所以其运行时间 = 执行计划包含所有作业全部运行结束的总耗时。

 

每个作业的运行时间的计算策略为,运行时间 = 作业运行结束的实际时间 - 作业开始运行的实际时间。

 

E-MapReduce中能否查看作业的Worker上日志?

 

可以。前置条件:是创建集群时发开“保存日志”选项。查看日志位置:执行计划列表->点击“运行记录”->执行记录->点击“查看作业列表”->作业列表->点击“查看作业Worker实例”。

 

关于集群机器分工使用说明如下:

 

E-MapReduce中包含一个Master节点和多个Slave(或者Worker)节点。其中Master节点不参与数据存储和计算任务,Slave节点用来存储数据和计算任务。例如3台4核8G机型的集群,其中一台机器用来作为Master节点,另外两台用来作为Slave节点,也就是集群的可用计算资源为2台4核8G机器。

 

如果您想了解更多关于E-MapReduce,请访问:

https://help.aliyun.com/document_detail/emr/trouble-shooting/trouble-shooting.html?spm=5176.docemr/sdk/Aliyun-Spark-SDK.6.117.i6kYHu

 

上一篇:一分钟系列:详解阿里云68款产品【热点问题+用户实践】


下一篇:数据管理 DMS :SQLServer 2008的性能优化服务发布