Spark RDD概念学习系列之RDD的重要内部属性(十五)

RDD的重要内部属性  

 

 

通过 RDD 的内部属性,用户可以获取相应的元数据信息。通过这些信息可以支持更复杂的算法或优化。
1)分区列表:通过分区列表可以找到一个 RDD 中包含的所有分区及其所在地址。
2)计算每个分片的函数:通过函数可以对每个数据块进行 RDD 需要进行的用户自定义函数运算。
3)对父 RDD 的依赖列表:为了能够回溯到父 RDD,为容错等提供支持。
4)对 key-value pair 数据类型 RDD 的分区器,控制分区策略和分区数。通过分区函数可以确定数据记录在各个分区和节点上的分配,减少分布不平衡。
5)每个数据分区的地址列表(如 HDFS 上的数据块的地址)。如果数据有副本,则通过地址列表可以获知单个数据块的所有副本地址,为负载均
衡和容错提供支持。

 


本文转自大数据躺过的坑博客园博客,原文链接:http://www.cnblogs.com/zlslch/p/5724033.html,如需转载请自行联系原作者

上一篇:阿里云服务器带宽计费模式按使用流量收费标准


下一篇:Android 3.0 r1 API中文文档(106) —— SimpleCursorAdapter