spark新能优化之广播共享数据

如果你的算子函数中,使用到了特别大的数据,那么,这个时候,推荐将该数据进行广播。这样的话,就不至于将一个大数据拷贝到每一个task上去。而是给每个节点拷贝一份,然后节点上的task共享该数据。

这样的话,就可以减少大数据在节点上的内存消耗。并且可以减少数据到节点的网络传输消耗。

final Accumulator<Integer> num = sc.accumulator(Object);

上一篇:Spark性能优化(1)——序列化、内存、并行度、数据存储格式、Shuffle


下一篇:解题:BJOI 2006 狼抓兔子