【Spark】配置参数关系-重要-Toy模板网

这篇具有很好参考价值的文章主要介绍了【Spark】配置参数关系-重要。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

并行度数量

并行度指所有Executor可以同时执行的Task数，

每个Executor中的一个Core（线程，虚拟核数）同时只能执行一个Task，

所以 最大并行度 = Executor数量 * 每个Executor的Core数；

eg：资源配置10个Executor节点，每个节点2个Core，那么同一时间可以并行计算的task数为20，

如果RDD有100个分区，那么需要5轮计算完毕，

如果RDD有2个分区，那么计算时只使用2个Core，其余18个Core空转，浪费资源，

所以Spark调优中会通过增大RDD分区数，增大任务并行度来提高效率。

暂时的结论，每个Executor由若干core组成，每个Executor的每个core一次只能执行一个Task

Task被执行的并发度 = Executor数目 * 每个Executor核数

每个Task执行的结果就是生成了目标RDD的一个partiton。

rdd.repartion() 需要切分的足够小，来匹配exec.memory。exec.memory不能开太大。

repartition数量大于parallelism=exec.instance*exec.cores

这样就类似滑动窗口一样，一截一截处理所有的partition

附图

问了GPT3.5

Q: spark中，rdd.repartition()中的数据怎么设置合理，与executor核数和executor数量有关吗？

在Spark中，`rdd.repartition()`方法用于重新分区RDD的数据，可以通过调整分区数量来控制数据的分布和并行度。分区数量的设置与executor核数和executor数量有一定的关系。

当你调用`rdd.repartition(numPartitions)`时，`numPartitions`参数表示你希望将RDD分成的分区数量。以下是一些考虑因素：

1. Executor核数：每个Executor可以并行处理的任务数量受到其核数的限制。如果你的Executor具有多个核，可以考虑将分区数量设置为Executor核数的倍数，以充分利用每个Executor的计算能力。

2. Executor数量：Executor数量表示集群中同时运行的Executor实例的数量。如果你的集群中有多个Executor，可以考虑将分区数量设置为Executor数量的倍数，以便在整个集群上实现更好的并行性。

3. 数据大小和平衡性：分区数量的设置还应考虑到数据的大小和平衡性。如果数据量很大，可以增加分区数量以提高并行度。另外，还应确保数据在分区之间均衡分布，避免某些分区过大或过小。

需要注意的是，分区数量的设置需要根据具体的数据和任务特点进行调整和测试。过多的分区可能会导致过多的任务调度开销，而过少的分区可能无法充分利用集群资源。可以通过观察任务的执行时间和资源使用情况进行优化和调整。

总结起来，分区数量的设置应综合考虑Executor核数、Executor数量、数据大小和平衡性等因素，以实现合理的数据分布和并行度，从而提高Spark作业的性能。文章来源地址https://www.toymoban.com/news/detail-716198.html

到了这里，关于【Spark】配置参数关系-重要的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！