Spark 3.4: Optimize sharding key handling when shuffle and sort, amend approach 3

Yxang · Yxang · commit 857ea198c100 · 2023-06-13T17:14:41.000+08:00
diff --git a/spark-3.4/clickhouse-spark/src/main/scala/xenon/clickhouse/write/WriteJobDescription.scala b/spark-3.4/clickhouse-spark/src/main/scala/xenon/clickhouse/write/WriteJobDescription.scala
@@ -70,12 +70,12 @@ case class WriteJobDescription(
     //     front for all tasks, resulting in instant high pressure for shard 1 when stage starts.
     if (writeOptions.repartitionByPartition) {
       ExprUtils(functionRegistry).toSparkSplits(
-        shardingKeyIgnoreRand.map(k => ExprUtils.toSplitWithModulo(k, cluster.get.totalWeight * 10)),
+        shardingKeyIgnoreRand.map(k => ExprUtils.toSplitWithModulo(k, cluster.get.totalWeight * 5)),
         partitionKey
       )
     } else {
       ExprUtils(functionRegistry).toSparkSplits(
-        shardingKeyIgnoreRand.map(k => ExprUtils.toSplitWithModulo(k, cluster.get.totalWeight * 10)),
+        shardingKeyIgnoreRand.map(k => ExprUtils.toSplitWithModulo(k, cluster.get.totalWeight * 5)),
         None
       )
     }

Original file line number	Diff line number	Diff line change
`@@ -70,12 +70,12 @@ case class WriteJobDescription(`
`70`	`70`	`// front for all tasks, resulting in instant high pressure for shard 1 when stage starts.`
`71`	`71`	`if (writeOptions.repartitionByPartition) {`
`72`	`72`	`ExprUtils(functionRegistry).toSparkSplits(`
`73`		`- shardingKeyIgnoreRand.map(k => ExprUtils.toSplitWithModulo(k, cluster.get.totalWeight * 10)),`
	`73`	`+ shardingKeyIgnoreRand.map(k => ExprUtils.toSplitWithModulo(k, cluster.get.totalWeight * 5)),`
`74`	`74`	`partitionKey`
`75`	`75`	`)`
`76`	`76`	`} else {`
`77`	`77`	`ExprUtils(functionRegistry).toSparkSplits(`
`78`		`- shardingKeyIgnoreRand.map(k => ExprUtils.toSplitWithModulo(k, cluster.get.totalWeight * 10)),`
	`78`	`+ shardingKeyIgnoreRand.map(k => ExprUtils.toSplitWithModulo(k, cluster.get.totalWeight * 5)),`
`79`	`79`	`None`
`80`	`80`	`)`
`81`	`81`	`}`