Spark-Catalyst Optimizer

Logical Plan Optimizer为Spark Catalyst工作最后阶段了，后面生成Physical Plan以及执行，主要是由Spark SQL来完成。Logical Plan Optimizer主要是对Logical Plan进行剪枝，合并等操作，进而删除掉一些无用计算，或对一些计算的多个步骤进行合并。

关于Optimizer：优化包括RBO（Rule Based Optimizer）/CBO(Cost Based Optimizer)，其中Spark Catalyst是属于RBO，即基于一些经验规则（Rule）对Logical Plan的语法结构进行优化；在生成Physical Plan时候，还会基于Cost代价做进一步的优化，比如多表join，优先选择小表进行join，以及根据数据大小，在HashJoin/SortMergeJoin/BroadcastJoin三者之间进行抉择。

下面我们将会对一些主要的优化Rule进行逐条分析。由于优化的策略会随着知识的发现而逐渐引入，核心还是要理解原理！！

下面实例中的a,b为表t的两个字段:CREATE TABLE t(aint,bint,c int)。可以通过explain extended sql来了解我们sql 语句优化情况.

1. BooleanSimplification: 简化Boolean表达式，主要是针对Where语句中的And/Or组合逻辑进行优化。

主要包括三项工作，由于比较简单，就不贴完整的sql语句了：

Simplifies expressions whose answer can be determined without evaluating both sides 简化不需要对两边都进行计算的Bool表达式。实例：true or a=b-->true
Eliminates / extracts common factors. 对And/OR两边相同子表达式进行抽离，避免重复计算。实例：(a=1 and b=2) or (a=1 and b>2);-->(a=1) and (b=2 || b>2)
Merge same expressions如果And/OR左右表达式完全相等，就可以删除一个。实例：a+b=1 and a+b=1-->a+b=1
Removes Not operator.转换Not的逻辑。实例：not(a>b)-->a<=b

2. NullPropagation 对NULL常量参与表达式计算进行优化。与True/False相似，如果NULL常量参与计算，那么可以直接把结果设置为NULL，或者简化计算表达式。

IsNull/IsNotNull/EqualNullSafe 针对NULL进行判断，直接返回NULL。
GetArrayItem/GetMapValue/GetStructField/GetArrayStructFields在key为NULL或者整个Array/Map为NULL的时候，直接返回NULL。
Substring/StringRegexExpression/BinaryComparison/BinaryArithmetic/In 字符串数字进行操作，如果参数为NULL之类的，可以直接返回NULL。
Coalesce/AggregateExpression如果Child表达式有NULL，可以进行删除等操作

3. SimplifyCasts 删除无用的cast转换。如果cast前后数据类型没有变化，即可以删除掉cast操作

实例：select cast(a as int) from t --> select a from t //a本身就是int类型

4. SimplifyCaseConversionExpressions 简化字符串的大小写转换函数。如果对字符串进行连续多次的Upper/Lower操作，只需要保留最后一次转换即可。

实例：select lower(upper(lower(a))) as c from t; --> select lower(a) as c from t;

5. SimplifyBinaryComparison 针对>=,<=,==等运算，如果两边表达式`semanticEquals`相等，即可以他们进行简化。

如果进行==，>=，<=比较，那么可以简化为Ture；如果进行>，<比较，那么可以简化为Flase

6. OptimizeIn 使用HashSet来优化set in 操作

如果In比较操作符对应的set集合数目超过"spark.sql.optimizer.inSetConversionThreshold"设置的值(默认值为10)，那么Catalyst会自动将set转换为Hashset，提供in操作的性能。

实例：select * from t where a in (1,2,3)对应的In操作为Filter a#13 IN (1,2,3)。
而select * from t where a in (1,2,3,4,5,6,7,8,9,10,11)为Filter a#19 INSET (5,10,1,6,9,2,7,3,11,8,4)

7. LikeSimplification 简化正则匹配计算。针对`前缀，后缀，包含，相等`四种正则表达式，可以将Like操作转换为普通的字符串比较。

如果Like表达式为前缀匹配类型"([^_%]+)%"，即转换为startWith字符串函数操作。

实例：select * from t where a like "2%" --> +- 'Filter 'a.startwith(2) //是内部转换，不存在StartWith对应的sql函数

同理，如果Like表达式是后缀匹配类型"%([^_%]+)"，或包含"%([^_%]+)%"，或相等"([^_%]*)"。可以转换为EndsWith，Contains，EqualTo等字符串比较。
如果同时为前缀和后缀，即“([^_%]+)%([^_%]+)”，即转换为EndsWith和StartWith进行And操作。

8. GetCurrentDatabase和ComputeCurrentTime 在优化阶段对`current_database(), current_date(), current_timestamp()`函数直接计算出值。

实例：select current_database() --> select "default" as current_database()
实例：select current_timestamp(); --> select 1467996624588000 AS current_timestamp()

9. ColumnPruning 字段剪枝，即删除Child无用的的output字段

p @ Project(_, p2: Project) 如果p2输出的字段有p中不需要的，即可以简化p2的输出。

实例：select a from (select a,b from t) --> select a from (select a from t)。在下面的CollapseProject会对这个表达式进行二次优化。

p @ Project(_, a: Aggregate)，原理同上，Aggregate只是一个Project的包装而已

实例：select c from (select max(a) as c,max(b) as d from t) --> select c from (select max(a) as c from t)。在下面的CollapseProject会对这个表达式进行二次优化。

a @ Aggregate(_, , child)，a @ Aggregate(, _, child) 原理同上
p @ Project(_, child)，if sameOutput(child.output, p.output)即child和p有相同的输出，就可以删除Project的封装

实例：select b from (select b from t) --> select b from t这个操作与CollapseProject原理一致

10. CollapseProject 针对Project操作进行合并。将Project与子Project或子Aggregate进行合并。是一种剪枝操作

p1 @ Project(_, p2: Project)，连续两次Project操作，并且Project输出都是deterministic类型，那么就两个Project进行合并。

实例：select c + 1 from (select a+b as c from t) -->select a+b+1 as c+1 from t。

你可以能会问，这种合并会不会因为p1和p2的输出不是完全一样，而优化出错呢？

首先如果p1中有，但是p2中没有！抱歉，语法错误。select c + 1,a from (select a+b as c from t)-->cannot resolve 'a' given input columns
其次如果p2中有，但是p1中不需要！会被ColumnPruning剪掉，不会存在这种case。select c + 1 from (select a+b as c,a from t)-->select a+b+1 as c+1 from t 因此是可以证明p1和p2连续两次Project操作，只要他们都是deterministic类型，那么他们输出肯定是一致的。

p @ Project(_, agg: Aggregate) 原理同上

实例：select c+1 from (select max(a) as c from t) --> select max(a)+1 as c+1 from t

11. CollapseRepartition 针对多次Repartition操作进行合并，Repartition是一种基于exchange的shuffle操作，操作很重，剪枝很有必要。

如果连续进行两次Repartition，是可以对他们操作进行合并的，而且以外层的numPartitions和shuffle参数为主。

实例：Repartition(numPartitions, shuffle, Repartition(_, _, child))-->Repartition(numPartitions, shuffle, child)

注意：Repartition操作只针对在DataFrame's上调用coalesce or repartition函数，是无法通过SQL来构造含有Repartition的Plan。 SQL中类似的为RepartitionByExpression，但是它不适合这个规则比如：select * from (select * from t distribute by a) distribute by a会产生两次RepartitionByExpression操作。 == Optimized Logical Plan == RepartitionByExpression [a#391] +- RepartitionByExpression [a#391] +- MetastoreRelation default, t

12. CombineLimits：Limit操作合并。针对GlobalLimit，LocalLimit，Limit三个，如果连续多次，会选择最小的一次limit来进行合并。

实例：select * from (select * from t limit 10) limit 5 --> select * from t limit 5
实例：select * from (select * from t limit 5) limit 10 --> select * from t limit 5

13. CombineFilters：Filter操作合并。针对连续多次Filter进行语义合并，即AND合并。

实例：select a from (select a from t where a > 10) where a>20 --> select a from t where a > 10 and a>20
实例：select a as c from (select a from t where a > 10) --> select a as c from t where a > 10

14. CombineTypedFilters：对TypedFilter进行合并，与CombineFilters功能一致，只是它是针对TypedFilter内部的函数进行合并，而`CombineFilters`是针对表达式进行合并。

即对两个TypedFilter的Func进行And组合：combineFilterFunction(t2.func, t1.func)

15. PruneFilters 对Filter表达式进行剪枝，前面的`CombineFilters`和`CombineTypedFilters`都是Filter操作进行合并，这里是针对Filter表达式进行合并剪枝操作。

如果Filter逻辑判断整体结果为True，那么是可以删除这个Filter表达式

实例：select * from t where true or a>10 --> select * from t

如果Filter逻辑判断整体结果为False或者NULL，可以把整个plan返回data设置为Seq.empty，Scheme保持不变。

实例：select a from t where false --> LocalRelation <empty>, [a#655]

对于f @ Filter(fc, p: LogicalPlan)，如果fc中判断条件在Child Plan的约束下，肯定为Ture，那么就可以移除这个Filter判断，即Filter表达式与父表达式重叠。

实例：select b from (select b from t where a/b>10 and b=2) where b=2 --> select b from (select b from t where a/b>10 and b=2)

16. SimplifyConditionals 简化IF/Case语句逻辑。原理基本上和PruneFilters，BooleanSimplification一样，即删除无用的Case/IF语句

对于If(predicate, trueValue, falseValue)，如果predicate为常量Ture/False/Null，是可以直接删除掉IF语句。不过SQL显式是没有IF这个函数的，但是Catalyst中有很多逻辑是会生成这个IF表达式。

case If(TrueLiteral, trueValue, _) => trueValue
case If(FalseLiteral, _, falseValue) => falseValue
case If(Literal(null, _), _, falseValue) => falseValue

对于CaseWhen(branches, _)，如果branches数组中第一个元素就为True，那么实际不需要进行后续case比较，直接选择第一个case的对应的结果就可以

实例：select a, (case when true then "1" when false then "2" else "3" end) as c from t --> select a, "1" as c from t

对于CaseWhen(branches, _)，如果中间有when的值为False或者NULL常量，是可以直接删除掉这个表达式的。

实例：select a, (case when b=2 then "1" when false then "2" else "3" end) as c from t --> select a, (case when b=2 then "1" else "3" end) as c from t。//when false then "2"会被直接简化掉。

17. ReplaceDistinctWithAggregate 用Aggregate来替换Distinct操作，换句话说Distinct操作不会出现在最终的Physical Plan中的

Distinct(child) => Aggregate(child.output, child.output, child)
实例：select distinct a,b from t --> select a,b from t group by a,b

18. ReplaceExceptWithAntiJoin 用AntiJoin操作来替换“except distinct”操作，注意不针对"except all"

distinct Except(left, right)操作的含义是从left中删除调right中存在的数据，以及自己当中存在重复的操作。因此可以立刻时left和right做了一个AntiJoin，并且join是输出不相等，同时对结果做distinct操作。

实例：select a,b from t where b=10 except DISTINCT select a,b from t -> select distinct a,b from t where b=10 anti join (select a,b from t where a=10) t1 where t1.a != t.a and t1.b != t.b

19. ReplaceIntersectWithSemiJoin 用LEFT SemiJoin操作来替换“Intersect distinct”操作，注意不针对"Intersect all"

实例: "select a,b from t Intersect distinct select a,b from t where a=10" -> select distinct a,b from t where b=10 left semi join (select a,b from t where a=10) t1 where t1.a != t.a and t1.b != t.b

针对上面ReplaceExceptWithAntiJoin和ReplaceIntersectWithSemiJoin，都是只支持”distinct”，那么你可能会问，那么怎么支持"all"？答案是：spark sql根本就不支持"Intersect all"和"except all"操作，哈哈！！

20. LimitPushDown Limit操作下移，可以减小Child操作返回不必要的字段条目

LocalLimit(exp, Union(children)) 将limit操作下移到每个 Union上面；

实例：(select a from t where a>10 union all select b from t where b>20) limit 30 --> (select a from t where a>10 limit 30 union all select b from t where b>20 limit 30) limit 30

//注意：该规则中的Union操作为UNION ALL，不适用于UNION DISTINCT

LocalLimit(exp, join @ Join(left, right, joinType, _)) 根据Join操作的类型，将limit操作移下移到left或者right。

30. PushDownPredicate 对于Filter操作，原则上它处于越底层越好，他可以显著减小后面计算的数据量。

filter @ Filter(condition, project @ Project(fields, grandChild))

实例：select rand(),a from (select * from t) where a>1 --> select rand(),a from t where a>1 //如果Project包含nondeterministic
实例：select rand(),a,id from (select *,spark_partition_id() as id from t) where a>1; //是无法进行这个优化。

filter @ Filter(condition, aggregate: Aggregate) 对于Aggregate,Filter下移作用很明显。但不是所有的filter都可以下移，有些filter需要依赖整个aggregate最终的运行结果。如下所示

实例：select a,d from (select count(a) as d, a from t group by a) where a>1 and d>10 对于a>1和d>10两个Filter，显然a>1是可以下移一层，从而可以减小group by数据量。
而d>10显然不能，因此它优化以后的结果为 select a,d from (select count(a) as d, a from t where a>1 group by a) where d>10

filter @ Filter(condition, union: Union)原理一样还有大部分的一元操作，比如Limit，都可以尝试把Filter下移，来进行优化。

实例：select * from (select * from t limit 10) where a>10

但是如果子表达式输出non-deterministic类型，是不允许进行这项操作。// SPARK-13473: We can't push the predicate down when the underlying projection output non-deterministic field(s). Non-deterministic expressions are essentially stateful. This implies that, for a given input row, the output are determined by the expression's initial state and all the input rows processed before. In another word, the order of input rows matters for non-deterministic expressions, while pushing down predicates changes the order.

31. PushProjectThroughSample 将Project操作下移到Sample操作，从而精简Sample的输出。是一种剪枝操作

case Project(projectList, Sample(lb, up, replace, seed, child)) => Sample(lb, up, replace, seed, Project(projectList, child))()

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

spark-catalyst-optimizer.md

spark-catalyst-optimizer.md

Spark-Catalyst Optimizer

1. BooleanSimplification: 简化Boolean表达式，主要是针对Where语句中的And/Or组合逻辑进行优化。

2. NullPropagation 对NULL常量参与表达式计算进行优化。与True/False相似，如果NULL常量参与计算，那么可以直接把结果设置为NULL，或者简化计算表达式。

3. SimplifyCasts 删除无用的cast转换。如果cast前后数据类型没有变化，即可以删除掉cast操作

4. SimplifyCaseConversionExpressions 简化字符串的大小写转换函数。如果对字符串进行连续多次的Upper/Lower操作，只需要保留最后一次转换即可。

5. SimplifyBinaryComparison 针对>=,<=,==等运算，如果两边表达式`semanticEquals`相等，即可以他们进行简化。

6. OptimizeIn 使用HashSet来优化set in 操作

7. LikeSimplification 简化正则匹配计算。针对`前缀，后缀，包含，相等`四种正则表达式，可以将Like操作转换为普通的字符串比较。

8. GetCurrentDatabase和ComputeCurrentTime 在优化阶段对`current_database(), current_date(), current_timestamp()`函数直接计算出值。

9. ColumnPruning 字段剪枝，即删除Child无用的的output字段

10. CollapseProject 针对Project操作进行合并。将Project与子Project或子Aggregate进行合并。是一种剪枝操作

11. CollapseRepartition 针对多次Repartition操作进行合并，Repartition是一种基于exchange的shuffle操作，操作很重，剪枝很有必要。

12. CombineLimits：Limit操作合并。针对GlobalLimit，LocalLimit，Limit三个，如果连续多次，会选择最小的一次limit来进行合并。

13. CombineFilters：Filter操作合并。针对连续多次Filter进行语义合并，即AND合并。

14. CombineTypedFilters：对TypedFilter进行合并，与CombineFilters功能一致，只是它是针对TypedFilter内部的函数进行合并，而`CombineFilters`是针对表达式进行合并。

15. PruneFilters 对Filter表达式进行剪枝，前面的`CombineFilters`和`CombineTypedFilters`都是Filter操作进行合并，这里是针对Filter表达式进行合并剪枝操作。

16. SimplifyConditionals 简化IF/Case语句逻辑。原理基本上和PruneFilters，BooleanSimplification一样，即删除无用的Case/IF语句

17. ReplaceDistinctWithAggregate 用Aggregate来替换Distinct操作，换句话说Distinct操作不会出现在最终的Physical Plan中的

18. ReplaceExceptWithAntiJoin 用AntiJoin操作来替换“except distinct”操作，注意不针对"except all"

19. ReplaceIntersectWithSemiJoin 用LEFT SemiJoin操作来替换“Intersect distinct”操作，注意不针对"Intersect all"

20. LimitPushDown Limit操作下移，可以减小Child操作返回不必要的字段条目

30. PushDownPredicate 对于Filter操作，原则上它处于越底层越好，他可以显著减小后面计算的数据量。

31. PushProjectThroughSample 将Project操作下移到Sample操作，从而精简Sample的输出。是一种剪枝操作

32. PushPredicateThroughJoin 针对Join操作，调整Filter过滤规则

Files

spark-catalyst-optimizer.md

Latest commit

History

spark-catalyst-optimizer.md

File metadata and controls

Spark-Catalyst Optimizer

1. BooleanSimplification: 简化Boolean表达式，主要是针对Where语句中的And/Or组合逻辑进行优化。

2. NullPropagation 对NULL常量参与表达式计算进行优化。与True/False相似，如果NULL常量参与计算，那么可以直接把结果设置为NULL，或者简化计算表达式。

3. SimplifyCasts 删除无用的cast转换。如果cast前后数据类型没有变化，即可以删除掉cast操作

4. SimplifyCaseConversionExpressions 简化字符串的大小写转换函数。如果对字符串进行连续多次的Upper/Lower操作，只需要保留最后一次转换即可。

5. SimplifyBinaryComparison 针对>=,<=,==等运算，如果两边表达式semanticEquals相等，即可以他们进行简化。

6. OptimizeIn 使用HashSet来优化set in 操作

7. LikeSimplification 简化正则匹配计算。针对前缀，后缀，包含，相等四种正则表达式，可以将Like操作转换为普通的字符串比较。

8. GetCurrentDatabase和ComputeCurrentTime 在优化阶段对current_database(), current_date(), current_timestamp()函数直接计算出值。

9. ColumnPruning 字段剪枝，即删除Child无用的的output字段

10. CollapseProject 针对Project操作进行合并。将Project与子Project或子Aggregate进行合并。是一种剪枝操作

11. CollapseRepartition 针对多次Repartition操作进行合并，Repartition是一种基于exchange的shuffle操作，操作很重，剪枝很有必要。

12. CombineLimits：Limit操作合并。针对GlobalLimit，LocalLimit，Limit三个，如果连续多次，会选择最小的一次limit来进行合并。

13. CombineFilters：Filter操作合并。针对连续多次Filter进行语义合并，即AND合并。

14. CombineTypedFilters：对TypedFilter进行合并，与CombineFilters功能一致，只是它是针对TypedFilter内部的函数进行合并，而CombineFilters是针对表达式进行合并。

15. PruneFilters 对Filter表达式进行剪枝 ，前面的CombineFilters和CombineTypedFilters都是Filter操作进行合并，这里是针对Filter表达式进行合并剪枝操作。

16. SimplifyConditionals 简化IF/Case语句逻辑。原理基本上和PruneFilters，BooleanSimplification一样，即删除无用的Case/IF语句

17. ReplaceDistinctWithAggregate 用Aggregate来替换Distinct操作，换句话说Distinct操作不会出现在最终的Physical Plan中的

18. ReplaceExceptWithAntiJoin 用AntiJoin操作来替换“except distinct”操作，注意不针对"except all"

19. ReplaceIntersectWithSemiJoin 用LEFT SemiJoin操作来替换“Intersect distinct”操作，注意不针对"Intersect all"

20. LimitPushDown Limit操作下移，可以减小Child操作返回不必要的字段条目

30. PushDownPredicate 对于Filter操作，原则上它处于越底层越好，他可以显著减小后面计算的数据量。

31. PushProjectThroughSample 将Project操作下移到Sample操作，从而精简Sample的输出。是一种剪枝操作

32. PushPredicateThroughJoin 针对Join操作，调整Filter过滤规则

5. SimplifyBinaryComparison 针对>=,<=,==等运算，如果两边表达式`semanticEquals`相等，即可以他们进行简化。

7. LikeSimplification 简化正则匹配计算。针对`前缀，后缀，包含，相等`四种正则表达式，可以将Like操作转换为普通的字符串比较。

8. GetCurrentDatabase和ComputeCurrentTime 在优化阶段对`current_database(), current_date(), current_timestamp()`函数直接计算出值。

14. CombineTypedFilters：对TypedFilter进行合并，与CombineFilters功能一致，只是它是针对TypedFilter内部的函数进行合并，而`CombineFilters`是针对表达式进行合并。

15. PruneFilters 对Filter表达式进行剪枝，前面的`CombineFilters`和`CombineTypedFilters`都是Filter操作进行合并，这里是针对Filter表达式进行合并剪枝操作。