Spark SQL中Not in Subquery为何低效以及如何规避

qingshan2023-05-26知识分享默认 / 楷体 / 霞鹜文楷体

Spark SQL 中 Not in Subquery 是一种常用的过滤查询，它主要用于过滤掉一个表中的数据，但是它在查询效率上会比较低，主要原因有以下几点：

1、 Not in Subquery 会先将子查询的结果全部加载到内存中，然后再对主查询中的数据进行过滤，这会造成内存的不必要的消耗；

2、 Not in Subquery 会将两个查询（主查询和子查询）的结果进行比较，而两个查询的结果量越大，比较的时间就越长，这会影响查询效率；

3、 Not in Subquery 的查询结果可能会有重复，这也会影响查询的效率。

为了规避 Not in Subquery 带来的低效问题，可以采用以下几种方法：

1、使用 Join 方式来代替 Not in Subquery，可以通过 Join 来实现 Not in Subquery 的功能，并且 Join 的查询效率更高；

2、使用 Not Exists 方式来代替 Not in Subquery，Not Exists 与 Not in Subquery 功能上是等价的，但是 Not Exists 的查询效率更高；

3、使用索引来优化 Not in Subquery，可以在子查询中使用索引来优化查询，从而提高查询的效率。

Not in Subquery 在查询效率上会比较低，主要原因是它会先将子查询的结果全部加载到内存中，然后再对主查询中的数据进行过滤，而且它的查询结果可能会有重复，为了规避 Not in Subquery 带来的低效问题，可以采用 Join 、Not Exists 和索引等方法来优化查询。

微信分享二维码