【GaussDB(for MySQL)】 Big IN查詢優化

本文分享自華爲雲社區《【MySQL技術專欄】GaussDB(for MySQL) Big IN查詢優化》，作者：GaussDB 數據庫。

背景介紹

在生產環境中，經常會遇到客戶業務的SQL語句進行過濾查詢，然後進行聚合處理，並且IN謂詞列表中包含幾千甚至上萬個常量值。如下所示，此類語句的執行時間非常長。

MySQL優化

開源MySQL在處理列IN (const1, const2, .... )時，如果列上面有索引，優化器會選擇Range scan進行掃描，否則會使用全表掃描方式。range_optimizer_max_mem_size系統變量控制範圍優化過程分析中可使用的最大內存。如果IN謂詞的列表元素非常多，IN中每個的內容都會被視爲OR每個，OR大約佔用230字節，如果元素個數很多，則使用更多的內存。如果使用內存會超過定義的最大內存，會使範圍優化失效，優化器將改變策略，如轉換爲全表掃描，從而引發查詢的性能下降。

對於這個優化問題，可以通過調整range_optimizer_max_mem_size來處理。range_optimizer_max_mem_size定義的內存是會話級別的，每個會話執行該類型的語句，都會佔用相同的內存，在大併發場景下，會導致實例內存佔用過高，實例OOM風險。

對於範圍查詢，MySQL定義了eq_range_index_dive_limit系統變量，來控制在處理等值範圍查詢時，優化器是否進行索引潛水（index div）。索引潛水是利用索引完成元組數的說明，可以得到更準確的信息，從而做出更好的查詢策略優化，但是運行時間也長。在IN組合數超過一定數量的時候就不適用索引跳水，系統採用靜態索引統計信息值來選擇索引，這種方法得到的結果一定準確。這可能導致MySQL無法很好的利用索引，導致性能回退。

GaussDB(for MySQL)的Big IN優化

GaussDB(for MySQL)Big IN 性能問題的方法將大IN謂詞轉換爲IN子查詢。因此解決，IN謂詞的形式爲：

column IN (const1, const2, ....)

轉換爲對應的IN子查詢：

column IN (SELECT ... FROM temporary_table)

經過上述的變化，IN函數查詢變成了一個IN子查詢，並且該子查詢是非相關子查詢。

對於IN非相關子查詢，MySQL優化器提供了半連接物化策略進行優化處理。半連接物化策略就是把子查詢結果物化成臨時表，然後和外觀進行連接。如下圖所示：

串聯可以有兩個順序：

Materialization-scan：表示從物化表到外觀，對物化表進行全表掃描。
Materialization-lookup ：表示從外觀到物化表，在物化表中查找數據的時候可以使用主建進行查找。

物化掃描

執行子查詢，走索引auto_distinct_key，同時對結果進行去重；
將上一步的結果保存在臨時表模板1裏；
從臨時表中取一行數據，到外觀中找到滿足補充條件的行；
步驟重複3，直到遍歷臨時表結束。

物化查找

先執行子查詢；
將上一步得到的結果保存到臨時表中；
從外觀中取出一行數據，到物化臨時表中去查找滿足補充條件的行，走物化表的主鍵，每次掃描1行；
重複3，直至瀏覽整個外觀。

優化器會根據內部外觀的大小來選擇不同的串聯順序。真實場景中，一般查詢的表的數據量很大，上千萬甚至上億；IN列表中的元素個數遠小於表數量，優化器會選擇Materialization-scan方式進行掃描，外觀查詢時如果走主鍵索引，則優化後的總的掃描行數爲N，當M遠大於N時，性能提升會非常明顯。

使用方法

rds_in_predicate_conversion_threshold參數是修改IN謂詞底部該查詢功能開關，當SQL語句的IN謂詞列表中的元素個數超過參數的取值時，將啓動該優化策略。通過該變量的值來使用該功能。下面一個簡單的例子說明優化的使用：

表結構

create table t1(id int, a int, key idx1(a));

查詢語句

select * from t1 where a in (1,2,3,4,5);

設置set rds_in_predicate_conversion_threshold = 0 和 set range_optimizer_max_mem_size=1關閉大IN謂詞優化功能和範圍掃描優化策略，查看上述查詢語句的執行計劃，結果如下：

> set rds_in_predicate_conversion_threshold = 0;  > set range_optimizer_max_mem_size=1;  > explain select * from t1 where a in (1,2,3,4,5);  
結果如下：
+----+-------------+-------+------------+------+---------------+------+---------+------+------+----------+-------------+  | id | select_type | table | partitions | type | possible_keys | key  | key_len | ref  | rows | filtered | Extra       |  +----+-------------+-------+------------+------+---------------+------+---------+------+------+----------+-------------+  |  1 | SIMPLE      | t3    | NULL       | ALL  | key1          | NULL | NULL    | NULL |    3 |    50.00 | Using where |  +----+-------------+-------+------------+------+---------------+------+---------+------+------+----------+-------------+  1 row in set, 2 warnings (0.00 sec)  
show warnings;  +---------+------+---------------------------------------------------------------------------------------------------------------------------+  | Level   | Code | Message                                                                                                                   |  +---------+------+---------------------------------------------------------------------------------------------------------------------------+  | Warning | 3170 | Memory capacity of 1 bytes for 'range_optimizer_max_mem_size' exceeded. Range optimization was not done for this query.   |  | Note    | 1003 | /* select#1 */ select `test`.`t3`.`id` AS `id`,`test`.`t3`.`a` AS `a` from `test`.`t3` where (`test`.`t3`.`a` in (3,4,5)) |  +---------+------+---------------------------------------------------------------------------------------------------------------------------+  2 rows in set (0.00 sec)

發現上述語句執行的時候報了警告，警告的信息顯示因爲範圍優化過程中使用的內存超過了range_optimizer_max_mem_size導致對於該語句沒有使用範圍限制優化。從而導致掃描的類型變成了ALL，變爲全表掃描。

設置set rds_in_predicate_conversion_threshold = 3開啓大IN謂詞優化選項，表示當IN謂詞列表元素超過3個的時候，啓動大IN隊列查詢優化策略。執行EXPLAIN FORMAT=TREE語句可以查看優化是否生效。

> set rds_in_predicate_conversion_threshold = 3;  > explain format=tree select * from t1 where a in (1,2,3,4,5);  +----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+  | EXPLAIN                                                                                                                                                                                                                                                        |  +----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+  | -> Nested loop inner join  (cost=0.70 rows=1)      -> Filter: (t1.a is not null)  (cost=0.35 rows=1)          -> Table scan on t1  (cost=0.35 rows=1)      -> Single-row index lookup on <in_predicate_2> using <auto_distinct_key> (a=t1.a)  (cost=0.35 rows=1)   |  +----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+  1 row in set (0.00 sec)

執行計劃中的<in_predicate_*>（*爲數字）表爲Big INTool中構造的臨時表，存儲了IN謂詞列表中的所有數據。

使用限制

Big IN優化支持的查詢語句包括以下語句列表：

選擇
插入...選擇
替換...選擇
支持觀點
準備好的STMT

約束與限制

Big IN 轉子查詢，藉助mysql提供的子查詢優化方案來實現性能，因此在使用上有如下限制，否則反而會降低性能。

不支持無法使用索引的場景
只支持常量IN LIST（包括NOW(), ?等不涉及表查詢的語句）
不支持存儲過程/函數/觸發器
不支持不在

典型場景測試對比

表測試結構如下：

CREATE TABLE `sbtest1` (    `id` int NOT NULL AUTO_INCREMENT,    `k` int NOT NULL DEFAULT '0',    `c` char(120) NOT NULL DEFAULT '',    `pad` char(60) NOT NULL DEFAULT '',    PRIMARY KEY (`id`),    KEY `k_1` (`k`)  ) ENGINE=InnoDB;  
表的數據量爲1000w。
> select count(*) from sbtest1;  +----------+  | count(*) |  +----------+  | 10000000 |  +----------+

查詢語句如下，其中條件字段是有索引，IN列表裏包含1萬個常量數字。

select count(*) from sbtest1 where k in (2708275,5580784,7626186,8747250,228703,4589267,5938459,6982345,2665948,4830545,4929382,8723757,354179,1903875,5111120,5471341,7098051,3113388,2584956,6550102,2842606,2744112,7077924,4580644,5515358,1787655,6391388,6044316,2658197,5628504,413887,6058866,3321587,1430333,445303,7373496,9133196,6760595,4735642,4756387,9845147,9362192,7271805,4351748,6625915,3813276,4236692,8308973,4407131,9481423,3301846,432577,810938,3830320,6120078,6765157,6456566,6649509,1123840,2906490,9965014,3725748, ... );

性能對比如下圖所示：

可以看出in-list優化後比原有的方式性能提高了36倍。

點擊關注，第一時間瞭解華爲雲新鮮技術~

【GaussDB(for MySQL)】 Big IN查詢優化

背景介紹

MySQL優化

GaussDB(for MySQL)的Big IN優化

使用方法

使用限制

典型場景測試對比

PDManer [元數建模]-v4.9.0 發佈：一款簡單好用的數據庫建模平臺

使用neovim打造go ide(支持代碼跳轉, 代碼補全, 實時語法檢查)

sql求連續值問題

cs01 CSS Syntax

挑戰程序設計競賽 2.3章習題 poj 3046 Ant Counting

[MASM拾遺]Offset僞指令

h30 HTML Layout Elements

瞭解顯卡

一款基於C#開發的通訊調試工具（支持Modbus RTU、MQTT調試）

Linux/Golang/glibC系統調用

年薪百萬的程序員都在用的摸魚方式……

常用第三方庫的package.json入口配置

MFC擴展庫BCGControlBar Pro v34.1新版亮點：日曆和計劃表等功能升級

PDManer [元數建模]-v4.9.0 發佈：一款簡單好用的數據庫建模平臺

PDManer [元數建模]-v4.7.0 發佈：一款簡單好用的數據庫建模平臺

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結