案例：MySQL優化器如何選擇索引和JOIN順序_MySQL

案例：MySQL優化器如何選擇索引和JOIN順序

發表于：2013-05-06來源：不祥作者：不詳點擊數：標簽：MySQL

本文通過一個案例來看看MySQL優化器如何選擇索引和JOIN順序。表結構和數據準備參考本文最后部分"測試環境"。這里主要介紹MySQL優化器的主要執行流程，而不是介紹一個優化器的各個組件(這是另一個話題)。

　　目錄 [hide]

　　1. 可能的選擇

　　2. MySQL優化器如何做

　　2.1 概述

　　2.2 range analysis

　　2.3 順序和訪問方式的選擇：窮舉

　　2.3.1 排序

　　2.3.2 greedy search

　　2.3.3 窮舉

　　3. 測試環境

　　4. 構造一個Bad case

　　我們知道，MySQL優化器只有兩個自由度：順序選擇;單表訪問方式;這里將詳細剖析下面的SQL，看看MySQL優化器如何做出每一步的選擇。

　　explain

　　select *

　　from

　　employee as A,department as B

　　where

　　A.LastName = 'zhou'

　　and B.DepartmentID = A.DepartmentID

　　and B.DepartmentName = 'TBX';

　　1. 可能的選擇

　　這里看到JOIN的順序可以是A|B或者B|A，單表訪問方式也有多種，對于A表可以選擇：全表掃描和索引`IND_L_D`(A.LastName = 'zhou')或者`IND_DID`(B.DepartmentID = A.DepartmentID)。對于B也有三個選擇：全表掃描、索引IND_D、IND_DN。

　　2. MySQL優化器如何做

　　2.1 概述

　　MySQL優化器主要工作包括以下幾部分：Query Rewrite(包括Outer Join轉換等)、const table detection、range analysis、JOIN optimization(順序和訪問方式選擇)、plan refinement。這個案例從range analysis開始。

　　2.2 range analysis

　　這部分包括所有Range和index merge成本評估(參考1 參考2)。這里，等值表達式也是一個range，所以這里會評估其成本，計算出found records(表示對應的等值表達式，大概會選擇出多少條記錄)。

　　本案例中，range analysis會針對A表的條件A.LastName = 'zhou'和B表的B.DepartmentName = 'TBX'分別做分析。其中：

　　表A A.LastName = 'zhou' found records: 51

　　表B B.DepartmentName = 'TBX' found records: 1

　　這兩個條件都不是range，但是這里計算的值仍然會存儲，在后面的ref訪問方式評估的時候使用。這里的值是根據records_in_range接口返回，而對于InnoDB每次調用這個函數都會進行一次索引頁的采樣，這是一個很消耗性能的操作，對于很多其他的關系數據庫是使用"直方圖"的統計數據來避免這次操作(相信MariaDB后續版本也將實現直方圖統計信息)。

　　2.3 順序和訪問方式的選擇：窮舉

　　MySQL通過枚舉所有的left-deep樹(也可以說所有的left-deep樹就是整個MySQL優化器的搜索空間)，來找到最優的執行順序和訪問方式。

　　2.3.1 排序

　　優化器先根據found records對所有表進行一個排序，記錄少的放前面。所以，這里順序是B、A。

　　2.3.2 greedy search

　　當表的數量較少(少于search_depth，默認是63)的時候，這里直接蛻化為一個窮舉搜索，優化器將窮舉所有的left-deep樹找到最優的執行計劃。另外，優化器為了減少因為搜索空間龐大帶來巨大的窮舉消耗，所以使用了一個"偷懶"的參數prune_level(默認打開)，具體如何"偷懶"，可以參考JOIN順序選擇的復雜度。不過至少需要有三個表以上的關聯才會有"偷懶"，所以本案例不適用。

　　2.3.3 窮舉

　　JOIN的第一個表可以是：A或者B;如果第一個表選擇了A，第二個表可以選擇B;如果第一個表選擇了B，第二個表可以選擇A;

　　因為前面的排序，B表的found records更少，所以JOIN順序窮舉時的第一個表先選擇B(這個是有講究的)。

　　(*) 選擇第一個JOIN的表為B

　　(**) 確定B表的訪問方式

　　因為B表為第一個表，所以無法使用索引IND_D(B.DepartmentID = A.DepartmentID)，而只能使用IND_DN(B.DepartmentName = 'TBX')

　　使用IND_DN索引的成本計算：1.2;其中IO成本為1。

　　是否使用全表掃描：這里會比較使用索引的IO成本和全表掃描的IO成本，前者為1，后者為2;所以忽略全表掃描

　　所以，B表的訪問方式ref，使用索引IND_D

　　(**) 從剩余的表中窮舉選出第二個JOIN的表，這里剩余的表為：A

　　(**) 將A表加入JOIN，并確定其訪問方式

　　可以使用的索引為：`IND_L_D`(A.LastName = 'zhou')或者`IND_DID`(B.DepartmentID = A.DepartmentID)

　　依次計算使用索引IND_L_D、IND_DID的成本：

　　(***) IND_L_D A.LastName = 'zhou'

　　在range analysis階段給出了A.LastName = 'zhou'對應的記錄約為：51。

　　所以，計算IO成本為：51;ref做IO成本計算時會做一次修正，將其修正為worst_seek(參考)

　　修正后IO成本為：15，總成本為：25.2

　　(***) IND_DID B.DepartmentID = A.DepartmentID

　　這是一個需要知道前面表的結果，才能計算的成本。所以range analysis是無法分析的

　　這里，我們看到前面表為B，found_record是1，所以A.DepartmentID只需要對應一條記錄就可以了

　　因為具體取值不知道，也沒有直方圖，所以只能簡單依據索引統計信息來計算：

　　索引IND_DID的列A.DepartmentID的Cardinality為1349，全表記錄數為1349

　　所以，每一個值對應一條記錄，而前面表B只有一條記錄，所以這里的found_record計算為1*1 = 1

　　所以IO成本為：1，總成本為1.2

　　(***) IND_L_D成本為25.2;IND_DID成本為1.2，所以選擇后者為當前表的訪問方式

　　(**) 確定A使用索引IND_DID，訪問方式為ref

　　(**) JOIN順序B|A，總成本為：1.2+1.2 = 2.4

原文轉自：http://www.orczhou.com/index.php/2013/04/how-mysql-choose-index-in-a-join/

軟件測試 > 測試開發技術 > 軟件測試開發語言 > 數據庫 > MySQL >