閱讀目錄
- Myisam引擎(非聚集索引)
- Innodb引擎(聚集索引)
- 磁盤數據頁的存儲結構
- 主鍵索引頁存儲結構
什么是索引:
索引是一種高效獲取數據的存儲結構,例:hash、 二叉、 紅黑。
Mysql為什么不用上面三種數據結構而采用B+Tree:
若僅僅是 select * from table where id=45 , 上面三種算法可以輕易實現,但若是select * from table where id<6 , 就不好使了,它們的查找方式就類似于”全表掃描”,因為他們的高度是不可控的(如下圖)。B+Tree的高度是可控的,mysql通常是3到5層。注意:B+Tree只在最末端葉子節點存數據,葉子節點是以鏈表的形式互相指向的。


B+Tree的特性
(1)由圖能看出,單節點能存儲更多數據,使得磁盤IO次數更少。
(2)葉子節點形成有序鏈表,便于執行范圍操作。
(3)聚集索引中,葉子節點的data直接包含數據;非聚集索引中,葉子節點存儲數據地址的指針。


回到頂部
Myisam引擎(非聚集索引)
若以這個引擎創建數據庫表Create table user (…..),它實際是生成三個文件:
user.myi 索引文件 user.myd數據文件 user.frm數據結構類型。
如下圖:當我們執行 select * from user where id = 1的時候,它的執行流程。
(1)查看該表的myi文件有沒有以id為索引的索引樹。
(2)根據這個id索引找到葉子節點的id值,從而得到它里面的數據地址。(葉子節點存的是索引和數據地址)。
(3)根據數據地址去myd文件里面找到對應的數據返回出來。


回到頂部
Innodb引擎(聚集索引)
若以這個引擎創建數據庫表Create table user (…..),它實際是生成兩個文件:
user.ibd 表索引和數據文件 user.frm 表結構類型
因為innodb引擎創建表默認就是以主鍵為索引,所以不需要myi文件。
下圖為innodb表的結構圖:很顯然它與myisam最大的區別是將整條數據存在葉子節點,而不是地址。(葉子節點存的是主鍵索引和數據信息)
若此時,你在其他列創建索引例如name,它就會另外創建一個以name為索引的索引樹,(葉子節點存的是索引和主鍵索引)。
你在執行select * from user where name = ‘吳磊’,他的執行過程如下:
(1)找到name索引樹
(2)根據name的值找到該樹下葉子的name索引和主鍵值
(3)用主鍵值去主鍵索引樹去葉子節點到該條數據信息


MyISAM引擎和InnoDB引擎的區別
MyISAM:支持全文索引;不支持事務;它是表級鎖;會保存表的具體行數.
InnoDB:5.6以后才有全文索引;支持事務;它是星級鎖;不會保存表的具體行數.
一般:不用事務的時候,count計算多的時候適合myisam引擎。對可靠性要求高就是用innodby引擎。推薦用InnoDB引擎.
加了索引之后能夠大幅度地提高查詢速度,但是索引也不是越多越好,一方面它會占用存儲空間,另一方面它會使得寫操作變得很慢。通常我們對查詢次數比較頻繁,值比較多的列才建索引。
例如:select * from user where sex = “女”, 這個就不需要建立索引,因為性別一共就兩個值,查詢本身就是比較快的。
select * from user where user_id = 1995 ,這個就需要建立索引,因為user_id的值是非常多的。
回到頂部
磁盤數據頁的存儲結構
磁盤中的數據頁是按順序一頁一頁存放的,然后兩兩相鄰的數據頁之間會采用雙向鏈表的格式互相引用。每一行數據都會按照主鍵大小進行排序存儲,同時每一行數據都有指針指向下一行數據的位置,組成單向鏈表。剛開始第一行是個起始行,他的行類型是2,就是最小的一行,然后他有一個指針指向了下一行數據,每一行數據都有自己每個字段的值,然后每一行通過一個指針不停地指向下一行數據,普通的數據行的類型都是0,最后一行是一個類型為3的,就是代表最大的一行。
我們剛說了,數據頁中的數據行一定是按照主鍵大小正序排列的。下一頁的主鍵也一定會比上一頁的大。如果我們是自增還好,若是自己生成的則會出現順序錯亂情況。mysql則會通過頁分裂的機制將數據挪動到上一個數據頁,保證下一個數據頁里的主鍵值都比上一個數據頁里的主鍵值要大。
回到頂部
主鍵索引頁存儲結構
主鍵索引的目錄結構,只要在一個主鍵索引里包含每個數據頁跟他最小主鍵值,就可以組成一個索引目錄。然后后續你查詢主鍵值,就可以在目錄里二分查找直接定位到那條數據所屬的數據頁,接著到數據頁里二分查找定位那條數據就可以了。
現在問題來了,你的表里的數據可能很多很多,比如有幾百萬,幾千萬,甚至單表幾億條數據都是有可能的,所以此時你可能有大量的數據頁,然后你的主鍵目錄里就要存儲大量的數據頁和最小主鍵值,這怎么行呢?所以在考慮這個問題的時候,實際上是采取了一種把索引數據存儲在數據頁里的方式來做的。也就是我們上面提到的b+tree結構。
比如我現在要找id=45的數據,就會先從35頁找到23頁,再找到6頁,最后找到第4頁。然后它就指向了葉子節點(數據頁)。
若是你基于非主鍵字段name 建立了一個索引,那么此時你插入數據的時候,就會重新搞一顆B+樹,B+樹的葉子節點也是數據頁,但是這個數據頁里僅僅放主鍵字段和name字段、數據行按name大小排列,就不是具體數據了。先找到name對應的主鍵地址,再去主鍵索引樹找到具體數據信息。這種行為叫做回表查詢(若select的所有字段都是索引中的字段則直接就返回了,不用去主鍵索引樹中找了。這種行為叫做覆蓋索引)
版權聲明:本文內容由互聯網用戶自發貢獻,該文觀點僅代表作者本人。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。如發現本站有涉嫌抄襲侵權/違法違規的內容, 請發送郵件至 舉報,一經查實,本站將立刻刪除。