MySQL是怎样运行的:(5)InnoDB数据页结构

Session 5 InnoDB数据页结构

暂时将存放用户真实记录的页称为数据页（真实名称为索引页）。

名称	中文名	占用空间大小	简单描述
`File Header`	文件头部	`38`字节	页的一些通用信息
`Page Header`	页面头部	`56`字节	数据页专有的一些信息
`Infimum + Supremum`	最小记录和最大记录	`26`字节	两个虚拟的行记录
`User Records`	用户记录	不确定	实际存储的行记录内容
`Free Space`	空闲空间	不确定	页中尚未使用的空间
`Page Directory`	页目录	不确定	页中的某些记录的相对位置
`File Trailer`	文件尾部	`8`字节	校验页是否完整

我们自己存储的记录会按照我们指定的行格式存储到User Records部分，也就是从Free Space部分申请一个记录大小的空间划分到User Records部分。当Free Space部分的空间全部被User Records部分替代掉之后，也就意味着这个页使用完了。

回顾之前的==记录头信息==

名称	大小（单位：bit）	描述
`预留位1`	`1`	没有使用
`预留位2`	`1`	没有使用
`delete_mask`	`1`	标记该记录是否被删除
`min_rec_mask`	`1`	B+树的每层非叶子节点中的最小记录都会添加该标记
`n_owned`	`4`	表示当前记录拥有的记录数
`heap_no`	`13`	表示当前记录在记录堆的位置信息
`record_type`	`3`	表示当前记录的类型，`0`表示普通记录，`1`表示B+树非叶节点记录，`2`表示最小记录，`3`表示最大记录
`next_record`	`16`	表示下一条记录的相对位置

==delete_mask== 这个属性标记着当前记录是否被删除。这些被删除的记录之所以不立即从磁盘上移除，只是打一个删除标记而已。所有被删除掉的记录都会组成一个所谓的垃圾链表，等待被新纪录覆盖。

==heap_no== 这个属性表示当前记录在本页中的位置

每个页里边儿自动加了两个记录，由于这两个记录并不是我们自己插入的，所以有时候也称为伪记录或者虚拟记录。这两个伪记录一个代表==最小记录==，一个代表==最大记录==。由于这两条记录不是我们自己定义的记录，所以它们并不存放在页的User Records部分，他们被单独放在一个称为Infimum + Supremum的部分

最小记录和最大记录由==record_type==所标志，而且占用了heap_no的0和1。它们的记录内容是两个固定的单词。

对于一条完整的记录来说，比较记录的大小就是比较主键的大小。

==next_record== 表示从当前记录的真实数据到下一条记录的真实数据的地址偏移量。

下一条记录指得并不是按照我们插入顺序的下一条记录，而是按照主键值由小到大的顺序的下一条记录。我们的记录按照主键从小到大的顺序形成了一个单链表。以Infimum记录（也就是最小记录）为始，以Supremum记录（也就是最大记录）为最终。最大记录的next_record的值为0，这也就是说最大记录是没有下一条记录了

删掉第2条记录后的示意图就是：

Page Directory（页目录)

页面目录由槽组成的。

如果一个页中存储了非常多的记录，这么遍历查找对性能来说还是有损耗的。设计InnoDB的大佬们为我们的记录也制作了一个类似的目录，他们的制作过程是这样的：

将所有正常的记录（包括最大和最小记录，不包括标记为已删除的记录）划分为几个组。
每个组的最后一条记录（也就是组内最大的那条记录）的头信息中的n_owned属性表示该记录拥有多少条记录，也就是该组内共有几条记录。
将每个组的最后一条记录的地址偏移量单独提取出来按顺序存储到靠近页的尾部的地方，这个地方就是所谓的Page Directory，也就是页目录。页面目录中的这些地址偏移量被称为==槽==（英文名：Slot）

每个分组中的记录条数是有规定的：对于最小记录所在的分组只能有 1* 条记录（*由n_owned所标识**），最大记录所在的分组拥有的记录条数只能在 *1~8* 条之间，剩下的分组中记录的条数范围只能在是 *4~8* 条之间。所以分组是按照下面的步骤进行的：

初始情况下一个数据页里只有最小记录和最大记录两条记录，它们分属于两个分组。
之后每插入一条记录，都会从页目录中找到主键值比本记录的主键值大并且差值最小的槽，然后把该槽对应的记录的n_owned值加1，表示本组内又添加了一条记录，直到该组中的记录数等于8个。
在一个组中的记录数等于8个后再插入一条记录时，会将组中的记录拆分成两个组，一个组中4条记录，另一个5条记录。这个过程会在页目录中新增一个槽来记录这个新增分组中最大的那条记录的偏移量。

在一个数据页中查找指定主键值的记录的过程分为两步：

通过二分法确定该记录所在的槽，并找到该槽中主键值最小的那条记录。
通过记录的next_record属性遍历该槽所在的组中的各个记录。

Page Header（页面头部）

Page Header部分是页结构的第二部分，这个部分占用固定的56个字节，专门存储各种状态信息。

名称	占用空间大小	描述
`PAGE_N_DIR_SLOTS`	`2`字节	在页目录中的槽数量
`PAGE_HEAP_TOP`	`2`字节	还未使用的空间最小地址，也就是说从该地址之后就是`Free Space`
`PAGE_N_HEAP`	`2`字节	本页中的记录的数量（包括最小和最大记录以及标记为删除的记录）
`PAGE_FREE`	`2`字节	第一个已经标记为删除的记录地址（各个已删除的记录通过`next_record`也会组成一个单链表，这个单链表中的记录可以被重新利用）
`PAGE_GARBAGE`	`2`字节	已删除记录占用的字节数
`PAGE_LAST_INSERT`	`2`字节	最后插入记录的位置
`PAGE_DIRECTION`	`2`字节	记录插入的方向
`PAGE_N_DIRECTION`	`2`字节	一个方向连续插入的记录数量
`PAGE_N_RECS`	`2`字节	该页中记录的数量（不包括最小和最大记录以及被标记为删除的记录）
`PAGE_MAX_TRX_ID`	`8`字节	修改当前页的最大事务ID，该值仅在二级索引中定义
`PAGE_LEVEL`	`2`字节	当前页在B+树中所处的层级
`PAGE_INDEX_ID`	`8`字节	索引ID，表示当前页属于哪个索引
`PAGE_BTR_SEG_LEAF`	`10`字节	B+树叶子段的头部信息，仅在B+树的Root页定义
`PAGE_BTR_SEG_TOP`	`10`字节	B+树非叶子段的头部信息，仅在B+树的Root页定义

File Header（文件头部）

不同类型的页都会以File Header作为第一个组成部分，它描述了一些针对各种页都通用的一些信息。

名称	占用空间大小	描述
`FIL_PAGE_SPACE_OR_CHKSUM`	`4`字节	页的校验和（checksum值）
`FIL_PAGE_OFFSET`	`4`字节	页号
`FIL_PAGE_PREV`	`4`字节	上一个页的页号
`FIL_PAGE_NEXT`	`4`字节	下一个页的页号
`FIL_PAGE_LSN`	`8`字节	页面被最后修改时对应的日志序列位置（英文名是：Log Sequence Number）
`FIL_PAGE_TYPE`	`2`字节	该页的类型
`FIL_PAGE_FILE_FLUSH_LSN`	`8`字节	仅在系统表空间的一个页中定义，代表文件至少被刷新到了对应的LSN值
`FIL_PAGE_ARCH_LOG_NO_OR_SPACE_ID`	`4`字节	页属于哪个表空间

FIL_PAGE_SPACE_OR_CHKSUM 这个代表当前页面的校验和（checksum）。校验和不同必然代表数据不同。
FIL_PAGE_OFFSET 每一个页都有一个单独的页号，就跟你的身份证号码一样，InnoDB通过页号来可以唯一定位一个页。
FIL_PAGE_PREV和FIL_PAGE_NEXT

我们前面强调过，InnoDB都是以页为单位存放数据的，有时候我们存放某种类型的数据占用的空间非常大（比方说一张表中可以有成千上万条记录），InnoDB可能不可以一次性为这么多数据分配一个非常大的存储空间，如果分散到多个不连续的页中存储的话需要把这些页关联起来，FIL_PAGE_PREV和FIL_PAGE_NEXT就分别代表本页的上一个和下一个页的页号。这样通过建立一个双向链表把许许多多的页就都串联起来了，而无需这些页在物理上真正连着。需要注意的是，并不是所有类型的页都有上一个和下一个页的属性，不过我们本集中介绍的数据页（也就是类型为FIL_PAGE_INDEX的页）是有这两个属性的，所以所有的数据页其实是一个双链表，就像这样：

关于File Header的其他属性我们暂时用不到，等用到的时候再提

File Trailer

在把数据同步到磁盘的过程中，可能会发生只同步一半就被中断（如断电）的情况。

这个部分是和File Header中的校验和相对应的。每当一个页面在内存中修改了，在同步之前就要把它的校验和算出来，因为File Header在页面的前面，所以校验和会被首先同步到磁盘，当完全写完时，校验和也会被写到页的尾部，如果完全同步成功，则页的首部和尾部的校验和应该是一致的。如果写了一半儿断电了，那么在File Header中的校验和就代表着已经修改过的页，而在File Trialer中的校验和代表着原先的页，二者不同则意味着同步中间出了错。