MySQL是怎样运行的:(21)redo日志(下)
Session 21 redo日志(下)
redo日志缓冲区的刷盘时机:
log buffer
空间不足时。如果当前写入log buffer
的redo
日志量已经占满了log buffer
总容量的大约一半左右,就需要把这些日志刷新到磁盘上- 事务提交时。在事务提交时可以不把修改过的
Buffer Pool
页面刷新到磁盘,但是为了保证持久性,必须要把修改这些页面对应的redo
日志刷新到磁盘(可通过系统变量innodb_flush_log_at_trx_commit
控制) - 后台有一个线程,大约每秒都会刷新一次
log buffer
中的redo
日志到磁盘 - 正常关闭服务器时
- 做所谓的
checkpoint
时(稍后会仔细介绍)
磁盘上的redo
日志文件不只一个,而是以一个日志文件组
的形式出现的。这些文件以ib_logfile[数字]
(数字
可以是0
、1
、2
…)的形式进行命名。(详见文章)
redo日志文件格式
redo
日志文件其实也是由若干个512
字节大小的block组成。redo
日志文件组中的每个文件大小都一样,格式也一样,都是由两部分组成:
- 前2048个字节,也就是前4个block是用来存储一些管理信息的。
- 从第2048字节往后是用来存储
log buffer
中的block镜像的。
日志序列号(LSN)
为记录已经写入的redo
日志量,设计了一个称之为Log Sequeue Number
的全局变量,翻译过来就是:日志序列号
,简称lsn
。规定初始的lsn
值为8704
(人为规定的)。
我们知道,在向log buffer
中写入redo
日志时不是一条一条写入的,而是以一个mtr
生成的一组redo
日志为单位进行写入的。而在统计lsn
的增长量时,是按照实际【写入的日志量(mtr大小)】加上占用的log block header
和log block trailer
来计算的。
(上图中,mtr1大小为200,8916=8704+12+200)
可以看出来,每一组由mtr生成的redo日志都有一个唯一的LSN值与其对应,LSN值越小,说明redo日志产生的越早。
flushed_to_disk_lsn
redo
日志是首先写到log buffer
中,之后才会被刷新到磁盘上的redo
日志文件。所以设计InnoDB
的大佬提出了一个称之为buf_next_to_write
的全局变量,标记当前log buffer
中已经有哪些日志被刷新到磁盘中了。
当有新的redo
日志写入到log buffer
时,首先lsn
的值会增长,但flushed_to_disk_lsn
不变,随后随着不断有log buffer
中的日志被刷新到磁盘上,flushed_to_disk_lsn
的值也跟着增长。如果两者的值相同时,说明log buffer中的所有redo日志都已经刷新到磁盘中了。
flush链表中的LSN
在mtr
结束时,会把对应的一组redo
日志写入到log buffer
中。除此之外,在mtr
结束时还有一件非常重要的事情要做,就是把在mtr执行过程中可能修改过的页面加入到Buffer Pool的flush链表。如果被修改的页面已经在flush
链表中了,就不再次插入了。也就是说flush链表中的脏页是按照页面的第一次修改时间从大到小进行排序的。在这个过程中会在缓存页对应的控制块中记录两个关于页面何时修改的属性:
oldest_modification
:该页面对应的mtr
的lsn
值。(flush链表可看作按此值从头到尾排序)。newest_modification
:最后一个修改该页面的mtr
的lsn
值。
例子。(为了方便,把oldest_modification
缩写成了o_m
,把newest_modification
缩写成了n_m
)
checkpoint
有一个很不幸的事实就是我们的redo
日志文件组容量是有限的,我们不得不选择循环使用redo
日志文件组中的文件,但是这会造成最后写的redo
日志与最开始写的redo
日志追尾
,这时应该想到:redo日志只是为了系统奔溃后恢复脏页用的,如果对应的脏页已经刷新到了磁盘,那么该redo日志也就没有存在的必要了,那么它占用的磁盘空间就可以被后续的redo日志所重用。也就是说:判断某些redo日志占用的磁盘空间是否可以覆盖的依据,就是它对应的脏页是否已经刷新到磁盘里。
继续刚刚的例子,如果页a
被刷新到了磁盘,那么它对应的控制块就会从flush链表
中移除:
这样mtr_1
生成的redo
日志就没有用了,它们占用的磁盘空间就可以被覆盖掉了。用一个全局变量checkpoint_lsn
来代表当前系统中可以被覆盖的redo
日志总量是多少,这个变量初始值也是8704
。
redo
日志可以被覆盖,意味着它对应的脏页被刷到了磁盘,只要我们计算出当前系统中被最早修改的脏页对应的oldest_modification
值,那凡是在系统lsn值小于该节点的oldest_modification
值时产生的redo日志都是可以被覆盖掉的,我们就把该脏页的oldest_modification
赋值给checkpoint_lsn
。我们把这个过程称之为做一次checkpoint
。
比方说当前系统中页a
已经被刷新到磁盘,那么flush链表
的尾节点就是页c
,该节点就是当前系统中最早修改的脏页了,它的oldest_modification
值为8916,我们就把8916赋值给checkpoint_lsn
崩溃恢复
在重启时根据redo
日志中的记录就可以将页面恢复到系统奔溃前的状态。我们接下来大致看一下恢复过程是什么样。
起点:显然我们需要从checkpoint_lsn
开始读取redo
日志来恢复页面。
终点:第一个未被填满的block
(即LOG_BLOCK_HDR_DATA_LEN
属性不为512B)
加快恢复(详见文章)
- 使用哈希表把相邻的页连接在一起
- 跳过已经刷新到磁盘的页面(已落盘但还没来得及checkpoint的页)