今天調(diào)試一個(gè)bug,用pageheap解決,在此記錄一下。
bug癥狀如下:
1:不確定性崩潰,用vs調(diào)試啟動(dòng)每次崩潰地點(diǎn)都在crt分配或者釋放堆的位置
2:崩潰時(shí)vs看到的調(diào)用?赡懿煌
3:output輸出HEAP: Free Heap block 388c58 modified at 388c88 after it was freed
問(wèn)題分析:
根據(jù)vs的輸出,確定問(wèn)題是在一塊堆上分配的內(nèi)存在釋放后被改寫(xiě)了。由于CRT只能在下次做堆操作檢查時(shí)才會(huì)暴露出問(wèn)題,所以程序崩潰的調(diào)用棧是不確定的。
折騰了2個(gè)小時(shí)后,啟用pageheap縮小了程序出錯(cuò)到崩潰之間的距離,解決了問(wèn)題。過(guò)程如下:
1:啟動(dòng)pageheap
pageheap /enable mybug.exe 0x01
2:調(diào)試啟動(dòng)mybug.exe
現(xiàn)在程序崩潰的調(diào)用棧每次都相同,并且都在相同的線程中,根據(jù)調(diào)用棧信息很輕松的鎖定了bug。
由于上面的例子過(guò)于復(fù)雜,下面寫(xiě)了一些小程序分析了pageheap的原理
char* buffer = new char[19]; // 1
buffer[19] = 0; // 2
delete [] buffer; // 3
這是一個(gè)很簡(jiǎn)單的堆內(nèi)存越界的例子,在未啟動(dòng)pageheap的情況下,我們來(lái)看看buffer的內(nèi)存情況:
buffer = 0x00388C80
第一行執(zhí)行后,buffer的內(nèi)存
0x00388C80 cd cd cd cd cd cd cd cd cd cd cd cd cd cd cd cd ................
0x00388C90 cd cd cd fd fd fd fd ab ab ab ab ab ab ab ab fe ................
簡(jiǎn)單說(shuō)明一下,調(diào)試模式下堆上未初始化的內(nèi)存為cd,并且在內(nèi)存結(jié)束處有4個(gè)fd的邊界,用于debug模式下crt做內(nèi)存檢查,執(zhí)行第2行之后,buffer的內(nèi)存為
0x00388C80 cd cd cd cd cd cd cd cd cd cd cd cd cd cd cd cd ................
0x00388C90 cd cd cd 00 fd fd fd ab ab ab ab ab ab ab ab fe ................
可以看到4個(gè)fd的內(nèi)存邊界中第一個(gè)fd被破壞了。但這個(gè)時(shí)候程序并沒(méi)有崩潰,繼續(xù)執(zhí)行第3行,程序崩潰,提示堆錯(cuò)誤,可以看到,如果第2行和第3行之間有很長(zhǎng)的代碼邏輯,那么也只能在第3行執(zhí)行之后程序才會(huì)崩潰。這給調(diào)式程序帶來(lái)了極大的不便。
如果第2行改為:buffer[24] = 0 程序同樣不會(huì)崩潰
如果啟用了pageheap,再來(lái)看看在debug模式下buffer的內(nèi)存分配情況:
第一行分配內(nèi)存后,buffer的內(nèi)存情況:
0x01675FE8 cd cd cd cd cd cd cd cd cd cd cd cd cd cd cd cd ................
0x01675FF8 cd cd cd fd fd fd fd d0 ?? ?? ?? ?? ?? ?? ?? ?? ................
可以看到,和上面一樣,在內(nèi)存結(jié)束加上了4個(gè)fd的邊界,d0是用于填補(bǔ)4字節(jié)對(duì)齊,注意buffer后面的地址(第一個(gè)??)為0x01675FF8+8 = 0x01676000,這是一個(gè)4k對(duì)齊的PAGE_NOACCESS頁(yè)面,這個(gè)時(shí)候我們執(zhí)行第2行代碼
buffer[19] = 0; 同樣不會(huì)崩潰,即使是修改buffer[19-23]的值(4個(gè)fd邊界和1個(gè)對(duì)齊d0),和未啟動(dòng)pageheap一樣,程序都只會(huì)在執(zhí)行第3行的時(shí)候崩潰。如果修改buffer[24]則程序會(huì)崩潰。
通過(guò)這個(gè)例子,可以得出一個(gè)結(jié)論:?jiǎn)⒂胮ageheap后,堆內(nèi)存分配在頁(yè)面的末尾,后面緊跟了一個(gè)4k的PAGE_NOACCESS屬性的頁(yè)面,這種情況下,啟用pageheap的好處是能在一定程度上檢查內(nèi)存越界。
再來(lái)看一個(gè)例子
char* buffer = new char[20]; // 1
delete [] buffer; // 2
buffer[1] = 1; // 3
這個(gè)例子演示了操作delete釋放后的內(nèi)存,在未啟動(dòng)pageheap的情況下,程序不會(huì)崩潰,原因同上一個(gè)例子,啟用pageheap后,buffer內(nèi)存為:
第一行執(zhí)行后:
0x01675FE8 cd cd cd cd cd cd cd cd cd cd cd cd cd cd cd cd ................
0x01675FF8 cd cd cd cd fd fd fd fd ?? ?? ?? ?? ?? ?? ?? ?? ................
第2行執(zhí)行后:
0x01675FE8 ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ................
0x01675FF8 ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ................
可以看到,啟用pageheap后delete內(nèi)存,分配該內(nèi)存的整個(gè)頁(yè)面都被設(shè)置為PAGE_NOACCESS屬性,這樣操作delete后的任何內(nèi)存程序馬上就會(huì)崩潰。
結(jié)論2:?jiǎn)⒂胮ageheap很容易檢查操作delete后的內(nèi)存的錯(cuò)誤(包括2次delete)
總結(jié):
1:?jiǎn)⒂胮ageheap后,系統(tǒng)的堆管理器會(huì)把內(nèi)存分配到4k頁(yè)面的末尾(注意需要4字節(jié)對(duì)齊,debug模式下還存在邊界檢查的4字節(jié)fd)
2:緊隨著的下一個(gè)頁(yè)面被設(shè)置為PAGE_NOACCESS屬性
3:?jiǎn)⒂胮ageheap后,釋放內(nèi)存把整個(gè)頁(yè)面設(shè)置為PAGE_NOACCESS屬性
4:內(nèi)存越界和非法操作依靠非法訪問(wèn)PAGE_NOACCESS屬性的頁(yè)面暴露問(wèn)題
5:由于每塊內(nèi)存都至少需要2個(gè)頁(yè)面(1個(gè)頁(yè)面分配,1個(gè)頁(yè)面PAGE_NOACCESS),在內(nèi)存消耗較大的環(huán)境下會(huì)占用極大的內(nèi)存資源。
6:把pageheap和crt的堆檢查函數(shù)結(jié)合起來(lái),能夠更好的暴露堆相關(guān)bug
ps.pageheap的作用是在注冊(cè)表位置HKLM/SOFTWARE/Microsoft/Windows NT/CurrentVersion/Image File Execution Options下生成一個(gè)項(xiàng)