詳解Linux內(nèi)核內(nèi)存管理架構(gòu)

作者：時(shí)間：2024-04-25 來(lái)源：

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

內(nèi)存管理子系統(tǒng)可能是linux內(nèi)核中最為復(fù)雜的一個(gè)子系統(tǒng)，其支持的功能需求眾多，如頁(yè)面映射、頁(yè)面分配、頁(yè)面回收、頁(yè)面交換、冷熱頁(yè)面、緊急頁(yè)面、頁(yè)面碎片管理、頁(yè)面緩存、頁(yè)面統(tǒng)計(jì)等，而且對(duì)性能也有很高的要求。本文從內(nèi)存管理硬件架構(gòu)、地址空間劃分和內(nèi)存管理軟件架構(gòu)三個(gè)方面入手，嘗試對(duì)內(nèi)存管理的軟硬件架構(gòu)做一些宏觀上的分析總結(jié)。

本文引用地址：http://www.biyoush.com/article/202404/458075.htm

內(nèi)存管理硬件架構(gòu)

因?yàn)閮?nèi)存管理是內(nèi)核最為核心的一個(gè)功能，針對(duì)內(nèi)存管理性能優(yōu)化，除了軟件優(yōu)化，硬件架構(gòu)也做了很多的優(yōu)化設(shè)計(jì)。下圖是一個(gè)目前主流處理器上的存儲(chǔ)器層次結(jié)構(gòu)設(shè)計(jì)方案。

從圖中可以看出，對(duì)于邏輯cache架構(gòu)讀寫(xiě)內(nèi)存，硬件設(shè)計(jì)了3條優(yōu)化路徑。

· 首先L1 cache支持虛擬地址尋址，保證CPU出來(lái)的虛擬地址（VA）不需要轉(zhuǎn)換成物理地址（PA）就可以用來(lái)直接查找L1 cache，提高cache查找效率。當(dāng)然用VA查找cache，有安全等缺陷，這需要CPU做一些特別的設(shè)計(jì)來(lái)進(jìn)行彌補(bǔ)，具體可以閱讀《計(jì)算機(jī)體系結(jié)構(gòu)：量化研究方法》了解相關(guān)細(xì)節(jié)。

· 如果L1 cache沒(méi)有命中，這就需要進(jìn)行地址轉(zhuǎn)換，把VA轉(zhuǎn)換成PA。linux的內(nèi)存映射管理是通過(guò)頁(yè)表來(lái)實(shí)現(xiàn)的，但是頁(yè)表是放在內(nèi)存中的，如果每次地址轉(zhuǎn)換過(guò)程都需要訪問(wèn)一次內(nèi)存，其效率是十分低下的。這里CPU通過(guò)TLB硬件單元（在MMU中）來(lái)加速地址轉(zhuǎn)換。

· 獲得PA后，在L2 cache中再查找緩存數(shù)據(jù)。L2 cache一般比L1 cache大一個(gè)數(shù)量級(jí)，其查找命中率也更高。如果命中獲得數(shù)據(jù)，則可避免去訪問(wèn)內(nèi)存，提高訪問(wèn)效率。

可見(jiàn)，為了優(yōu)化內(nèi)存訪問(wèn)效率，現(xiàn)代處理器引入多級(jí)cache、TLB等硬件模塊。每個(gè)硬件模塊內(nèi)部還有大量的設(shè)計(jì)細(xì)節(jié)，這里不再深入，如有興趣可以閱讀《計(jì)算機(jī)體系結(jié)構(gòu)：量化研究方法》等書(shū)籍進(jìn)一步了解。

內(nèi)存映射空間劃分

根據(jù)不同的內(nèi)存使用方式和使用場(chǎng)景需要，內(nèi)核把內(nèi)存映射地址空間劃分成多個(gè)部分，每個(gè)劃分空間都有自己的起止地址、分配接口和使用場(chǎng)景。下圖是一個(gè)常見(jiàn)的32位地址空間劃分結(jié)構(gòu)。

· DMA內(nèi)存動(dòng)態(tài)分配地址空間：一些DMA設(shè)備因?yàn)槠渥陨韺ぶ纺芰Φ南拗?，不能訪問(wèn)所有內(nèi)存空間。如早期的ISA設(shè)備只能在24位地址空間執(zhí)行DMA，即只能訪問(wèn)前16MB內(nèi)存。所以需要?jiǎng)澐殖鯠MA內(nèi)存動(dòng)態(tài)分配空間，即DMA zone。其分配通過(guò)加上GFP_ATOMIC控制符的kmalloc接口來(lái)申請(qǐng)。

· 直接內(nèi)存動(dòng)態(tài)分配地址空間：因?yàn)樵L問(wèn)效率等原因，內(nèi)核對(duì)內(nèi)存采用簡(jiǎn)單的線性映射，但是因?yàn)?2位CPU的尋址能力（4G大?。┖蛢?nèi)核地址空間起始的設(shè)置（3G開(kāi)始），會(huì)導(dǎo)致內(nèi)核的地址空間資源不足，當(dāng)內(nèi)存大于1GB時(shí)，就無(wú)法直接映射所有內(nèi)存。無(wú)法直接映射的地址空間部分，即highmem zone。在DMA zone和highmem zone中間的區(qū)域即normal zone，主要用于內(nèi)核的動(dòng)態(tài)內(nèi)存分配。其分配通過(guò)kmalloc接口來(lái)申請(qǐng)。

· 高端內(nèi)存動(dòng)態(tài)分配地址空間：高端內(nèi)存分配的內(nèi)存是虛擬地址連續(xù)而物理地址不連續(xù)的內(nèi)存，一般用于內(nèi)核動(dòng)態(tài)加載的模塊和驅(qū)動(dòng)，因?yàn)閮?nèi)核可能運(yùn)行了很久，內(nèi)存頁(yè)面碎片情況嚴(yán)重，如果要申請(qǐng)大的連續(xù)地址的內(nèi)存頁(yè)會(huì)比較困難，容易導(dǎo)致分配失敗。根據(jù)應(yīng)用需要，高端內(nèi)存分配提供多個(gè)接口:

vmalloc：指定分配大小，page位置和虛擬地址隱式分配；
vmap：指定page位置數(shù)組，虛擬地址隱式分配；
ioremap：指定物理地址和大小，虛擬地址隱式分配。

· 持久映射地址空間：內(nèi)核上下文切換會(huì)伴隨著TLB刷新，這會(huì)導(dǎo)致性能下降。但一些使用高端內(nèi)存的模塊對(duì)性能也有很高要求。持久映射空間在內(nèi)核上下文切換時(shí)，其TLB不刷新，所以它們映射的高端地址空間尋址效率較高。其分配通過(guò)kmap接口來(lái)申請(qǐng)。kmap與vmap的區(qū)別是：vmap可以映射一組page，即page不連續(xù)，但虛擬地址連續(xù)，而kmap只能映射一個(gè)page到虛擬地址空間。kmap主要用于fs、net等對(duì)高端內(nèi)存訪問(wèn)有較高性能要求的模塊中。

· 固定映射地址空間：持久映射的問(wèn)題是可能會(huì)休眠，在中斷上下文、自旋鎖臨界區(qū)等不能阻塞的場(chǎng)景中不可用。為了解決這個(gè)問(wèn)題，內(nèi)核又劃分出固定映射，其接口不會(huì)休眠。固定映射空間通過(guò)kmap_atomic接口來(lái)映射。kmap_atomic的使用場(chǎng)景與kmap較為相似，主要用于mm、fs、net等對(duì)高端內(nèi)存訪問(wèn)有較高性能要求而且不能休眠的模塊中。

不同的CPU體系架構(gòu)在地址空間劃分上不盡相同，但為了保證CPU體系差異對(duì)外部模塊不可見(jiàn)，內(nèi)存地址空間的分配接口的語(yǔ)義是一致的。

因?yàn)?4位CPU一般都不需要高端內(nèi)存（當(dāng)然也可以支持），在地址空間劃分上與32位CPU的差異較大，下圖是一個(gè)X86_64的內(nèi)核地址空間劃分圖：

內(nèi)存管理

內(nèi)核內(nèi)存管理的核心工作就是內(nèi)存的分配回收管理，其內(nèi)部分為2個(gè)體系：頁(yè)管理和對(duì)象管理。頁(yè)管理體系是一個(gè)兩級(jí)的層次結(jié)構(gòu)，對(duì)象管理體系是一個(gè)三級(jí)的層次結(jié)構(gòu)，分配成本和操作對(duì)CPU cache和TLB的負(fù)面影響，從上而下逐漸升高。

頁(yè)管理層次結(jié)構(gòu)：由冷熱緩存、伙伴系統(tǒng)組成的兩級(jí)結(jié)構(gòu)。負(fù)責(zé)內(nèi)存頁(yè)的緩存、分配、回收。

對(duì)象管理層次結(jié)構(gòu)：由per-cpu高速緩存、slab緩存、伙伴系統(tǒng)組成的三級(jí)結(jié)構(gòu)。負(fù)責(zé)對(duì)象的緩存、分配、回收。這里的對(duì)象指小于一頁(yè)大小的內(nèi)存塊。

除了內(nèi)存分配，內(nèi)存釋放也是按照此層次結(jié)構(gòu)操作。如釋放對(duì)象，先釋放到per-cpu緩存，再釋放到slab緩存，最后再釋放到伙伴系統(tǒng)。

框圖中有三個(gè)主要模塊，即伙伴系統(tǒng)、slab分配器和per-cpu（冷熱）緩存。他們的對(duì)比分析如下。

在线看毛片网站电影-亚洲国产欧美日韩精品一区二区三区,国产欧美乱夫不卡无乱码,国产精品欧美久久久天天影视,精品一区二区三区视频在线观看,亚洲国产精品人成乱码天天看,日韩久久久一区,91精品国产91免费

新聞中心

詳解Linux內(nèi)核內(nèi)存管理架構(gòu)

評(píng)論

相關(guān)推薦

技術(shù)專(zhuān)區(qū)