如何創(chuàng)建及諧調(diào)支持多核的LabVIEW x86客戶DLL
注釋:循環(huán)未作向量化處理
本文引用地址:http://www.biyoush.com/article/94541.htm反匯編生成代碼后可看到編譯器插入了SIMD擴(kuò)展指令集(SSE)。該指令集的使用直接提升了應(yīng)用的運(yùn)行性能,代碼運(yùn)行速度提高了2倍。
這類優(yōu)化可應(yīng)用于目前大多數(shù)CPU 上,這里我們?cè)贑ore 2 處理器上運(yùn)行,當(dāng)然您也可以在單核或早期CPU 上應(yīng)用。
自動(dòng)并行化
因?yàn)椴捎枚嗪薖C,我們會(huì)更感興趣如何通過(guò)QParallel 選項(xiàng),讓代碼在兩核上同時(shí)運(yùn)行,以獲得進(jìn)一步提速。該選項(xiàng)在編譯目標(biāo)中插入了庫(kù)調(diào)用。庫(kù)調(diào)用提供了運(yùn)行時(shí)所需的控制,使應(yīng)用中的組件得以并行。
在首次運(yùn)行中,編譯器并未顯著提高運(yùn)行性能。通過(guò)開(kāi)啟編譯器的報(bào)告功能,可以看到它并未進(jìn)行優(yōu)化。
注釋:循環(huán)未作并行化處理,循環(huán)無(wú)需并行化
Intel編譯器要對(duì)一段代碼進(jìn)行自動(dòng)并行化時(shí),首先決定是否有值得進(jìn)行并行化的代碼部分。在我們的代碼中由一個(gè)主循環(huán)完成所有工作。編譯器不能確定循環(huán)的重復(fù)次數(shù),循環(huán)計(jì)數(shù)值只有在運(yùn)行時(shí)得到。于是編譯器采取謹(jǐn)慎選擇,不對(duì)循環(huán)進(jìn)行并行化處理。
我們可以通過(guò)在命令行輸入/Qpar-threshold:n 來(lái)進(jìn)行試探優(yōu)化,這里n 是介于0(總是并行處理)到100(不進(jìn)行并行處理)的數(shù),這個(gè)值決定了試探優(yōu)化的程度。
輸入/Qpar-threshold:0 后,編譯器對(duì)代碼并行化,并輸出報(bào)告:
注釋:循環(huán)已作自動(dòng)并行化處理
使用該優(yōu)化后,程序的運(yùn)行速度比默認(rèn)設(shè)置下提高了近2 倍。
其它優(yōu)化選項(xiàng)
本范例中,我們關(guān)注自動(dòng)向量化及自動(dòng)并行化。Intel C++ 編譯器利用一系列其它優(yōu)化技術(shù),包括高層優(yōu)化、交叉過(guò)程優(yōu)化、配置向?qū)?yōu)化、速度優(yōu)化、代碼大小優(yōu)化、快速浮點(diǎn)處理等。
評(píng)論