在线看毛片网站电影-亚洲国产欧美日韩精品一区二区三区,国产欧美乱夫不卡无乱码,国产精品欧美久久久天天影视,精品一区二区三区视频在线观看,亚洲国产精品人成乱码天天看,日韩久久久一区,91精品国产91免费

<menu id="6qfwx"><li id="6qfwx"></li></menu>
    1. <menu id="6qfwx"><dl id="6qfwx"></dl></menu>

      <label id="6qfwx"><ol id="6qfwx"></ol></label><menu id="6qfwx"></menu><object id="6qfwx"><strike id="6qfwx"><noscript id="6qfwx"></noscript></strike></object>
        1. <center id="6qfwx"><dl id="6qfwx"></dl></center>

            新聞中心

            EEPW首頁 > 嵌入式系統(tǒng) > 設計應用 > ARM平臺NEON指令的編譯和優(yōu)化

            ARM平臺NEON指令的編譯和優(yōu)化

            作者: 時間:2016-11-10 來源:網(wǎng)絡 收藏
            本文介紹了ARM平臺基于ARM v7-A架構的ARM Cortex-A系列處理器(Cortex-A5, Cortex-A7, Cortex-A8, Cortex-A9, Cortex-A15)上的NEON多媒體處理硬件加速器針對C/C++語言、匯編語言和NEON intrinsics如何編譯和優(yōu)化,包含如何向量化、向量化的ARMCC和GCC編譯器選項、NEON的匯編和EABI程序調用規(guī)范、如何在bare-metal和Linux操作系統(tǒng)上檢測NEON硬件、如何指導編譯器進行向量化NEON指令的優(yōu)化等內容。

            NEON向量化

            基于ARM v7-A架構的ARM Cortex-A系列處理器(Cortex-A5, Cortex-A7, Cortex-A8, Cortex-A9, Cortex-A15)都可以選用NEON多媒體處理器加速程序運行,NEON是一種SIMD(Single Instruction Multiple Data)架構的協(xié)處理器,ARM的NEON處理器還可選配置成向量浮點VFPv3(Vector Floating-Point)指令集處理器。

            本文引用地址:http://www.biyoush.com/article/201611/317417.htm

            常用的編譯器選項配置

            自動向量化選項

            armcc編譯器使用--vectorize選項來使能向量化編譯,一般選擇更高的優(yōu)化等級如-O2或者-O3就能使能--vectorize選項。

            gcc編譯器的向量化選項-ftree-vectorize來使能向量化選項,使用-O3會自動使能-ftree-vectorize選項。

            選擇處理器類型

            armcc編譯器使--cpu 7-A或者--cpu Cortex-A8來指定指令集架構和CPU類型。

            gcc編譯器的處理器選項-mfpu=neon和-mcpu來指定cpu類型。如-mcpu=cortex-a5

            選擇NEON和VFP類型

            gcc選擇用-mfpu=vfpv3-fp16來指定為vfp協(xié)處理,而-mfpu=neon-vfpv4等就能指定為NEON+VFP結構。

            選擇浮點處理器和ABI接口類型

            -mfloat-abi=soft使用軟件浮點庫,不是用VFP或者NEON指令;-mfloat-abi=softfp使用軟件浮點的調用規(guī)則,而可以使用VFP和NEON指令,編譯的目標代碼和軟件浮點庫鏈接使用;

            -mfloat-abi=hard使用VFP和NEON指令,并且改變ABI調用規(guī)則來產(chǎn)生更有效率的代碼,如用vfp寄存器來進行浮點數(shù)據(jù)的參數(shù)傳遞,從而減少NEON寄存器和ARM寄存器的拷貝。

            常用的CPU類型編譯器選項

            CPU類型

            CPU類型選項

            FP選項

            FP + SIMD選項

            備注

            Cortex-A5

            -mcpu=cortex-a5

            -mfpu=vfpv3-fp16

            -mfpu=vfpv3-d16-fp16

            -mfpu=neon-fp16

            -d16表明只有前16個浮點寄存器可用

            Cortex-A7

            -mcpu=cortex-a7

            -mfpu=vfpv4

            -mfpu=vfpv4-d16

            -mfpu=neon-vfpv4

            -fp16表明支持16bit半精度浮點操作

            Cortex-A8

            -mcpu=cortex-a8

            -mfpu=vfpv3

            -mfpu=neon

            Cortex-A9

            -mcpu=cortex-a9

            -mfpu=vfpv3-fp16

            -mfpu=vfpv3-d16-fp16

            -mfpu=neon-fp16

            Cortex-A15

            -mcpu=cortex-a15

            -mfpu=vfpv4

            -mfpu=neon-vfpv4

            常用的gcc組合編譯器選項

            Cortex-A15 with a NEON unit

            arm-gcc -O3 -mcpu=cortex-a15 -mfpu=neon-vfpv4 -mfloat-abi=hard -ffast-math -omyprog.exe myprog.c

            Cortex-A9 with a NEON unit

            arm-gcc -O3 -mcpu=cortex-a9 -mfpu=neon-vfpv3-fp16 -mfloat-abi=hard -ffast-math -omyprog.exe myprog.c

            Cortex-A7 without a NEON unit

            arm-gcc -O3 -mcpu=cortex-a7 -mfpu=vfpv4-d16 -mfloat-abi=softfp -ffast-math -omyprog2.exe myprog2.c

            Cortex-A8 without a NEON unit

            arm-gcc -O3 -mcpu=cortex-a8 -mfloat-abi=soft -c -o myfile.o myfile.c

            NEON匯編和EABI程序調用規(guī)范

            GNU assembler (gas) and ARM Compiler toolchain assembler (armasm)都支持NEON指令的匯編。但必須遵循ARM Embedded Application Binary Interface (EABI)EABI的規(guī)范,即NEON寄存器的S0-S15 (D0-D7, Q0-Q3)用于傳遞參數(shù)和返回值,被調用函數(shù)內可以直接使用,不用保存;D16-D31 (Q8-Q15)則有調用函數(shù)來保存,被調用函數(shù)內可以不保存的隨意使用;而S16-S31 (D8-D15, Q4-Q7)則必須由被調用函數(shù)內部保存。對于調用傳參規(guī)范則有,對于軟件浮點,參數(shù)有R0~R3和堆棧stack傳遞,而硬件浮點,可以通過NEON寄存器來傳遞參數(shù)。

            NEON硬件檢測和使能

            編譯時指定NEON單元是否存在

            ARM編譯器(armcc)從4.0之后就支持在某些處理器和FPU的選項中預定義宏__ARM_NEON__, armasm的宏TARGET_FEATURE_NEON.

            運行時指定檢測NEON單元

            OS內可以檢測NEON單元是否存在,如Linux下cat /proc/cpuinfo看是否包含NEON或者VFP,如Tegra2 (雙核 Cortex-A9 帶 FPU), cat /proc/cpuinfo:

            Features : swp half thumb fastmult vfp edsp thumbee vfpv3 vfpv3d16

            四核 Cortex-A9 帶NEON單元

            Features : swp half thumb fastmult vfp edsp thumbee neon vfpv3

            另外可以查看/proc/self/auxv,這里會包含二進制格式的hwcap,可以通過AT_HWCAP來搜索到。HWCAP_NEON bit (4096).另外如Ubuntu的發(fā)布在路徑/lib/neon/vfp下包含lib的NEON優(yōu)化版本。

            Bare-metal模式下使能NEON

            #include

            // Bare-minimum start-up code to run NEON code

            __asm void EnableNEON(void)

            {

            MRC p15,0,r0,c1,c0,2 // Read CP Access register

            ORR r0,r0,#0x00f00000 // Enable full access to NEON/VFP by enabling access to

            // Coprocessors 10 and 11

            MCR p15,0,r0,c1,c0,2 // Write CP Access register

            ISB

            MOV r0,#0x40000000 // Switch on the VFP and NEON hardware

            MSR FPEXC,r0 // Set EN bit in FPEXC

            }

            下面的EnableNEON函數(shù)使能NEON協(xié)處理器;使用下面的編譯選擇就能在bare-metal下使能NEON

            armcc -c --cpu=Cortex-A8 --debug hello.c -o hello.o

            armlink --entry=EnableNEON hello.o -o hello.axf

            系統(tǒng)運行時使能NEON

            內核在遇到第一個NEON指令時會產(chǎn)生一個Undefined Instruction的異常,這會讓內核自動重啟NEON協(xié)處理器,內核還可以在上下文切換時關閉NEON來省電。

            Linux內核的NEON配置

            圖1. NEON的Linux內核配置

            使能NEON,需要選擇

            Floating point emulation→VFP-format floating point maths

            和Floating point emulation→Advanced SIMD (NEON) Extension

            檢查Linux的配置文件來確認內核是否使能NEON

            zcat /proc/config.gz | grep NEON

            看是否存在

            CONFIG_NEON=y

            確認處理器是否支持NEON

            cat /proc/cpuinfo | grep neon

            看是否有如下內容

            Features : swp half thumb fastmult vfp edsp neon vfpv3 tls vfpv4 idiva idivt

            向量化NEON優(yōu)化指南

            避免指針混疊alias

            C90不要求指針位置,不同指針可以指向相同的內存區(qū)域,C99中引入了__restrict關鍵字來表明只有這個指針能指向它工作的區(qū)域。

            告訴編譯器循環(huán)信息

            如循環(huán)是否某個整數(shù)的整數(shù)倍,以方便向量化;如下表明循環(huán)次數(shù)是4的整數(shù)倍:

            for(i=0 ; i < (len & ~3) ; i++)

            {

            。。。

            }

            for (i=0; i<(items*4); i+=1)

            {

            。。。

            }

            循環(huán)展開

            #pragma unroll (n)

            采用NEON Intrinsics

            armcc, GCC/g++和llvm等編譯器都支持 NEON C/C++ intrinsics,并且采用相同的語法規(guī)范。因而代碼可以在各個編譯器間共享。NEON Intrinsics的代碼容易維護而且效率高。NEON Intrinsics采用新的數(shù)據(jù)類型,這些類型對應于D和Q寄存器。NEON Intrinsics寫起來像是函數(shù)調用但對應于每一條NEON指令。編程NEON Intrinsics時不用考慮具體的寄存器分配和代碼的schedule,pipeline流水安排等。但NEON Intrinsics往往不能產(chǎn)生想象的代碼,性能上相比純匯編要稍差一些。

            減少循環(huán)內的相關性

            如果當前迭代時使用的數(shù)據(jù)是上次迭代計算的結果,就產(chǎn)生了迭代間的相關性,可以拆分循環(huán)來減少相關。

            向量化其他準則

            • 短小的循環(huán)更容易讓編譯器實現(xiàn)自動向量化;
            • 避免在循環(huán)內使用break退出循環(huán)
            • 避免在循環(huán)內使用過多的條件語句,減少可能產(chǎn)生的條件跳轉;
            • 讓循環(huán)次數(shù)盡可能是2的冪次
            • 讓編譯器知曉循環(huán)次數(shù),減少對循環(huán)次數(shù)為0等的判斷;
            • 循環(huán)內調用的函數(shù)盡量inline內聯(lián)
            • 使用數(shù)組+索引的方式訪問比指針形式更容易向量化;
            • 間接尋址(多重索引)不會向量化;
            • 使用restrict關鍵字來告訴編譯器沒有重疊的內存區(qū)域;

            總結

            本文介紹了ARM平臺基于ARM v7-A架構的ARM Cortex-A系列處理器(Cortex-A5, Cortex-A7, Cortex-A8, Cortex-A9, Cortex-A15)上的NEON多媒體處理硬件加速器針對C/C++語言、匯編語言和NEON intrinsics如何編譯和優(yōu)化,包含如何向量化、向量化的ARMCC和GCC編譯器選項、NEON的匯編和EABI程序調用規(guī)范、如何在bare-metal和Linux操作系統(tǒng)上檢測NEON硬件、如何指導編譯器進行向量化NEON指令的優(yōu)化等內容。

            參考

            http://houh-1984.blog.163.com/

            本文介紹了ARM平臺基于ARM v7-A架構的ARM Cortex-A系列處理器(Cortex-A5, Cortex-A7, Cortex-A8, Cortex-A9, Cortex-A15)上的NEON多媒體處理硬件加速器針對C/C++語言、匯編語言和NEON intrinsics如何編譯和優(yōu)化,包含如何向量化、向量化的ARMCC和GCC編譯器選項、NEON的匯編和EABI程序調用規(guī)范、如何在bare-metal和Linux操作系統(tǒng)上檢測NEON硬件、如何指導編譯器進行向量化NEON指令的優(yōu)化等內容。



            評論


            技術專區(qū)

            關閉