加入星計劃,您可以享受以下權益:

  • 創(chuàng)作內容快速變現(xiàn)
  • 行業(yè)影響力擴散
  • 作品版權保護
  • 300W+ 專業(yè)用戶
  • 1.5W+ 優(yōu)質創(chuàng)作者
  • 5000+ 長期合作伙伴
立即加入
  • 正文
    • 14.1  C編譯器及其優(yōu)化
  • 相關推薦
  • 電子產(chǎn)業(yè)圖譜
申請入駐 產(chǎn)業(yè)圖譜

高效的C編程之:C編譯器及其優(yōu)化

2013/09/30
1
閱讀需 18 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

 

本章將幫助讀者在ARM處理器上編寫高效的C代碼。本章涉及的一些技術不僅適用于ARM處理器,也適用于其他RISC處理器。本章首先從ARM編譯器及其優(yōu)化入手,講解C編譯器在優(yōu)化代碼時所碰到的一些問題。理解這些問題,將有助于編寫出在提高執(zhí)行速度和減少代碼尺寸方面更高效的C源代碼。

本章假定讀者熟悉C語言,并且有一些匯編語言編程方面的知識。有關ARM編程的詳細信息,請參閱本書的相關章節(jié)。

14.1  C編譯器及其優(yōu)化

本章主要講解C編譯器在代碼優(yōu)化時遇到的一些問題。要編寫高效的C語言源代碼,必須了解C編譯器對什么形式的代碼有所改動,編譯器涉及的處理器結構的限制,以及一些特殊的C編譯器的限制。

14.1.1  為編譯器選擇處理器結構

在編譯C源文件時,必須為編譯器指定正確的處理器類型。這樣可以使編譯的代碼最大限度地利用處理器的硬件結構,如對半字加載(Halfword Load)、存儲指令(Store Instructions)和指令調度(Instruction Scheduling)的支持。所以編譯程序時,應該盡量準確地告訴編譯器該代碼是運行在什么類型的處理器上。有些處理器類型編譯器是不能直接支持,如SA-1100,這時可以使用與該類型處理器為同一指令集的基本處理器,比如對于SA-100,可以使用StrongARM。

注意

指定目標處理器可能使代碼與其他ARM處理器不兼容。例如,編譯時指定了ARMv6體系結構的代碼,可能不能運行在ARM920T的處理器上(如果代碼中使用了ARMv6體系結構中特有的指令)。

選擇處理器類型可以使用--cpu name編譯選項。該選項生成用于特定ARM處理器或體系結構的代碼。

如果name是處理器名稱。

·  輸入名稱必須和ARM數(shù)據(jù)表中所示嚴格一致,例如ARM7TDMI。該選項不接受通配符字符。有效值是任何 ARM6 或更高版本的 ARM 處理器。

·  選擇處理器操作會選擇適當?shù)捏w系結構、浮點單元 (FPU) 以及存儲結構。

·  某些--cpu選擇暗含--fpu選擇。例如,當使用--arm選項編譯時,--cpu ARM1136JF-S暗含--fpu vfpv2。隱式FPU只覆蓋命令行上出現(xiàn)在--cpu選項前面的顯式--fpu選項。如果沒有指定--fpu選項和--cpu選項,則使用--fpu softvfp。

14.1.2  調試選項

如果在編譯C源程序時,設置了調試選項,這將很大程度地影響最終代碼的大小和執(zhí)行效率。因為帶調試信息的代碼映像,為了能夠在調試程序時正確地顯示變量或設置斷點,包含很多冗余的代碼和數(shù)據(jù)。所以如果想最大限度地提供程序執(zhí)行效率、減少代碼尺寸,就要在編譯源文件時,去除編譯器的調試選項。

以下選項指定調試表生成方法。

·  -g (--debug):該選項啟用生成當前編譯的調試表。無論是否使用-g選項,編譯器都生成的代碼是相同的。惟一差別是調試表的存在與否。編譯器是否對代碼進行優(yōu)化是由-O選項指定調的。默認情況下,使用-g選項等價于使用:-g -dwarf2 --debug_macros。

注意

編譯程序時,只使用-g選項而沒有使用優(yōu)化選項,編譯器會提示警告信息。

·  --no_debug:該選項禁止生成當前編譯的調試表。這是默認選項。

·  --no_debug_macros:當與-g一起使用時,該選項禁止生成預處理程序宏定義的調試表條目(Entry)。這會減小調試映像的大小。-gt-p是-gtp的同義字。

--debug_macros 當與 -g 一起使用時,該選項啟用生成預處理程序宏定義的調試表條目。這是默認選項,會增加調試映像的大小。一些調試程序忽略預處理程序條目。

14.1.3  優(yōu)化選項

使用-Onum選擇編譯器的優(yōu)化級別。優(yōu)化級別分別為。

·  -O0:除一些簡單的代碼編號之外,關閉所有優(yōu)化。使用該編譯選項可以提供最直接的優(yōu)化信息。

·  -O1:關閉嚴重影響調試效果的優(yōu)化功能。使用該編譯選項,編譯器會移除程序中未使用到的內聯(lián)函數(shù)和靜態(tài)函數(shù)。如果與 --debug 一起使用,該選項可以在較好的代碼密度下,給出最佳調試視圖。

·  -O2:生成充分優(yōu)化代碼。如果與 --debug 一起使用,調試效果可能不令人滿意,因為目標代碼到源代碼的映射可能因為代碼優(yōu)化而發(fā)生變化。

 

如果不生成調試表,這是默認優(yōu)化級別。

·  -O3:最高優(yōu)化級別。使用該優(yōu)化級別,使生成的代碼在時間和空間上尋求平衡。該選項常和-Ospace和-Otime配合使用。

·  -O3 –Otime:使用該選項編譯的代碼比-O2 –Otime選項編譯的代碼,在執(zhí)行速度上要快,但占用的空間也更大。

·  -O3 -Ospace:產(chǎn)生的代碼比使用-O2 -Ospace選項產(chǎn)生的代碼尺寸小,但執(zhí)行效率可能會差。

如果要使編譯的代碼更側重于代碼的尺寸或執(zhí)行效率(兩者往往不可兼得),可以使用下面的編譯選項。

·  -Ospace:指示編譯程序執(zhí)行優(yōu)化,以延長執(zhí)行時間為代價減小映像大小。例如,由外部函數(shù)調用代替內聯(lián)函數(shù)。如果代碼大小比性能更重要,則使用該選項。這是編譯器的默認設置。

·  -Otime:指示編譯程序執(zhí)行優(yōu)化,以增大映像大小為代價縮短執(zhí)行時間。如果執(zhí)行時間比代碼大小更重要,則使用該選項。例如,它編譯:

while (expression) body;

為:

if (expression) {

       do body;

       while (expression);

}

如果既不指定-Otime也不指定-Ospace,則編譯器默認使用-Ospace。可使用-Otime編譯代碼中對時間要求嚴格的部分,使用-Ospace編譯其余部分。但不能在同一編譯程序調用中同時指定-Otime和-Ospace。

14.1.4  AAPCS選項

ARM結構過程調用標準AAPCS(Procedure Call Standard for the ARM Architecture)是ARM體系結構二進制接口ABI(Application Binary Interface for the ARM Architecture【BSABI】)標準的一部分。使用該標準可以很方便的執(zhí)行C和匯編語言的相互調用。

編譯程序時,使用--apcs選項可以指定所使用得AAPCS標準的版本。如果沒有指定--apcs或--cpu選項,則編譯器使用下面默認編譯選項。

--apcs /noswst/nointer/noropi/norwpi --cpu ARM7TDMI --fpu softvfp

有關AAPCS的詳細信息,請參加ARM相關文檔。

14.1.5  編譯選項對代碼生成影響示例

本節(jié)舉例說明編譯器的優(yōu)化選項如何影響代碼生成。

1.使用-O0選項

下面的例子顯示了即使使用-O0編譯選項對代碼進行編譯時,有些冗余代碼還是會被編譯器自動清除。

int f(int *p)

{

     return (*p = = *p);

}

使用armcc  -c  -O0對源程序進行編譯,生成的匯編代碼如下所示。

f

   MOV r1, r0

   MOV r0, #1

   MOV pc, lr

通過上面的例子可以看到,編譯出的最終代碼中沒有加載(Load)指針P的值,變量*p被編譯器優(yōu)化掉了。如果不想讓編譯器對變量*p做優(yōu)化,可以使用“volatile”對變量進行聲明。下面的例子,顯示了將變量聲明為“volatile”類型后,使用armcc編譯(-O2的優(yōu)化級別)后的結果。

f

  LDR   r1,[r0]

  LDR   r0,[r0]

  CMP   r1,r0

  MOVNE r0,#0

  MOVEQ r0,#1

  MOV   pc,lr

另外,編譯的代碼中的“MOV r1, r0”并沒有實際意義,只是為了方便調試程序時設置斷點使用。

2.冗余代碼的清除

下面例子顯示了一段急待優(yōu)化的代碼。

int dummy()

{

   int a=10, b=20;

   int c;

   c=a+b;

   return 0;

}

當使用arm –c –O0進行編譯時,產(chǎn)生的匯編碼如下所示。

    dummy:

    0000807C E3A0100A  MOV r1,#0xa

>>> REDUNDANT#3 int a=10,b=20;

    00008080 E3A02014  MOV r2,#0x14

>>> REDUNDANT#5 c=a+b;

    00008084 E0813002  ADD r3,r1,r2

>>> REDUNDANT#6 return 0;

    00008088 E3A00000  MOV r0,#0

>>> REDUNDANT#7 }

    0000808C E12FFF1E  BX r14

從上面的匯編輸出可以看到,編譯器并沒有對程序中的冗余變量做任何工作。但上面這段代碼在編譯時,編譯器會給出警告,警告信息如下所示。

Warning :  #550-D: variable "c" was set but never used

Redundant.c line 4   int c;

但如果將編譯器的優(yōu)化級別提高,如使用arm –c –O1命令,則編譯器輸出的匯編代碼如下所示。

    dummy:

    0000807C E3A00000  MOV      r0,#0

>>> REDUNDANT#7 }

    00008080 E12FFF1E  BX       r14

從上面的例子看出,當優(yōu)化級別提高到-O1時,程序中的冗余變量就會被清除。

 

3.指令重排

當指定編譯器對程序代碼進行優(yōu)化時,編譯器會對程序中排列不合理的匯編指令序列進行重排(只有在-O1及其以上的優(yōu)化級別中才有),重排的目的是為了減少指令互鎖(interload)。所謂互鎖就是指如果一條指令需要前一條指令的執(zhí)行結果,而這時結果還沒有出來,那么處理器就會等待。這被稱為流水線冒險(pipeline hazard),也被稱為流水線互鎖。

下面例子顯示了對同一程序使用代碼重排和不使用代碼重排所產(chǎn)生的匯編碼的區(qū)別。÷

程序的源代碼如下所示。

int f(int *p, int x) 

         { return *p + x * 3; }

使用-O0選項對代碼進行編譯(無代碼重排),產(chǎn)生的結果如下所示。

ADD r1,r1,r1,LSL #1

LDR r0,[r0,#0]

ADD r0,r0,r1 ; ARM9上產(chǎn)生互鎖

MOV pc,lr

使用-O1選項對代碼進行編譯(存在代碼重排),產(chǎn)生的結果如下所示。

ADD r1,r1,r1,LSL #1

ADD r0,r0,r1

MOV pc,lr

指令重排發(fā)生在寄存器定位和代碼產(chǎn)生階段。代碼重排只對ARM9及其以后的處理器版本產(chǎn)生作用。當使用代碼重排時,代碼的執(zhí)行速度平均提供4%??梢允褂?zpno_optimize_
scheduling編譯選項關閉代碼重排。

4.內嵌函數(shù)

通常情況下,如果不指定編譯選項,編譯器會將一些代碼量小且調用次數(shù)少的函數(shù)內嵌進調用函數(shù)中。如果某段子程序在其他模塊中沒有被調用,請使用Static關鍵字將其標識。

編譯選項的--autoinline和--no_autoinline可以作為內嵌函數(shù)的使能開關。--no_autoinline選項為-O0和-O1選項的默認選項,但如果指定-O2或-O3的優(yōu)化選項,編譯器將默認使用--autoinline選項。

有關內嵌函數(shù)的詳細信息,請參見本書內嵌函數(shù)一節(jié)。

下面的例子顯示了同一段程序,使用內嵌功能和不使用內嵌功能編譯出的不同結果。

要編譯的源文件如下。

int bar(int a)

{

      a=a+5;

      return a;

}

int foo(int i)

{

      i=bar(i);

      i=i-2;

      i=bar(i);

      i++;

      return i;

}

下面的匯編程序為不使用內嵌功能時編譯出的結果。

bar

     ADD      r0,r0,#5

     MOV      pc,lr

foo

     STR      lr,[sp,#-4]!

     BL       bar

     SUB      r0,r0,#2

     BL       bar

     ADD      r0,r0,#1

     LDR      pc,[sp],#4

下面的匯編碼是使用內嵌功能時編譯出的結果。

foo

     ADD      r0,r0,#5

     SUB      r0,r0,#2

     ADD      r0,r0,#5

     ADD      r0,r0,#1

     MOV      pc,lr

從上面的例子可以看出在使用內嵌功能時,函數(shù)間的相互調用減少了數(shù)據(jù)的壓棧和出棧,節(jié)省了程序的執(zhí)行時間,但如果內嵌函數(shù)被調用多次會造成空間的浪費。

Arm

Arm

ARM公司是一家知識產(chǎn)權(IP)供應商,主要為國際上其他的電子公司提供高性能RISC處理器、外設和系統(tǒng)芯片技術授權。目前,ARM公司的處理器內核已經(jīng)成為便攜通訊、手持計算設備、多媒體數(shù)字消費品等方案的RISC標準。公司1990年11月由Acorn、Apple和VLSI合并而成。

ARM公司是一家知識產(chǎn)權(IP)供應商,主要為國際上其他的電子公司提供高性能RISC處理器、外設和系統(tǒng)芯片技術授權。目前,ARM公司的處理器內核已經(jīng)成為便攜通訊、手持計算設備、多媒體數(shù)字消費品等方案的RISC標準。公司1990年11月由Acorn、Apple和VLSI合并而成。收起

查看更多

相關推薦

電子產(chǎn)業(yè)圖譜

華清遠見(www.farsight.com.cn)是國內領先嵌入師培訓機構,2004年注冊于中國北京海淀高科技園區(qū),除北京總部外,上海、深圳、成都、南京、武漢、西安、廣州均有直營分公司。華清遠見除提供嵌入式相關的長期就業(yè)培訓、短期高端培訓、師資培訓及企業(yè)員工內訓等業(yè)務外,其下屬研發(fā)中心還負責嵌入式、Android及物聯(lián)網(wǎng)方向的教學實驗平臺的研發(fā)及培訓教材的出版,截止目前為止已公開出版70余本嵌入式/移動開發(fā)/物聯(lián)網(wǎng)相關圖書。企業(yè)理念:專業(yè)始于專注 卓識源于遠見。企業(yè)價值觀:做良心教育、做專業(yè)教育,更要做受人尊敬的職業(yè)教育。