現在位置：范文先生網>理工論文>電子通信論文>TMS320C62X DSP的混合編程研究

TMS320C62X DSP的混合編程研究

時間：2023-02-21 00:06:04 電子通信論文我要投稿

相關推薦

摘要：目前，Ｃ語言和匯編語言的混合編程已經在ＴＩ公司的ＴＭＳ３２０Ｃ６２Ｘ上成為一種最流行的編程方法。闡述了基于ＴＭＳ３２０Ｃ６２Ｘ的Ｃ語言和匯編語言混合編程應遵循的接口規范以及并行匯編代碼的編寫。給出了一個基于ＴＭＳ３２０Ｃ６２Ｘ的運動補償的混合編程設計實例。

關鍵詞：DSP Ｃ語言并行匯編混合編程

TMS320C62X DSP的混合編程研究

ＴＭＳ３２０Ｃ６２Ｘ是美國德州儀器公司?ＴＩ?的新一代高性能定點數字信號處理器（ＤＳＰ）芯片。基于ＤＳＰ的軟件設計問題，就是采用編程語言進行算法實現并使程序效率盡量滿足實時性要求。ＴＩＤＳＰ的軟件設計可以采用匯編語言、高級語言?Ｃ／Ｃ＋＋?以及Ｃ語言與匯編語言的混合編程。完全采用匯編語言編程復雜性高、開發周期長，而完全采用Ｃ語言編程則程序的執行效率相對較低，不能滿足實時性的要求。為了設計出性價比最好、開發周期較短、比較復雜的ＤＳＰ系統，可以采用混合語言編程，把Ｃ語言和匯編語言的優點有效地結合起來。Ｃ語言和匯編語言的混合編程有三種形式：在編寫Ｃ語言代碼中插入匯編語句?只需在匯編語句兩邊加上雙引號和括號，在括號前面加上標識ａｓｍ，如ａｓｍ?“匯編語句”?；在編寫Ｃ代碼的過程中調用內聯函數?ＴＭＳ３２０Ｃ６２Ｘ中有一些直接映射為內聯的Ｃ６０００指令的特殊函數，內聯函數用前下劃線?＿?表示，使用時同調用Ｃ語言的庫函數一樣調用它，如ｂ＝＿ｎａｓｓｅｒｔ?Ｎ＞＝１０?；匯編代碼以Ｃ代碼可以調用的函數出現。本文采用第三種形式。為了使程序代碼的執行具有盡可能高的執行效率，本文將著重點放在并行匯編代碼的編程，而不是線性匯編代碼的編程。

１Ｃ語言與匯編語言混合編程的接口規范和標準

用Ｃ語言編寫的代碼中核心代碼常常只是整個程序代碼的５％，但是卻占用了整個程序約９５％的執行時間。對這些核心代碼采用匯編語言編寫，可以大大提高代碼的執行效率，而Ｃ語言程序可以象調用Ｃ程序的一個函數那樣去調用這個匯編函數。為了實現Ｃ語言和匯編語言的混合編程，需要注意一些規定的接口規范和標準。

（１）采用Ｃ語言和匯編語言混合編程時，ＴＭＳ３２０Ｃ６２Ｘ定義了一套嚴格的寄存器規則。這個寄存器規則表明了編譯器如何使用這些寄存器以及在函數調用過程中如何保護這些寄存器。

調用函數保護了寄存器Ａ０～Ａ９和Ｂ０～Ｂ９，這就使得在編寫匯編程序的時候可以任意的使用這幾個寄存器而不需保護它們。但當使用到寄存器Ａ１０～Ａ１５或Ｂ１０～Ｂ１５的時候，則必須自行對它們進行保護。長型、雙精度型或者是長雙精度型的數據對象要放在一個奇／偶寄存器對（如Ａ１：Ａ０）里，奇數寄存器存放著數據的符號位、指數位和最高有效位，而偶數寄存器則存放著低有效位。

在默認情況下，Ａ３用作返回結構指針寄存器，Ｂ３用作被調用函數返回地址寄存器，Ａ１５用作幀指針寄存器，Ｂ１４用作數據頁指針寄存器，Ｂ１５用作堆棧指針寄存器。這些寄存器在被調用的匯編函數中用到時都要進行保護。

（２）調用函數將參數傳遞到被調用函數中，前十個參數將被從左到右依次放入寄存器Ａ４、Ｂ４、Ａ６、Ｂ６、Ａ８、Ｂ８、Ａ１０、Ｂ１０、Ａ１２和Ｂ１２，如果傳遞的參數是長型、雙精度型或者是長雙精度型，則將參數依次放入寄存器組Ａ５：Ａ４、Ｂ５：Ｂ４、Ａ７：Ａ６等，并將剩下的變量按相反的順序放在堆棧里。注意，如果傳遞的參數是一個結構類型的參數，則傳遞的是該結構類型的地址。

（３）如果在Ｃ／Ｃ＋＋調用函數中做了正確的函數返回聲明，則被調用的匯編函數可以返回有效值。如果返回值是整型或３２位的浮點型，則放在寄存器Ａ４中返回；如果返回值是雙精度或是長雙精度型，則放在Ａ５：Ａ４中返回；如果返回值是一個結構類型，則將其結構的地址放在Ａ３中返回。

（４）編譯器為所有的外部對象指定一個鏈接時的名字。當寫匯編語言代碼時，必須用與這個名字相同的名字。對于只在匯編語言模塊中用到的變量的標識符，不能從下劃線開始。任何一個在匯編語言中聲明的對象都要使其在Ｃ／Ｃ＋＋中是可訪問的，那么在匯編語言中必須用．ｄｅｆ或．ｇｌｏｂａｌ將其聲明為外部變量。同樣在匯編語言中要引用Ｃ／Ｃ＋＋函數或對象時，必須用．ｒｅｆ或．ｇｌｏｂａｌ將Ｃ／Ｃ＋＋對象聲明，這將產生一個在匯編語言函數中沒有定義的由鏈接器辨識的外部引用。

還有一些細節也需要注意，如中斷子程序必須把該子程序將要用到的所有寄存器進行入棧處理；除了全局變量的初始化外，匯編語言的模塊不得因為任何目的而使用．ｃｉｎｉｔ段；匯編代碼的結束需用指令Ｂ．ｓ２Ｂ３將程序執行從被調用函數返回到Ｃ語言調用函數中。

２并行匯編代碼的編寫

Ｃ６０００的匯編代碼格式如下：

標號：并行標記 ?條件寄存器?指令助記符功能單元操作數；注釋。如：

ＬＤＷ　．Ｄ２ ?Ｂ４，Ｂ２

｜｜ ?Ａ１?ＳＨＬ．Ｓ２ＸＡ４，Ｂ４；用到了交叉數據通道

ＴＭＳ３２０Ｃ６２Ｘ片內有８個并行的處理單元，分為相同的兩組。其體系結構采用超長指令字（ＶＬＩＷ）結構，一個指令包里的８條并行指令可同時分配到８個處理單元并行運行。這種一個指令包里有８條指令并行執行也給并行匯編代碼的編寫帶來很多要考慮的問題?具體如下：　

（１）ＴＭＳ３２０Ｃ６２Ｘ指令的執行可以用延遲間隙來說明。延遲間隙在數量上等于從指令的源操作數被讀取到執行的結果可以被訪問所用的指令周期。如對于

乘法指令（ＭＰＹ），源操作數從第ｉ個周期被讀取，則其計算結果在第（ｉ＋２）個周期才可用。

（２）使用相同功能單元的兩條指令不能被安排為并行指令。

（３）使用同一條交叉通路的兩條指令不能被安排在同一個執行指令包中，這是因為從寄存器組Ａ～Ｂ或者從Ｂ～Ａ都只有一條交叉通路。　　

?４?將數據讀入到（或存儲自）相同寄存器組的兩條讀（寫）指令不能被安排在同一個執行包中。

?５?每一個執行包里只能允許每一寄存器組處理一個長定點類型數據。

?６?在一個指令周期內對同一寄存器讀取多于四次是不允許的，但條件寄存器不在此限制之列。在一個指令周期內，不能同時存在兩條寫入同一寄存器的指令，只有在寫操作不是在同一個指令周期發生時，才可以將具有同一目的地址的兩條指令安排并行。

３基于ＴＭＳ３２０Ｃ６２Ｘ的運動補償的混合編程設計實例

運動補償是ＭＰＥＧ－４標準中的一種重要算法。運動補償是指根據運動矢量在參考幀中找出參考塊。如果運動矢量的Ｘ分量和Ｙ分量都是整象素長度，則直接在參考幀中找出參考塊。如果為半象素長度，則需要通過內插運算計算出參考塊，計算出的參考塊需要加上解碼得出的誤差塊才能得到當前參考塊。本文給出了運動矢量的Ｘ分量和Ｙ分量都是整象素長度時的運動補償方法。根據運動矢量可直接在參考幀中找到參考塊（８×８）。完成此功能的Ｃ語言函數如下：

ｖｏｉｄｍｃ＿ｃａｓｅ＿ａ２?ｕｎｓｉｇｎｅｄｃｈａｒ ?ｐＳｒｃ? ｓｈｏｒｔＳｒｃＯｆｆｓｅｔ? ｓｈｏｒｔＳｒｃＷｉｄｔｈ? ｕｎｓｉｇｎｅｄｃｈａｒ ?ｐＤｓｔ? ｓｈｏｒｔＲｏｕｎｄＣｔｒｌ?

? 　　……

ｆｏｒ ?ｉ＝０? ｉ＜８? ｉ＋＋?

??ｔｍｐ＿Ｐ＿Ｄｓｔ＋ｉ? ＝ ??ｔｍｐ＿Ｐ＿Ｓｒｃ＋ｉ??

．．．．．．

參數運動矢量ＳｒｃＯｆｆｓｅｔ對４（４個字節為一個字，長３２位）的余數可能是０、１、２、３。當余數是０的時候，編譯后執行代碼是按字讀取（ＬＤＷ）的，這充分體現了ＴＭＳ３２０Ｃ６２Ｘ的優點，也使程序的運行效率比較高。而當余數不為０的時候，則可能是按字節讀取（ＬＤＢ）或是按半字讀取（ＬＤＨ），這使程序的運行效率較低。視頻的編碼和解碼都要用到運動補償來重構圖像，這是一個很費時的操作，而且其代碼也是圖像處理中的核心代碼，這樣就要求編寫高效的程序來完成此操作。為了使代碼的運行效率更高，且結合ＴＭＳ３２０Ｃ６２Ｘ的硬件特點，希望對于不同的運動矢量，做運動補償的時候都能采用按字讀取和存儲的方式。這需要對運動矢量參數除以４，根據余數調整指針，使指針始終指向字對齊方式?而在Ｃ程序中當前塊是ｃｈａｒ型的以字節方式存儲的，對其進行移位處理只能是一個字節一個字節地進行移位，這就使得在Ｃ程序中不能用和匯編程序同樣的方法來對程序進行優化?，如運動矢量除以４以后的余數為１，為了使要取的８個象素對準字訪問方式，則要按圖１進行操作。
(范文先生網www.ycxgx.cn收集整理)
根據運動矢量參數進行移位使其對準字訪問的核心代碼的程序為：

ＭＶＫ．Ｓ２　０ｘＦＦＦＣ?ｔｅｍｐ　；獲得地址的ＬＳＢ位

ＡＤＤ　．Ｌ１ＸｐＳｒｃ?ｏｆｆｓｅｔ?ｐＳｒｃ；參考塊第一個元素的

地址

ＡＮＤ　．Ｌ２Ｘ　ｐＳｒｃ?ｔｅｍｐ?ｔｍｐ＿ｐＳｒｃ；字對準訪問的地址

ＡＮＤ　．Ｓ１　０ｘ０００３?ｐＳｒｃ?ｒｓｈｉｆｔＡ　；用兩個ＬＳＢ位得

；到了需右移幾個字

ＳＵＢ　．Ｌ１　０ｘ０４?ｒｓｈｉｆｔＡ?ｌｓｈｉｆｔＡ；需左移幾個字

ＭＰＹ　．Ｍ１　ｒｓｈｉｆｔＡ?８?ｒｓｈｉｆｔＡ　；需右移的＃ｂｉｔ數

ＭＰＹ　．Ｍ１　ｌｓｈｉｆｔＡ?８?ｌｓｈｉｆｔＡ　；需左移的＃ｂｉｔ數

作為一個說明Ｃ語言與匯編程序混合編程的設計例子，采用并行匯編實現了這個函數的優化。這里只給出部分匯編程序：

．ｔｅｘｔ　　；將該段匯編代碼安排在．ｔｅｘｔ

段，當然通過在Ｃ語言中用

＃ｐｒｏｇｒａｍ＿ｓｅｃｔｉｏｎ也可以將其安排

在其它自己命名的段中。

．ｇｌｏｂａｌｍｃ

＿ｃａｓｅ＿ａ　；函數名，用．ｄｅｆ或．ｇｌｏａｌ對其進行

聲明，使得Ｃ代碼調用該函數

＿ｍｃ＿ｃａｓｅ＿ａ?　；標號，是Ｃ調用函數和匯編

被調用函數的接口處

……

．ａｓｇＢ１０，ｏｃｓｒ

．ａｓｇＢ１１，ｒｗ＿４　　　

ＳＴＷ．Ｄ２ｏｃｓｒ，?ｓｔａｃｋ－－?１?　；被調用函數用到了

Ｂ１０～Ｂ１５，Ａ１０

ＳＴＷ．Ｄ２ｒ＿ｗ４，?ｓｔａｃｋ－－?１?　；～Ａ１５的寄存器，則

需對它們保護

ＭＶＣ．Ｓ２ＣＳＲ，ｏｃｓｒ

ＡＮＤ．Ｓ２－２，ｏｃｓｒ，ｏｃｓｒ　　

ＭＶＣ．Ｓ２ｏｃｓｒ，ＣＳＲ；關閉某些中斷 ……

ｌｏｏｐ?

ＬＤＷ．Ｄ２ ?ｔｍｐ＿ｐＳｒｃ＋＋?ｓｒｃ＿ｗｉｄｔｈ１?，ｒ＿ｗ１

；讀取第一個字

ＬＤＷ．Ｄ１ ?ｐＳｒｃ＋＋?１?，ｒ－ｗ２；讀取第二個字

ＬＤＷ．Ｄ１ ?ｐＳｒｃ＋＋?ｓｒｃ＿ｗｉｄｔｈ２?，ｒ－ｗ３；讀取第三個字　ＳＨＲＵ．Ｓ２ｒ＿ｗ１，ｒｓｈｉｆｔＢ，ｒ－ｗ１

ＳＨＬ．Ｓ１ｒ＿ｗ３，ｌｓｈｉｆｔＡ，ｒ＿ｗ３

ＳＨＬ　　．Ｓ２Ｘｒ＿ｗ２，ｒｓｈｉｆｔＢ，ｒ＿ｗ４

ＳＨＲＵ．Ｓ１ｒ＿ｗ２，ｒｓｈｉｆｔＡ，ｒ＿ｗ２

ＯＲ．Ｌ２ｒ＿ｗ１，ｒ＿ｗ４，ｒ＿ｗ１

ＯＲ．Ｌ１ｒ＿ｗ１，ｒ＿ｗ３，ｒ＿ｗ２　；這幾步作了圖ａ

中的操作過程

ＳＴＷ．Ｄ２ｒ＿ｗ１，?ｐＤｓｔ＋＋?２?

ＳＴＷ．Ｄ１ｒ＿ｗ２，?ｔｍｐＤｓｔ＋＋?２? ；存儲取得的兩

個字

Ｂ．Ｓ２ｌｏｏｐ；延遲跳轉到標號

ｌｏｏｐ處，實現循環 ……

ＬＤＷ．Ｄ２Ｔ２ ?＋＋ｓｔａｃｋ?１?，ｒ＿ｗ４

ＬＤＷ．Ｄ２Ｔ２ ?＋＋ｓｔａｃｋ?１?，ｏｃｓｒ；對被調用函數

中自己保護的寄

存器作恢復處理

ＭＶＣ．Ｓ２ｏｃｓｒ? ＣＳＲ　；恢復中斷環境

Ｂ　　．Ｓ２Ｂ３　　　　　；返回到調用函數處

……

在ＴＩＣＣＳ上用其庫函數ＣＬＯＣＫ（）對這個算法的Ｃ語言程序和并行匯編程序分別進行了性能測試。在純Ｃ語言中，運動矢量對４的偏移量的余數為０時?約為３３個指令周期? 余數為１時約為９３個指令周期? 余數為２時約為５１個指令周期?余數為３時約為９３個指令周期?平均約耗時６７個周期。而將其用并行匯編代碼編寫?其周期數恒定為３３個指令周期。３３個指令周期的執行時間，對于這個函數基本上是達到了函數的最大優化。

由此可見，程序的核心算法的代碼用并行匯編程序編寫，而主體的Ｃ語言程序則以函數調用的形式調用這些核心算法的并行匯編函數，是提高程序代碼執行效率的一種有效方法。

【TMS320C62X DSP的混合編程研究】相關文章：

DSP編程的幾個關鍵問題08-06

LabVIEW與MATLAB混合編程08-06

VB與MATLAB混合編程探討08-06

DSP外掛Flash在系統編程及并行引導裝載方法08-06

通過JTAG口對DSP外部Flash存儲器的在線編程08-06

定點dsp與浮點dsp的比較08-06

TMS320C6000 DSP自動引導的方法和編程實現08-06

TMS320C32 DSP的中斷編程方法及BOOT功能實現08-06

DSP TMS320F206復位問題研究04-12