論Viterbi算法

[摘要]雖然Texas Instrument推出的C6000系列DSP使對信號處理的能力顯著提高,但對信息處理能力要求的不斷提升使提對DSP程序的優化越來越成爲DSP開發工作中非常重要的環節。本文討論2Mbps視頻數據流的Viterbi算法的移植與優化策略、技巧。

 

[關鍵字]Viterbi 、算法、編程

  
  一、概述


  Viterbi譯碼算法是由Viterbi於1967年提出的一種最大似然譯碼辦法,譯碼器根據接收序列R按最大似然準則力圖找出正確的原始碼序列。隨着大規模集成電路技術的發展,採用Viterbi算法的卷積編碼技術已成爲廣泛應用的糾錯方案。Viterbi譯碼過程可用狀態表示。Sj,t和Sj N/2,t表示t時刻的兩個狀態。在t1時刻,這兩個狀態值根據路徑爲0或者1,轉移到狀態S2j,t1和S2j1,t1。每一種可能的狀態轉移都根據接收到的有噪聲的序列R計算路徑度量,然後選擇出各個狀態的最小度量路徑(倖存路徑)。Viterbi算法就是通過在狀態中尋找最小量路徑向前回溯L步,最後得到的即爲譯碼輸出。
  在卷積碼(n,k,m)表示法中,參數k表示每次輸入信息碼位數,n表示編碼的輸出卷積碼位數,m稱爲約束長度(一些書中採用k=m1爲約束長度,也可稱(2,1,2)碼網格圖,r=k/n稱爲信息率,即編碼效率。本文運用的是(2,1,3)碼,約速長度爲2,狀態數爲22=-4。
  TMS320C6000系列DSPs(數字信號處理器)是TI公司推出的一種並行處理的數字信號處理器,是基於TI的VLIW技術的。本文采用的是TMS320C6211。該處理器的工作頻率經過倍頻可達到150MHz,每個時鐘週期最多可並行執行8條指令,從而可以實現1200MIPS定點運算能力。
  
  二、編程實現及優化


  根據C6000的軟件編程流程,對Viterbi算法的編程及其優化可分爲三個階段來進行。這三個階段分別爲:開發C代碼、優化C代碼、編寫線性彙編代碼。在代碼編寫和優化過程中,這三個階段不是都要經過的,只要在某一階段已經滿足了算法代碼的功能和性能要求,就不必繼續進行下面的階段。
  1.開發C代碼。這一階段完全是根據任務要求來完成算法的代碼編寫工作。在C6000的集成開發環境CCS(Code Composer Studio)下進行代碼的編譯和功能驗證,然後可用CCS的調試工具(如Profiler),利用在程序中設置斷點的辦法可找出程序中耗時最多、最影響整體性能的代碼段。爲改進代碼性能,可進入下一階段。
  在驗證了算法代碼實現功能並以設置斷點的辦法測試代碼的性能,這段循環運行耗時(時鐘週期)爲1790。顯然,性能不能達到要求,就要進入代碼優化的第二階段了。
  2.一般在代碼調試中,最影響性能的是其中的循環代碼段。而軟件流水是一種用於安排循環內的指令運行方式,儘可能充分利用CPU的功能單元等資源,使循環的多次迭代能夠並行執行的一種技術。在C6000的C/C編譯器裏,採用軟件流水使編譯出來的程序代碼優化是一項核心技術。所以在進一步優化之前,需要調整並儘可能簡化代碼的結構並去除影響軟件流水的因素使其能夠被編譯器充分流水,這對大幅提高整個代碼的性能非常重要。
  所以,在考慮影響因素同時對Viterbi算法的循環代碼進行如下調整;
  *運用內聯函數(intrinsics)替代複雜的C語言程序。C6000編譯器提供了許多intrinsics,可以快速優化C代碼。Intrinsics是直接參與C6000彙編指令映射的內聯函數。在這裏運用了_extu(x,y,z),以簡化其中hamm代碼部分。

  *儘管軟件流水循環可包含intrinsics,但不能包含函數調用。所以需要把調用函數hamm在循環中展開實現。
  *由於編譯器僅對最內部的循環執行流水,所以爲了提高性能應儘可能創造一比較大的內循環。在代碼中可以看到,在最內循環是i的兩次循環,僅對它進行流水,對整個代碼的性能提高不大。所以一個想法是,將i和j循環全部展開,使編譯器直接面對最大的C循環以最大發揮軟件流水的作用。
  *另外,展開循環後代碼中的變量如果可以確定其運行中的值,就儘量以實值代入,這樣減少了變量個數,也就是減少了所需分配的寄存器個數(C62xxCPU中有32個寄存器)。
  在進行上述調整後運行代碼,進行測試發展,性能沒有太大改善;用編譯器反饋表(feedback)進行觀察發現,循環並沒有發生流水。這是爲什麼呢?原來在展開內部循環後導致C循環內代碼尺寸太大,需要的寄存器數目大於C62XX的32個寄存器,所以不能進行軟件流水。爲了解決這問題,需要簡化循環或將循環拆成幾個小循環。在這裏先將C循環內部的小循環展開,然後將其拆成分別完成度量計算和累計度量比較的兩個循環,這樣就減小了每個循環中的代碼尺寸。
  其中accum_err_metric[i]爲狀態i的累計度量值,branch_metric_array[][]爲計算得到的各時刻量值,原來代碼中的二維數碼mextstate[i]被以實值代入。另外在編程考慮時要注意一點:程序中對數據的取命令(load)是非常耗時的,所以應考慮儘量減少對數據數組的操作。在上面程序的改進中,先從數組中取出要進行循環處理的累計度量值,再運用accumXX及addX作爲各次迭代的中間變量,在循環後將最後的結果放入數據。這樣就大大減少了對數組的操作,從而使優化進一步提高。
  *編譯器優化選項的選擇。C6000 C/C編譯器提供了大量的編譯選項,供用戶在編譯時選擇運用。這些選項中的部分會直接影響或控制編譯器優化過程,因而會影響編譯輸出的代碼優化性能。選擇適合的選項,能極大地提高優化性能。在這裏運用的優化選項有:
  -03——表示可得到最高程度的優化,編譯器將執行各種優化循環的辦法,如軟件流水、循環展開等等。
  -pm——在運用-o3選項進行優化時儘量聯合運用-pm選項,-pm是程序級優化,使優化器訪問整個程序,瞭解循環次數。
  -op1——運用了外部變量,但未運用外部函數調用。
  -g——使能符號調試和彙編源語句調試。
  另外,還有不少考慮因素和優化調試辦法,如消除存儲器相關性、對短字長的數據運用寬離長度的存儲器訪問等。
  測試結果:在經過上述優化後運行耗時(時鐘週期)已降爲406個,代碼的性能大爲提高,已經滿足系統要求。
  3.由上述可知,在程序中影響性能的主要代碼通常是循環。優化一個循環較好的辦法是抽出這個循環,使之成爲一個單獨文件,對其進行重新編寫、重新編譯和單獨運行。爲了提高代碼性能,對影響速度的關鍵C代碼段可以用線性彙編重新編寫,運用匯編優化器進行優化後效率是非常高的。若代碼性能仍未滿足要求,則可進行第三階段,將其抽出,全部用線性彙編來編寫,在代碼中以函數的形式將改寫的部分調用。
  編寫線性彙編的工作量大,開發週期長且不能像C語言程序一樣移植到其他類型DSP上,所以儘量在第一、二階段完成工作。若仍滿足不了性能要求,則再對關鍵代碼段進行線性彙編的改寫。
  本文在TI的TMS320C6211硬件平臺上實現了針對(2,1,3)卷積碼的Viterbi譯碼算法的優化,滿足了系統對2Mb/s的視頻數據流進行實時處理的要求。在對1Kb數據處理時,整個代碼運行耗時約爲2100個時鐘週期,DSP資源佔用率不到40%。現在隨着理論技術的不斷突破,尤其是實時圖像壓縮技術如H.264等新一代技術標準的提出,如何利用高速DSP進行復雜算法的開發與實現,已成爲研究的重點。所以本文以Viterbi算法爲例介紹TMS320C6000的編程優化,有較強實用性。

 

 

 


 [參考文獻]

 
  [1]王曉東:《計算機算法設計與分析》,電子工業出版社2007年5月版。
  [2]梁循:《數據挖掘算法與應用》,北京大學出版社2006年4月版。
  [3]Pieter Adriaans:《文法推斷:算法與應用》,湖南文藝出版社2002年12月版。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章