構建英漢機器翻譯項目


  機器翻譯是個非常複雜的問題,其應用價值也非常的,但是 根據在網絡上查找到的資料,也許SMT將是MT的救命稻草。但是我們的問題不是統計學能夠簡單完成的,我覺得機器翻譯的解決方法必然是通過機器學習來解決。雖然說我們人學習語言的過程中充滿了創造,但不可否認,這個過程的基礎和很大比例來源於對已知語言的模仿。Alice的成功給了我們很大的啓發,就是如果想建立起一個解決所有問題的方案,那麼可能會失敗但是建立一個局部的、近似的解決問題的方法,是可行的。 只要我們有足夠的語言模式,就可以逐漸的來逼近可靠的結果。

  比較一下對於我個人和身邊的人的需要,英漢翻譯的需求大於漢英翻譯。看到很多的中英機器翻譯系統都是雙向,只是我覺得英漢翻譯和漢英翻譯是區別很大的2個問題,只要能夠做好一個,就已經很難。

  下面 我們來假定構建一個英漢的機器翻譯系統:

   對英語的詞法和句法的分析是必須的,相對而言 英語研究在這個方面遠比漢語成熟。
   使用 OpenNLP 和 snowball 就可以來解決

   然後對於詞的處理 也許需要使用 WordNet 很多詞都是相關的

   然後需要一個 詞對應的 英-漢詞典  實際的詞對應 雙向應該都不能有問題
   這個工作現在看來必須自己來做  不過 要想容易的話 還是有跡可尋

   最基礎的準備裏面 要有一個英漢雙語對齊的語料庫 

   痛苦的是我們還沒有開始研究算法之前,基礎資源的準備就已經耗費了大量的精力。
   也許我們應該以更加開放的精神來投入機器翻譯領域  因爲最後可能的所有人都會是這項研究的受益者

   具體系統的規則相同 使用aiml類似的結構 alice的成功 aiml是個很重要的原因
   有理由相信 這個優點 我們可以用在其它的方面

   下面存在2個問題
     1  通過機器學習和統計的方法類聚出語法模版
     2  語法模版應用過程中的根據語境選詞

   我想 我們可以這樣的假設,就是我們認爲我們的系統是獨立的,它的最小的處理單元是句子,沒有必要對句子間的語境進行處理。
   因爲對於人來說,單獨的一句和 混合在其它句子的相同一句  翻譯的時候 很多時候也是不一致的  但是也許那只是一個更加婉轉的說法。
   我們也可以去信任每個說話的人  他們可以保證自己所說的每個句子在單獨存在的時候保持獨立和正確的意思。
   因此,我們的系統只是針對句子進行處理

   英語語法的變化並不是無限的   變化更多的在於不同語境的選詞問題
   一個詞的意義其實是在多個語境中被人抽取出來的 不同的語境有不同的意思  而我們的詞典對詞義的規定 並不是一個完美的方法
   所以我們可以通過一個類似的NN系統 來把信息還原到語境中去 選擇出語境近似的釋義

   動手來實現這個系統 是一個挑戰性的工作  好在我並不是一個只說不做的人   整個系統已經有了雛形  還沒有完全跑通 完成了主要模塊的70%工作 不過 模塊們是可以單獨使用的 。

   這個項目在基礎開發完成以後會作爲一個開源的系統   (不要擔心這個 真的會開源  本人在開源領域已經開放過2個項目 還算有些信譽)

   今天寫下這些 總結一下 如果有人能夠看到  也許你幫助我們  我們也會來幫助你
   
                                                                    寧夏大學  張冬 2007.1.6
 
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章