構建英漢機器翻譯項目

原創

2020-02-23 02:07

機器翻譯是個非常複雜的問題，其應用價值也非常的，但是根據在網絡上查找到的資料，也許SMT將是MT的救命稻草。但是我們的問題不是統計學能夠簡單完成的，我覺得機器翻譯的解決方法必然是通過機器學習來解決。雖然說我們人學習語言的過程中充滿了創造，但不可否認，這個過程的基礎和很大比例來源於對已知語言的模仿。Alice的成功給了我們很大的啓發，就是如果想建立起一個解決所有問題的方案，那麼可能會失敗但是建立一個局部的、近似的解決問題的方法，是可行的。只要我們有足夠的語言模式，就可以逐漸的來逼近可靠的結果。

比較一下對於我個人和身邊的人的需要，英漢翻譯的需求大於漢英翻譯。看到很多的中英機器翻譯系統都是雙向，只是我覺得英漢翻譯和漢英翻譯是區別很大的2個問題，只要能夠做好一個，就已經很難。

下面我們來假定構建一個英漢的機器翻譯系統：

   對英語的詞法和句法的分析是必須的，相對而言英語研究在這個方面遠比漢語成熟。
   使用 OpenNLP 和 snowball 就可以來解決

   然後對於詞的處理也許需要使用 WordNet 很多詞都是相關的

   然後需要一個詞對應的英-漢詞典實際的詞對應雙向應該都不能有問題
   這個工作現在看來必須自己來做不過要想容易的話還是有跡可尋

   最基礎的準備裏面要有一個英漢雙語對齊的語料庫

   痛苦的是我們還沒有開始研究算法之前，基礎資源的準備就已經耗費了大量的精力。
   也許我們應該以更加開放的精神來投入機器翻譯領域因爲最後可能的所有人都會是這項研究的受益者

   具體系統的規則相同使用aiml類似的結構 alice的成功 aiml是個很重要的原因
   有理由相信這個優點我們可以用在其它的方面

   下面存在2個問題
     1 通過機器學習和統計的方法類聚出語法模版
     2 語法模版應用過程中的根據語境選詞

   我想我們可以這樣的假設，就是我們認爲我們的系統是獨立的，它的最小的處理單元是句子，沒有必要對句子間的語境進行處理。
   因爲對於人來說，單獨的一句和混合在其它句子的相同一句翻譯的時候很多時候也是不一致的但是也許那只是一個更加婉轉的說法。
   我們也可以去信任每個說話的人他們可以保證自己所說的每個句子在單獨存在的時候保持獨立和正確的意思。
   因此，我們的系統只是針對句子進行處理

   英語語法的變化並不是無限的   變化更多的在於不同語境的選詞問題
   一個詞的意義其實是在多個語境中被人抽取出來的不同的語境有不同的意思而我們的詞典對詞義的規定並不是一個完美的方法
   所以我們可以通過一個類似的NN系統來把信息還原到語境中去選擇出語境近似的釋義

   動手來實現這個系統是一個挑戰性的工作好在我並不是一個只說不做的人   整個系統已經有了雛形還沒有完全跑通完成了主要模塊的70%工作不過模塊們是可以單獨使用的。

   這個項目在基礎開發完成以後會作爲一個開源的系統   （不要擔心這個真的會開源本人在開源領域已經開放過2個項目還算有些信譽）

   今天寫下這些總結一下如果有人能夠看到也許你幫助我們我們也會來幫助你

                                                                    寧夏大學張冬 2007.1.6

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

構建英漢機器翻譯項目

C# 判斷句子中是否含有中文

中文分類搜索引擎 C# 源代碼下載

中科院ICTCLAS詞典解析

可用的在線中英文語料庫

C# 清除某個標籤的屬性值源代碼

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結