統計自然語言處理學習 (序及第一章)
自然語言處理定義
- 是一門交叉學科,包括自然語言學,數學(代數,概率)
- 自然語言處理要研製表示語言能力(linguistic competence)和語言應用(linguistic performance)的模型,建立計算框架來實現,這樣的語言模型,,根據這樣的模型設計各種實用系統,並探討這些使用系統的測評技術。
統計自然語言處理應用
機器翻譯,語音翻譯,語音合成,文字識別,文本分類,信息檢索,問答系統,信息抽取,口語信息處理,人機對話系統。
自然語言處理的方法
基於規則的自然語言處理(理性主義)
- 人的大部分語言知識與生俱來,由遺傳決定
- 主張建立符號處理系統,由人工整理和編寫的初始語言知識表示體系(規則),構造推理程序。
- 系統根據規則和程序,將自然語言理解爲符號結構。
處理流程
- 由詞法分析器按詞法規則對單詞進行詞法分析。
- 語法分析器按語法規則對句子進行語法結構分析。
- 最後按變換規則將語法結構映射到語義符號。
優點
- 可以有效處理語言學問題,如長距離依存問題,長距離主謂一致問題,wh移位問題。
- 模型可以雙向使用,即可用於分析,亦可用於生成。
- 使用面廣,可在語音,形態研究中使用,也可在句法,語義,語用,篇章分析中使用。
- 與一些高效算法兼容。
缺點
- 語言模型脆弱,魯棒性差。
- 不能通過機器學習的方法自動獲得。需要大量不同領域專家合作。
- 針對性強,很難移植向解決其他問題。
- 效果沒有基於經驗的方法好,不能根據數據的類型與數量有所調整。
基於統計的自然語言處理(經驗主義)
- 假定人腦具有一定的認知能力
- 假定具有處理聯想(association),模式識別(pattern recognition),通用化(generalization)處理的能力,以此爲基礎掌握具體的自然語言結構。
- 又稱爲統計自然語言處理方法(statistical natural language processing)。
- 以大量文本(語料(corpus))作爲基礎。
處理流程
- 通過建立特定的數學模型,學習複雜廣泛的語言結構。
- 利用統計學,模式識別,和機器學習等方法來訓練模型的參數,以擴大語言使用的規模。
優點
- 可以自動或半自動的從語料中提取模型。
- 訓練數據規模越大,效果越好。
- 很容易與基於理性的方法結合。
- 可以模擬模糊概念,如“很少,若干”。
缺點
- 運行效率與統計模式中符號的類別多少成正比。
- 爲特殊領域訓練模型時,容易出錯,且難以避免。因爲**訓練語料庫的質量很大程度上決定了基於統計的經驗主義方法的結果。
- 很容易出現數據稀疏問題。(無用數據多,矩陣中,既,0元素多)
總結
在機器翻譯問題解決之前,永遠沒有過時的理論和方法,也絕不該有哪一種方法可以唯我獨尊。兩種方法要結合使用追求最好的結果。
中文信息處理遭遇的問題
生詞識別問題,歧義消解問題,漢語自動分詞問題,詞性定義規範問題