基本概念
- 自然語言理解, NLU, Understanding
形式化(標準化)的數學符號、模型, 模擬人的語言能力
- 計算語言學, Computational Linguistics
數學模型
- 自然語言處理, NLP
更寬泛的概念。
利用計算機, 對人類的書面和口頭形式的自然語言的信息進行處理和加工
- 語言
一個符號系統, 意義(知識) + 規則(語法)
- 第一系統 --- 語音系統 Sound System
第二系統 --- 文字系統(書寫系統) Writing System
- 口頭語和書面語
- 語言和言語
- 語言單位
單個字符, 詞(word), 短語(Phrase), 句子(Sentence), 語段, 篇章(Utterence)
- 自然語言的作用
思維的載體, 交流的工具
人類歷史以語言文字形式記載和流傳的只是佔總量的 80% 以上, 圖表佔的比例很小
- 基本問題
如何讓計算機具有語言處理的能力,如何讓計算機實現自動的或人機互助的語言處理功能
如何利用計算機處理海量的語言信息,自動處理,知識挖掘,有效利用
- 學科特點 --- 交叉性學科
語言學:形式語言文法,詞典、語料庫(標註、分詞等)、知識庫
數學:概率論、統計學、信息論,自動機、Markov模型、HMM模型
計算機科學:自動機器學習,自動人工智能,狀態空間的圖搜索算法
心理語言學:研究人類理解自然語言的機制
- 語言學基本知識:語言研究的基本範疇
例子
- 英漢翻譯
Miss Smith put two books on this table
-
形態分析
詞形還原, Lemmatization, 變成原型
詞彙符號化, Tokenization, 相當於中文分詞
Miss Smith put
語法分析, Syntac, 主謂賓, 語音合成, 讀的時候的節奏變化
[Miss Smith] [put] [two books] [on the table]
詞彙轉換(單詞轉換)
短語轉換(語序轉換)
優化
自然語言處理研究的不同層次
- 應用系統(數字圖書館,電子商務,電子政務,自助服務,語言學習)
- 應用技術研究(自動問答,機器翻譯,信息檢索,文本挖掘,自動校對,信息抽取)
- 基礎研究(分詞,標註,切分)
- 資源建設
- 語言學知識庫建設
自然語言處理的應用
- 基於文本的應用
關鍵詞(同近義詞,模糊,自動理解自然語言)搜索引擎
翻譯
自動文摘,消息抽取
- 基於對話的應用:
問答系統
教學系統
問題
- 機器能處理自然語言,但機器能理解自然語言嗎
- 結構主義,理性主義:理解語言的步驟,但人自己可能也說不清自己理解語言的步驟
經驗主義,功能主義:機器的表現與人相同
圖靈測試:如果通過自然語言問答,一個人無法識別和他對話的是人還是機器,那麼就應該承認機器具有智能
困難
- 歧義 ambiguity