自然語言處理 --- L01

基本概念

  • 自然語言理解, NLU, Understanding

    形式化(標準化)的數學符號、模型, 模擬人的語言能力


  • 計算語言學, Computational Linguistics

    數學模型


  • 自然語言處理, NLP

    更寬泛的概念。

    利用計算機, 對人類的書面和口頭形式的自然語言的信息進行處理和加工


  • 語言

    一個符號系統, 意義(知識) + 規則(語法)


  • 第一系統 --- 語音系統 Sound System

    第二系統 --- 文字系統(書寫系統) Writing System


  • 口頭語和書面語


  • 語言和言語


  • 語言單位

    單個字符, 詞(word), 短語(Phrase), 句子(Sentence), 語段, 篇章(Utterence)


  • 自然語言的作用

    思維的載體, 交流的工具

    人類歷史以語言文字形式記載和流傳的只是佔總量的 80% 以上, 圖表佔的比例很小


  • 基本問題

    如何讓計算機具有語言處理的能力,如何讓計算機實現自動的或人機互助的語言處理功能

    如何利用計算機處理海量的語言信息,自動處理,知識挖掘,有效利用


  • 學科特點 --- 交叉性學科

    語言學:形式語言文法,詞典、語料庫(標註、分詞等)、知識庫

    數學:概率論、統計學、信息論,自動機、Markov模型、HMM模型

    計算機科學:自動機器學習,自動人工智能,狀態空間的圖搜索算法

    心理語言學:研究人類理解自然語言的機制


  • 語言學基本知識:語言研究的基本範疇


例子

  • 英漢翻譯

    Miss Smith put two books on this table


  • 形態分析

    詞形還原, Lemmatization, 變成原型

    詞彙符號化, Tokenization, 相當於中文分詞

    Miss
    Smith
    put

    語法分析, Syntac, 主謂賓, 語音合成, 讀的時候的節奏變化

    [Miss Smith] [put] [two books] [on the table]

    詞彙轉換(單詞轉換)

    短語轉換(語序轉換)

    優化


自然語言處理研究的不同層次

  • 應用系統(數字圖書館,電子商務,電子政務,自助服務,語言學習)


  • 應用技術研究(自動問答,機器翻譯,信息檢索,文本挖掘,自動校對,信息抽取)


  • 基礎研究(分詞,標註,切分)


  • 資源建設


  • 語言學知識庫建設


自然語言處理的應用

  • 基於文本的應用

    關鍵詞(同近義詞,模糊,自動理解自然語言)搜索引擎

    翻譯

    自動文摘,消息抽取


  • 基於對話的應用:

    問答系統

    教學系統


問題

  • 機器能處理自然語言,但機器能理解自然語言嗎


  • 結構主義,理性主義:理解語言的步驟,但人自己可能也說不清自己理解語言的步驟

    經驗主義,功能主義:機器的表現與人相同

    圖靈測試:如果通過自然語言問答,一個人無法識別和他對話的是人還是機器,那麼就應該承認機器具有智能


困難

  • 歧義 ambiguity


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章