統計自然語言處理學習（序及第一章）

原創

2018-08-28 12:07

統計自然語言處理學習（序及第一章）

自然語言處理定義

是一門交叉學科，包括自然語言學，數學（代數，概率）
自然語言處理要研製表示語言能力（linguistic competence）和語言應用（linguistic performance）的模型，建立計算框架來實現，這樣的語言模型，，根據這樣的模型設計各種實用系統，並探討這些使用系統的測評技術。

統計自然語言處理應用

機器翻譯，語音翻譯，語音合成，文字識別，文本分類，信息檢索，問答系統，信息抽取，口語信息處理，人機對話系統。

自然語言處理的方法

基於規則的自然語言處理（理性主義）

人的大部分語言知識與生俱來，由遺傳決定
主張建立符號處理系統，由人工整理和編寫的初始語言知識表示體系（規則），構造推理程序。
系統根據規則和程序，將自然語言理解爲符號結構。

處理流程

由詞法分析器按詞法規則對單詞進行詞法分析。
語法分析器按語法規則對句子進行語法結構分析。
最後按變換規則將語法結構映射到語義符號。

優點

可以有效處理語言學問題，如長距離依存問題，長距離主謂一致問題，wh移位問題。
模型可以雙向使用，即可用於分析，亦可用於生成。
使用面廣，可在語音，形態研究中使用，也可在句法，語義，語用，篇章分析中使用。
與一些高效算法兼容。

缺點

語言模型脆弱，魯棒性差。
不能通過機器學習的方法自動獲得。需要大量不同領域專家合作。
針對性強，很難移植向解決其他問題。
效果沒有基於經驗的方法好，不能根據數據的類型與數量有所調整。

基於統計的自然語言處理（經驗主義）

假定人腦具有一定的認知能力
假定具有處理聯想（association），模式識別（pattern recognition），通用化（generalization）處理的能力，以此爲基礎掌握具體的自然語言結構。
又稱爲統計自然語言處理方法（statistical natural language processing）。
以大量文本（語料（corpus））作爲基礎。

處理流程

通過建立特定的數學模型,學習複雜廣泛的語言結構。
利用統計學，模式識別，和機器學習等方法來訓練模型的參數，以擴大語言使用的規模。

優點

可以自動或半自動的從語料中提取模型。
訓練數據規模越大，效果越好。
很容易與基於理性的方法結合。
可以模擬模糊概念，如“很少，若干”。

缺點

運行效率與統計模式中符號的類別多少成正比。
爲特殊領域訓練模型時，容易出錯，且難以避免。因爲**訓練語料庫的質量很大程度上決定了基於統計的經驗主義方法的結果。
很容易出現數據稀疏問題。（無用數據多，矩陣中，既，0元素多）

總結

在機器翻譯問題解決之前，永遠沒有過時的理論和方法，也絕不該有哪一種方法可以唯我獨尊。兩種方法要結合使用追求最好的結果。

中文信息處理遭遇的問題

生詞識別問題，歧義消解問題，漢語自動分詞問題，詞性定義規範問題

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Faker——NLP造數據神器

Faker——NLP造數據神器寫在前面：開源詞典——funNLP （1）碼雲地址：https://gitee.com/

2020-07-07 21:48:25

代碼+步驟GM（1，1）灰色預測模型-案例長江水質綜合評價賽題-級比檢測C的確定-matlab完整代碼附送

GM（1，1）灰色預測模型-案例長江水質綜合評價賽題第三題-matlab完整代碼附送看到上一篇Blog在短短几天Pageviews就達到了1300多，看來大家還是比較中意建模上的筆記🤭，小白一個，也是是自己在學習上的經驗總結與教

侯永琪在修行

2020-07-08 09:25:15

關係抽取入門級概覽

因爲課題組的需要，過去幾個月一直在學習強化學習和魯棒性算法。再加上忙於課題組中的一些工作，所以過去兩個月基本沒有什麼時間來寫博客。最近讀了不少強化學習和魯棒性算法方面的論文，也有一些小的收穫，等有時間再通過博客分享出來。今天分享的是我近期

2020-07-08 04:10:07

ACL 2018 和 2018 AAAI 接受關於知識圖譜的論文簡述

1.Variational Reasoning for QuestionAnswering with Knowledge Grap 摘要： QA存在的問題：問題存在噪音；需要經過多輪推理才能找到答案。提出基於

垮掉的一代人

2020-07-07 23:44:13

NLP訓練營之問答系統——替換用戶輸入句子中錯誤單詞

替換用戶輸入句子中錯誤單詞構建詞典庫需要生成所有候選集合讀取路透社語料庫構建語言模型：bigram用戶打錯的概率統計 - channel probalility主函數構建詞典庫 # Python rstrip() 刪除 str

2020-07-07 21:48:25

常見的英文文本處理步驟

常見的英文文本處理流程中都包含哪些步驟 1.導入相應的類庫 import nltk from nltk import word_tokenize, sent_tokenize 2.導入數據 corpus = open(‘數據路徑’

2020-07-07 21:45:16

自然語言處理總概括

自然語言處理自然語言處理是什麼自然語言處理(Natural Language Process)就是利用計算機來處理人類語言的學科，屬於計算機與語言學的交叉學科。自然語言處理有哪些技術大致包括如下技術: 1.分詞(Word

2020-07-07 21:45:16

助力句子變換：35W抽象、43W同義、13W簡稱三大知識庫對外開源

句子變換，是指根據給定中文句子，藉助某種語言處理手段，擴展出一定數據規模的中文句子集合，是一個從1到N的過程，目的在於解決搜索（查詢擴展）、分類（樣本擴充）、抽取（數據回標）、推薦與生成（關聯引導）等多個工業級應用任務。我們發現

liuhuanyong_iscas

2020-07-07 20:02:19

NLP實踐-Task1

對cnews數據做一些數據處理 import jieba import pandas as pd import tensorflow as tf from collections import Counter from gensim.m

2020-07-07 14:43:23

CPCY模型_CodingPark編程公園

項目圖紙 https://awwapp.com/b/uo8xhbtbef9cg/ CPCY策劃圖紙-鏈接 https://www.processon.com/view/link/5efde50fe401fd1fd2b

2020-07-07 12:20:22

詞向量-Glove理解推導

Glove模型模型目標：進行詞的向量化表示，使得向量之間儘可能的蘊含語義和語法的信息 Glove用詞向量表達共現詞頻的對數代價函數：模型推導（不是很嚴謹）首先給予一些定義共現詞頻Xi,j 表示若中心詞爲i，語境詞j出現的次數

2020-07-07 08:49:04

切分算法[完全切分 & 正向 & 逆向 & 雙向最長匹配 & 速度測評]_CodingPark編程公園

詞典分詞切分算法詞典導入 # -*- coding:utf-8 -*- # Author：AG # Date: 2020-07-5 from pyhanlp import * def load_dictionary():

2020-07-07 08:22:54

關於nn.embedding的中padding_idx的含義

自然語言中使用批處理時候, 每個句子的長度並不一定是等長的, 這時候就需要對較短的句子進行padding, 填充的數據一般是0, 這個時候, 在進行詞嵌入的時候就會進行相應的處理, nn.embedding會將填充的映射爲0 其中padd

透明的红萝卜221

2020-07-07 06:38:55

2019年CS224N課程筆記-Lecture 5: Linguistic Structure: Dependency Parsing

資源鏈接：https://www.bilibili.com/video/BV1r4411，部分內容參考來自於碼農場 » CS224n筆記6 句法分析和https://zhuanlan.zhihu.com/p/110532288 補充內容

任菜菜学编程

2020-07-07 04:20:10

Bert編碼訓練NER實體偏移的問題

在這裏記錄一下踩過的坑在訓練樣本中幾乎沒有前面一大串英文或者數字，然後後面跟實體的情況，所以訓練起來還挺平穩的。但是在預測的時候遇到了這種情況，造成實體可以識別出來，但是實體的預測結果下標錯了（表現爲下標提前了）造成這一問題

2020-07-07 04:09:15

24小時熱門文章

最新文章

最新評論文章