NLP學習-清洗

首先說一下文本分析流程：

本系列所有大框架內容：

NLP學習-分詞：https://blog.csdn.net/RHJlife/article/details/104748790

NLP學習-清洗：https://blog.csdn.net/RHJlife/article/details/104834980

NLP學習-詞形標準化：https://blog.csdn.net/RHJlife/article/details/104835785

NLP學習-文本特徵向量化：https://mp.csdn.net/console/editor/html/104893608

NLP學習-建模：暫無

本文將介紹文本分析過程中的文本清洗相關內容。

先說一個關於數據清洗的內容：

數據重複處理

數據錯誤處理
數據缺失處理
數據異常處理

對於我們使用的數據（包括文本、圖像、數字信息等）以上操作是必不可少的，但是在文本清洗過程中還需要一些和文本相關的清洗操作，如下：

無用信息的清理
特殊文本的清理
停用詞的處理

1.無用信息的清理：

我們爬去的數據可能帶有html或者url標籤，這些標籤往往都是無用數據
在我們的數據中可能有一些長文本或者長字符串，例如電話號碼等也可能是無用信息
其中還有許多對於模型訓練沒有任何作用的文本信息，例如某些廣告等也可能是無用信息

2.特殊文本的清理：

變形詞是一些符號不同，但意義相同的的，這類詞增加了涉黃涉政等特殊的文本分類場景下的分類難度，如下：

特殊符號替換（對於有實際意義的可以替換成相應的語義，無太大實際意義也可以直接去掉（認爲成停用詞））
同音近音近型替換（going、went、go->go）（有一種說法是往往英語需要，而中文一般不需要，可自行了解一下～）（實際上的實現是有一定難度的，清洗後面的標準化也是講解這一方面的～）
簡繁體替換等（我愛中國->我愛中國）

3.停用詞的處理：

停用詞是一些不包含或包含極少語義的詞，另外標點符號和其他特殊符號也可以被認爲是一種停用詞。NLP學習中我們常常把停用詞或字出現頻率很低的詞語給過濾掉。因爲停用詞和出現頻率特別低的詞彙對於分析往往作用不大，所以一般去掉。將停用詞和出現頻率特別低的詞彙去掉後就可以獲得一個詞典—所有分詞詞彙的集合（無停用詞和低頻詞）

以上就是文本清理的相關內容了～

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

NLP學習-清洗

1.無用信息的清理：

2.特殊文本的清理：

3.停用詞的處理：

2019年CS224N課程筆記-Lecture 5: Linguistic Structure: Dependency Parsing

2019年CS224N課程筆記-Lecture 3: Word Window Classification, Neural Networks, and Matrix Calculus

2019年CS224N課程筆記-Lecture 4: Backpropagation and Computation Graphs

2019年CS224N課程筆記-Lecture 1: Introduction and Word Vectors

2019年CS224N課程筆記-Lecture 2: Word Vectors and Word Senses

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結