首先說一下文本分析流程:
本系列所有大框架內容:
NLP學習-分詞:https://blog.csdn.net/RHJlife/article/details/104748790
NLP學習-清洗:https://blog.csdn.net/RHJlife/article/details/104834980
NLP學習-詞形標準化:https://blog.csdn.net/RHJlife/article/details/104835785
NLP學習-文本特徵向量化:https://mp.csdn.net/console/editor/html/104893608
NLP學習-建模:暫無
本文將介紹文本分析過程中的文本清洗相關內容。
先說一個關於數據清洗的內容:
數據重複處理
- 數據錯誤處理
- 數據缺失處理
- 數據異常處理
對於我們使用的數據(包括文本、圖像、數字信息等)以上操作是必不可少的,但是在文本清洗過程中還需要一些和文本相關的清洗操作,如下:
- 無用信息的清理
- 特殊文本的清理
- 停用詞的處理
1.無用信息的清理:
- 我們爬去的數據可能帶有html或者url標籤,這些標籤往往都是無用數據
- 在我們的數據中可能有一些長文本或者長字符串,例如電話號碼等也可能是無用信息
- 其中還有許多對於模型訓練沒有任何作用的文本信息,例如某些廣告等也可能是無用信息
2.特殊文本的清理:
變形詞是一些符號不同,但意義相同的的,這類詞增加了涉黃涉政等特殊的文本分類場景下的分類難度,如下:
- 特殊符號替換(對於有實際意義的可以替換成相應的語義,無太大實際意義也可以直接去掉(認爲成停用詞))
- 同音近音近型替換(going、went、go->go)(有一種說法是往往英語需要,而中文一般不需要,可自行了解一下~)(實際上的實現是有一定難度的,清洗後面的標準化也是講解這一方面的~)
- 簡繁體替換等(我愛中國->我愛中國)
3.停用詞的處理:
停用詞是一些不包含或包含極少語義的詞,另外標點符號和其他特殊符號也可以被認爲是一種停用詞。NLP學習中我們常常把停用詞或字出現頻率很低的詞語給過濾掉。因爲停用詞和出現頻率特別低的詞彙對於分析往往作用不大,所以一般去掉。將停用詞和出現頻率特別低的詞彙去掉後就可以獲得一個詞典—所有分詞詞彙的集合(無停用詞和低頻詞)
以上就是文本清理的相關內容了~