NLP學習-清洗

首先說一下文本分析流程:

本系列所有大框架內容:

NLP學習-分詞:https://blog.csdn.net/RHJlife/article/details/104748790

NLP學習-清洗:https://blog.csdn.net/RHJlife/article/details/104834980

NLP學習-詞形標準化https://blog.csdn.net/RHJlife/article/details/104835785

NLP學習-文本特徵向量化:https://mp.csdn.net/console/editor/html/104893608

NLP學習-建模:暫無

本文將介紹文本分析過程中的文本清洗相關內容。

先說一個關於數據清洗的內容:

數據重複處理

  1. 數據錯誤處理
  2. 數據缺失處理
  3. 數據異常處理

對於我們使用的數據(包括文本、圖像、數字信息等)以上操作是必不可少的,但是在文本清洗過程中還需要一些和文本相關的清洗操作,如下:

  1. 無用信息的清理
  2. 特殊文本的清理
  3. 停用詞的處理

1.無用信息的清理:

  • 我們爬去的數據可能帶有html或者url標籤,這些標籤往往都是無用數據
  • 在我們的數據中可能有一些長文本或者長字符串,例如電話號碼等也可能是無用信息
  • 其中還有許多對於模型訓練沒有任何作用的文本信息,例如某些廣告等也可能是無用信息

2.特殊文本的清理:

變形詞是一些符號不同,但意義相同的的,這類詞增加了涉黃涉政等特殊的文本分類場景下的分類難度,如下:

  • 特殊符號替換(對於有實際意義的可以替換成相應的語義,無太大實際意義也可以直接去掉(認爲成停用詞))
  • 同音近音近型替換(going、went、go->go)(有一種說法是往往英語需要,而中文一般不需要,可自行了解一下~)(實際上的實現是有一定難度的,清洗後面的標準化也是講解這一方面的~)
  • 簡繁體替換等(我愛中國->我愛中國)

3.停用詞的處理:

停用詞是一些不包含或包含極少語義的詞,另外標點符號和其他特殊符號也可以被認爲是一種停用詞。NLP學習中我們常常把停用詞或字出現頻率很低的詞語給過濾掉。因爲停用詞和出現頻率特別低的詞彙對於分析往往作用不大,所以一般去掉。將停用詞和出現頻率特別低的詞彙去掉後就可以獲得一個詞典—所有分詞詞彙的集合(無停用詞和低頻詞)

以上就是文本清理的相關內容了~

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章