NLP文本預處理過程

NLP文本預處理過程

第一步:加載數據

讀取文本內容和標籤

第二步:分詞和去除停用詞

1、讀取停用詞和停用符號表,放入空列表中。
2、對文本內容進行分詞。
3、分詞後的文本內容是否含有停用詞表和停用符號,沒有即存入列表中。
此時數據爲二維列表
[[‘寫’, ‘在’, ‘年末’, ‘冬初’, ‘孩子’, ‘流感’, ‘第五天’, ‘我們’, ‘仍然’, ‘沒有’, ‘忘記’, ‘熱情’, ‘擁抱’],
[‘開年’, ‘大’, ‘模型’, ‘累到’, ‘以爲’, ‘自己’, ‘發燒’, ‘了’, ‘腰疼’, ‘膝蓋’, ‘疼’, ‘腿疼’],
[],
[],

[] ]

第三步:訓練詞向量

1、使用word2vec(BERT)訓練詞向量
2、創建詞典。輸入的是訓練的詞向量和預處理的文本內容。輸出的是(詞:索引+1),(詞:詞向量),(二維列表:每句話中每個詞對應的索引[[96,85,46,54,68],[64,2,56,64,52],…[]])

第四步:獲得詞向量

獲得每句話中每個詞對應的詞向量,二維列表

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章