NLP文本預處理過程
第一步:加載數據
讀取文本內容和標籤
第二步:分詞和去除停用詞
1、讀取停用詞和停用符號表,放入空列表中。
2、對文本內容進行分詞。
3、分詞後的文本內容是否含有停用詞表和停用符號,沒有即存入列表中。
此時數據爲二維列表
[[‘寫’, ‘在’, ‘年末’, ‘冬初’, ‘孩子’, ‘流感’, ‘第五天’, ‘我們’, ‘仍然’, ‘沒有’, ‘忘記’, ‘熱情’, ‘擁抱’],
[‘開年’, ‘大’, ‘模型’, ‘累到’, ‘以爲’, ‘自己’, ‘發燒’, ‘了’, ‘腰疼’, ‘膝蓋’, ‘疼’, ‘腿疼’],
[],
[],
…
[] ]
第三步:訓練詞向量
1、使用word2vec(BERT)訓練詞向量
2、創建詞典。輸入的是訓練的詞向量和預處理的文本內容。輸出的是(詞:索引+1),(詞:詞向量),(二維列表:每句話中每個詞對應的索引[[96,85,46,54,68],[64,2,56,64,52],…[]])
第四步:獲得詞向量
獲得每句話中每個詞對應的詞向量,二維列表