【技術探討】文本內容分類實現方式

需求

客戶有銷售類項目的審覈流程,希望能夠統計出審覈不同過類型的項目信息中,常見的原因。由於前期系統設計過程中,並未對原因進行格式化,團隊分析後大概有三種思路。

增加格式化數據

增加格式化數據,是最常見的做法。在審批拒絕時,讓操作人員選擇一個拒絕的類型,比如地址填錯,聯繫人電話打不通,重複項目等等,這樣,即可根據拒絕類型進行數據統計

序號 拒絕類型 出現次數
1 地址填錯 2
2 重複項目 3

據此,很容易的得出原因的餅圖分析
在這裏插入圖片描述

優點:

  1. 符合項目實際,且無需要學習研究的領域
  2. 可以動態的增加拒絕類型,從而自動增加分析結果輸出內容(通過字典方式實現)

缺點:

  1. 歷史數據無法統計

高頻詞彙分析

調研後分析,目前市面上有可用的中文詞彙詞頻分析,通過訓練的方式可以得出指定詞彙的出現頻次,並且可以對分詞結果進行多次修正(具體內容可參考jieba-pypi

經過訓練,擬定的輸出結果可以是(舉例說明,實際並沒有採用這種做法。只是進行了可行性調研)

序號 拒絕類型 出現次數 是否所需
1 地址填錯 2
2 重複項目 3
3 地址 2 不是
4 銷售 3 不是
5 拒絕 3 不是

可見,輸出結果裏面包含了很多無用的詞頻統計,這些無用的詞頻統計,可以通過jieba提供的API進行詞彙刪除,或者詞彙重組,但是隨着數據不斷增多,可能需要一直對詞彙字典進行維護。

並不是說高頻詞彙的分析功能有問題,而是我們的應用場景並不能很好的切合這個功能。因此調研後放棄。(不過下載python之後,打算研究一下,用python做一些小工具,嘗試一下效果,算是意外驚喜)

文本分類

百度AI提供了一個叫做easyDL的機器學習框架。這個框架下,可以通過提供訓練文本的方式,實現文本分類。調研後基本滿足需求。
實現的步驟大致如下所述:

1. 創建模型
在這裏插入圖片描述
2. 上傳數據集
在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述
3. 用數據集訓練模型

在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述
4. 發佈模型
由於模型訓練需要時長,所以我並未等到訓練結束。
但是根據字面意義理解,訓練成功後,應該是可以通過上傳文本信息來對文本進行分類的。比如說,我們提供地址錯誤分類下包括的數據集(1. 地址錯誤 2. 項目地址描述有問題 3. 位置信息錯誤),那麼只要符合這三種的文本信息,都會被歸類到地址錯誤下面。

並且,因爲是機器學習平臺,我們可以不斷修正機器學習的結果,通過訓練的方式逐步讓分類更精準。

5. 文本分類應用
後續進展,仍在實驗中……

優點

智能化程度高,而且基本上不需要寫太多的算法代碼,只需要理解並掌握API的調用

缺點

需要提供訓練數據集,數據集提供的越完善,結果越準確。由於此需求並不是一個通用的需求,所以花在整理訓練集上的時間可能會超過成本預期。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章