【技術探討】文本內容分類實現方式

原創

2020-06-16 13:47

需求

客戶有銷售類項目的審覈流程，希望能夠統計出審覈不同過類型的項目信息中，常見的原因。由於前期系統設計過程中，並未對原因進行格式化，團隊分析後大概有三種思路。

增加格式化數據

增加格式化數據，是最常見的做法。在審批拒絕時，讓操作人員選擇一個拒絕的類型，比如地址填錯，聯繫人電話打不通，重複項目等等，這樣，即可根據拒絕類型進行數據統計

序號	拒絕類型	出現次數
1	地址填錯	2
2	重複項目	3

據此，很容易的得出原因的餅圖分析

優點：

符合項目實際，且無需要學習研究的領域
可以動態的增加拒絕類型，從而自動增加分析結果輸出內容（通過字典方式實現）

缺點：

歷史數據無法統計

高頻詞彙分析

調研後分析，目前市面上有可用的中文詞彙詞頻分析，通過訓練的方式可以得出指定詞彙的出現頻次，並且可以對分詞結果進行多次修正（具體內容可參考jieba-pypi）

經過訓練，擬定的輸出結果可以是（舉例說明，實際並沒有採用這種做法。只是進行了可行性調研）

序號	拒絕類型	出現次數	是否所需
1	地址填錯	2	是
2	重複項目	3	是
3	地址	2	不是
4	銷售	3	不是
5	拒絕	3	不是

可見，輸出結果裏面包含了很多無用的詞頻統計，這些無用的詞頻統計，可以通過jieba提供的API進行詞彙刪除，或者詞彙重組，但是隨着數據不斷增多，可能需要一直對詞彙字典進行維護。

並不是說高頻詞彙的分析功能有問題，而是我們的應用場景並不能很好的切合這個功能。因此調研後放棄。（不過下載python之後，打算研究一下，用python做一些小工具，嘗試一下效果，算是意外驚喜）

文本分類

百度AI提供了一個叫做easyDL的機器學習框架。這個框架下，可以通過提供訓練文本的方式，實現文本分類。調研後基本滿足需求。
實現的步驟大致如下所述：

1. 創建模型

2. 上傳數據集

3. 用數據集訓練模型

4. 發佈模型
由於模型訓練需要時長，所以我並未等到訓練結束。
但是根據字面意義理解，訓練成功後，應該是可以通過上傳文本信息來對文本進行分類的。比如說，我們提供地址錯誤分類下包括的數據集（1. 地址錯誤 2. 項目地址描述有問題 3. 位置信息錯誤），那麼只要符合這三種的文本信息，都會被歸類到地址錯誤下面。

並且，因爲是機器學習平臺，我們可以不斷修正機器學習的結果，通過訓練的方式逐步讓分類更精準。

5. 文本分類應用
後續進展，仍在實驗中……

優點

智能化程度高，而且基本上不需要寫太多的算法代碼，只需要理解並掌握API的調用

缺點

需要提供訓練數據集，數據集提供的越完善，結果越準確。由於此需求並不是一個通用的需求，所以花在整理訓練集上的時間可能會超過成本預期。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

【技術探討】文本內容分類實現方式

需求

增加格式化數據

優點：

缺點：

高頻詞彙分析

文本分類

優點

缺點

工作中用到的腳本合集

微服務實踐Aspire項目發佈到遠程k8s集羣

通過f-string編寫簡潔高效的Python格式化輸出代碼

[轉帖]20個常用的Linux工具命令

[轉帖]PostgreSQL從小白到高手教程 - 第46講：poc-tpch測試

24-5-18 X

【技術探討】文本內容分類實現方式

小程序開發（3）-列表頁面開發

小程序開發（4）-詳情頁面開發

小程序開發（1）-學習歷程整理

小程序開發（5）-列表頁根據數據動態調整樣式

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結