需求
客戶有銷售類項目的審覈流程,希望能夠統計出審覈不同過類型的項目信息中,常見的原因。由於前期系統設計過程中,並未對原因進行格式化,團隊分析後大概有三種思路。
增加格式化數據
增加格式化數據,是最常見的做法。在審批拒絕時,讓操作人員選擇一個拒絕的類型,比如地址填錯,聯繫人電話打不通,重複項目等等,這樣,即可根據拒絕類型進行數據統計
序號 | 拒絕類型 | 出現次數 |
---|---|---|
1 | 地址填錯 | 2 |
2 | 重複項目 | 3 |
據此,很容易的得出原因的餅圖分析
優點:
- 符合項目實際,且無需要學習研究的領域
- 可以動態的增加拒絕類型,從而自動增加分析結果輸出內容(通過字典方式實現)
缺點:
- 歷史數據無法統計
高頻詞彙分析
調研後分析,目前市面上有可用的中文詞彙詞頻分析,通過訓練的方式可以得出指定詞彙的出現頻次,並且可以對分詞結果進行多次修正(具體內容可參考jieba-pypi)
經過訓練,擬定的輸出結果可以是(舉例說明,實際並沒有採用這種做法。只是進行了可行性調研)
序號 | 拒絕類型 | 出現次數 | 是否所需 |
---|---|---|---|
1 | 地址填錯 | 2 | 是 |
2 | 重複項目 | 3 | 是 |
3 | 地址 | 2 | 不是 |
4 | 銷售 | 3 | 不是 |
5 | 拒絕 | 3 | 不是 |
可見,輸出結果裏面包含了很多無用的詞頻統計,這些無用的詞頻統計,可以通過jieba提供的API進行詞彙刪除,或者詞彙重組,但是隨着數據不斷增多,可能需要一直對詞彙字典進行維護。
並不是說高頻詞彙的分析功能有問題,而是我們的應用場景並不能很好的切合這個功能。因此調研後放棄。(不過下載python之後,打算研究一下,用python做一些小工具,嘗試一下效果,算是意外驚喜)
文本分類
百度AI提供了一個叫做easyDL的機器學習框架。這個框架下,可以通過提供訓練文本的方式,實現文本分類。調研後基本滿足需求。
實現的步驟大致如下所述:
1. 創建模型
2. 上傳數據集
3. 用數據集訓練模型
4. 發佈模型
由於模型訓練需要時長,所以我並未等到訓練結束。
但是根據字面意義理解,訓練成功後,應該是可以通過上傳文本信息來對文本進行分類的。比如說,我們提供地址錯誤分類下包括的數據集(1. 地址錯誤 2. 項目地址描述有問題 3. 位置信息錯誤),那麼只要符合這三種的文本信息,都會被歸類到地址錯誤下面。
並且,因爲是機器學習平臺,我們可以不斷修正機器學習的結果,通過訓練的方式逐步讓分類更精準。
5. 文本分類應用
後續進展,仍在實驗中……
優點
智能化程度高,而且基本上不需要寫太多的算法代碼,只需要理解並掌握API的調用
缺點
需要提供訓練數據集,數據集提供的越完善,結果越準確。由於此需求並不是一個通用的需求,所以花在整理訓練集上的時間可能會超過成本預期。