基於java實現的分詞以及詞頻統計，準備製作詞雲數據

原創

2020-06-16 08:06

需求是統計一篇文章、一段話中各種詞彙出現的次數，比如有一篇文章如下：爲維護人民健康提供有力保障，希望統計文章中的高頻詞，如下結果

難點在於分詞，例如這段換：工信處女幹事每月經過下屬科室都要親口交代24口交換機等技術性器件的安裝工作,如果分的不好，那會十分的尷尬！！！

找了很多工具，在網上發現一個比較合適的分詞算法，且是用java實現的，經過簡單改動，實現了功能，代碼放在gitee上，地址：https://gitee.com/langhu/jieba-analysis-mend

導下項目後長這個樣子：

直接運行com.qianxinyao.analysis.jieba.keyword包下的main方法即可

問題：在這個工具中，通過訓練過的算法，給出了很多詞彙切割的標準，但發現有些新詞彙，特別是專有詞彙它並不能很好的識別，比如文中的新冠肺炎，它就拆成了新冠和肺炎，這個怎麼處理呢？

1、要麼你去訓練算法，如果你牛。

2 直接改分詞規則（可能會破壞算法的合理性），我不牛，所以我改

怎麼改，肯定不能瞎改，找到dict.txt，找一個和你要統計的詞彙，在拼音順序上差不多的詞，直接按照它的格式來，如下：我想加一個新冠肺炎，於是找到了它的鄰居新官，沒的說，複製新官改成新冠肺炎，再試一下截圖如下：

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

CI+GPT雙引擎驅動，開啓AI代碼評審新紀元

一. 現狀問題代碼評審 Code Review 是提高代碼質量、促進團隊合作、知識間共享的關鍵環節，對於系統代碼質量和穩定性都至關重要。【人爲代碼評審（Code Review）】存在很多弊端時間消耗大：代碼評審是一

京東雲開發者

2024-06-07 23:54:54

有沒有python在flask框架下開發的實際案例？

大家好，我是Python進階者。一、前言前幾天在Python鑽石交流羣【進擊的python】問了一個Python web開發的問題，問題如下：各位大佬，有沒有python在flask框架下開發的實際案例？？？求分享二、實現過程 git

2024-06-06 10:01:59

?* CI+GPT雙引擎驅動，?* 開啓AI代碼評審新紀元

一. 現狀問題代碼評審 Code Review 是提高代碼質量、促進團隊合作、知識間共享的關鍵環節，對於系統代碼質量和穩定性都至關重要。【人爲代碼評審（Code Review）】存在很多弊端時間消耗大：代碼評審是一個耗時

2024-06-04 12:09:24

[oeasy]python019_ 如何在github倉庫中進入目錄_找到程序代碼_找到代碼

繼續運行 🥋 回憶上次內容上上次真寫了萬行代碼這萬行代碼都是寫在明面上的這次使用git命令下載了 github上面的倉庫

2024-05-30 00:35:24

小而美：兩步完成從源碼到應用的極簡交付

作者：花三（王俊） Serverless 應用引擎 SAE 是阿里雲推出的一款零代碼改造、極簡易用、自適應彈性的容器化應用託管平臺，面市以來爲幾萬家企業客戶提供服務，運行穩定，廣受好評。 SAE 的出現解決了衆多企業想用 K8s，但是又上手

2024-05-24 21:13:49

Git 分佈式工作原理詳解

Git分佈式工作原理詳解在當今的軟件開發中，版本控制系統是必不可少的工具之一。對於開發者來說，瞭解不同的版本控制方法非常重要。在這篇技術文章中，我們將詳細介紹 Git 分佈式版本的獨特優勢及其工作原理。什麼是 Git？ Git（ht

2024-05-21 01:47:31

雲原生週刊：Flux 2.3 發佈｜ 2024.5.20

開源項目推薦 kubeinvaders kubeinvaders 專爲 Kubernetes 用戶設計。它提供了一種有趣而交互式的方式來探索和可視化您的 Kubernetes 集羣。通過類似遊戲的界面，用戶可以瀏覽他們的集羣，發現資源，甚至

2024-05-20 23:16:26

得物 ZooKeeper SLA 也可以 99.99%

1. 背景 ZooKeeper（ZK）是一個誕生於 2007 年的分佈式應用程序協調服務。儘管出於一些特殊的歷史原因，許多業務場景仍然不得不依賴它。比如，Kafka、任務調度等。特別是在 Flink 混合部署 ETCD 解耦時，業務方曾

2024-05-10 01:06:41

git 將其中一個文件恢復到之前的版本

要將Git中的一個文件恢復到之前的版本，你可以使用git checkout命令結合特定的提交哈希值（commit hash）或引用（如HEAD~1）來檢出該文件的特定版本。以下是如何操作的步驟：查看文件的歷史：首先，你可以使用gi

2024-05-08 12:43:22

雲原生週刊：Terraform 1.8 發佈｜ 2024.5.6

開源項目推薦 xlskubectl 用於控制 Kubernetes 集羣的電子表格。xlskubectl 將 Google Spreadsheet 與 Kubernetes 集成。你可以通過用於跟蹤費用的同一電子表格來管理集羣。 git-

2024-05-06 22:46:37

Google Chrome驅動程序 124.0.6367.62（正式版本）去哪下載？

大家好，我是Python進階者。一、前言前幾天在Python白銀交流羣【Jethro Shen】問了一個Python谷歌驅動下載的問題。二、實現過程這裏【Kim】和【Crazy】給了一個指導，如上圖所示。說來奇怪，在鏈接中看了沒有

2024-04-24 09:48:52

如何查看一個Git分支是基於哪個分支創建的

要查看一個Git分支是基於哪個分支創建的，您可以採取以下幾種方法：使用git show-branch命令：在Git命令行中，輸入git show-branch --current可以顯示當前分支的提交歷史，並在其中標記出當前所在的分支。

2024-04-23 00:40:31

“AI 程序員入職系列”第二彈：如何利用通義靈碼光速改寫項目編程語言？

通義靈碼入職阿里云云原生團隊後，已經展示過 Ta 生成單元測試和自動生成代碼的強大實力。今天，阿里雲後端工程師雲徊將從項目開發的實際需求出發，演示通義靈碼在開發工作中可提供的幫助。通義靈碼在 Git 開發項目中起到了哪些作用？雲徊所在的

2024-04-22 21:12:11

【運維】gitlab

掛載磁盤有兩個原因需要加載磁盤：如果磁盤滿了，gitlab 將無法使用 git 非常容易膨脹 # 創建目錄 mkdir gitlab # 用於查看磁盤 fdisk -l # 如果實盤沒有格式化，就格式化磁盤 fsck -

2024-04-17 00:45:49

智能Java開發工具IntelliJ IDEA v2024.1震撼發佈——讓開發工作更簡單！

IntelliJ IDEA，是java編程語言開發的集成環境。IntelliJ在業界被公認爲最好的java開發工具，尤其在智能代碼助手、代碼自動提示、重構、JavaEE支持、各類版本工具(git、svn等)、JUnit、CVS整合、代碼分析

2024-04-12 11:33:56

24小時熱門文章

最新文章

最新評論文章