轉自:http://www.cnblogs.com/pittzh/articles/1677637.html
想要建立一個相對比較實用的“熱點關鍵詞庫”。主要功能就是收集關鍵和對關鍵詞進行歸類!
蒐集了一下,發現目前有不少平臺的分詞系統!
- 比較知名的是中科院的中文分詞系統(http://download.csdn.net/source/311639)
- SCWS簡易中文分詞系統(http://www.ftphp.com/scws/)
- 基於C語言的中文分詞系統(http://hi.baidu.com/earthsearch/blog/item/522c19084a20c837e9248840.html)
- ictclas 中文分詞系統 v2009(http://www.downgreen.com/soft/094/4600.htm)
- 免費開源的全文索引與檢索平臺(FirteX)、中文分詞系統(ICTCLAS)(http://www.cnblogs.com/taomaintao/archive/2009/11/27/1612184.html)
- 開源中文分詞,(免費+開源+86萬詞庫+操作示意圖+測試用例)(http://tieba.baidu.com/f?kz=539351689)
其中SCWS相對是一個開源簡潔的系統(http://www.hightman.cn/index.php?scws),對於固定的預料或是固定行業內的關鍵詞提取效果可能會比較好,因爲還沒有對“熱點關鍵詞庫”的功能進行詳細的規劃,所以還無法選擇出合適的分詞系統。只是從易用性角度考慮,PHP平臺實現起來會容易一些!的此只是對系統做一些整理!
同時,拼音加加的“大分詞”的分詞理念也值得借鑑!還有“火車採集器”的中文分詞(只是應用於分詞後的替換或提取)
===2010年03月04日===
搜索引擎之中文分詞(Chinese Word Segmentation)簡介 | 中文Flex例子 http://blog.minidx.com/2008/01/04/352.html
發佈IK Analyzer 3.0 中文分詞器 http://www.javaeye.com/topic/429960