原创 二元語法模型與viterbi算法分詞

注意:本篇博文標紅字部分爲一處筆誤的改正。非常感謝獵兔網 開發工程師 羅剛指出錯誤。歡迎大家光臨我的博客指正各種思維不周,本人不拒絕嚴格的批評,只要能指出具體錯誤,和改進方案 採用這種方法首先要弄懂1.什麼是二元語法模型:二元語法模

原创 java向MySQL數據庫插入記錄時出現中文亂碼問題

在數據庫連接字符串中數據庫名後加上編碼方式,如 jdbc:mysql://localhost:3306/mydatabase?characterEncoding=UTF-8

原创 spring 使用annotation替代xml配置實例(spring實現mail簡單實現)

pring的配置類,這個是spring3.0的新特性,主要是想將以前的xml形式的配置模式轉換成這種標識模式,相關內容可參考spring官方文檔\spring-framework-3.0.3.RELEASE\docs\spring-fr

原创 自然語言處理--中文分詞之機械分詞

說到自然語言處理,對於中文首當其衝的就是分詞。     和西方語言不同,中文句子中不像英語,每個單詞間有空格隔開,而是全部連在一起,詞間沒有明顯的界限。這就爲我們的翻譯、檢索等等更高級的信息處理帶來了不小的麻煩,怎樣將一句話中的關鍵詞

原创 JAVA新手之學習Java語言的六大要點

Java的學習是比較複雜的,主要表現在相關的一系列平臺、規範和協議上。有經驗的Java程序員都知道,只掌握了Java語言本身很難開發應用程序。本文不討論這些複雜的概念,而是我是在北京參加的培訓,現在從初學者的角度,對於Java語言本身的

原创 中文分詞詞典構造簡述

中文分詞詞典構造簡述 在分詞系統中常用的分詞詞典機制有:(1)基於整詞二分;(2)基於TRIE索引樹;(3)基於逐字二分. 一、基於整詞二分的分詞詞典機制 這是一種廣爲使用的分詞詞典機制.其結構通常分爲三級,前兩級爲索引,如圖3.1

原创 自然語言處理與中文分詞的難點總結

中文自動分詞 指的是使用計算機自動對中文文本進行詞語的切分,即像英文那樣使得中文句子中的詞之間有空格以標識。中文自動分詞被認爲是中文自然語言處理中的一個最基本的環節。 中文分詞的難點 · 未登錄詞,基於詞庫的分詞方法往往不能識別新

原创 "ORA-00942: 表或視圖不存在 "的原因和解決方法

採用Oracle數據庫,使用Powerdesigner設計,生成Sql文件導入後查詢出現“ORA-00942: 表或視圖不存在 ”,很是鬱悶,這個問題以前出現過,當初解決了,但因好久沒有使用,這次竟然忘了,害得我浪費了好些時間,爲了避免

原创 @RequestMapping 用法詳解

@RequestMapping RequestMapping是一個用來處理請求地址映射的註解,可用於類或方法上。用於類上,表示類中的所有響應請求的方法都是以該地址作爲父路徑。 RequestMapping註解有六個屬性,下面我們把她

原创 Spring基於 Annotation 的簡單介紹

Spring 自 2.0 版本開始,陸續引入了一些註解用於簡化 Spring 的開發。@Repository 註解便屬於最先引入的一批,它用於將數據訪問層 (DAO 層 ) 的類標識爲 Spring Bean。具體只需將該註解標註在

原创 Windows8上面安裝Oracle11g時,安裝程序報錯:[INS-13001]環境不滿足最低要求

Oracle 11g 時,安裝程序報錯:[INS-13001]環境不滿足最低要求,解決方法: 在安裝文件的/stage/svu文件夾下面找到文件 cvu_prereq.xml文件,修改爲如下(添加windows 8 相關字段): <?

原创 開源中文分詞FudanNLP

推薦FudanNLP,這是一個復旦大學計算機學院開發的開源中文自然語言處理(NLP)工具包 Fudan NLP裏包含中文分詞、關鍵詞抽取、命名實體識別、詞性標註、時間詞抽取、語法分析等功能,對搜索引擎、文本分析等極爲有價值。 開源項目

原创 NLP常用工具

各種工具包的有效利用可以使研究者事半功倍。以下是NLP版版友們提供整理的NLP研究工具包。同時歡迎大家提供更多更好用的工具包,造福國內的NLP研究。*NLP Toolbox  CLT http://complingone.georgeto

原创 文本特徵提取方法研究

一、課題背景概述 文本挖掘是一門交叉性學科,涉及數據挖掘、機器學習、模式識別、人工智能、統計學、計算機語言學、計算機網絡技術、信息學等多個領域。文本挖掘就是從大量的文檔中發現隱含知識和模式的一種方法和工具,它從數據挖掘發展而來,但與傳統的

原创 CentOS、Ubuntu、Debian三個linux比較異同

Linux有非常多的發行版本,從性質上劃分,大體分爲由商業公司維護的商業版本與由開源社區維護的免費發行版本。 商業版本以Redhat爲代表,開源社區版本則以debian爲代表。這些版本各有不同的特點,在不同的應用領域發揮着不同的作用,