原创 複述抽取生成doc02-複述抽取生成流程圖
基於前面doc01確定的思路,本文檔給出複述抽取生成的流程圖,附件PDF以及圖片所示。
原创 像船
時間裏的船 幾歲時, 一切似乎都是漫長, 未知, 唯是期待。 十幾歲時, 一起經歷着, 有酸有甜, 共同訴說着誓言。 如今或許以後, 隔着千層, 無法感受。 原來, 相信有着不變的承諾, 一切依舊。 發現, 時間給的, 卻不是。 就
原创 複述抽取生成doc03-實現01
編程實現01定義一個句子類NewSentence,包含基本的句子,分詞後的結果,以及句法分析樹結果,以及句子中的錨點對象(命名實體)分詞采用IKAnalyzer句法分析以及依存分析採用stanford parser(分析一個句子比較慢 加
原创 複述抽取生成doc01-思路方法確立
經過近似一個月的各種看中文英文複述研究的論文,最終選定基於單個單語語料庫,從中抽取複述patterns,用於新句子的複述生成。下載了搜狗實驗室幾百M的網頁數據,發現這種單語的網頁數據,從中找到複述句子對可能性非常小,而且代價很高。對於一個
原创 基於數據(語料庫)的複述粗略綜述
基於數據(語料庫)的複述粗略綜述 By牛力強 2013年9月24日 NLP CS NJU Email:[email protected] 1.複述 1.1複述(paraphrase): 在與原句表達相同的語義內容,同一種語
原创 中文詞性標註 符號表示
Definitions of Chinese Part-of-Speech 中文詞性標註(33) [1] AD 副詞 Adverbs [2] AS 語態詞 --- 了 [3] BA
原创 收集各種文章資料的URL 不斷更新
10. 9.機器學習 鏈接 轉自http://www.cnblogs.com/kshenf/archive/2012/06/14/2548708.html 1.機器學習開源軟件網(收錄了各種機器學習的各種編程語言學術與商業的開源
原创 hello world
hello world. 2013年8月1日15:20:31
原创 org.apache.wicket.core.request.handler.ComponentNotFoundException原因
2013年9月3日14:49:31 在使用wicket框架開發輕量級網站時遇到org.apache.wicket.core.request.handler.ComponentNotFoundException這個異常。 原因:頁面一塊麪板
原创 C++ 學習 小細節 01數組指針篇
1.數組定義和初始化: 1.1數組的維數必須使用值大於等於1的常量表達式定義。只能包含整型字面值常量、枚舉常量(枚舉成員本身是一個常量表達式)或者用常量表達式初始化的整型const對象。非const變量以及到運行階段才能知道其值得cons
原创 Linux下C語言編程 利用RPC(Remote Procedure Call)快速實現分佈式系統
轉載自http://zhoulifa.bokee.com/6129455.html 一、概述 在傳統的編程概念中,過程是由程序員在本地編譯完成,並只能侷限在本地運行的一段代碼,也即其主程序和過程之間的運行關 系是本地調用關係。因此這種結
原创 word2vec學習筆記2
1.前車之鑑 鑑於前面word2vec在大數據集上由於分詞器、數字等噪音的干擾,使得訓練出來的word2vec的結果不是很好。因此本節換用IKAnalyzer分詞工具,另外調整word2vec的參數來實驗。 2.幾種分詞工具簡要介紹對比
原创 google word2vec源碼剖析
google word2vec源碼剖析 前要: 瞭解到word2vec的使用以及還不錯的結果,進而去閱讀Mikolov: efficient estimation of word representations in vector spa
原创 MapReduce實驗:HBase安裝以及簡單操作
MapReduce實驗:HBase與Hive 2014.4.21 nlq NJUCS MapReduce實驗:HBase與Hive.1 1.HBase.1 1.1.單機環境下僞分佈式HBase安裝與操作示例...1 1.1.1.下載安裝.
原创 Two Sum
原題鏈接:http://oj.leetcode.com/problems/two-sum/ Given an array of integers, find two numbers such that they add up to a