原创 複述抽取生成doc02-複述抽取生成流程圖

基於前面doc01確定的思路,本文檔給出複述抽取生成的流程圖,附件PDF以及圖片所示。

原创 像船

時間裏的船 幾歲時, 一切似乎都是漫長, 未知, 唯是期待。 十幾歲時, 一起經歷着, 有酸有甜, 共同訴說着誓言。 如今或許以後, 隔着千層, 無法感受。 原來, 相信有着不變的承諾, 一切依舊。 發現, 時間給的, 卻不是。 就

原创 複述抽取生成doc03-實現01

編程實現01定義一個句子類NewSentence,包含基本的句子,分詞後的結果,以及句法分析樹結果,以及句子中的錨點對象(命名實體)分詞采用IKAnalyzer句法分析以及依存分析採用stanford parser(分析一個句子比較慢 加

原创 複述抽取生成doc01-思路方法確立

經過近似一個月的各種看中文英文複述研究的論文,最終選定基於單個單語語料庫,從中抽取複述patterns,用於新句子的複述生成。下載了搜狗實驗室幾百M的網頁數據,發現這種單語的網頁數據,從中找到複述句子對可能性非常小,而且代價很高。對於一個

原创 基於數據(語料庫)的複述粗略綜述

基於數據(語料庫)的複述粗略綜述 By牛力強 2013年9月24日 NLP CS NJU Email:[email protected] 1.複述 1.1複述(paraphrase): 在與原句表達相同的語義內容,同一種語

原创 中文詞性標註 符號表示

Definitions of Chinese Part-of-Speech 中文詞性標註(33)   [1]     AD    副詞  Adverbs [2]     AS    語態詞  --- 了 [3]     BA 

原创 收集各種文章資料的URL 不斷更新

10. 9.機器學習 鏈接 轉自http://www.cnblogs.com/kshenf/archive/2012/06/14/2548708.html 1.機器學習開源軟件網(收錄了各種機器學習的各種編程語言學術與商業的開源

原创 hello world

hello world.  2013年8月1日15:20:31

原创 org.apache.wicket.core.request.handler.ComponentNotFoundException原因

2013年9月3日14:49:31 在使用wicket框架開發輕量級網站時遇到org.apache.wicket.core.request.handler.ComponentNotFoundException這個異常。 原因:頁面一塊麪板

原创 C++ 學習 小細節 01數組指針篇

1.數組定義和初始化: 1.1數組的維數必須使用值大於等於1的常量表達式定義。只能包含整型字面值常量、枚舉常量(枚舉成員本身是一個常量表達式)或者用常量表達式初始化的整型const對象。非const變量以及到運行階段才能知道其值得cons

原创 Linux下C語言編程 利用RPC(Remote Procedure Call)快速實現分佈式系統

轉載自http://zhoulifa.bokee.com/6129455.html 一、概述 在傳統的編程概念中,過程是由程序員在本地編譯完成,並只能侷限在本地運行的一段代碼,也即其主程序和過程之間的運行關 系是本地調用關係。因此這種結

原创 word2vec學習筆記2

1.前車之鑑 鑑於前面word2vec在大數據集上由於分詞器、數字等噪音的干擾,使得訓練出來的word2vec的結果不是很好。因此本節換用IKAnalyzer分詞工具,另外調整word2vec的參數來實驗。 2.幾種分詞工具簡要介紹對比

原创 google word2vec源碼剖析

google word2vec源碼剖析 前要: 瞭解到word2vec的使用以及還不錯的結果,進而去閱讀Mikolov: efficient estimation of word representations in vector spa

原创 MapReduce實驗:HBase安裝以及簡單操作

MapReduce實驗:HBase與Hive 2014.4.21 nlq NJUCS MapReduce實驗:HBase與Hive.1 1.HBase.1 1.1.單機環境下僞分佈式HBase安裝與操作示例...1 1.1.1.下載安裝.

原创 Two Sum

原題鏈接:http://oj.leetcode.com/problems/two-sum/ Given an array of integers, find two numbers such that they add up to a