原创 TF-IDF算法簡介

http://cnn237111.blog.51cto.com/2359144/1423795 TF-IDF算法全稱爲term frequency–inverse document frequency。TF就是term frequen

原创 13 款開源的全文檢索引擎

http://www.iteye.com/news/27484 1.  Lucene  Lucene的開發語言是Java,也是Java家族中最爲出名的一個開源搜索引擎,在Java世界中已經是標準的全文檢索程序,它提供了完整的

原创 Python新聞聯播詞頻統計

http://www.judymax.com/archives/1033 在本文中,我們將編寫這樣一個 Python 程序:從網絡上抓取前一日《新聞聯播》的文本稿,利用分詞技術將它們拆散成詞組,對拆散的詞組按照出現頻率統計,將統計值按從大

原创 解讀2015之自然語言處理篇:持續探索 穩中前行

http://www.infoq.com/cn/articles/2015-Review-NLP 編者按 2015年,整個IT技術領域發生了許多深刻而又複雜的變化,InfoQ策劃了“解讀2015”年終技術盤點系列文章,希望能夠給讀者清晰

原创 Lucene:基於Java的全文檢索引擎簡介

Lucene:基於Java的全文檢索引擎簡介 http://www.chedong.com/tech/lucene.html#segment Lucene是一個基於Java的全文索引工具包。 基於Java的全文索引引擎Lucene

原创 TF-IDF與餘弦相似性的應用(三):自動摘要

http://www.ruanyifeng.com/blog/2013/03/automatic_summarization.html 有時候,很簡單的數學方法,就可以完成很複雜的任務。 這個系列的前兩部分就是很好的例子。僅僅依靠統

原创 知識圖譜技術原理介紹

http://www.36dsj.com/archives/39306 作者:王昊奮 近兩年來,隨着Linking Open Data[1] 等項目的全面展開,語義Web數據源的數量激增,大量RDF數據被髮布。互聯網正從僅包含網

原创 自然語言處理與深度學習: 集智俱樂部活動筆記

http://www.zmonster.me/2016/07/04/dl_and_nlp.html 目錄 簡介自然語言處理的基本任務對語言進行建模的若干方法 語言模型簡介N-gram 語言模型基於神經網絡的語言模型 語言的表

原创 9個基於Java的搜索引擎框架

http://www.codeceo.com/article/8-java-search-engine.html 在這個信息相當繁雜的互聯網時代,我們已經學會了如何利用搜索引擎這個強大的利器來找尋目標信息,比如你會在Goo

原创 Python調用哈工大語言云(LTP)API進行自然語言處理

http://46aae4d1e2371e4aa769798941cef698.devproxy.yunshipei.com/churximi/article/details/51173297 哈工大語言云(語言技術平臺雲)是以

原创 TF-IDF與餘弦相似性的應用(二):找出相似文章

http://www.ruanyifeng.com/blog/2013/03/cosine_similarity.html 上一次,我用TF-IDF算法自動提取關鍵詞。 今天,我們再來研究另一個相關的問題。有些時候,除了找到關鍵詞,

原创 《大數據智能》第2章:知識圖譜

http://blog.sina.com.cn/s/blog_574a437f0102w2bk.html 第2章:知識圖譜——機器大腦中的知識庫 2.1 什麼是知識圖譜 在互聯網時代,搜索引擎是人們在線獲取信息和知識的

原创 lucene原理

http://www.programgo.com/article/81033150113/ Lucene原理     1 反向索引 _       字符串到文件的映射   左邊的稱爲“字典”,用戶要搜索的詞語,而右邊就是所有包含該次的

原创 中文分詞與詞頻統計實例

http://blog.ourren.com/2014/09/24/chinese_token_and_frequency/ 話說近兩年大數據確實火了,帶給我們最直接的視覺感受就是利用圖或者表來展示大數據所隱藏的內容,真是真實而又

原创 深度解讀谷歌SyntaxNet:全新TensorFlow自然語言處理模型

http://www.leiphone.com/news/201605/WOgdrkYSUwuwqQjD.html 今年夏天,雷鋒網(公衆號:雷鋒網)將在深圳舉辦一場盛況空前的“全球人工智能與機器人創新大會”(簡稱GAIR)。大會現場