最近聽說新出了一個代碼搜索引擎 https://searchcode.com searchcode 挺強大的。
集成了幾個大的開源網站,像 github,googlecode,等等。
使用中,以後有好的發現了會更新上來的。
首先是分詞, 即將文本中的詞彙抽取出來, 去掉stop word, 進而建立文本的反向索引. 說明 1: stop word是沒有實體意義的a, the, in等單詞. 值得說明的是, stop word在不同的文本中會有變化. 說明
November 23Lemur的安裝於初步使用 參考文檔:Installing and Running Lemur(Version 4.7) 偶要補充幾句:1.windows 環境下,安裝之後,在編譯程序的時候呢,會有很多的link e
網頁噪聲去除可以看作是一個分類問題:把一個網頁片斷分爲”有用信息“和”噪聲“。在有大量訓練樣本的情況下可以使用SVM進行分類。 一種直接的想法把HTML轉換成DOM樹,對每個節點計算鏈接文字比率,如果高於一定的閾值,就認爲它不是正文,而是
在簡介篇中我們簡單說過圖像特徵,圖像特徵的提取有兩種常用方式,一是提取例如SIFT特徵,手工進行特徵的篩選等,需要計算機視覺方面的先驗性知識;二是使用當前很火的深度學習,訓練出基於卷積神經網絡模型的特徵提取算子,某寶和某度用的就是
將IE6升級成了IE7,重啓系統結果無法打開IE7,右鍵IE7出現 無法定位序數237於動態鏈接庫IEFRAME.dll. 卸載IE7辦法如下: 1. 單擊“開始”,然後單擊“運行”。 2. 在“打開”框中,鍵入 %windir%/ie7