原创 perl進程終止函數die/warn/exit/kill

函數名:die 調用語法:die (message); 解說:終止程序並向STDERR輸出錯誤信息。message可以爲字符串或列表。如果最後一個參數不包含換行符,則程序文件名和行號也被輸出。 例子:die ("Cannot o

原创 搜索引擎反作弊

作弊的本質是:在網頁排名信號中,加入噪音,反作弊的關鍵是,去除噪音。   早期作弊方法:重複關鍵詞,賣鏈接。   針對商業相關的搜索,採用一套 抗干擾 強的搜索算法。 出鏈向量間餘弦距離幾乎爲1(賣鏈接)。 作弊網站需要相互鏈接,形成一個

原创 機器學習——監督學習,半監督學習,無監督學習,主動學習

在機器學習(Machine learning)領域,監督學習(Supervised learning)、非監督學習(Unsupervised learning)以及半監督學習(Semi-supervised learning)是三類

原创 表達式求值——棧的應用

  轉載請註明出處:http://www.cnblogs.com/luna-lovegood/archive/2012/07/17/2596501.html  一個算術表達式,含有數字(爲簡化處理,數字只有一位),運算符:+、-、*,以

原创 給定查詢的網頁綜合排名

給定查詢,有關網頁的綜合排名=網頁排名(PageRank)*相關性(TF-IDF)   網頁質量 對於一個特定的查詢,搜索結果的排名取決於兩組信息,關於網頁的質量和這個查詢與每個網頁的相關性信息。 PageRank算法--衡量網頁質量 簡

原创 最大熵模型

不要把所有信息放到一個籃子裏,降低風險。 知道各種各樣但又不完全確定的信息,用一個統一的模型將這些信息綜合起來。——將風險降到最小,保留全部的不確定性,讓熵最大。 對一個隨機事件概率分佈進行預測時,預測應滿足全部已知條件,而對未知情況不做

原创 信息指紋

信息指紋可以理解爲 將一段信息(文字,圖片,音頻,視頻等)隨機地 映射到 一個多維二進制空間中的一個點(一個二進制數字)。隨機函數做得好,不同信息對應的點不會重合,這些二進制的數字爲原來信息所具有的獨一無二的指紋。   用來提高存儲空間,

原创 數據結構 時間複雜度

程序設計=數據結構+算法   數據結構分爲 邏輯結構(面向問題) 和 物理結構(面向計算機)。 1、邏輯結構:數據元素之間的相互關係。      集合結構、線性結構(一對一)、樹形結構(一對多)、圖形結構(多對多) 2、物理結構:數據的邏

原创 GMM高斯混合模型

Gaussian Mixture Model (GMM)。 事實上,GMM 和 k-means 很像,不過 GMM 是學習出一些概率密度函數來(所以 GMM 除了用在 clustering 集羣上之外,還經常被用於 density est

原创 隱馬爾可夫模型--3

馬爾科夫鏈: 想象成一臺機器,隨機選擇一個狀態爲初始狀態,按照馬爾科夫鏈規則隨機選擇後續狀態,運行一段時間後,會產生一個狀態序列:s1,s2,s3……st.看到這個序列的人,可以輸出某個狀態mi出現的次數#(mi),以及從mi轉換到mj的

原创 前向算法

前向算法(Forward Algorithm) 計算觀察序列的概率(Finding the probability of an observed sequence) 1.窮舉搜索( Exhaustive search for soluti

原创 #include

預處理器發現 #include 指令後,就會尋找後跟的文件名並把這個文件的內容包含到當前文件中。被包含文件中的文本將替換源代碼文件中的#include 指令, 就像你把被包含文件中的全部內容鍵入到源文件中的這個位置一樣。 #include

原创 期望最大化算法EM

1、文本的自動收斂分類 文本TF-IDF向量的計算,餘弦距離的計算; 隨機挑出一些類的中心,優化這些中心,使它們和真實的中心和真實的聚類中心儘可能一致。 類數可以確定,也可以不定。 分類步驟: (1)隨機選K個點,作爲起始中心 (2)計算

原创 如何建立索引

本文節選自《這就是搜索引擎:核心技術詳解》第三章 3.4建立索引       正如前述章節所述,索引結構如果建立好了,可以增加搜索的速度,那麼給定一個文檔集合,索引是如何建立起來的呢?建立索引的方式有很多種,本節敘述比較實用的三

原创 關於頭文件

自定義頭文件通常放在使用該頭文件的源文件所在的目錄中,並使用 #include "MyHead.h" 來包含。  頭文件是不編譯的,因爲C語言編譯過程之前有個預編譯過程。在這個過程中用頭文件中的內容替換源文件中“#include”命令,