原创 C++中的重載、覆蓋(多態)和隱藏

C++中重載、覆蓋和多態是三個有些相似的概念,以下以代碼的方式展示三者的不同。 1)重載:同名函數不同參數(類型、個數),編譯時編譯器確定使用哪個函數,屬於編譯時“多態”,不是真正的多態; 2)覆蓋:子類覆蓋父類的虛函數,函數名、參數必須

原创 C++中static關鍵字的用法

static變量與全局變量有很多相似之處,下面是他們主要的異同點: 相同:1)都存儲在靜態存儲區,相比之下局部變量是存儲在程序棧中的。             2)生命週期與程序的生命週期相同,從初始化直到程序運行結束一直存在。而局部變量

原创 核方法

非線性可分問題: 在分類問題中存在一種非線性可分問題,一些方法只能解決線性可分問題,如NB、LR、感知機、SVM等(K近鄰是可以一種非線性模型)。解決非線性問題一般有兩種思路,一是建立非線性模型(如K近鄰),但是構建非線性模型一般會比較複

原创 信息增益與決策樹

決策樹是一種判別式模型。在一顆分類決策樹中,非葉子節點時決策規則,葉子節點是類別。當輸入一個特徵向量時,按照決策樹上的規則從根節點向葉節點移動,最後根據葉節點的類別判定輸入向量的類別。決策樹也可以用來解決迴歸問題。 建立一個決策樹模型主要

原创 文檔生成模型:多元貝努利vs多項式

在使用樸素貝葉斯(NB)對文檔進行分類時,會使用到文檔的生成模型,爲什麼呢?還是從貝葉斯公式出發,其中右半部分就是生成一篇文檔的過程,首先選擇一個類c,然後根據這個類以一定概率生成文檔d。P(c)沒什麼說的了,滿足categorical分

原创 拼音轉漢字算法(隱馬爾科夫、維特比算法)

問題:根據用戶輸入的拼音串得到用戶想要輸入的語句。 隱馬爾科夫模型: 可以把這個問題看做是通信問題,即拼音串是接收到的信號,目的是推測出真正的信號。這時就可以使用隱馬爾科夫模型。 令是用戶輸入的拼音,每個拼音對應一個漢字,那麼整個拼音串就

原创 SVM

SVM與感知機模型有很多相似之處,SVM主要解決的也是二分類問題,也是判別式方法,同樣需要找到一個決策超平面對樣本進行劃分。不同的是在SVM中尋找距離正負樣本間隔最大的超平面,這也是SVM優越性的表現,並且SVM很容易可以植入核方法,使得

原创 感知機模型

這裏介紹機器學習中最簡單的一種分類方法:感知機模型。 感知機模型: 其中sign是符號函數,w和b是參數,x是輸入特徵向量,f(x)返回決策結果。 分離超平面S: 對於二類線性可分問題,分離超平面將兩類樣本分在S兩側。 空間中一點x0

原创 樸素貝葉斯模型

樸素貝葉斯模型(NB)是分類模型中較簡單的一種模型。NB是一種生成式模型,與判別式模型(感知機、SVM)不同,它會對數據的產生過程進行建模。個人覺得分類中的NB與信號處理中的馬爾科夫模型有異曲同工之妙。NB和馬爾科夫都是對一組可能互相相關

原创 SimHash和網頁查重

方法出自Google文章Detecting Near-Duplicates for Web Crawling(2007 WWW)。 Google要解決的問題是當crawler得到一個網頁時,如何判斷該網頁是否是已經存在的或存在相似的。 解

原创 使用KD樹進行最近鄰查找的例子

使用KD樹進行最近鄰查找的例子 例1: 查詢點(2.1,3.1) 星號表示要查詢的點(2.1,3.1)。通過二叉搜索,順着搜索路徑很快就能找到最鄰近的近似點,也就是葉子節點(2,3)。而找到的葉子節點並不一定就是最鄰近的,最鄰近肯定

原创 MLE極大似然估計

極大似然估計(MLE): 極大似然估計是一種參數估計的方法,即已知樣本估計出模型參數。 極大似然估計是頻率學派的一種方法(與貝葉斯學派的極大後驗估計對應),頻率學派認爲模型的參數是確定的,只是不知道而已,所以可以通過樣本推斷出模型參數。

原创 機器學習中的常用分佈

基本概念: 1. 樣本空間:實驗所有可能的輸出的集合。 2. 隨機變量:隨機變量是一個映射(或函數),將映射到實數集。可以分爲離散型隨機變量和連續型隨機變量。 3. pmf和pdf:pmf(probability mass functio

原创 Logistic迴歸

Logistic模型的產生: Logistic迴歸是一種判別式分類器,直接對進行建模,相比之下產生式分類器對聯合分佈進行建模,典型的產生式分類器有樸素貝葉斯分類器。 Logistic迴歸是一種分類模型,因爲形式與線性迴歸相似,所以被稱爲迴

原创 圖的BFS遍歷中標記已訪問的節點操作影響效率

在做leetCode 130 Surrounded Regions時一直TLE,但是對照自己的代碼更別人的代碼也“幾乎”相同,最後終於找到問題所在,就是在圖的BFS過程中,什麼時候對已經訪問的節點做標記(這些語句安排在哪裏)是會嚴重影響效