原创 EM 算法

因爲時間原因實在是來不及一一看那些書籍,經學長指點,直接學習統計翻譯的em算法,然後是基於短語的概率翻譯表提取,再者就是去學習bp神經網絡。 em在ibm model1中的應用,看了很久纔看明白,當我以爲自己看懂了的時候,學長讓我

原创 機器學習中的距離計算

1、Euclidean distance 歐氏距離 也叫作歐幾里得距離,就是兩個點的直線距離,計算方式就是平方差的異相加開根號。 2.Manhattan distance 曼哈頓距離 這個距離值得應該是實際生活中兩點可達的距離

原创 Git

Git的安裝 在Linux下面的安裝,比較簡單,我是用Ubuntu14.4 版本。 可以用 git命令查看自己本機是否安裝git。 Linux會給出安裝提示:sudo apt-get install git 安裝之後, $

原创 install ubuntu

after install ubuntu, I can’t get start with a choose of windows any more. it just get into ubuntu directly. solv

原创 DBScan 算法

DBScan 是一種基於密度的聚類算法,主要算法流程如下圖: DBSCAN(D, eps, MinPts) C = 0 //類別標示 for e

原创 tensorflow- MNIST機器學習入門

實現迴歸模型 使用TensorFlow之前,首先導入它: import tensorflow as tf #x不是一個特定的值,而是一個佔位符placeholder,我們在#TensorFlow運行計算時輸入這個值。我們希望能夠

原创 中文信息處理 N-gram模型

一. 什麼是建模?模型又是什麼? 建模,是人們爲了理解事物而對事物做出的一種抽象,是對事務進行書面無歧義的描述。 模型就是對實際問題或者是客觀規律進行的形式化的表達。 二. 關於語言模型 長久以來,人們一直希望計

原创 embedding

what is emdding embedding就是把字詞用向量表示出來,相當於是對字詞做encoding motivation 比如 貓,狗,我們當然可以直接把他們表示爲一些獨立的離散符號,但是這樣的表示毫無意義,而且會產生大

原创 加權

最近在研究約束聚類的問題,在查資料的時候看到很多weighted cluster,原來是加權聚類的意思,仔細想想這個“加權”是什麼個意思嘛。 回想起初中的加權平均數,這個跟算術平均數的區別又是什麼呢? 舉個例子,假設在某次比賽,

原创 分類問題

特徵值爲空如何處理? 參考資料: https://www.zhihu.com/search?type=content&q=%E7%89%B9%E5%BE%81%E5%80%BC%E4%B8%BA%E7%A9%BA 最後決定取均

原创 pycharm 2016.2.2 激活碼

43B4A73YYJ-eyJsaWNlbnNlSWQiOiI0M0I0QTczWVlKIiwibGljZW5zZWVOYW1lIjoibGFuIHl1IiwiYXNza WduZWVOYW1lIjoiIiwiYXNzaWduZW

原创 Plot 繪製點圖

可視化能幫助我們更好的理解高維空間到底發生了什麼。 一般可以使用matlba的pyplot來進行繪製: import matplotlib.pyplot as plt scatter 對二維空間點進行繪製,最簡單的如下: """ S

原创 pytorch 代碼筆記

轉到pytorch之後,還沒有系統的學習,然而在看一些源碼的時候,還是遇到了不少由於版本以及API變動所帶來的一些問題,然鵝網上關於這件事的相關資料較少,暫時記錄一下,以後有空了再探究一下底層實現細節問題。 torch.cat()

原创 均勻分佈差生正態分佈

文章目錄中心極限定理 中心極限定理 中心極限定理是說,n只要越來越大,這n個數的樣本均值會趨近於正態分佈,並且這個正態分佈以u爲均值,sigma^2/n爲方差。 換句話說,假設我們與樣本x1,x2....xnx1, x2....x_n

原创 Logister 迴歸

[TOC] Logister 迴歸雖然名稱叫做迴歸,但其實是一種分類模型; 在周志華老師的西瓜書中,把這一方法叫做:對數機率迴歸,其實看完整個推導過程,感覺這個名稱更合適一些。機率就是一個事件發生的概率和不發生的概率的比值; 問題