原创 基於網站風格樹SST的網頁噪聲去除

網頁噪聲去除可以看作是一個分類問題:把一個網頁片斷分爲”有用信息“和”噪聲“。在有大量訓練樣本的情況下可以使用SVM進行分類。 一種直接的想法把HTML轉換成DOM樹,對每個節點計算鏈接文字比率,如果高於一定的閾值,就認爲它不是正文,而是

原创 perl中my與local的區別

轉載:http://blog.sina.com.cn/s/blog_4fcdb9280100l46v.html my: lexically scoped variablelocal:Dynamically scoped variable

原创 不要一個人喫飯

《不要一個人喫飯( Never Eat Alone)》一書介紹了21世紀的交際規則。1.努力讓自己的付出多於回報因爲你會爲別人提供價值,別人纔會聯繫你。所以多考慮別人而不是自己。2.不要保留 不要以爲友誼是有限的。這是投資,會越滾越多。3

原创 棧溢出

棧是從高地址向低地址方向增漲,堆的方向相反。 在一次函數調用中,棧中將被依次壓入:參數,返回地址,EBP。如果函數有局部變量,接下來,就在棧中開闢相應的空間以構造變量。 在C語言程序中,參數的壓棧順序是反向的。比如func(a,b,c)。

原创 不要一個人吃飯

《不要一個人吃飯( Never Eat Alone)》一書介紹了21世紀的交際規則。1.努力讓自己的付出多於回報因爲你會爲別人提供價值,別人纔會聯繫你。所以多考慮別人而不是自己。2.不要保留 不要以爲友誼是有限的。這是投資,會越滾越多。3

原创 卡特蘭數Catalan Number

Catalan Number滿足下列遞推公式: N個元素元素進棧,多少種出棧方式 考慮A、B、C、D依次進棧,那麼所有的出棧順序是下列4種情況的並集: 1)A第一個出棧。肯定是A進棧後馬上出棧,剩下B、C、D的出棧順序有h(3)種

原创 Linux I/O複用

epoll 首先看個結構體 typedef union epoll_data { void *ptr; int fd; uint32_t u32; uint64_t u64; } epoll_data_

原创 分類迴歸樹CART(上)

分類迴歸樹(CART,Classification And Regression Tree)也屬於一種決策樹,上回文我們介紹了基於ID3算法的決策樹。作爲上篇,這裏只介紹CART是怎樣用於分類的。 分類迴歸樹是一棵二叉樹,且每個非葉子節點

原创 union變量存儲

字節序 小端字節序(Little Edian)指低字節數據存放在內存低地址處,高字節數據存放在內存高地址處。比如整形1在內存中的存放情況是: 而換成大端字節序(Big Edian)則是: 基於Intel X86的體系結構的PC機是小端

原创 libevent基礎

關於I/O利用,不同的平臺上都有相應的策略,比如select、poll、epoll、kqueue、devpoll、evport、win32。爲libevent提供一組庫函數,屏蔽了平臺的差異性,底層還是調用的epoll、kqueue、de

原创 回溯

回溯算法的求解過程實質上是一個先序遍歷一棵"狀態樹"的過程,只是這棵樹不是遍歷前預先建立的,而是隱含在遍歷過程中。 冪集 即求一個集合的所有子集。比如對於集合A={1,2,3},則A的冪集爲p(A)={{1,2,3},{1,2},{1,3

原创 大數加法

兩個很大的整數--超過了INT_MAX,它們怎麼做加法呢?把它們當作字符串,逐位進行相加嘍。 #include<stdio.h> #include<string.h> #include<stdlib.h> char* add(cons

原创 struct變量存儲

在沒有#pragma pack宏的情況下,結構體中的變量存儲遵循以下對齊原則: 原則一:第一個數據成員放在offset爲0的地方,以後每個數據成員存儲的起始位置要從其自身大小的整數倍開始。 原則二:結構體的總大小,也就是sizeof的結果

原创 curse of dimensionality維數災難

或者翻譯成維度的咒語,這個咒語出現在很多方面: sampling採樣 如果數據是低維的,所需的採樣點相對就比較少;如果數據是高維的,所需的採樣點就會指數級增加,而實現中面對高維問題時往往無法獲得如此多的樣本點(即使獲得了也無法處理這麼龐大

原创 C4.5決策樹

C4.5決策樹在ID3決策樹的基礎之上稍作改進,請先閱讀ID3決策樹。 C4.5克服了ID3的2個缺點: 1.用信息增益選擇屬性時偏向於選擇分枝比較多的屬性值,即取值多的屬性 2.不能處理連貫屬性 Outlook Temperature