原创 【Scrapy爬蟲系列1】爬蟲的幾大問題——拋磚引玉

什麼是爬蟲? 抓取特定網站網頁的HTML數據 什麼是Scrapy? Scrapy是一個基於Twisted,純Python實現的爬蟲框架,用戶只需要定製開發幾個模塊就可以輕鬆的實現一個爬蟲。Scrapy使用Twisted這個異步網絡庫來

原创 【特徵工程系列2】如何獲得訓練數據的標籤?

       機器學習可以大致分爲有監督和無監督兩大類。其中,有監督是指訓練數據是帶標籤的,如果標籤準確,其性能一般優於無監督學習。        在各大教科書上,“帶標籤”和“不帶標籤”都是直接假定的。那麼,問題來了,在現實中,如何獲

原创 【ML經典書籍系列1】解讀PRML

轉自知乎:http://www.zhihu.com/question/20970802,作者楊超     本書是經典中的經典我完整看了3遍以上要算上沒看完的幾次得有快10遍 (剖析自己,沒有一本是認真看完的)是的前幾次我都是看的半途而廢

原创 【Python系列5】set和list的妙用

set和list是Python常用的結構類型,這裏不再多述。本文主要是總結了一些它們配合起來的一些妙用。 (1)去重 比如一個序列: >>>line = ['a','b','a'] 爲了去除重複的'a',可以進行如下操作: >>> lis

原创 【HTTP協議系列2】User-Agent的歷史

      1993年,NCSA 發佈了首款 web 瀏覽器 Mosaic。它的 user-agent 字串非常簡潔:   Mosaic/0.9雖然當時由於它對操作系統和平臺的依賴性,但是基本格式還是很簡單明瞭。在文本中,斜槓前面

原创 【HTTP協議系列4】服務器日誌之X_Forwarded_For

X_Forwarded_For X-Forwarded-For:簡稱XFF頭,它代表客戶端,也就是HTTP的請求端真實的IP,只有在通過了HTTP代理或者負載均衡服務器時纔會添加該項。HTTP/1.1(RFC 2616)協議並沒有對它的

原创 【讀書筆記】2018《後谷歌時代:大數據的衰落及區塊鏈經濟的崛起》

第一章:勿竊此書 1. 威廉·布萊恩·阿瑟(聖菲研究院,2017):當前經濟發展到了基本上爲每個人都生產了足夠多產品的階段……故而,我們正在步入的這個新時代所面臨的不再是生產多少產品,而是關於分配,關於人們如何分享生產所得的問題。 2.

原创 【Scrapy爬蟲系列2】性能調優

加快爬蟲速度: 在 settings.py 裏把 TIMEOUT 設小點提高併發數( CONCURRENT_REQUESTS )瓶頸在 IO ,所以很有可能 IO 跑滿,但是 CPU 沒跑滿,所以你用 CPU 來加速抓取其實是

原创 【HTTP協議系列3】http請求

HTTP請求報文 一個HTTP請求報文由請求行(request line)、請求頭部(header)、空行和請求數據4個部分組成,下圖給出了請求報文的一般格式。 <request-line>   <headers>   <b

原创 【數據結構系列1】Hash_Map

hash_map和map的區別在哪裏? 構造函數。hash_map需要hash函數,等於函數;map只需要比較函數(小於函數).存儲結構。hash_map採用hash表存儲,map一般採用紅黑樹(RB Tree)實現。因此其memor

原创 【機器學習系列2】FPGrowth算法與spark實現

原理 基礎 支持度 支持度是指在所有項集中{X, Y}出現的可能性,即項集中同時含有X和Y的概率: 該指標作爲建立強關聯規則的第一個門檻,衡量了所考察關聯規則在“量”上的多少。 置信度 置信度表示在先決條件X發生的條件下,關聯結果Y發生

原创 【Spark系列5】cache和persist的區別

通過觀察RDD.Scala源代碼即可知道cache和persist的區別: def persist(newLevel: StorageLevel): this.type = {  if (storageLevel != Stor

原创 【機器學習系列1】Xgboost算法

http://skyhigh233.com/blog/2016/12/01/gbdt-and-xgboost/ RF、GBDT和xgboost RF:從M個訓練樣本中隨機選取m個樣本,從N個特徵中隨機選取n個特徵,然後建立一顆決策

原创 如何去硅谷就業?

作者:眠眠 鏈接:https://www.zhihu.com/question/35753713/answer/64727333 來源:知乎 著作權歸作者所有。商業轉載請聯繫作者獲得授權,非商業轉載請註明出處。 一, 像上文說的一樣,

原创 【TCP/IP系列1】TCP/IP經典書籍

《TCP/IP協議詳解》三卷,第一卷特別經典,適合反覆地看,對於幾個基礎的協議一定要非常清晰,比如IP、TCP、UDP、ICMP,一定記住每個協議所有字段細節,ping,traceroute 的工作原理。可以做一些小實驗: 比如pin