原创 Python中多進程在爬蟲中的使用

本來這周準備寫一個整合ip池,多進程的高效爬取所有職位詳細信息的爬蟲的,結果在多進程這一塊兒折騰了好久,簡直把我氣死,雖然內容其實不多,但把自己學習的過程寫下來,希望能幫到有同樣困惑的朋友。 我參照的是廖雪峯老師寫的一個Python教程,

原创 Python爬蟲入門,抓取應屆生求職網北京地區所有職位

    我也是剛剛入門Python爬蟲,寫這個一方面給和我一樣的初學者一個參考,另一方面也希望有高手可以給我指導,一個人學習總是有些無聊的。其實任何語言的學習,我覺得最好的方式就是實戰,看過太多理論,也不如實際擼一遍代碼來的痛快,所以我

原创 Python爬蟲IP代理池的建立和使用

正如在上一篇博文中提到的那樣,同一個IP針對一個網站短時間內大量的訪問通常會導致IP被封,除了在爬取數據時增加延遲(爬取量不大或者對爬取速度沒要求),還有一個好方法就是使用代理IP,這樣就可以完美解決IP被封的問題。 那麼,問題來了,代理

原创 推薦系統-隱因子模型(LFM)

今天我們來聊一聊LFM(Latent Factor Model)的故事,這也算是我們在推薦系統裏第一個用到的學習算法了吧,前面講的兩個協同過濾都是基於統計來的。 協同過濾的思路就是基於用戶和物品的交互行爲,要麼計算用戶間的相似度,推薦相似

原创 推薦系統-基於物品的協同過濾(Item-based CF)

今天我們來聊一聊基於物品的協同過濾即Item-based CF方法。有了上一篇的經驗,你可能很容易就想到Item-based CF就是通過計算物品之間的相似度,然後用戶曾與那些商品發生過交互,給他推薦與這些商品最接近的東西給他。這樣做有什

原创 推薦系統-基於用戶的協同過濾(User-based CF)

基於鄰域的算法應該算是推薦系統中最基礎的算法之一了,主要包括基於用戶的協同過濾和基於物品的協同過濾,我覺得他們是最符合直覺的推薦算法了。你想想看,如果給你若干人的行爲數據,你怎麼去做推薦,一個就是找到和他最相似的用戶,因爲他們臭味相投,所

原创 推薦系統概述

已經很長一段時間沒寫過東西了,一方面確實是亂七八糟的事情比較多,另一方面也確實是懶,所以趁着現在實驗室沒那麼多活兒要乾了,想要寫寫博客梳理梳理自己學習的一些東西。 至於爲什麼會選擇推薦系統,你看看我們這種轉行狗的學習路徑就明白了。作爲一名

原创 機器學習筆記(十一)實踐之數據競賽的套路

前面寫了很多篇理論,大家願意一篇一篇堅持看下來其實挺不容易的,雖然理論很重要,但脫離了實踐還是空中樓閣啊,算法科學家也不可能不代碼啊,所以呀,今天我們就插播一期實踐,和大家聊一聊實際過程當中機器學習算法的應用。 對於我們這些初學者或者說外

原创 數據結構與算法(1)鏈表,基於Python解決幾個簡單的面試題

最近頭一直很大,老闆不停地佈置各種任務,根本沒有時間幹自己的事情,真的好想鼓起勇氣和他說,我以後不想幹這個了,我文章也發了您就讓我安安穩穩混到畢業行不行啊……作爲我們這些想要跨專業的人來說,其實很大的一個劣勢就是沒有經歷過一個計算機學科完

原创 利用Python通過頻譜分析和KNN完成iphone撥號的語音識別

最近這段時間,學校裏的事情實在太多了,從七月下旬一直到八月底實驗室裏基本天天十二點或者通宵,實在是沒有精力和時間來寫博客。這周老師出國開會,也算有了一個短暫的休息機會,剛好寫點有意思的東西。 上週在天津的會議上碰到一個北交的姐們兒,她想利

原创 機器學習筆記(五)決策樹算法及實踐

決策樹是機器學習中相當經典的一種算法,既可以用作分類,也可以用作迴歸,同時還適合做集成學習用於隨機森林等等,今天就來好好介紹一下決策樹算法。 首先,決策樹的思想就是非常容易理解的。通俗地講就是拿到一堆樣本之後,我首先根據某個特徵,將樣本劃

原创 機器學習筆記(六)Bagging及隨機森林

上一次我們講到了決策樹的應用,但其實我們發現單棵決策樹的效果並不是那麼的好,有什麼辦法可以提升決策樹的效果呢?這就是今天要提到的Bagging思想。 其實對於Bagging早有耳聞,知道它是一種提升的辦法,但之前總在想它的名字是什麼含義?

原创 機器學習筆記(十二)樸素貝葉斯算法及實踐(NB算法的產生及參數估計)

前面幾周確實忙的有點頭疼,實驗室裏的活兒很多,然後又參加那個京東的算法比賽,所以博客的更新就耽誤了,又到週末了趕緊寫點東西,不能放縱自己,因爲下週又放假了呀,哈哈哈O(∩_∩)O~ 今天想和大家聊一聊樸素貝葉斯以及貝葉斯網絡的相關內容,既

原创 數據結構與算法(2)排序算法,用Python實現插入,選擇,堆排,冒泡,快排和歸併排序

前段時間鼓起勇氣和老闆說了一下以後想從事機器學習方向的工作,所以最好能有一份不錯的實習,希望如果我有好的機會他可以讓我去,沒想到老闆非常通情達理,說人還是要追尋自己感興趣的東西,忙完這陣你就去吧。所以最近開始瘋狂地投實習生簡歷,各家春招都

原创 數據挖掘(二)用python實現數據探索:彙總統計和可視化

今天我們來講一講有關數據探索的問題。其實這個概念還蠻容易理解的,就是我們剛拿到數據之後對數據進行的一個探索的過程,旨在瞭解數據的屬性與分佈,發現數據一些明顯的規律,這樣的話一方面有助於我們進行數據預處理,另一方面在進行特徵工程時可以給我們