零基礎如何學爬蟲技術?

我自學 Python 爬蟲,到這個月出書《Python 網絡爬蟲:從入門到實踐》(機械工業出版社出版),一共也就過去兩年。這兩年自學的過程,走過了無數的坑,多虧了各位大神無私地回答我的問題,我想我是有資格幫你解決零基礎學爬蟲技術的。

作爲零基礎的你,我想你可能是想解決工作中的一個實際問題,或者僅僅是很想學習一下爬蟲的技術,多一技之長。其實我準備開始學 Python 爬蟲的時候也是一樣,老闆派了任務,暫時沒有人會爬蟲,我只有自學頂硬上。因此,我可以用思維圖給你理清楚,你應該幹什麼。

我零基礎但我想學網絡爬蟲:

路徑1:我不想寫代碼,那已經有很多方法,Excel/八爪魚,用這些工具的好處是你可以很快上手,但是隻能爬一些簡單的網站,一旦網站出現限制,這些方法就是個玩具。因此,想弄點數據玩玩,玩這些玩具就好。

路徑2:我可以學寫代碼,但是會不會很難啊?我以我的經驗告訴你,找一個好的老師比自我胡思亂想,自我設限好得多。寫代碼這個事不難學,這也是爲什麼市面上有那麼多代碼速成的教學。這也是爲什麼我有些同學1年轉專業進 Google 的事情發生。

這裏給你描畫一下你的學習之路:

  1. 學會 Python 的基本代碼: 假如你沒有任何編程基礎,時間可能花1-2周,每天3小時。假設你有編程基礎(VBA 也算吧),1小時。
  2. 理解爬蟲原理:5分鐘。爲什麼這麼重要?我自認爲學一個東西就像建大樓,先弄清楚大框架,然後再從地基學起。很多時候我們的學習是,還沒弄懂大框架,就直接看網上的碎片化的教學,或者是跟着網上教學一章一章學,很容易學了芝麻丟了西瓜。我的自學就在這上面走了很多彎路。請參見:【爬蟲二】爬蟲的框架和基本議題
  3. 應用爬蟲原理做一個簡單爬蟲:30分鐘。請參見:5分鐘入門網絡爬蟲 - 原來可以這麼簡單易懂
  4. 先吃透獲取網頁:就是給一個網址發個請求,那麼該網址會返回整個網頁的數據。類似:你在瀏覽器鍵入網址,回車,然後你就看到了網站的整個頁面。
  5. 再吃透解析網頁:就是從整個網頁的數據中提取你想要的數據。類似:你在瀏覽器中看到網站的整個頁面,但是你想找到產品的價格,價格就是你想要的數據。
  6. 再學會儲存數據:存儲很簡單,就是把數據存下來。

學會這些之後,你可以出去和別人說,我會 Python 爬蟲,我想也沒有人質疑你了。那麼學完這一套下來,你的時間成本是多少呢?如果你有編程基礎的話,1周吧。

所以,你是想當爬蟲做個玩具玩玩,還是掌握一門實戰利器。我覺得你可以自己衡量一下。

其實我已經把我這幾年的心得,遇到的坑都濃縮在這本書裏,希望大家的學習之路上少走點坑。

想系統學習 Python,對上面六步感興趣的可以讀:如何有系統地學習Python爬蟲?

貼個鏈接,希望大家支持
京東鏈接《Python網絡爬蟲從入門到實踐》(唐鬆,陳智銓)【摘要 書評 試讀】- 京東圖書

噹噹鏈接《Python網絡爬蟲從入門到實踐》(唐鬆 陳智銓)【簡介書評在線閱讀】 - 噹噹圖書

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章