python爬蟲技術的選擇

本篇文章不是入門帖,需要對python和爬蟲領域有所瞭解。 

        爬蟲又是另外一個領域,涉及的知識點比較多,不僅要熟悉web開發,有時候還涉及機器學習等知識,不過在python裏一切變的簡單,有許多第三方庫來幫助我們實現。使用python編寫爬蟲首先要選擇合適的抓取模塊,最簡單的功能就是能發送和處理請求, 下面就介紹幾個常用的抓取的方式。

       一、python 自帶的urlib2和urlib或者第三方模塊requests 

         這種方案適合簡單的頁面爬蟲,比如爬取博客園推薦文章。

    urllib2和urllib是python自帶模塊可用來發送處理請求,雖然比較靈活但API易用性較差,所以一般都要進行二次封裝,我曾經也進行過封裝,最後發現自己封裝出來的模塊無限趨近於非常成熟的requests庫,所以還是直接使用requests吧,當然requests只發送和接受請求,對於頁面分析還要配合lxml或beautifulsoup等第三方庫進行。高級點的爬蟲不僅僅是發送和處理請求,還需要處理異常,請求速度控制等問題,這就需要我們寫額外的代碼去控制,當然我們可以自己寫只是時間問題,但完全沒有必要,接下來我會介紹第二種方案。

   二、scrapy框架  

         scrapy是爬蟲領取的佼佼者,目前我做的項目無論複雜與否,都採用scrapy進行,對於請求調度,異常處理都已經封裝好了,而且有第三方的scrapy-redis還可以支持分佈式,我們把關注點放在更重要的頁面分析和規則編寫上,代碼可以參考我github上的例子。

         scrapy抓取虎嗅網文章:  https://github.com/world1234567/scrapy_for_huxiu

  三、python selenium

       這種方式我稱爲終極必殺器,一般是實在沒辦法的時候才用,以前我在利用某家搜索引擎抓取文章時,該搜索引擎採用的比較高難度的反爬蟲機制而且不斷變化讓人找不到規律,最典型的特點就是cookie會隨機隱藏到某個頁面js和圖片中,解決方案就是模擬瀏覽器的行爲加載所有js等靜態資源文件,如果自己寫個瀏覽器取解析太扯蛋了,如果chrome瀏覽器能開放接口,通過chrome的加載方式獲取頁面的內容就好了,這就是selenium了,selenium加上隨機等待時間可以模擬出和人非常類似的操作行爲,缺點就是速度較慢,但是一般爬蟲對抓取速度要求不高,重要的是穩定性,這種方式對於抓取反爬蟲機制做的好的大型網站比較適用。

       總結,對於大部分爬蟲需求直接用scrapy解決,如果解決不了再採用第一種或第三種方案,就這麼簡單。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章