有時候我們需要收集一些網絡上的公開信息 ,但手工收集顯得我們太low了。作爲一名軟件工程的學子,當然是要用代碼來爬取信息。這時候,我們往往就需要爬蟲技術了。
- 準備工作
-
學習python3基本語法
-
安裝requests、BeautifulSoup或selenium
-
瞭解http和html
-
特點
- selenium
- 萬能的爬蟲。因爲selenium本身就是打開一個瀏覽器,所以所有看得到的內容都可以爬取
- 瀏覽器測試自動化工具。很容易完成鼠標點擊,翻頁等動作
- 易於調試。我們的每步操作都可以顯示出來,降低debug難度
- 常常需要使用xpath來定位元素(可通過瀏覽器中“審查元素”選中元素再查找xpath)
- 缺點是一次只能加載一個頁面,無法異步渲染頁面,也就限制了selenium爬蟲的抓取效率
- requests
- 速度快
- 常常需要使用BeautifulSoup來定位元素
- 缺點是無法爬取網頁中動態渲染的內容
-
文檔地址