(三)爬蟲小結

有時候我們需要收集一些網絡上的公開信息 ,但手工收集顯得我們太low了。作爲一名軟件工程的學子,當然是要用代碼來爬取信息。這時候,我們往往就需要爬蟲技術了。

  • 準備工作
  1. 學習python3基本語法

  2. 安裝requests、BeautifulSoup或selenium

  3. 瞭解http和html

  • 特點

    • selenium
    1. 萬能的爬蟲。因爲selenium本身就是打開一個瀏覽器,所以所有看得到的內容都可以爬取
    2. 瀏覽器測試自動化工具。很容易完成鼠標點擊,翻頁等動作
    3. 易於調試。我們的每步操作都可以顯示出來,降低debug難度
    4. 常常需要使用xpath來定位元素(可通過瀏覽器中“審查元素”選中元素再查找xpath)
    5. 缺點是一次只能加載一個頁面,無法異步渲染頁面,也就限制了selenium爬蟲的抓取效率
    • requests
    1. 速度快
    2. 常常需要使用BeautifulSoup來定位元素
    3. 缺點是無法爬取網頁中動態渲染的內容
  • 文檔地址

selenium中文文檔
xpath教程
requests中文文檔
BeautifulSoup中文文檔

發佈了42 篇原創文章 · 獲贊 12 · 訪問量 2萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章