python爬蟲學習筆記 2 (非結構化數據和結構化數據提取)

python爬蟲學習筆記 2 (非結構化數據和結構化數據提取)

頁面解析和數據提取

一般來講對我們而言,需要抓取的是某個網站或者某個應用的內容,提取有用的價值。內容一般分爲兩部分,非結構化的數據 和 結構化的數據。

  • 非結構化數據:先有數據,再有結構,(http://www.baidu.com)
  • 結構化數據:先有結構、再有數據(http://wangyi.butterfly.mopaasapp.com/news/api?type=war&page=1&limit=10)
  • 不同類型的數據,我們需要採用不同的方式來處理。

非結構化的數據處理

文本、電話號碼、郵箱地址

  • 正則表達式
    HTML 文件
  • 正則表達式
  • XPath
  • CSS選擇器

結構化的數據處理

JSON 文件

  • JSON Path
  • 轉化成Python類型進行操作(json類)

XML 文件

  • 轉化成Python類型(xmltodict)
  • XPath
  • CSS選擇器
  • 正則表達式
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章