python爬蟲學習筆記 2 (非結構化數據和結構化數據提取)
頁面解析和數據提取
一般來講對我們而言,需要抓取的是某個網站或者某個應用的內容,提取有用的價值。內容一般分爲兩部分,非結構化的數據 和 結構化的數據。
- 非結構化數據:先有數據,再有結構,(http://www.baidu.com)
- 結構化數據:先有結構、再有數據(http://wangyi.butterfly.mopaasapp.com/news/api?type=war&page=1&limit=10)
- 不同類型的數據,我們需要採用不同的方式來處理。
非結構化的數據處理
文本、電話號碼、郵箱地址
- 正則表達式
HTML 文件 - 正則表達式
- XPath
- CSS選擇器
結構化的數據處理
JSON 文件
- JSON Path
- 轉化成Python類型進行操作(json類)
XML 文件
- 轉化成Python類型(xmltodict)
- XPath
- CSS選擇器
- 正則表達式