python爬蟲案例——知乎數據採集

全棧工程師開發手冊 (作者:欒鵬)
python教程全解

首先你需要了解python數據挖掘庫urllib、urllib2、cookie的知識。參考http://blog.csdn.net/luanpeng825485697/article/details/78383884

cookie模擬登陸

知乎需要設置cookie模擬登陸狀態,需要設置http頭,滿足知乎服務器的檢測。

知乎地址https://www.zhihu.com

在沒有登陸時訪問這個網址,只能出現登陸界面
這裏寫圖片描述

如果登陸以後,在訪問這個網址,就會出現文章列表。

這裏寫圖片描述

這是因爲訪問此地址,知乎服務器會查詢請求cookie,如果請求cookie沒有用戶信息,就證明沒有登陸,就會返回登陸界面,如果有cookie信息就會返回文章列表界面,同時包含用戶的其他信息。所以首先需要讓自己的請求中能帶有包含自己信息的cookie。這一步通過登陸來實現。

在登陸界面,通過post將用戶賬號密碼發送給服務器,服務器會將用戶信息以cookie的形式返回給用戶,用戶在下次請求時,就會自動將這個cookie添加

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章