全棧工程師開發手冊 (作者:欒鵬)
python教程全解
首先你需要了解python數據挖掘庫urllib、urllib2、cookie的知識。參考http://blog.csdn.net/luanpeng825485697/article/details/78383884
cookie模擬登陸
知乎需要設置cookie模擬登陸狀態,需要設置http頭,滿足知乎服務器的檢測。
知乎地址https://www.zhihu.com
在沒有登陸時訪問這個網址,只能出現登陸界面
如果登陸以後,在訪問這個網址,就會出現文章列表。
這是因爲訪問此地址,知乎服務器會查詢請求cookie,如果請求cookie沒有用戶信息,就證明沒有登陸,就會返回登陸界面,如果有cookie信息就會返回文章列表界面,同時包含用戶的其他信息。所以首先需要讓自己的請求中能帶有包含自己信息的cookie。這一步通過登陸來實現。
在登陸界面,通過post將用戶賬號密碼發送給服務器,服務器會將用戶信息以cookie的形式返回給用戶,用戶在下次請求時,就會自動將這個cookie添加