python學習筆記4---(python網絡爬蟲-爬蟲前奏)

爲什麼用python寫爬蟲程序?

1、PHP:對多線程、異步支持不是很好,併發處理能力弱。爬蟲是工具性程序,對速度和效率要求較高。
2、Java:生態圈很完善。但java本身很笨重,代碼量很大。重構成本比較高,任何修改會導致代碼大量改動。
3、C/C++:運行效率是無敵的。但學習和開發成本高,寫個小爬蟲程序要大半天時間。
4、python:相關HTTP請求模塊和HTML解析模塊豐富,還有相關框架方便爬蟲。

http協議和chrome抓包工具

http協議,服務器端口號是80.https協議,服務器端口號是443。
url詳解
一個URL由幾部分組成:

scheme://host:port/path/?query-string=xxx#anchor

scheme:訪問的協議,比如http或https或ftp
host:主機名,域名,如www.baidu.com
port:端口號,默認80端口
path:查找路徑。如www.jianshu.com/trending/now,trending/now就是path
query-string:查詢字符串,如www.baidu.com/s?wd=python,wd=python就是查詢的字符串
anchor:錨點,前端用來做頁面定位。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章