python爬蟲-網站是如何防止爬蟲的

第一種方法:通過檢測請求頭的user-agent字段來檢測你是一個爬蟲還是一個瀏覽器(人類),這時如果想讓爬蟲正常訪問該網站,可以把自己的請求頭user-agent字段修改爲瀏覽器的(通過抓包可以獲取)。

第二張方法:在根目錄下放置Robots.txt文件,告知爬蟲自覺遵守。
例如CSDN的Robot.txt文件內容如下(訪問www.csdn.com/robots.txt獲取)
這個文件寫明瞭在根目錄下的scripts,public,css,images,content,ui,js,scripts等文件目錄爬蟲不能訪問
User-agent: *
Disallow: /scripts
Disallow: /public
Disallow: /css/
Disallow: /images/
Disallow: /content/
Disallow: /ui/
Disallow: /js/
Disallow: /scripts/
Disallow: /article_preview.html*

Sitemap: http://www.csdn.net/article/sitemap.txt

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章