(轉)百度蜘蛛來你家了嗎

原創

iteye_19806

2020-06-27 00:43

如何查看百度蜘蛛是否來過我的網站，尤其對於長期不收錄，百度快照不更新的新站來說，查看百度蜘蛛是否來過我的網站就很重要了，如果蜘蛛沒有來，那就不要談收錄了，解決的辦法就是儘快引開蜘蛛了，如果蜘蛛爬過了，要檢查下網站是否存在一些百度不收錄的原因，比如過度優化。以上都沒有，就要等了，等百度大更新時，收錄自然就有了！那麼如何查看百度蜘蛛是否來過我的網站呢?

首先要查看服務器IIS日誌，具體操作方法：記事本打開IIS日誌內容，然後用ctrl+F查找baidu，如果發現有Baiduspider 就說明百度蜘蛛爬行過，反之則沒有。

百度蜘蛛活躍時間一般是晚上凌晨。

比如說：
[22/Apr/2010:06:30:56 -0700] "GET / HTTP/1.1" 200 10219 "-" "Baiduspider+(+http://www.baidu.com/search/spider.htm)"
66.249.68.229

　　2008-06-19 00:25:03 W3SVC818374 222.214.218.36 GET /Server.aspx- 80 - 221.10.254.26 Baiduspider+(+http://www.baidu.com/search/spider.htm) 200 0 0 21089

　　如果你的網址是www.510379.com這就意味着百度蜘蛛在2010年-04-22 06:30:56 爬過，200 0 0 21089中的200協議代碼代表了請求已完成也就是它發現這頁並以入庫了。
22/Apr/2010:06:30:56 -0700是日期，也就是蜘蛛來的日期和時間了。
GET /robots.txt 訪問的頁面 get表示獲取
200表示抓取成功。有時會出現其他代碼如：404 - 請求的網頁不存在；503 - 服務器暫時不可用

Baiduspider+(+http://www.baidu.com/search/spider.htm)是百度蜘蛛了
66.249.68.229是蜘蛛的ip地址
以下是百度蜘蛛爬行檢測代碼意思：

　　2xx 成功

　　200 正常;請求已完成。

　　201 正常;緊接 POST 命令。

　　202 正常;已接受用於處理，但處理尚未完成。

　　203 正常;部分信息 — 返回的信息只是一部分。

　　204 正常;無響應 — 已接收請求，但不存在要回送的信息。

　　3xx 重定向

　　301 已移動 — 請求的數據具有新的位置且更改是永久的。

　　302 已找到 — 請求的數據臨時具有不同 URI。

　　303 請參閱其它 — 可在另一 URI 下找到對請求的響應，且應使用 GET 方法檢索此響應。

　　304 未修改 — 未按預期修改文檔。

　　305 使用代理 — 必須通過位置字段中提供的代理來訪問請求的資源。

　　306 未使用 — 不再使用;保留此代碼以便將來使用。

　　4xx 客戶機中出現的錯誤

　　400 錯誤請求 — 請求中有語法問題，或不能滿足請求。

　　401 未授權 — 未授權客戶機訪問數據。

　　402 需要付款 — 表示計費系統已有效。

　　403 禁止 — 即使有授權也不需要訪問。

　　404 找不到 — 服務器找不到給定的資源;文檔不存在。

　　407 代理認證請求 — 客戶機首先必須使用代理認證自身。

　　410 請求的網頁不存在(永久);

　　415 介質類型不受支持 — 服務器拒絕服務請求，因爲不支持請求實體的格式。

　　5xx 服務器中出現的錯誤

　　500 內部錯誤 — 因爲意外情況，服務器不能完成請求。

　　501 未執行 — 服務器不支持請求的工具。

　　502 錯誤網關 — 服務器接收到來自上游服務器的無效響應。

　　503 無法獲得服務 — 由於臨時過載或維護，服務器無法處理請求。
根據這些可以多查看iis日誌，研究蜘蛛爬行的路徑，找出自己網站存在的問題，進而改正。相信好的網站會有好的排名。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

(轉)百度蜘蛛來你家了嗎

Google PR劫持(轉)

ACTIVITY顯示重載

(轉)百度蜘蛛來你家了嗎

java提高性能一些細節（轉）

Service 概述

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結