(轉)百度蜘蛛來你家了嗎
如何查看百度蜘蛛是否來過我的網站,尤其對於長期不收錄,百度快照不更新的新站來說,查看百度蜘蛛是否來過我的網站就很重要了,如果蜘蛛沒有來,那就不要談收錄了,解決的辦法就是儘快引開蜘蛛了,如果蜘蛛爬過了,要檢查下網站是否存在一些百度不收錄的原因,比如過度優化。以上都沒有,就要等了,等百度大更新時,收錄自然就有了!那麼如何查看百度蜘蛛是否來過我的網站呢?
首先要查看服務器IIS日誌,具體操作方法:記事本打開IIS日誌內容,然後用ctrl+F查找baidu, 如果發現有Baiduspider 就說明百度蜘蛛爬行過,反之則沒有。
百度蜘蛛活躍時間一般是晚上凌晨。
比如說:
[22/Apr/2010:06:30:56 -0700] "GET / HTTP/1.1" 200 10219 "-" "Baiduspider+(+http://www.baidu.com/search/spider.htm)"
66.249.68.229
2008-06-19 00:25:03 W3SVC818374 222.214.218.36 GET /Server.aspx- 80 - 221.10.254.26 Baiduspider+(+http://www.baidu.com/search/spider.htm) 200 0 0 21089
如果你的網址是www.510379.com這就意味着百度蜘蛛在2010年-04-22 06:30:56 爬過,200 0 0 21089中的200協議代碼代表了請求已完成也就是它發現這頁並以入庫了。
22/Apr/2010:06:30:56 -0700是日期,也就是蜘蛛來的日期和時間了。
GET /robots.txt 訪問的頁面 get表示獲取
200表示抓取成功。有時會出現其他代碼如:404 - 請求的網頁不存在;503 - 服務器暫時不可用
Baiduspider+(+http://www.baidu.com/search/spider.htm)是百度蜘蛛了
66.249.68.229是蜘蛛的ip地址
以下是百度蜘蛛爬行檢測代碼意思:
2xx 成功
200 正常;請求已完成。
201 正常;緊接 POST 命令。
202 正常;已接受用於處理,但處理尚未完成。
203 正常;部分信息 — 返回的信息只是一部分。
204 正常;無響應 — 已接收請求,但不存在要回送的信息。
3xx 重定向
301 已移動 — 請求的數據具有新的位置且更改是永久的。
302 已找到 — 請求的數據臨時具有不同 URI。
303 請參閱其它 — 可在另一 URI 下找到對請求的響應,且應使用 GET 方法檢索此響應。
304 未修改 — 未按預期修改文檔。
305 使用代理 — 必須通過位置字段中提供的代理來訪問請求的資源。
306 未使用 — 不再使用;保留此代碼以便將來使用。
4xx 客戶機中出現的錯誤
400 錯誤請求 — 請求中有語法問題,或不能滿足請求。
401 未授權 — 未授權客戶機訪問數據。
402 需要付款 — 表示計費系統已有效。
403 禁止 — 即使有授權也不需要訪問。
404 找不到 — 服務器找不到給定的資源;文檔不存在。
407 代理認證請求 — 客戶機首先必須使用代理認證自身。
410 請求的網頁不存在(永久);
415 介質類型不受支持 — 服務器拒絕服務請求,因爲不支持請求實體的格式。
5xx 服務器中出現的錯誤
500 內部錯誤 — 因爲意外情況,服務器不能完成請求。
501 未執行 — 服務器不支持請求的工具。
502 錯誤網關 — 服務器接收到來自上游服務器的無效響應。
503 無法獲得服務 — 由於臨時過載或維護,服務器無法處理請求。
根據這些可以多查看iis日誌,研究蜘蛛爬行的路徑,找出自己網站存在的問題,進而改正。相信好的網站會有好的排名。
首先要查看服務器IIS日誌,具體操作方法:記事本打開IIS日誌內容,然後用ctrl+F查找baidu, 如果發現有Baiduspider 就說明百度蜘蛛爬行過,反之則沒有。
百度蜘蛛活躍時間一般是晚上凌晨。
比如說:
[22/Apr/2010:06:30:56 -0700] "GET / HTTP/1.1" 200 10219 "-" "Baiduspider+(+http://www.baidu.com/search/spider.htm)"
66.249.68.229
2008-06-19 00:25:03 W3SVC818374 222.214.218.36 GET /Server.aspx- 80 - 221.10.254.26 Baiduspider+(+http://www.baidu.com/search/spider.htm) 200 0 0 21089
如果你的網址是www.510379.com這就意味着百度蜘蛛在2010年-04-22 06:30:56 爬過,200 0 0 21089中的200協議代碼代表了請求已完成也就是它發現這頁並以入庫了。
22/Apr/2010:06:30:56 -0700是日期,也就是蜘蛛來的日期和時間了。
GET /robots.txt 訪問的頁面 get表示獲取
200表示抓取成功。有時會出現其他代碼如:404 - 請求的網頁不存在;503 - 服務器暫時不可用
Baiduspider+(+http://www.baidu.com/search/spider.htm)是百度蜘蛛了
66.249.68.229是蜘蛛的ip地址
以下是百度蜘蛛爬行檢測代碼意思:
2xx 成功
200 正常;請求已完成。
201 正常;緊接 POST 命令。
202 正常;已接受用於處理,但處理尚未完成。
203 正常;部分信息 — 返回的信息只是一部分。
204 正常;無響應 — 已接收請求,但不存在要回送的信息。
3xx 重定向
301 已移動 — 請求的數據具有新的位置且更改是永久的。
302 已找到 — 請求的數據臨時具有不同 URI。
303 請參閱其它 — 可在另一 URI 下找到對請求的響應,且應使用 GET 方法檢索此響應。
304 未修改 — 未按預期修改文檔。
305 使用代理 — 必須通過位置字段中提供的代理來訪問請求的資源。
306 未使用 — 不再使用;保留此代碼以便將來使用。
4xx 客戶機中出現的錯誤
400 錯誤請求 — 請求中有語法問題,或不能滿足請求。
401 未授權 — 未授權客戶機訪問數據。
402 需要付款 — 表示計費系統已有效。
403 禁止 — 即使有授權也不需要訪問。
404 找不到 — 服務器找不到給定的資源;文檔不存在。
407 代理認證請求 — 客戶機首先必須使用代理認證自身。
410 請求的網頁不存在(永久);
415 介質類型不受支持 — 服務器拒絕服務請求,因爲不支持請求實體的格式。
5xx 服務器中出現的錯誤
500 內部錯誤 — 因爲意外情況,服務器不能完成請求。
501 未執行 — 服務器不支持請求的工具。
502 錯誤網關 — 服務器接收到來自上游服務器的無效響應。
503 無法獲得服務 — 由於臨時過載或維護,服務器無法處理請求。
根據這些可以多查看iis日誌,研究蜘蛛爬行的路徑,找出自己網站存在的問題,進而改正。相信好的網站會有好的排名。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.