關於robots.txt無法禁止收錄的小看法

    在網站seo優化的過程中常常需要通過一個名爲robots.txt的文件與搜索引擎蜘蛛對話。通常來講,搜索引擎蜘蛛爬行到某一個網站就會首先讀取該文件,並按照文件中的規則執行接下來的行爲。
    當一個網站中有一些網站不需要被搜索引擎收錄時,往往就會通過robots.txt來限制搜索引擎蜘蛛對這個網頁的抓取。比如說,當網站出現?replytocom重複收錄,或者某些不需要被收錄並分享權重的頁面等等。從這個方面來講,robots.txt約束了搜索引擎的行爲。


    而實際情況是,網站在robots.txt禁止了蜘蛛對某個類型url網頁的收錄,但在用搜索引擎高級命令site查詢收錄情況是發現,搜索引擎並沒有遵從robots.txt中的規則。大部分時候,搜索引擎確實能按照網站robots.txt中所寫的規則對這些網頁不進行收錄。但搜索引擎視robots.txt中的規則爲無物的情況也是確實存在的。
    當然,也有可能存在網站robots.txt寫法出現錯誤的可能,但此文建立在正確撰寫robots.txt的前提下。


    有一個很官方的說法是這樣的:網站robots.txt中對某個網頁屏蔽了蜘蛛的收錄,但搜索引擎還是會對該網頁進行抓取,只不過在相關搜索結果中不會展現這些網頁內容。
    這句話咋一看有些令人費解,但據筆者的看法,還是很有可能的。
    首先,搜索引擎的發展根本是向搜索用戶展現用戶所需要的、健康的、優質的內容。在收錄並返回相關搜索結果之前,搜索引擎必然要對這些網站進行相應的瞭解,然後在權衡是否將其收錄並給予如何的排名。


    打個比方,如果要做一個非法的網站,先假設網站內容沒有被監管部門查到,也不考慮以下這個方法的好壞與否。當然,如果直接採用相關的關鍵詞做網站seo優化,在得到更高曝光率的同時也大大增加了被查封的可能性。更何況這些非法內容也不一定不會被搜索引擎屏蔽。
    這時,通過大量的健康的內容做網站的seo排名。通過健康的關鍵詞使網站獲得大量流量,然後在這些健康的內容上帶上非法信息的鏈接入口。當然,這樣的鏈接必然要使用網站的robots.txt對搜索引擎蜘蛛進行屏蔽,同時將所有的非法內容頁面也同樣的禁止收錄。


    難道這樣就能既通過搜索引擎謀利,又避開了搜索引擎的監管嗎?其實不然,上文中說到搜索引擎爲了良好的用戶體驗,必然會對已收錄或者將要收錄的網站進行全面的瞭解(不管現在搜索引擎做的是否完善)。
    那好,既然搜索引擎要了解網站,又怎麼能對robots.txt中屏蔽的頁面視而不見呢?明着對着搜索引擎裝純潔,背地裏暗暗的搞一些非法勾當。我想,這種情況搜索引擎不會不考慮到。所以了,即使你的網站robots.txt中明確的對某些頁面禁止蜘蛛的爬行,但搜索引擎總還是要“檢查”一下的。不然又怎麼全面的瞭解網站的優劣呢?


    好吧,要查看網頁的情況當然先要抓取進入搜索引擎的服務器,再進行判斷了。既然搜索引擎對網站robots.txt中屏蔽的頁面還是進行了抓取並查看,那麼,又要如何體現robots.txt的作用呢?
    那只有將這些頁面進行隱藏,至少不能在普通搜索結果中展現出來。不然,網站robots.txt豈不只成擺設?


    所以,當發現搜索引擎依舊對網站robots.txt屏蔽的網頁進行收錄時不用過於緊張。搜索引擎只是想要充分的瞭解網站情況。但必須要確保robots.txt規則正確書寫。一般情況,搜索引擎都會對禁止抓取的網頁進行刪除,或者說是“隱藏”的。


    由於網站robots.txt屏蔽網頁依舊收錄的情況存在着較大的不確定因素,所以很遺憾筆者無法進行實際的實驗對該情況進行檢測。同時筆者自認爲只是剛剛開始學習seo的菜鳥,所以筆者的觀點並不一定正確無誤。筆者衷心希望各位seo優化前輩、達人能給予指點和交流,謝謝。




除非特殊註明,本博客文章均爲於申原創,版權歸於申blog©所有。
轉載請務必註明出處,謝謝。
本文鏈接地址: http://www.yushenblog.com/talk/509.html
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章