關於robots.txt無法禁止收錄的小看法

原創

2020-06-17 15:13

在網站seo優化的過程中常常需要通過一個名爲robots.txt的文件與搜索引擎蜘蛛對話。通常來講，搜索引擎蜘蛛爬行到某一個網站就會首先讀取該文件，並按照文件中的規則執行接下來的行爲。
當一個網站中有一些網站不需要被搜索引擎收錄時，往往就會通過robots.txt來限制搜索引擎蜘蛛對這個網頁的抓取。比如說，當網站出現?replytocom重複收錄，或者某些不需要被收錄並分享權重的頁面等等。從這個方面來講，robots.txt約束了搜索引擎的行爲。

而實際情況是，網站在robots.txt禁止了蜘蛛對某個類型url網頁的收錄，但在用搜索引擎高級命令site查詢收錄情況是發現，搜索引擎並沒有遵從robots.txt中的規則。大部分時候，搜索引擎確實能按照網站robots.txt中所寫的規則對這些網頁不進行收錄。但搜索引擎視robots.txt中的規則爲無物的情況也是確實存在的。
當然，也有可能存在網站robots.txt寫法出現錯誤的可能，但此文建立在正確撰寫robots.txt的前提下。

有一個很官方的說法是這樣的：網站robots.txt中對某個網頁屏蔽了蜘蛛的收錄，但搜索引擎還是會對該網頁進行抓取，只不過在相關搜索結果中不會展現這些網頁內容。
這句話咋一看有些令人費解，但據筆者的看法，還是很有可能的。
首先，搜索引擎的發展根本是向搜索用戶展現用戶所需要的、健康的、優質的內容。在收錄並返回相關搜索結果之前，搜索引擎必然要對這些網站進行相應的瞭解，然後在權衡是否將其收錄並給予如何的排名。

打個比方，如果要做一個非法的網站，先假設網站內容沒有被監管部門查到，也不考慮以下這個方法的好壞與否。當然，如果直接採用相關的關鍵詞做網站seo優化，在得到更高曝光率的同時也大大增加了被查封的可能性。更何況這些非法內容也不一定不會被搜索引擎屏蔽。
這時，通過大量的健康的內容做網站的seo排名。通過健康的關鍵詞使網站獲得大量流量，然後在這些健康的內容上帶上非法信息的鏈接入口。當然，這樣的鏈接必然要使用網站的robots.txt對搜索引擎蜘蛛進行屏蔽，同時將所有的非法內容頁面也同樣的禁止收錄。

難道這樣就能既通過搜索引擎謀利，又避開了搜索引擎的監管嗎？其實不然，上文中說到搜索引擎爲了良好的用戶體驗，必然會對已收錄或者將要收錄的網站進行全面的瞭解（不管現在搜索引擎做的是否完善）。
那好，既然搜索引擎要了解網站，又怎麼能對robots.txt中屏蔽的頁面視而不見呢？明着對着搜索引擎裝純潔，背地裏暗暗的搞一些非法勾當。我想，這種情況搜索引擎不會不考慮到。所以了，即使你的網站robots.txt中明確的對某些頁面禁止蜘蛛的爬行，但搜索引擎總還是要“檢查”一下的。不然又怎麼全面的瞭解網站的優劣呢？

好吧，要查看網頁的情況當然先要抓取進入搜索引擎的服務器，再進行判斷了。既然搜索引擎對網站robots.txt中屏蔽的頁面還是進行了抓取並查看，那麼，又要如何體現robots.txt的作用呢？
那只有將這些頁面進行隱藏，至少不能在普通搜索結果中展現出來。不然，網站robots.txt豈不只成擺設？

所以，當發現搜索引擎依舊對網站robots.txt屏蔽的網頁進行收錄時不用過於緊張。搜索引擎只是想要充分的瞭解網站情況。但必須要確保robots.txt規則正確書寫。一般情況，搜索引擎都會對禁止抓取的網頁進行刪除，或者說是“隱藏”的。

由於網站robots.txt屏蔽網頁依舊收錄的情況存在着較大的不確定因素，所以很遺憾筆者無法進行實際的實驗對該情況進行檢測。同時筆者自認爲只是剛剛開始學習seo的菜鳥，所以筆者的觀點並不一定正確無誤。筆者衷心希望各位seo優化前輩、達人能給予指點和交流，謝謝。

除非特殊註明，本博客文章均爲於申原創，版權歸於申blog©所有。
轉載請務必註明出處，謝謝。
本文鏈接地址: http://www.yushenblog.com/talk/509.html

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

關於robots.txt無法禁止收錄的小看法

釘釘打卡速度慢

Nginx R31 doc 官方文檔-01-nginx 如何安裝

Python 潮流週刊#51：用 Python 繪製美觀的圖表

Qt/C++音視頻開發74-合併標籤圖形/生成yolo運算結果圖形/文字和圖形合併成一個/水印濾鏡

挑戰程序設計競賽 2.2章習題 POJ - 3617 Best Cow Line 貪心

字節面試：MySQL什麼時候鎖表？如何防止鎖表？

.NET8連接SQL SERVER 2008 R2 報：證書鏈是由不受信任的頒發機構頒發的

golang開發環境搭建(win10)

python計算機視覺學習筆記——PIL庫的用法

Golang初學：獲取程序內存使用情況，std runtime

谷歌加密用戶搜索數據意欲何爲？

實例分析：於申blog爲什麼沒有排名

關於robots.txt無法禁止收錄的小看法

網站被降權的常見表現及原因分析

谷歌百度合體搜索新霸主誕生？

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結