網頁重複解決思路

縱觀整個互聯網,其實我們知道現在很多資料都是複製粘貼的,但是我們在複製的過程中,是不是隻是複製來發布的呢?很顯然做優化的人都知道這當然是不可行的。

首先,對於重複的內容一般是指在不同域名間存在大量的相同或相似的內容。很多時候,它並非故意或至少本無惡意。譬如說,有些論壇會生成一些專爲手機屏幕顯示設計的頁面;商店物品被顯示在(有時甚至是鏈接到)多種不同的 URL 上等等。實際例子,如http://www.sytm.net/和http://www.sytm.net/index.html,這兩個url就是不同的,但是他們的對應的網頁內容又是完全重複的。有些程序在開發中,經常會出現類似問題。

目前,有些網站確實是爲了操縱搜索引擎排名,獲得更多流行或長尾查詢的訪問量,大量地從其他網站複製內容。對於這樣的,就是複製內容,而對於一些網站來說會有不一樣的算法,像是谷歌,谷歌網站有方便易用的翻譯功能,我們的算法不會把有着相同內容的英文版和西班牙文版看作內容複製。同樣,你不用擔心你文章中對其他文章小片段的引用認定爲重複內容。而對於谷歌來說,戶使用 搜索引擎 時通常希望看到多樣化的原創內容。如果他們找到的都是內容相同的一堆搜索結果,可以想見那是多麼煩人。另外,網站管理員不願意看到 搜索引擎 給出一些複雜的 URL .但是在複製的和搜索引擎抓取網頁和獲得搜索結果時,總是力圖索引並顯示內容不同的頁面。這種過濾意味着,譬如說,好像谷歌,如果你的網站有文章的正常版和打印版,並且你沒有在 robots.txt 裏設定 noindex 標記,谷歌就只會選擇一個版本顯示給谷歌用戶。對於企圖利用複製內容來操控排名,欺騙谷歌用戶的少數情況,我們會對相關頁面的索引和排名作出適當調整。當然,我們更願意把重點放在過濾而不是排名調整上,因此,在絕大多數情況下,最壞的結果就是原創者看到了不願看到的版本出現在我們的索引裏。

再次我們來了解一下網站管理員如何主動處理內容重複問題阻止搜索引擎訪問,也就是與其讓我們的算法來確定一個文件的"最佳"版本,你也許希望指引谷歌選取你的首選版本。譬如說,如果你不想我們索引你網站文章的打印版,你可以在你的 robots.txt 文件中寫上目錄名或正則表達式來禁止谷歌對那些打印版的抓取。其次就是使用 301 重定向,或者讓你的內部鏈接保持一致, 不要既有 /page/ ,又有 /page 和 /page/index.htm 的內部鏈接。而上面提到重構,如果你已經重構你的網站,請在你的原網站中使用 301 重定向(永久性重定向)來重定向你的用戶、搜索引擎 爬蟲以及其他搜索引擎蜘蛛等。

也就是在這大體上,我們需要對內容複製問題有一個大體的認識,又能花上幾分鐘有見地地預防性維護一下你的網站。


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章