搜索引擎Url自動提交腳本的優化思路

搜索引擎自動Url鏈接提交腳本

【!!!】待優化改造,通過分析自動提交腳本的流程,抽取提交邏輯,實現輸入Sitemap後機器人自動模擬提交,僅渲染提交業務代碼,或 模擬request請求, 而,無需渲染站點真實頁面,降低資源佔用率和業務複雜度,提升自動提交的性能和效率。

百度自動提交腳本:

<script>
(function(){
var bp = document.createElement('script');
var curProtocol = window.location.protocol.split(':')[0];
if (curProtocol === 'https') {
bp.src = 'https://zz.bdstatic.com/linksubmit/push.js';
}
else {
bp.src = 'http://push.zhanzhang.baidu.com/push.js';
}
var s = document.getElementsByTagName("script")[0];
s.parentNode.insertBefore(bp, s);
})();
</script>

360自動收錄代碼:

<script>
(function(){
var src = (document.location.protocol == "http:") ? "http://js.passport.qihucdn.com/11.0.1.js?f757a4cfb88d6de03df10aaac75ebdc5":"https://jspassport.ssl.qhmsg.com/11.0.1.js?f757a4cfb88d6de03df10aaac75ebdc5";
document.write('<script src="' + src + '" id="sozz"><\/script>');
})();
</script>

【優化思路記錄】

(百度JS鏈接推送代碼)
只要把這段代碼放入你的每個頁面中,每當用戶訪問這些頁面時,就會通過這段腳本從百度下載一個1x1的gif,同時記錄頁面此時此刻的URL地址。
自動推送腳本的性能考慮
通過這段腳本我們可以看出:
1、它先是判斷了目前的協議類型是https還是其他類型(如,http,ftp等)
2、然後下載了百度官方的一個js文件
3、再然後它將js文件的內容生成一個腳本塊插入到當前頁面中
4、最後會運行這個腳本塊
我們可以訪問這兩個js文件查看其內容,也就是短短的一行。它會讀取這樣一個gif。
https://sp0.baidu.com/9_Q4simg2RQJ8t7jm9iCKT-xh_/s.gif 或者http://api.share.baidu.com/s.gif
同時將window.location.href等信息推送給了百度。
這裏我們可以發現兩個問題:
其一、是這段腳本先後會調用兩個百度資源,這造成了冗餘,不利於頁面加載速度。
其二、是該腳本會提交目前URL,但是許多URL會是動態URL,會帶各種參數。雖然百度爬蟲也有自己的判斷方法,但無疑這增加了其負擔。
於是,爲了解決這兩個問題,筆者諮詢了好友柴雲翔同時是前端開發的大牛。在大牛的幫助下,我們有了下面這個改良版本。
改良版本的百度索引自動推送腳本

這個改良的腳本長下面這樣,。

<link ref=“canonical” href=“http://www.domain.com” > //在各個頁面的Head中定義當前頁完整地址

> <script>
>   (function(){
>       var canonicalURL, curProtocol;
>       //Get the <link> tag
>       var x=document.getElementsByTagName("link");
>       //Find the last canonical URL
>       if(x.length > 0){
>           for (i=0;i<x.length;i++){
>               if(x[i].rel.toLowerCase() == 'canonical' && x[i].href){
>                   canonicalURL=x[i].href;
>               }
>           }
>       }
>       //Get protocol
>       if (!canonicalURL){
>           curProtocol = window.location.protocol.split(':')[0];
>       }
>       else{
>           curProtocol = canonicalURL.split(':')[0];
>       }
>       //Get current URL if the canonical URL does not exist
>       if (!canonicalURL) canonicalURL = window.location.href;
>       //Assign script content. Replace current URL with the canonical URL
>       !function(){var e=/([http|https]:\/\/[a-zA-Z0-9\_\.]+\.baidu\.com)/gi,r=canonicalURL,t=document.referrer;if(!e.test(r)){var n=(String(curProtocol).toLowerCase() === 'https')?"https://sp0.baidu.com/9_Q4simg2RQJ8t7jm9iCKT-xh_/s.gif":"//api.share.baidu.com/s.gif";t?(n+="?r="+encodeURIComponent(document.referrer),r&&(n+="&l="+r)):r&&(n+="?l="+r);var i=new Image;i.src=n}}(window);})();
> </script>

(改進後的百度索引鏈接自動提交腳本)
在上圖中已加入了註釋,下面開始代碼解說。
canonical屬性表示該頁面縱有千種URL的花樣,請搜索引擎只認準href中給出的URL值
這個新腳本的作用是多了一步查看頁面的canonical URL的步驟。我們知道。這樣一來就不會讓搜索引擎爲了同一個頁面(或許已經索引了)多次檢查你的推送頁面具體內容。
這個新腳本的另一個更改是直接將上述兩個js的內容拿了出來。由於這兩個js中的代碼其實是靜態的,每次都去調用並不必要。另一方面,我們需要對r的值進行更改,將它更改爲canonical URL的值,因此這樣解決了我們上面的第二個問題。
最後,一點感想
自動推送是一個很實用的方法,它門檻低,容易部署,但是也有一些小問題。本文只是提供了一種方法來改進自動推送的效率和效果。
需要注意的是百度隨時可能更新這兩個js文件的內容,雖然該功能上線後一直沒有更新不代表以後不會更新,因此需要手動及時更新代碼。
關於更新的問題,可以利用nginx的cache能力,定義更新頻率解決

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章