首先來簡要的瞭解下什麼是sitemap.xml文件:sitemap.xml文件是嚴格按照xml語言編寫的網站地圖,用來引導搜索蜘蛛對本站點文章等內容的索引,它是由google提出來的概念,目前yahoo,bing等已經公 開聲明支持這種格式,百度雖然沒有明確支持,但使用sitemap.xml文件已經是大勢所趨。
所以像blog這樣的博客系統都會自帶 sitesmap.xml文件,它是向衆多搜索引擎提供站點信息的一個非常好的方式。如果沒有sitemap.xml文件,那麼搜索引擎就會對你的網站一 頁一頁的抓去,效率不高且不友好。
google 的“關於站點地圖”提供了詳細的sitemap.xml的寫法,站點的網站地圖樣例如下:
<?xml version="1.0" encoding="UTF-8"?><?xml-stylesheet type="text/xsl" href="http://www.uedsc.com/wp-content/plugins/google-sitemap-generator/sitemap.xsl"?> <urlset xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.sitemaps.org/schemas/sitemap/0.9 http://www.sitemaps.org/schemas/sitemap/0.9/sitemap.xsd" xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"> <url> <loc>http://www.uedsc.com/tag/net</loc> <lastmod>2015-02-27T01:12:09+00:00</lastmod> <changefreq>weekly</changefreq> <priority>0.3</priority> </url> <url> <loc>http://www.uedsc.com/tag/%e9%bd%bf%e8%bd%ae%e5%9b%be%e6%a0%87</loc> <lastmod>2014-08-08T01:10:39+00:00</lastmod> <changefreq>weekly</changefreq> <priority>0.3</priority> </url> </urlset>
語法很簡單。其中priority是指相對於其他頁面的優先權,changefreq則是指內容更新的頻率。有了這些設置,就等於告訴搜索引擎機器人,你的網站的更新情況如何,以及希望搜索引擎優先收錄哪些內容。
格式說明
1、首尾格式
如下:
<?xml version="1.0"?> <urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
這兩句代碼類似Html標籤是死的。照抄即可。文件最後會有</urlset>
2、<loc></loc>
這兩個標籤中間的地址必填。格式爲:http://www.tekuba.net/share,此網址應以協議開始(例如:http)並以斜線結尾。此值應少於 2048 個字符。
3、<lastmod>
可選標籤 標籤含義:該文件上次修改的日期。此日期應採用 W3C Datetime 格式。如果需要的話,此格式允許省略時間部分,而僅使用 YYYY-MM-DD。 列子:2014-07-16。
一 般來說這個很重要。Google的機器人會在索引此鏈接前先和上次索引記錄的最後更新時間進行 比較,如果時間一樣就會跳過不再索引。所以如果你的鏈接內容基於上次Google索引時的內容有所改變,應該更新該時間,讓Google下次索引時會重新 對該鏈接內容進行分析和提取關鍵字。
4、<changefreq>
可選標籤 標籤含義:頁面可能發生更改的頻率。此值爲搜索引擎提供一般性信息,可能與搜索引擎抓取頁面的頻率不完全相關。有效值爲:
always hourly daily weekly monthly yearly never
值“always”應當用於描述每次訪問時都會改變的文檔。而值“never”應當用於描述已存檔網址。
5、<priority>
可 選標籤 此網址的優先級與您網站上其他網址的優先級相關。有效值範圍從 0.0 到 1.0。此值不會影響您的網頁與其他網站上網頁的比較結果,只是告訴搜索引擎您認爲您的那個網頁最重要,從而它們對您頁面的抓取可以按照您最喜歡的方式進 行排序。一個網頁的默認優先級爲 0.6。
xml文件必須是utf-8的編碼格式,可以用記事本打開xml然後另存爲時選擇編碼(或轉換器)爲UTF-8。瞭解這些標籤的作用我們就可以根據自己網站的情況做出適合自己站點sitemap.xml。
通過以上的知識我們可以知道:如果要想添加問說網(http://www.uedsc.com)的站點地圖的話,值需要增加如下代碼即可:
<url> <loc>http://www.uedsc.com/tag/2d%e5%8f%98%e6%8d%a2</loc> <lastmod>2015-03-12T18:31:43+00:00</lastmod> <changefreq>weekly</changefreq> <priority>0.3</priority> </url>
提交Sitemap.xml
Sitemap.xml製作完成後,就需要將xml文件提交到相關搜索引擎。
Google提交網址:http://www.google.com/webmasters/sitemaps/?hl=zh-CN
Yahoo提交網址:http://sitemap.cn.yahoo.com/
提交後,一般在幾個小時之內,系統就開始下載處理了。
Sitemap.xml的校驗
至於你的網站地圖是否符合標準,最方便有效的手段就是使用google的管理員工具了。
在 google搜索引擎接收你的sitemap.xml後幾天內,google的管理員工具就會將詳細的分析結果反饋回來,包括:sitemap.xml中 包含了多少地址,google已將多少地址加入索引,sitemap.xml中出現了哪些錯誤,甚至蜘蛛採集過程中遇到的各種問題,比如哪些網頁有 404,500錯誤都會詳細的羅列出來,非常方便。
如果你提交的xml文件一切無誤,那麼接下來,你就是等着讓它的搜索蜘蛛來爬了,sitemap的文件告知了文件更新的頻率,這樣搜索蜘蛛來得更勤快,頁面被收錄當然也就更快。