原始日誌文件只是一個純文字形式的文件,只要用文字編輯軟件如WordPad或Notepad打開就可以了。
下面是我從上個月這個blog本身的日誌文件中隨機選取的一行,我們來看一下它包括哪些信息:
221.201.77.63 - - [02/Jul/2006:15:30:41 +0800] “GET /seoblog/2006/04/17/user-friendly-website/ HTTP/1.1″ 200 19031 “http://www.baidu.com/s?
wd=PRADA%B9%D9%B7%BD%CD%F8%D5%BE&cl=3″ “Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; Alexa Toolbar)”
用戶IP地址
221.201.77.63
這是訪問人所使用的IP 地址,能夠告訴你來訪的人來自什麼地理位置。如果你查一下這個IP地址所屬位置,可以看到這位訪客來自中國北京。
日期/時間
02/Jul/2006:15:30:41
這是某一個文件被訪問的時間,和IP地址結合起來,你就可以跟蹤某一個特定的用戶,從一個網頁到另一個網頁的訪問順序。
時區
+0800
這個數字是相對格林威治時間的時區差多少。
服務器動作
GET /seoblog/2006/04/17/user-friendly-website/ HTTP/1.1
服務器要做的動作要麼是GET,要麼是POSP。除了一些CGI腳本外,通常都應該是GET,也就是從服務器上獲取某個網頁或圖片文件。
例子裏的這行意思就是按HTTP/1.1協議(protocol)獲取文件/seoblog/2006/04/17/user-friendly-website/
返回狀態碼
200
下一行是服務器反應是否成功。200就是說成功獲取了文件,如果是返回了404,就是文件沒有找到。401是需要密碼,403禁止查看,500服務器錯誤,當然還有其他很多代碼。
文件大小
19031
這一行指的是所獲取的文件大小,在我們的來自例子裏是19031byte。
訪客來源
http://www.baidu.com/s?wd=PRADA%B9%D9%B7%BD%CD%F8%D5%BE&cl=3
這一段是告訴我們訪客是從哪裏來到這一個網頁。有可能是同一個網站的其他頁,有可能是來自搜索引擎的搜索頁。
例子裏的是來自百度,搜索關鍵詞是”PRADA官方網站”。
這段信息是非常重要的。
瀏覽器類型
Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; Alexa Toolbar)
這最後一段所表示的是瀏覽器和用戶電腦的一些信息。
比如上面這一段所表示的是用戶所使用的電腦是與Netscape兼容的Mozilla瀏覽器,Windows NT操作系統,瀏覽器是IE6.0,裝有Alexa Toolbar。
在這一段如果用戶使用的是其他類型電腦或瀏覽器,你還可能看到這些代碼:
msnbot/1.0 (+http://search.msn.com/msnbot.htm)
Baiduspider+(+http://www.baidu.com/search/spider.htm)
Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.0; Maxthon; Alexa Toolbar)
http://www.gougou.com RSS Online Reader
Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
意義不用解釋,一看就知道了。
跟蹤用戶軌跡
這是很多網站運行者需要研究的地方。
從日誌文件中剔除對圖片的訪問,剔除中間插進來的其他訪客的信息,只把來自某一個IP地址的用戶在一段時間內所看的網頁列出來,我們就能看到這個用戶在你的網站上都做了哪些行動,看了哪些網頁。
用戶行爲信息給網站運行者提供很大的幫助。