網站日誌

網站日誌

網站日誌是記錄web伺服器接收處理請求以及運行時錯誤等各種原始信息的以·log結尾的檔案,確切的講,應該是伺服器日誌。網站日誌最大的意義是記錄網站運營中比如空間的運營情況,被訪問請求的記錄。通過網站日誌可以清楚的得知用戶在什麼IP、什麼時間、用什麼作業系統、什麼瀏覽器、什麼解析度顯示器的情況下訪問了你網站的哪個頁面,是否訪問成功。

基本介紹

  • 中文名:網站日誌
  • 外文名:web log
  • 別名:伺服器日誌
  • 意義:記錄網站運營中的運營情況等
  • 分析方面:訪問次數、停留時間、抓取量
分析方法,作用,查看方法,分析軟體,日誌分析,日誌語法,

分析方法

1、訪問次數、停留時間、抓取量
從這三項數據中我們可以得知:平均每次抓取頁面數、單頁抓取停留時間和平均每次停留時間。
平均每次抓取頁面數=總抓取量/訪問次數
單頁抓取停留=每次停留/每次抓取
平均每次停留時間=總停留時間/訪問次數
從這些數據我們可以看出蜘蛛的活躍程度、親和程度、抓取深度等,總訪問次數、停留時間、抓取量越高、平均抓取頁面、平均停留時間,表明網站越受搜尋引擎喜歡。而單頁抓取停留時間表明網站頁面訪問速度,時間越長,表明網站訪問速度越慢,對搜尋引擎抓取收錄較不利,我們應儘量提高網頁載入速度,減少單頁停留時間,讓爬蟲資源更多的去抓取收錄

作用

通過網站日誌可以清楚的得知訪客和服務端等套用是否正常運行,或者存在哪些缺陷,失效組件等信息。
對於專業從事搜尋引擎最佳化工作者而言,網站日誌可以記錄各搜尋引擎蜘蛛機器人爬行網站的詳細情況,例如:哪個IP的百度蜘蛛機器人在哪天訪問了網站多少次,訪問了哪些頁面,以及訪問頁面時返回的HTTP狀態碼

查看方法

網站日誌一般存放在虛擬主機的logfiles資料夾下,可以通過FTP工具將網站日誌下載下來,下載下來的為log格式的文檔,可通過txt文檔方式查看。
如何查看自己的伺服器的日記? (以Windows 2003系統為例)
1、開始--管理工具--事件查看器--系統 或者 控制臺--管理工具--事件查看器--系統。
2、在遠程客戶端,運行IE瀏覽器,在地址欄中輸入“https://Win2003伺服器IP位址:8098”,如“https://192.168.1.1:8098”。在彈出的登錄對話框中輸入管理員的用戶名和密碼,點擊“確定”按鈕即可登錄Web訪問接口管理界面。接著在“歡迎使用”界面中點擊“維護”連結,切換到“維護”管理頁面,然後點擊“日誌”連結,進入到日誌管理頁面。在日誌管理頁面中,管理員可以查看、下載或清除Windows 2003伺服器日誌。選擇系統日誌可進行查看。並且在日誌管理頁面中可列出Windows 2003伺服器。

分析軟體

市面上各家網頁伺服器自發展初隨時都會紀錄其所有的交易於一個日誌檔裡頭。這種特性不久就被網管意識到可以透過軟體讀取它,以提供網頁流行度的相關資料;從而造成網站日誌分析軟體的興起。
90年代早期,網站統計資料僅是簡單的客戶端對網站伺服器請求 (或者訪問) 的記數值。一開始這是挺合理的方法,因為每個網站通常只有單一個HTML檔案。然而,隨著圖形進入 HTML 標準,以及網站擴增至多重 HTML 檔案,這種記數變得沒什麼幫助。最早真正的商用日誌分析器於1994年由 IPRO 發行[1]。
90年代中期,兩種計量單位被引入以更準確的估計人類於網站伺服器上的活動總數。它們是網頁點閱數(Page Views) 以及訪問量(Visits,或者節區(Session))。一次的網頁點閱數定義為客戶端對伺服器提出某單一網頁讀取請求,恰好為對某一圖形請求的相反;而一次的訪問量則定義為來自於某一唯一已識別的客戶端對伺服器一連串請求直到閒置一段時間──通常為30分鐘──為止。網頁點閱數與訪問量仍舊在報告上十分常見,不過現今它們被當作是過於簡單的量度。
90年代末期,隨著網路蜘蛛與機器人問世,伴隨著大型企業以及網際網路服務提供商使用代理伺服器與動態指定IP位址,鑑別某網站單一訪客變得更困難。對此,日誌分析器以指定Cookie作為追蹤訪問量的對策,並忽略已知的蜘蛛機器人的讀取請求。
網頁快取的廣泛使用也造成日誌分析上的問題。如果某人再度造訪某頁,第二次的讀取請求通常由網頁瀏覽器快取達成,因此網站伺服器端不會接受到此請求。這意味著該訪問者瀏覽過該站的“足跡”丟失。快取與否可於設定網站伺服器時克服,不過這可能導致降低該網站的效能。

日誌分析

從網站上下載下的網站日誌,在txt文本中就可以看到以下數據:
117.26.203.167 - - [02/May/2011:01:57:44 -0700] "GET/index.php HTTP/1.1" 500 19967 "-" "Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0; AskTbCS-ST/5.11.3.15590; .NET CLR 2.0.50727; Alexa Toolbar)"
分析:
117.26.203.167 訪問ip
02/May/2011:01:57:44 -0700 訪問日期 -時區
GET/index.php HTTP/1.1 根據HTTP/1.1 協定 抓取(域名下)/index.php 這個頁面(GET表示伺服器動作)
500 伺服器回響狀態碼
伺服器回響狀態碼通常狀態碼有以下幾種:200,301,302,304,404,500等。200代表用戶成功的獲取到了所請求的檔案,如果是搜尋引擎,則證明蜘蛛在這次爬行中順利的發現了一些新的內容。而301則代表用戶所訪問的某個頁面url已經做了301重定向(永久性)處理,302則是暫時性重定向。404則代表所訪問的頁面已經不存在了,或者說訪問的url根本就是個錯誤的。500則是伺服器的錯誤。
19967 表示抓取了19967個位元組
Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0; AskTbCS-ST/5.11.3.15590; .NET CLR 2.0.50727; Alexa Toolbar 表示訪問者使用火狐瀏覽器及Alexa Toolbar 等訪問端信息
如果你的日誌里格式不是如此,則代表日誌格式設定不同。
很多日誌里可以看到 200 0 0和200 0 64 則都代表正常抓取。
抓取頻率是通過查看每日的日誌里百度蜘蛛抓取次數來獲知。抓取頻率並沒有一個規範的時間表或頻率數字,我們一般通過多日的日誌對比來判斷。
當然,我們希望百度蜘蛛每日抓取的次數越多越好。

日誌語法

#Software: Microsoft Internet Information Services 6.0 #Software:表示軟體名稱
#Version: 1.0 #Version:表示版本號
#Date: 2013-03-13 00:05:17 #Date:表示時間
#Fields:說明如下#Fields: date time s-sitename s-ip cs-method cs-uri-stem cs-uri-query s-port cs-username c-ip cs(User-Agent) sc-status sc-substatus sc-win32-status sc-bytes cs-bytes time-taken
date:表示記錄訪問日期; 2013-03-13
00:05:17 time:訪問具體時間
W3SVC212 s-sitename:表示你的虛擬主機的代稱或機器碼
116.255.196.2529s-ip:伺服器IP
GET cs-method:表示訪問方法或發生的請求/提交事件,常見的有兩種:一個是GET,就是平常我們打開一個URL訪問的動作,另一個是POST,提交表單時的動作
/xiaohuxingzhuangxiuxiaoguotu/218.html cs-uri-stem:用戶在當前時間訪問哪一個檔案或具體頁面
- cs-uri-query:是指訪問地址的附帶參數,如asp檔案?後面的字元串id=12等等,如果沒有參數則用“-”表示
80 s-port:訪問的連線埠
- cs-username:訪問者名稱,如果沒有參數則用“-”表示
218.30.103.86c-ip:訪問者IP
Sogou+web+spider/4.0 cs(User-Agent):訪問的搜尋引擎和蜘蛛名稱
200sc-status:Http狀態碼,200表示成功,403表示沒有許可權,404表示打不到該頁面,500表示程式有錯
0 子狀態碼 HTTP子協定的狀態.一般來說網站都是不使用子協定的,所以這個代碼為0就是很正常的
0 win32狀態碼是0,如果被64位系統訪問,那么這裡記錄的就是64 sc-substatus:服務端傳送到客戶端的位元組大小
12304 sc-bytes服務端傳送到客戶端的位元組大小 伺服器傳送的位元組數
256 cs-bytes客戶端傳送到服務端的位元組大小 伺服器接受的位元組數
93 time-taken:time-taken處理時間(一段日誌分析到此結束)
2013-03-13 00:12:37 W3SVC212 116.255.196.252 GET / - 80 - 220.181.108.99 Mozilla/5.0+(compatible;+Baiduspider/2.0;++ )
2013-03-13 00:12:37 W3SVC212 116.255.196.252 GET /index.html - 80 - 220.181.108.153 Mozilla/5.0+(compatible;+Baiduspider/2.0;++ )  
http狀態碼後面幾位數據沒有固定格式,如果只有一個表示下載數據位元組大小;
2、Http狀態碼
1**:請求收到,繼續處理
2**:操作成功收到,分析、接受
3**:完成此請求必須進一步處理
4**:請求包含一個錯誤語法或不能完成
5**:伺服器執行一個完全有效請求失敗

相關詞條

熱門詞條

聯絡我們