UA即為用戶代理(User-Agent),伺服器通過UA識別訪問者的身份。當網站針對指定UA的訪問,返回異常頁面(如403,500)或跳轉到其他頁面的情況,即為UA禁封。
套用實例,區別,影響,
套用實例
UA禁封是robots協定封禁,一般是指網站根目錄下面的robots.txt檔案設定了針對搜尋引擎蜘蛛的禁止抓取。
比如:
User-agent: Baiduspider
Disallow: /baidu
這個設定指的是專門適用百度蜘蛛、禁止抓取網站根目錄下面的名為baidu的檔案。
區別
UA禁封與IP禁封的區別
IP禁封是指限制網路的出口IP位址,禁止該IP段的使用者進行內容訪問。而UA禁封則是針對伺服器通過UA(用戶代理)識別身份後的用戶進行指定的跳轉。
影響
抓取異常對網站的影響
對於大量內容無法正常抓取(這裡包括受到UA禁封與IP禁封等處罰)的網站,搜尋引擎會認為網站存在用戶體驗上的缺陷,並降低對網站的評價,在抓取、索引、權重上都會受到一定程度的負面影響,最終影響到網站從百度獲取的流量。
其他抓取異常狀態還包括:
對百度refer的異常:網頁針對來自百度的refer返回不同於正常內容的行為。
針對百度UA的異常:網頁對百度UA返回不同於頁面原內容的行為。
JS跳轉異常:網頁載入了百度無法識別的JS跳轉代碼,使得用戶通過搜尋結果進入頁面後發生了跳轉的情況。
壓力過大引起的偶然封禁:百度會根據站點的規模,訪問量等信息,自動設定一個合理的抓取壓力。但是在異常情況下,如壓力控制失常時,伺服器會根據自身負荷進行保護性的偶然封禁。這種情況下,請在返回碼中返回503(其含義是“Service Unavailable”),這樣百度spider會過段時間再來嘗試抓取這個連結,如果網站已空閒,則會被成功抓取。