基本介紹
- 中文名:百度蜘蛛
- 外文名:Baidu Spider
- 程式性質:自動程式
- 作用:抓取整理數據
工作機制,狀態代碼,成功,重定向,代碼中的錯誤,問題解答,套用提示,
工作機制
- 百度蜘蛛的運行原理。
(1)通過百度蜘蛛下載回來的網頁放到補充數據區,通過各種程式計算過後才放到檢索區,才會形成穩定的排名,所以說只要下載回來的東西都可以通過指令找到,補充數據是不穩定的,有可能在各種計算的過程中給k掉,檢索區的數據排名是相對比較穩定的,百度目前是快取機制和補充數據相結合的,正在向補充數據轉變,這也是目前百度收錄困難的原因,也是很多站點今天給k了明天又放出來的原因。
(2)深度優先和權重優先,百度蜘蛛抓頁面的時候從起始站點(即種子站點指的是一些門戶站點)是百度優先抓取是為了抓取更多的網址,深度優先抓取的目的是為了抓取高質量的網頁,這個策略是由調度來計算和分配的,百度蜘蛛只負責抓取,權重優先是指反向連線較多的頁面的優先抓取,這也是調度的一種策略,一般情況下網頁抓取抓到40%是正常範圍,60%算很好,100%是不可能的,當然抓取的越多越好。
百度蜘蛛的工作要素。
百度蜘蛛在從首頁登入後抓取首頁後調度會計算其中所有的連線,返回給百度蜘蛛進行下一步的抓取連線列表,百度蜘蛛再進行下一步的抓取,網址地圖的作用是為了給百度蜘蛛提供一個抓取的方向,來左右百度蜘蛛去抓取重要頁面,如何讓百度蜘蛛知道哪個頁面是重要頁面?可以通過連線的構建來達到這個目的,越多的頁面指向該頁,網址首頁的指向,副頁面的指向等等都能提高該頁的權重,地圖的另外一個作用是給百度蜘蛛提供更多的連線來達到抓去更多頁面的目的,地圖其實就是一個連線的列表提供給百度蜘蛛,來計算你的目錄結構,找到通過站內連線來構建的重要頁面。
百度蜘蛛原理的套用。
補充數據到主檢索區的轉變:在不改變板塊結構的情況下,增加相關連線來提高網頁質量,通過增加其他頁面對該頁的反向連線來提高權重,通過外部連線增加權重。如果改變了板塊結構將導致seo的重新計算,所以一定不能改變板塊結構的情況下來操作,增加連線要注意一個連線的質量和反向連線的數量的關係,短時間內增加大量的反向連線將導致k站,連線的相關性越高,對排名越有利。
狀態代碼
成功
200 正常;請求已完成。
201 正常;緊接POST命令。
202 正常;已接受用於處理,但處理尚未完成。
203 正常;部分信息 — 返回的信息只是一部分。
204 正常;無回響 — 已接收請求,但不存在要回送的信息。
重定向
301 永久重定向 — 請求的數據具有新的位置且更改是永久的。
302 暫時重定向 — 請求的數據臨時具有不同URI。
303 請參閱其它 — 可在另一URI下找到對請求的回響,且應使用 GET方法檢索此回響。
304 未修改 — 未按預期修改文檔。
305 使用代理 — 必須通過位置欄位中提供的代理來訪問請求的資源。
306 未使用 — 不再使用;保留此代碼以便將來使用。
代碼中的錯誤
400 錯誤請求 — 請求中有語法問題,或不能滿足請求。
401 未授權 — 未授權客戶機訪問數據。
402 需要付款 — 表示計費系統已有效。
403 禁止— 即使有授權也不需要訪問。
404 找不到—伺服器找不到給予的資源;文檔不存在。
406 不可接受 — 根據此請求中所傳送的“接受”標題,此請求所標識的資源只能生成內容特徵為“不可接受”的回響實體。
407 代理認證請求 — 客戶機首先必須使用代理認證自身。
410 請求的網頁不存在(永久);
415 介質類型不受支持 —伺服器拒絕服務請求,因為不支持請求實體的格式。
500 內部錯誤 — 因為意外情況,伺服器不能完成請求。
501 未執行 —伺服器不支持請求的工具。
502 錯誤網關—伺服器接收到來自上游伺服器的無效回響。
503 無法獲得服務 — 由於臨時過載或維護,伺服器無法處理請求。
問題解答
Baiduspider對一個網站伺服器造成的訪問壓力如何?
答:Baiduspider會自動根據伺服器的負載能力調節訪問密度。在連續訪問一段時間後,Baiduspider會暫停一會,以防止增大伺服器的訪問壓力。所以在一般情況下,Baiduspider對您網站的伺服器不會造成過大的壓力。
為什麼Baiduspider不停的抓取我的網站?
答:或許您的網站權重高或者對於您網站上新產生的或者持續、有規律更新的頁面,Baiduspider會持續抓取。此外,您也可以檢查網站訪問日誌中Baiduspider的訪問是否正常,以防止有人惡意冒充Baiduspider來頻繁抓取您的網站。 如果您發現Baiduspider非正常抓取您的網站,請反饋至,並請儘量給出Baiduspider對貴站的訪問日誌,以便於我們跟蹤處理。
我不想我的網站被Baiduspider訪問,我該怎么做?
答:Baiduspider遵守網際網路robots協定。您可以利用robots.txt檔案完全禁止Baiduspider訪問您的網站,或者禁止Baiduspider訪問您網站上的部分檔案。 注意:禁止Baiduspider訪問您的網站,將使您的網站上的網頁,在百度搜尋引擎以及所有百度提供搜尋引擎服務的搜尋引擎中無法被搜尋到。
ps:關於robots.txt的寫作方法,請參看我們的介紹:robots.txt寫作方法
為什麼我的網站已經加了robots.txt,還能在百度搜尋出來?
我希望我的網站內容被百度索引但不被保存快照,我該怎么做?
答:Baiduspider遵守網際網路metarobots協定。您可以利用網頁meta的設定,使百度顯示只對該網頁建索引,但並不在搜尋結果中顯示該網頁的快照。
和robots的更新一樣,因為搜索引擎索引資料庫的更新需要時間,所以雖然您已經在網頁中通過meta禁止了百度在搜尋結果中顯示該網頁的快照,但百度搜尋引擎資料庫中如果已經建立了網頁索引信息,可能需要二至四周才會線上上生效。
百度蜘蛛在robots.txt中的名字是什麼?
答:“Baiduspider” 首字母B大寫,其餘為小寫。
Baiduspider多長時間之後會重新抓取我的網頁?
答:百度搜尋引擎每周更新,網頁視重要性有不同的更新率,頻率在幾天至一月之間,Baiduspider會重新訪問和更新一個網頁。
Baiduspider抓取造成的頻寬堵塞?
答:Baiduspider的正常抓取並不會造成您網站的頻寬堵塞,造成此現象可能是由於有人冒充baidu的spider惡意抓取。如果您發現有名為Baiduspider的agent抓取並且造成頻寬堵塞,請儘快和我們聯繫。您可以將信息反饋至百度網頁投訴中心,如果能夠提供您網站該時段的訪問日誌將更加有利於我們的分析。
套用提示
第一,要想排名靠前,目標關鍵字應該完整匹配地出現在網頁的前面。
第二,百度蜘蛛似乎更注重網站頁面的層次結構。與Google相比,百度蜘蛛更加重視網站內部頁面結構的層次,有點爬蟲類的味道,越黑越深,它越是喜歡往裡鑽,不相信你做100個頁面,做得再漂亮,只要連結沒有層次,你最多就孤零零的被收錄可憐的一點點東西。
第三,百度蜘蛛極為活躍,抓取網頁的頻率和數量都非常大。百度蜘蛛幾乎每天都會訪問你的新站,並且至少抓取幾十個網頁。大量捕獲是百度的強項,其他任何搜尋引擎都沒辦法相比。但是百度中文網頁數目並不是最大的,百度蜘蛛抓取的頻率和網頁更新情況有關。天天更新的網站一定會吸引百度蜘蛛更頻繁的訪問,百度對天天更新的站最敏感,徹底換內容更敏感。
第四,百度並不被所謂的最佳化迷惑,Google對最佳化好像遠遠沒有百度敏感,百度尤其反感所謂的最佳化,不知道百度是用什麼方法識別網站最佳化的。我的看法是目前最”先進“ 的最佳化方法,好像對百度沒什麼大的作用,大家都這么幹了,機器人是有點死腦筋,但是百度那些IT也不是吃白飯的哈,要知道他是全球最先進的中文搜尋老大,Google在中文搜尋這塊畢竟與百度還沒得比。
第五,百度排名算法是以網頁為基礎,比較少關注整個網站的主題。聯繫到上一點,這說明百度排名算法中比較注重內部結構缺少完整的語義分析。所以一些目 前比較認同的關於“site:”之間那幾個所謂關係到搜尋質量的東西,並不是百度蜘蛛所最敏感的。
第六,充分利用百度的一個最大的優勢——收錄速度快。
影響因素
- 採集內容、複製內容
- 網站標題頻繁更改
- 伺服器或者空間不穩定
- 域名DNS解析不穩定
- 群發外鏈
對應名稱
產品名稱 對應user-agent
網頁搜尋 Baiduspider
無線搜尋 Baiduspider
圖片搜尋 Baiduspider-image
視頻搜尋 Baiduspider-video
新聞搜尋 Baiduspider-news
百度搜藏 Baiduspider-favo
百度聯盟Baiduspider-cpro
競價蜘蛛Baiduspider-sfkr