基本介紹
- 中文名:larbin
- 類型:網路蜘蛛
- 開發者:Sébastien Ailleret
- 實現:c++語言
larbin的簡介
larbin是一種開源的網路爬蟲/網路蜘蛛,由法國的年輕人Sébastien Ailleret獨立開發,用c++語言實現。larbin目的是能夠跟蹤頁面的url進行擴展的抓取,最後為搜尋引擎提供廣泛的數據來源。 Larbin只是一個爬蟲,也就是說larbin只抓取網頁,至於如何parse的事情則由用戶自己完成。另外,如何存儲到資料庫以及建立索引的事情 larbin也不提供。
larbin最初的設計也是依據設計簡單但是高度可配置性的原則,因此我們可以看到,一個簡單的larbin的爬蟲可以每天獲取500萬的網頁,實在是非常高效。
利用larbin,我們可以輕易的獲取/確定單個網站的所有聯結,甚至可以鏡像一個網站;也可以用它建立url 列表群,例如針對所有的網頁進行 url retrive後,進行xml的聯結的獲取。或者是 mp3,或者定製larbin,可以作為搜尋引擎的信息的來源。