概述,安裝說明,使用方法,
概述
主要特點
1)Arachnode.net是目前基於.NET構架的,功能最完善的開源頁面爬蟲之一。
2)可以在更改個性定製的爬取規則時不用重新編譯原始碼,存在的爬取規則和行為架構可以很輕易地對爬取方式產生作用。
3)集成了Lucene.net模組,允許通過一個Web頁面接口就爬取得到的結果進行全文搜尋。
4)SQLsever2005全文索引可以配置到任意合適的存放地點。
5)下載的頁面可以被轉換為XML,然後通過HtmlAgilityPack存儲到SQLsever2005資料庫中。
6)Arachnode.net可以通過配置運行任意數量的執行緒,使用儘可能多的處理器時間和存儲空間。
7)Arachonde.net的爬取過程是尊重對方的,提供發出請求前後的規則來管理地址和內容的過濾。默認的爬取環境是尊重的,謙恭的,溫和的。
8)對於爬取到的圖像,arachnode.net會存儲和索引所有發現的EXIF信息。
安裝說明
1.下載arachnode.net : release 1.1 +lucene.net,並解壓縮到指定資料夾。
2.安裝Visual Studio 2005 Professional Edition 或以上版本,安裝過程中C#和WebDeveloper是必須的,其他根據需要可以選擇不安裝。
3.保持.NET Framework SDK以默認配置進行安裝。
4.必須保證安裝Visual Studio 2005 Team Suite Service Pack 1即我們常說的VS2005 SP1,否則其中有些項目檔案無法載入。
5.安裝SQL Server 2005 Standard Edition 以上版本,Express版本無法準確完成資料庫還原。
6.從backup檔案中還原資料庫,運行SQL Sever Managerment Studio,點擊“連線”,從設備還原資料庫,.bak檔案在解壓資料夾里的zip檔案中。
7.激活CLR功能,運行SQL Sever 外圍套用配置器,選擇功能的外圍套用配置器,選擇CLR集成,點選激活CLR集成,保存配置。
8.新建一個查詢,執行存儲過程:"[dbo].[arachnode_usp_arachnode.net_RESET_DATABASE]"。
9.新建一個查詢,執行:"ALTER DATABASE[arachnode.net]SET TRUSTWORTHY ON"。將資料庫賦予合適的許可權。
10.用Visual Studio打開.sln解決方案,在彈出的詢問是否設定資料庫連線的對話框中點擊確定,選擇database選項卡,在Connection string旁點擊瀏覽按鈕,選擇正確的伺服器名和資料庫連線,激活SQL/CLR調試。
11.刪除Test.proj工程,並設定console.proj作為啟動項目,按F5生成整個工程。
使用方法
1.arachnode.net的爬取模組是一個控制台應用程式,對於爬取過程的定製全部在資料庫中進行,包括爬取目標,深度,逾時時間等等,全部在dbo.Configuration和dbo.CrawlerTypes表中,通過設定其中欄位的值對爬取過程進行定製。
2.對於爬取內容的檢索,arachnode.net使用一個web應用程式進行實現,將web.proj作為啟動項目重新生成項目後,會啟動一個asp.net伺服器,然後採用瀏覽器中的web頁面對爬取內容進行索引和檢索。