基本介紹
- 中文名:火車頭採集器
- 外文名:LocoySpider
- 含義:多執行緒內容採集發布程式
- 特點:可瞬間建立擁有龐大內容的網站
功能,數據抓取原理,數據發布原理,工作流程,新增功能,採集器,術語介紹,採集規則,採集任務,發布模組,發布接口,外掛程式,發布數據,本地編輯數據,
功能
火車採集器(LocoySpider)是一款功能強大且易於上手的專業採集軟體,強大的內容採集和數據導入功能能將您採集的任何網頁數據發布到遠程伺服器,自定義用戶cms系統模組,不管你的網站是什麼系統,都有可能使用上火車採集器,系統自帶的模組檔案支持:風訊文章,動易文章,動網論壇,PHPWIND論壇,Discuz論壇,phpcms文章,phparticle文章,LeadBBS論壇,魔力論壇,Dedecms文章,Xydw文章,驚雲文章等的模組檔案。更多cms模組請自己參照製作修改,也可到官方網站與大家交流製作。 同時您也可以使用系統的數據導出功能,利用系統內置標籤,將採集到的數據對應表的欄位導出到本地任何一款Access,MySql,MS SqlServer內。
LocoySpider採用Visual C#編寫,可獨立在Windows2008下運行(windows2003 自帶.net1.1框架。最新版的火車採集器是2008版,需要升級到.net2.0框架才能使用),如您在Windows2000、Xp等環境下使用,請先到微軟官方下載一個.net framework2.0或更高環境組件。火車採集器V2009 SP2 04月29日
數據抓取原理
火車採集器如何去抓取數據,取決於您的規則。您要獲取一個欄目的網頁里的所有內容,需要先將這個網頁的網址採下來,這就是采網址。程式按您的規則抓取列表頁面,從中分析出網址,然後再去抓取獲得網址的網頁里的內容。再根據您的採集規則,對下載到的網頁分析,將標題內容等信息分離開來並保存下來。如果您選擇了下載圖片等網路資源,程式會對採集到的數據進行分析,找出圖片,資源等的下載地址並下載到本地。
數據發布原理
在我們將數據採集下來後數據默認是保存在本地的,我們可以使用以下幾種方式對數據進行處理。
1、不做任何處理。因為數據本身是保存在資料庫的(access、db3、mysql、sqlserver),您如果只是查看數據,直接用相關軟體打開查看即可。
2、Web發布到網站。程式會模仿瀏覽器向您的網站傳送數據,可以實現您手工發布的效果。
3、直接入資料庫。您只需寫幾個SQL語句,程式會將數據按您的SQL語句導入到資料庫中。
4、保存為本地檔案。程式會讀取資料庫里的數據,按一定格式保存為本地sql或是文本檔案。
工作流程
火車採集器採集數據是分成兩個步驟的,一是採集數據,二是發布數據。這兩個過程是可以分開的。
1、採集數據,這個包括採集網址,採集內容。這個過程是獲得數據的過程。我們做規則,在采的過程中也算是對內容做了處理。
2、發布內容就是將數據發布到自己的論壇,CMS的過程,也是實現數據為已有的過程。可以用WEB線上發布,資料庫入庫或存為本地檔案。
具體的使用其實是很靈活的,可以根據實際來決定。比如我可以採集時先採集不發布,有時間了再發布,或是同時採集發布,或是先做發布配置,也可以在採集完了再添加發布配置。總之,具體過程由您而定,火車採集器的強大功能之一也就是體現在靈活中。
新增功能
無限級多頁採集
任務佇列運行管理功能
RSS地址採集功能
列表頁分頁採集獲取功能
列表頁附加參數獲取功能
列表頁及標籤XPath可視化提取功能
標籤純正則替換功能
Http接口查看運行情況
導出記錄為單個或多個Txt、html 檔案
標籤間自由組合功能
針對標籤內容繼續傳送Http請求功能
無限級列表網址採集
從Http頭信息中獲取數據
標題內容正文提取功能
Aspx列表分頁自識別
多網站站群式web發布
導出記錄為Word格式
導出所有記錄為Excel格式
使用隨機二級代理伺服器(支持Socket代理)
多擴展間數據交換功能
下載的圖片自動加增強型水印功能
Ocr識別(圖片轉化為文字)
Http接口管理採集器運行
Mongodb資料庫保存數據
主從伺服器分散式採集
採集器
2012-05-16更新
1.禁止掉httpwebpost中瀏覽器的腳本錯誤提示
2.修復使用偏好中的採集器沒有開機啟動和關閉視窗選項沒有啟用的bug
3.對mysql和sqlserver做本地伺服器建了索引,解決了大數據量時查詢出錯的問題
4.細節修改,如線上發布裡面的COOKIS可以全選,多頁默認傳前頁user-agent給多頁
5.增加了多個任務在只使用一個任務運行視窗,減少資源使用
6.更改任務運行完關機方式為只生效一次
7.修復一個當多頁獲取為空時網址成默認頁的bug
8.外掛程式中沒有處理 UseGetStepUrls 的bug
9.httpserver 增加了列表分組,自動啟動,和新建任務返回分組和任務id
10.對用戶對標籤組合再次標籤組合進行了允許處理。
11.修復對列表獲取的內容,部分情況下會補全的bug
12.修復多頁管理時特殊情況下新建標籤沒有保存的bug
13.修復部分情況下標籤提取大小寫無效的bug
14.修復如果一個標籤出現多次時間轉換轉換部分無效的bug.
15.修復了ubb轉換中部分轉換錯誤的bug.
16.增加了將下載地址保存為html檔案的功能。
17.增加了web發布時網頁逾時設定
18.修複本地資料庫使用Access時任務數據批量工具清理已發數據無效的bug.
19.修復任務完成後關機設定取消後還會再提示關機的bug
20.修改部分電腦上Mongodb服務不能識別的bug
術語介紹
採集規則
採集規則分為站點規則和任務規則,通常是指任務規則。所謂採集規則就是要採集一個網站時在軟體里進行的設定。這個設定可以從軟體里導出保存成一個檔案並可以再導入到軟體里。站點規則檔案的後綴名為:.lsite;任務規則檔案的後綴名為:.ljob。
採集任務
採集任務又簡稱為任務。它是採集規則和發布規則的總和。也是採集規則和發布規則的載體。採集規則和發布規則的設定通過在任務編輯框裡進行設定。從採集器里導出的採集規則檔案(.ljob後綴的)也可稱為任務規則。導入導出任務規則就是指導入導出.ljob檔案。
發布模組
發布模組又稱為發布規則,通常是指資料庫發布模組或者WEB發布模組。所謂發布模組就是在需要將已經採集的數據發布到目的地(比如:指定資料庫,網站中)時在軟體里進行的設定。這個設定可以保存成一個檔案並可以導入到採集器里使用。資料庫發布模組檔案的後綴名為:.jhc;WEB線上發布模組檔案的後綴名為:.cwr。
(採集規則和發布模組都可以從採集器里導出,也都可以導入到採集器中使用。採集規則負責將網頁上的數據採集下來,發布模組負責將採集的數據發布到網站中。可見,採集規則的編寫和修改和被採集的網站有關係,而發布模組的編寫和修改和要發布數據的網站有關係。如從不同的網站欄目採集數據往同一個網站的某個板塊(頻道)里發布,需要多個採集規則和一個發布模組。從一個網站欄目採集數據往不同的網站系統里發布,需要一個採集規則和多個發布模組。注意這裡的說的採集規則是指採集網站和抓取內容的設定。)
發布接口
發布接口就是一個小的頁面程式通常和WEB發布模組配合使用。WEB線上發布(使用WEB發布模組)是將採集的數據以POST方式傳送到網站頁面程式中由網站程式處理數據。而發布接口就是為了滿足特定需求而寫的一個網站的頁面程式(如:PHP頁面,ASP頁面等)。然後採集器通過WEB線上發布將數據傳送到這個接口檔案由這個接口檔案處理數據。接口檔案通常放在伺服器網站某個目錄下。簡單的說就是採集器將採集的數據傳送到接口檔案中,接口檔案得到數據後去處理數據。使用發布接口用戶可以更加靈活自由的處理採集器傳送的數據。
外掛程式
火車採集器里的外掛程式分為PHP外掛程式和.NET外掛程式兩種。標準版支持PHP外掛程式,企業版支持PHP外掛程式和.NET外掛程式。外掛程式可以讓用戶通過自己寫PHP程式或者.NET程式放到採集器中對採集的數據進行處理。採集數據數據在四個地方可以使用外掛程式,分別為:采網址時、采內容時、采多頁時,保存時。
發布數據
發布數據就是將採集到的數據發布到指定的目的地,火車採集器支持四種發布方式。
方式一:Web線上發布到網站
這種發布方式類似於在網站後台手工添加數據一樣。採集器將數據傳送給網站後台程式,由網站後台程式去處理數據通常後台程式講數據存入網站資料庫中。
這種發布方式類似於在網站後台手工添加數據一樣。採集器將數據傳送給網站後台程式,由網站後台程式去處理數據通常後台程式講數據存入網站資料庫中。
方式二:保存為本地檔案
這種方式可以將採集的數據發布到本地的檔案中,採集器支持保存成Txt格式、Csv格式和Html格式。
這種方式可以將採集的數據發布到本地的檔案中,採集器支持保存成Txt格式、Csv格式和Html格式。
方式三:導入到自定義資料庫
這種方式可以通過採集器連線到其他資料庫從而將採集的數據從軟體內置資料庫中導入到其他的資料庫中,採集器支持連線Mysql、Access、Oracle、MSsql資料庫。
這種方式可以通過採集器連線到其他資料庫從而將採集的數據從軟體內置資料庫中導入到其他的資料庫中,採集器支持連線Mysql、Access、Oracle、MSsql資料庫。
方式四:保存為本地Sql檔案(Insert語句)
這種方式是將採集的數據導出保存成Insert語句,可以用於在資料庫的管理工具中執行插入數據。
這種方式是將採集的數據導出保存成Insert語句,可以用於在資料庫的管理工具中執行插入數據。
本地編輯數據
採集器不僅可以採集發布數據,還可以將採集下來的數據經過編輯以後再發布。支持批量替換,通過SQL語句批量處理以及在文本編輯框裡編輯。