UCI網頁信息抽取技術,是一種適用於億級數量的智慧型網頁信息抽取技術,主要適用於網際網路信息整合和搜尋引擎中網頁信息的提取。
基本介紹
- 中文名:UCI網頁信息抽取技術
- 定義:億級數量智慧型網頁信息抽取技術
- 特點:操作便捷,維護簡單,準確率高
- 作用:網際網路整合和搜尋引擎信息提取
該項技術採取的是標識提取,即操作人員只需在網頁中標識一下要提取的內容即可。操作便捷,維護簡單,準確率高,所以非常適用於超大規模的網頁提取。其主要特點有:
1:操作便捷:不使用網頁代碼,只需在需要提取的內容處做標識即可。
2:準確率高:採用標識自動定位技術,即使目標網站的樣式和代碼發生改變也可自動準確提取信息。
3:維護簡單:網站與抽取規則分離,具備抽取規則庫,可自動監測提示失效抽取規則。
2:準確率高:採用標識自動定位技術,即使目標網站的樣式和代碼發生改變也可自動準確提取信息。
3:維護簡單:網站與抽取規則分離,具備抽取規則庫,可自動監測提示失效抽取規則。
經大規模測試使用,UCI網頁信息抽取技術,為大規模解析和抽取網頁中的數據提供了可能,為網際網路信息整合提供了必要的技術支持,並已經成為搜尋引擎爬蟲的一項必要擴展,UCI網頁信息提取技術可採用外掛程式的形式對爬蟲提供擴展。