UCI網頁信息抽取技術

該項技術採取的是標識提取，即操作人員只需在網頁中標識一下要提取的內容即可。操作便捷，維護簡單，準確率高，所以非常適用於超大規模的網頁提取。其主要特點有：

1：操作便捷：不使用網頁代碼，只需在需要提取的內容處做標識即可。
2：準確率高：採用標識自動定位技術，即使目標網站的樣式和代碼發生改變也可自動準確提取信息。
3：維護簡單：網站與抽取規則分離，具備抽取規則庫，可自動監測提示失效抽取規則。

經大規模測試使用，UCI網頁信息抽取技術，為大規模解析和抽取網頁中的數據提供了可能，為網際網路信息整合提供了必要的技術支持，並已經成為搜尋引擎爬蟲的一項必要擴展，UCI網頁信息提取技術可採用外掛程式的形式對爬蟲提供擴展。