HtmlCleaner

HtmlCleaner是一個開源的Java語言的Html文檔解析器。HtmlCleaner能夠重新整理HTML文檔的每個元素並生成結構良好(Well-Formed)的 HTML 文檔。

基本介紹

  • 中文名:HtmlCleaner
  • 實質:Java語言的Html文檔解析器
  • 作用:重新整理HTML文檔並生成文檔
  • 規則:類似web瀏覽器文檔對象模型規則
簡介,更新內容,

簡介

默認它遵循的規則是類似於大部份web瀏覽器為創文檔對象模型所使用的規則。然而,用戶可以提供自定義tag和規則組來進行過濾和匹配。它被設計的小,快速,靈活而且獨立。HtmlCleaner也可用在Java代碼中,當命令行工具或Ant任務。 解析後編程輕量級文檔對象,能夠很容易的被轉換到DOM或者JDom標準文檔,或者通過各種方式(壓縮,列印)連續輸出XML。

更新內容

1.HtmlCleaner的文檔對象模型擁有了一些函式,處理節點和屬性,所以在序列化之前搜尋或者編輯是非常容易的。
2.提供基本HtmlCleaner DOM的XPath支持
3.使用XML配置檔案讓創建定製tag變得更加容易
4.修復多個bug以及API改進

相關詞條

熱門詞條

聯絡我們