HtmlCleaner是一個開源的Java語言的Html文檔解析器。HtmlCleaner能夠重新整理HTML文檔的每個元素並生成結構良好(Well-Formed)的 HTML 文檔。
基本介紹
簡介,更新內容,
簡介
默認它遵循的規則是類似於大部份web瀏覽器為創文檔對象模型所使用的規則。然而,用戶可以提供自定義tag和規則組來進行過濾和匹配。它被設計的小,快速,靈活而且獨立。HtmlCleaner也可用在Java代碼中,當命令行工具或Ant任務。 解析後編程輕量級文檔對象,能夠很容易的被轉換到DOM或者JDom標準文檔,或者通過各種方式(壓縮,列印)連續輸出XML。
更新內容
1.HtmlCleaner的文檔對象模型擁有了一些函式,處理節點和屬性,所以在序列化之前搜尋或者編輯是非常容易的。
2.提供基本HtmlCleaner DOM的XPath支持
3.使用XML配置檔案讓創建定製tag變得更加容易
4.修復多個bug以及API改進