htmlparser

簡介

htmlparser是一個純的java寫的html（標準通用標記語言下的一個套用）解析的庫，它不依賴於其它的java庫檔案，主要用於改造或

提取html。它能超高速解析html，而且不會出錯。現在htmlparser最新版本為2.1。

毫不誇張地說，htmlparser就是目前最好的html解析和分析的工具。

無論你是想抓取網頁數據還是改造html的內容，用了htmlparser絕對會忍不住稱讚。

基本功能

1、信息提取

文本信息抽取，例如對HTML進行有效信息搜尋；
連結提取，用於自動給頁面的連結文本加上連結的標籤；
資源提取，例如對一些圖片、聲音的資源的處理；
連結檢查，用於檢查HTML中的連結是否有效；
頁面內容的監控。

2、信息轉換

連結重寫，用於修改頁面中的所有超連結；
網頁內容拷貝，用於將網頁內容保存到本地；
內容檢驗，可以用來過濾網頁上一些令人不愉快的字詞；
HTML信息清洗，把本來亂七八糟的HTML信息格式化；
轉成XML格式數據。

常用代碼

取得一段html代碼裡面所有的連結的java版本：

stringhtmlcode="<HTML><HEAD><TITLE>AAA</TITLE></HEAD><BODY>"+......+"</BODY></HTML>";Parserparser=Parser.CreateParser(htmlcode,"GBK");HtmlPagepage=newHtmlPage(parser);try{parser.VisitAllNodesWith(page);}catch(ParserExceptione1){e1=null;}NodeListnodelist=page.Body;NodeFilterfilter=newTagNameFilter("A");nodelist=nodelist.ExtractAllNodesThatMatch(filter,true);for(inti=0;i<nodelist.Size();i++){LinkTaglink=(LinkTag)nodelist.ElementAt(i);System.Console.Write(link.GetAttribute("href")+"\n");}

htmlparser

基本介紹

簡介

基本功能

常用代碼

相關詞條

熱門詞條