基本介紹
- 中文名:htmlparser
- 外文名:htmlparser
- 編輯語言:java
- 類型:庫
- 作用:解析html
簡介,基本功能,常用代碼,
簡介
提取html。它能超高速解析html,而且不會出錯。現在htmlparser最新版本為2.1。
毫不誇張地說,htmlparser就是目前最好的html解析和分析的工具。
無論你是想抓取網頁數據還是改造html的內容,用了htmlparser絕對會忍不住稱讚。
基本功能
1、信息提取
- 文本信息抽取,例如對HTML進行有效信息搜尋;
- 連結提取,用於自動給頁面的連結文本加上連結的標籤;
- 資源提取,例如對一些圖片、聲音的資源的處理;
- 連結檢查,用於檢查HTML中的連結是否有效;
- 頁面內容的監控。
2、信息轉換
常用代碼
取得一段html代碼裡面所有的連結的java版本:
stringhtmlcode="<HTML><HEAD><TITLE>AAA</TITLE></HEAD><BODY>"+......+"</BODY></HTML>";Parserparser=Parser.CreateParser(htmlcode,"GBK");HtmlPagepage=newHtmlPage(parser);try{parser.VisitAllNodesWith(page);}catch(ParserExceptione1){e1=null;}NodeListnodelist=page.Body;NodeFilterfilter=newTagNameFilter("A");nodelist=nodelist.ExtractAllNodesThatMatch(filter,true);for(inti=0;i<nodelist.Size();i++){LinkTaglink=(LinkTag)nodelist.ElementAt(i);System.Console.Write(link.GetAttribute("href")+"\n");}