htmlparser

htmlparser

htmlparser是一個純的java寫的html標準通用標記語言下的一個套用)解析的庫,它不依賴於其它的java庫檔案,主要用於改造或提取html。

基本介紹

  • 中文名:htmlparser
  • 外文名:htmlparser
  • 編輯語言java
  • 類型:庫
  • 作用:解析html
簡介,基本功能,常用代碼,

簡介

htmlparser是一個純的java寫的html標準通用標記語言下的一個套用)解析的庫,它不依賴於其它的java庫檔案,主要用於改造或
提取html。它能超高速解析html,而且不會出錯。現在htmlparser最新版本為2.1。
毫不誇張地說,htmlparser就是目前最好的html解析和分析的工具。
無論你是想抓取網頁數據還是改造html的內容,用了htmlparser絕對會忍不住稱讚。

基本功能

1、信息提取
  • 文本信息抽取,例如對HTML進行有效信息搜尋;
  • 連結提取,用於自動給頁面的連結文本加上連結的標籤;
  • 資源提取,例如對一些圖片、聲音的資源的處理;
  • 連結檢查,用於檢查HTML中的連結是否有效;
  • 頁面內容的監控。
2、信息轉換
  • 連結重寫,用於修改頁面中的所有超連結
  • 網頁內容拷貝,用於將網頁內容保存到本地;
  • 內容檢驗,可以用來過濾網頁上一些令人不愉快的字詞;
  • HTML信息清洗,把本來亂七八糟的HTML信息格式化;
  • 轉成XML格式數據。

常用代碼

取得一段html代碼裡面所有的連結的java版本:
stringhtmlcode="<HTML><HEAD><TITLE>AAA</TITLE></HEAD><BODY>"+......+"</BODY></HTML>";Parserparser=Parser.CreateParser(htmlcode,"GBK");HtmlPagepage=newHtmlPage(parser);try{parser.VisitAllNodesWith(page);}catch(ParserExceptione1){e1=null;}NodeListnodelist=page.Body;NodeFilterfilter=newTagNameFilter("A");nodelist=nodelist.ExtractAllNodesThatMatch(filter,true);for(inti=0;i<nodelist.Size();i++){LinkTaglink=(LinkTag)nodelist.ElementAt(i);System.Console.Write(link.GetAttribute("href")+"\n");}

相關詞條

熱門詞條

聯絡我們