HtmlParser初体验 - Ellan - ITeye博客

`

elan1986

浏览: 164865 次
性别:
来自: 北京

最近访客更多访客>>

L_Cool_J

topsaying

zhaolingzhu

hae

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

asqin： getFileIO 时 in 对象为null
java修改，读取properties文件
holleyangyanges：你试过你的代码吗？
HttpClient CAS
a455642158： tks……
java修改，读取properties文件
faikr：请问，这个子表的数据，你是怎么和主表相关字段做对应的？比如，我 ...
jquery之jquerygrid-subgrid
jrius：这种方式应该是抓不到的，百度指数使用了amf格式
JAVA抓取百度指数数据

HtmlParser初体验

博客分类：

htmlParser

阅读更多

package com.lch.parser;

import org.htmlparser.Node;
import org.htmlparser.NodeFilter;
import org.htmlparser.Parser;
import org.htmlparser.filters.TagNameFilter;
import org.htmlparser.tags.LinkTag;
import org.htmlparser.util.NodeList;
import org.htmlparser.util.ParserException;
import org.htmlparser.visitors.HtmlPage;

public class HtmlPT {

	public static void main(String[] args) throws ParserException {
		String DivHtml = "";
		Parser parser = new Parser();
		parser.setURL("*****************");//地址
		parser.setEncoding(parser.getEncoding());
		
		NodeFilter filter = new TagNameFilter("DIV");
		NodeList nodes = parser.extractAllNodesThatMatch(filter);
		
		if(nodes != null){
			for(int i=0; i<nodes.size(); i++){
				Node textNode = (Node)nodes.elementAt(i);
				//System.out.println("当前DIV ： " + textNode.getText());
				if(textNode.getText().equals("DIV class=Yaowentitle")){
					DivHtml = textNode.toHtml();
					System.out.println( textNode.toHtml());
					pageLink(DivHtml);
				}
				
			}
		}
	}
	
	public static void  pageLink(String cStr) throws ParserException{
		Parser parser = new Parser("<body>"+cStr+"</body>");
		HtmlPage page = new HtmlPage(parser);
		
		parser.visitAllNodesWith(page);
		NodeList nodeList = page.getBody();
		NodeFilter filter = new TagNameFilter("A");
		nodeList = nodeList.extractAllNodesThatMatch(filter, true);
		
		for(int i=0; i<nodeList.size(); i++){
			LinkTag link = (LinkTag)nodeList.elementAt(i);
			System.out.println("link : " + link.getLink());
			System.out.println("title : "+ link.getAttribute("TITLE"));
		}
	}
}

强大，比自己慢慢读取，要方便的多了！

分享到：

jdk6 对 javascript 的支持 | 大家注意这家公司--湖南长沙某公司

2010-10-25 13:45
浏览 883
评论(0)
分类:编程语言
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

htmlparser: META-INF/maven/org.htmlparser/htmlparser/pom.properties META-INF/maven/org.htmlparser/htmlparser/pom.xml org.htmlparser.Parser.class org.htmlparser.PrototypicalNodeFactory.class org.htmlparser.beans....

c#版htmlparser htmlparser.dll htmlparser源代码: c#版htmlparser htmlparser.dll htmlparser源代码

HtmlParser: htmlparser网络爬虫技术,通过关键字查询快速查找指定网站

HTMLParser.net源代码HTMLParser.net使用demo: HTMLParser.net源代码HTMLParser.net使用demo

htmlparser-1.2.1 jar: htmlparser-1.2.1jar包下载htmlparser-1.2.1jar包下载

htmlparser库与教程: htmlparser.jar htmlparser教程

htmlparser2.0_dll+htmlparserAPI: htmlparser2.0 htmlparser

HtmlParser源码及demo: HtmlParser源码及demo

HTMLParser 2.0: HTMLParser HTML解析 HTMLParser HTML解析 HTMLParser HTML解析

htmlparser.jar文件: 我注意好多人都说没有org.htmlparser.Node和其他的一些.class文件，这里把下载后解压出来的5个jar包全部导入工程就可以引入所需的文件了

Winista.Htmlparser.Net 源码 +Demo: Winista.Htmlparser.net 源代码本资料共包含以下附件： HtmlParser c#源码+demo.rar

htmlparser网页分析: 关于用java写的htmlparser网页分析

Winista.HtmlParser: Winista HtmlParser Winista HtmlParser Winista HtmlParser Winista HtmlParser

HtmlParser-2.0 API: HtmlParser-2.0 API ,chm格式，方便使用

HTMLParser的Jar文件: HTMLParser的Jar文件有如下几种： htmlparser.jar filterbuilder.jar htmllexer.jar sitecapturer.jar thumbelina.jar

JAVA htmlparser 使用实例: JAVA htmlparser 使用实例

htmlparser1.4完整包下载: htmlparser1.4完整包下载，htmlparser1.4完整包下载

Global site tag (gtag.js) - Google Analytics