package com.lch.parser;
import org.htmlparser.Node;
import org.htmlparser.NodeFilter;
import org.htmlparser.Parser;
import org.htmlparser.filters.TagNameFilter;
import org.htmlparser.tags.LinkTag;
import org.htmlparser.util.NodeList;
import org.htmlparser.util.ParserException;
import org.htmlparser.visitors.HtmlPage;
public class HtmlPT {
public static void main(String[] args) throws ParserException {
String DivHtml = "";
Parser parser = new Parser();
parser.setURL("*****************");//地址
parser.setEncoding(parser.getEncoding());
NodeFilter filter = new TagNameFilter("DIV");
NodeList nodes = parser.extractAllNodesThatMatch(filter);
if(nodes != null){
for(int i=0; i<nodes.size(); i++){
Node textNode = (Node)nodes.elementAt(i);
//System.out.println("当前DIV : " + textNode.getText());
if(textNode.getText().equals("DIV class=Yaowentitle")){
DivHtml = textNode.toHtml();
System.out.println( textNode.toHtml());
pageLink(DivHtml);
}
}
}
}
public static void pageLink(String cStr) throws ParserException{
Parser parser = new Parser("<body>"+cStr+"</body>");
HtmlPage page = new HtmlPage(parser);
parser.visitAllNodesWith(page);
NodeList nodeList = page.getBody();
NodeFilter filter = new TagNameFilter("A");
nodeList = nodeList.extractAllNodesThatMatch(filter, true);
for(int i=0; i<nodeList.size(); i++){
LinkTag link = (LinkTag)nodeList.elementAt(i);
System.out.println("link : " + link.getLink());
System.out.println("title : "+ link.getAttribute("TITLE"));
}
}
}
强大,比自己慢慢读取,要方便的多了!
分享到:
相关推荐
META-INF/maven/org.htmlparser/htmlparser/pom.properties META-INF/maven/org.htmlparser/htmlparser/pom.xml org.htmlparser.Parser.class org.htmlparser.PrototypicalNodeFactory.class org.htmlparser.beans....
c#版htmlparser htmlparser.dll htmlparser源代码
htmlparser网络爬虫技术,通过关键字查询快速查找指定网站
HTMLParser.net源代码HTMLParser.net使用demo
htmlparser-1.2.1jar包下载htmlparser-1.2.1jar包下载
htmlparser.jar htmlparser教程
htmlparser2.0 htmlparser
HtmlParser源码及demo
HTMLParser HTML解析 HTMLParser HTML解析 HTMLParser HTML解析
我注意好多人都说没有org.htmlparser.Node和其他的一些.class文件,这里把下载后解压出来的5个jar包全部导入工程就可以引入所需的文件了
Winista.Htmlparser.net 源代码 本资料共包含以下附件: HtmlParser c#源码+demo.rar
关于用java写的htmlparser网页分析
Winista HtmlParser Winista HtmlParser Winista HtmlParser Winista HtmlParser
HtmlParser-2.0 API ,chm格式,方便使用
HTMLParser的Jar文件有如下几种: htmlparser.jar filterbuilder.jar htmllexer.jar sitecapturer.jar thumbelina.jar
JAVA htmlparser 使用实例
htmlparser1.4完整包下载,htmlparser1.4完整包下载