在论坛看帖子看到一则抓取百度指数的需求,自己最近刚好看到httpclient和httpparser
思路:
1、查看百度指数页面,找出页面的编码方式。
2、浏览器提交一些测试数据,并观察浏览器地址栏的变化。
3、httpclient测试是否可以读取该页面的数据内容
4、拼凑百度地址栏的数据信息
PS:比较简单 就没有多余的注释信息
代码如下:
package com.lch.hibaidu;
import java.io.BufferedReader;
import java.io.InputStreamReader;
import java.net.URLEncoder;
import org.apache.http.HttpEntity;
import org.apache.http.HttpHost;
import org.apache.http.HttpResponse;
import org.apache.http.client.methods.HttpGet;
import org.apache.http.impl.client.DefaultHttpClient;
public class GetIndex {
public static void main(String[] args) throws Exception {
String QueryString = "3Q";
String URLQueryString = URLEncoder.encode(QueryString);
DefaultHttpClient httpClient = new DefaultHttpClient();
HttpHost targetHost = new HttpHost("index.baidu.com");
HttpGet httpGet = new HttpGet("/main/word.php?word="+URLQueryString);
System.out.println("目标: " + targetHost);
System.out.println("请求: " + httpGet.getRequestLine());
HttpResponse response = httpClient.execute(targetHost, httpGet);
HttpEntity entity = response.getEntity();
System.out.println("---------------------------------");
System.out.println(response.getStatusLine());
if (entity != null) {
System.out.println("Response content length : "
+ entity.getContentLength());
}
BufferedReader buReader = new BufferedReader(new InputStreamReader(
entity.getContent(), "gb2312"));
String line = null;
while ((line = buReader.readLine()) != null) {
System.out.println(line);
}
if (entity != null) {
entity.consumeContent();
}
}
}
得到数据结果信息后,可以通过httpparser进行分析,这个就不多说了!
分享到:
相关推荐
java抓取网页数据实现
Java抓取https网页数据,解决peer not authenticated异常。导入eclipse就能运行,带有所用的jar包(commons-httpclient-3.1.jar,commons-logging.jar,httpclient-4.2.5.jar,httpcore-4.2.4.jar)
java抓取网站数据
java网页抓取数据
通过Java代码实现抓取百度图片并下载到本地,采用springboot方式,开箱即用,运行起来即可进行抓取图片
百度指数爬虫, 可以自定义时间段抓取百度指数,非模拟浏览器操作,抓取百度指数的另一种思路
Java网页抓取数据
非常好的一个java版本的网络爬虫,下载直接可以运行。可以后台登陆然后再抓取。值得大家研究。
使用前,导入lib文件夹下的包,点击运行就可以了。而且可以利用此程序设计SO-PMI算法的实现。获得百度搜索数的同时得到两个词语的极性
Java抓取网页数据的两种方法:(1)抓取原网页 (2)抓取网页JS返回数据
java抓取微信公众号最近10篇文章,基于微信搜狗搜索实现。java源码.git 仓库 http://git.oschina.net/hcxy/WechatSpider
java爬虫抓取网页数据教程.pdf
通过java抓取任何指定网页的数据,里面介绍了java如何实现抓取技术,抓取指定的网页数据并解析
python 抓取百度云分享数据,百度云最新接口抓取分享链接。
java爬虫抓取城市数据,数据抓取后直接持久化到数据库当中。博客地址http://blog.csdn.net/qq_23994787/article/details/78107890 如果没有积分的话,在主页给博主发邮件获取。
百度地图数据抓取百度地图数据抓取,破解,免费。
java根据自定义json格式规则抓取新浪新闻、百度新闻、微博动态内容的网络爬虫源码 例子中的源码功能: 导入Hbase的jar包即可直接返回Put对象数据、可以返回map对象数据、支持自定义json格式抓取指定网页的内容、抓取...
java httpclient 抓取 数据 和jar 包
java抓取网页数据,主要用于抓取手机号和身份证查询网站的数据。
利用HttpClient抓取网页中简单的数据,数据可存入数据库进行分析