使用Jsoup(parse html) + ScriptEngine(執行js)
import java.net.URL;
import javax.script.ScriptEngine;
import javax.script.ScriptEngineManager;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
import net.sf.json.JSONArray;
import net.sf.json.JSONObject;
public class BbTest3 {
public static void main(String args[]) throws Exception {
// 使用json來parse html
String url = "123456";
Document doc = Jsoup.parse(new URL(url), 3000);
// 取得所有的script tag
Elements eles = doc.getElementsByTag("script");
for (Element ele : eles) {
// 檢查是否有detailInfoObject字串
String script = ele.toString();
if (script.indexOf("detailInfoObject") > -1) {
// 只取得script的內容
script = ele.childNode(0).toString();
// 使用ScriptEngine來parse
ScriptEngine engine = new ScriptEngineManager().getEngineByName("javascript");
engine.eval(script);
// 取得你要的變數
Object obj = engine.get("detailInfoObject");
System.out.println("detailInfoObject = " + obj);
// 將obj轉成Json物件
JSONObject json = JSONObject.fromObject(obj);
System.out.println("json = " + json);
// 取得欄位
System.out.println("destInfo = " + json.get("destInfo"));
// 取得欄位(array type)
JSONArray scans = json.getJSONArray("scans");
for (int i = 0, max = scans.size(); i < max; i++) {
JSONObject child = (JSONObject) scans.get(i);
System.out.println("scans[" + i + "] = " + child);
}
}
}
}
}
相关推荐
Jsoup解析html+xml
用eclipse在Maven基础上使用Jsoup+MYSQL+MyBatis+jsp实现网络小说抓取以及前端展示
Java爬虫【一篇文章精通系列-案例开发-巨细】HttpClient5 + jsoup + WebMagic + spider-flow【万字长文一篇文章学会】
这些jar包能够快速的实现网页爬虫功能,能够快熟实现模拟浏览器的一些操作。
使用Jsoup解析html网页,包含jsoup.jar \ api.chm \ 代码
经过测试,可以抓取一个完整的网站,包括网站的图片、css、js等。同时根据网站目录,在本地生成相同目录。使用Jsoup+Java。下载之后,可以直接运行。
jsoup.jar+jsoup中文API,需要的就下载吧
使用jsoup对Html解析并生成excel
主要介绍了Java爬虫Jsoup+httpclient获取动态生成的数据的相关资料,需要的朋友可以参考下
java基于jsoup+mongodb的简单爬虫入门程序,简单易懂,希望能给大家提供帮助
基于SSM+maven+httpClient+jsoup实现小说网站项目 基于SSM+maven+httpClient+jsoup实现小说网站项目 基于SSM+maven+httpClient+jsoup实现小说网站项目 基于SSM+maven+httpClient+jsoup实现小说网站项目 基于SSM+...
jsoup+httpclient 简单爬虫,一个jsoup的简单爬虫实例
这是使用Jsoup解析HTML得到数据的一个小例子,具体的使用方法请参见我的博客:http://blog.csdn.net/ProgramChangesWorld/article/details/47134255
htmlunit2.8 + jsoup1.7各种网站上的数据抓取。
使用android解析html文档,替换html中的内容
可以解析xml ,html 的java jar 包;Jsoup,常用的jar 包
使用Jsoup库解析HTML、XML或URL链接中的DOM节点 Jsoup进行Html的Dom解析
资源名字:基于java+Jsoup+HttpClient的网络爬虫技术的网络新闻分析系统设计与实现(源码+文档)_MySQL_网络爬虫_数据挖掘.zip 资源内容:项目全套源码+完整文档 源码说明: 全部项目源码都是经过测试校正后百分百...
web小说网站