如何用java实现网络爬虫抓取页面内容

如何用java实现网络爬虫抓取页面内容,第1张

爬虫的原理其实就是获取到网页内容,然后对其进行解析。只不过获取的网页、解析内容的方式多种多样而已。
你可以简单的使用>在所使用的浏览器中,右键->选择审查元素,就会d出网页控制台界面,里面会显示网页的各类详细信息。火狐 浏览器可以按F12打开。
Java Web,是用Java技术来解决相关web互联网领域的技术总和。web包括:web服务器和web客户端两部分。Java在客户端的应用有java applet,不过使用得很少,Java在服务器端的应用非常的丰富,比如Servlet,JSP和第三方框架等等。Java技术对Web领域的发展注入了强大的动力。

我想你应该是想通过这个页面的url来得到这个网页里面的某些数据把。用>在所使用的浏览器中,右键->选择审查元素,就会d出网页控制台界面,里面会显示网页的各类详细信息。火狐 浏览器可以按F12打开。 Java Web,是用Java技术来解决相关web互联网领域的技术总和。

File input = new File("/tmp/inputhtml");
Document doc = Jsoupparse(input, "UTF-8", "IP");
看看这个代码,调用 doctext() 方法即可。

新浪的那个天气的值是通过js动态加载的,原始html页面是<div id="SI_Weather_Wrap" class="now-wea-wrap clearfix"></div> 。
而jsoup只是对html进行解析,所以是找不到js动态生成的哪些信息的。


欢迎分享,转载请注明来源:内存溢出

原文地址: https://outofmemory.cn/yw/13329621.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-07-16
下一篇 2023-07-16

发表评论

登录后才能评论

评论列表(0条)

保存