下载整个HTML页面?

下载整个HTML页面?,第1张

概述我正在尝试编写一个screenscraper,我想下载一个网站的主页. 我没有得到我在浏览器上查看页面源时看到的整个HTML代码.我如何确保在浏览器中查看源代码时加载所有内容? # Required Gemsrequire 'rubygems' # Loads gemsrequire "nokogiri" # Nokogirirequire "open-uri" # For Nokogiri 我正在尝试编写一个screenscraper,我想下载一个网站的主页.

我没有得到我在浏览器上查看页面源时看到的整个HTML代码.我如何确保在浏览器中查看源代码时加载所有内容?

# required Gemsrequire 'rubygems' # Loads gemsrequire "nokogiri" # Nokogirirequire "open-uri" # For Nokogirirequire "chronic" # For time parsingrequire "cgi" # For parsing urlsrequire 'net/http' # For image downloadingURL = URI.parse("http://www.gocrimson.com/landing/index")hBOList = Nokogiri::HTML(open(URL))
解决方法 浏览器的源视图不一定与请求的HTML文件本身相匹配,因为AJAX被用于在原始的,请求的页面加载之后加载页面块.

如果使用JavaScript和AJAX,则不能使用常规方法来检索页面的源,除非您解码整个内容链并在Ruby代码中重新创建它们.

或者,您可以使用Ruby可以与之交谈的浏览器,告诉它加载初始页面,然后在浏览器中触发JavaScript的 *** 作,浏览器将加载其他内容,然后您的代码可以提取它并执行您想要的 *** 作.为此,您应该查看Watir或其衍生产品之一.

总结

以上是内存溢出为你收集整理的下载整个HTML页面?全部内容,希望文章能够帮你解决下载整个HTML页面?所遇到的程序开发问题。

如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/web/1060234.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-05-25
下一篇 2022-05-25

发表评论

登录后才能评论

评论列表(0条)

保存