我没有得到我在浏览器上查看页面源时看到的整个HTML代码.我如何确保在浏览器中查看源代码时加载所有内容?
# required Gemsrequire 'rubygems' # Loads gemsrequire "nokogiri" # Nokogirirequire "open-uri" # For Nokogirirequire "chronic" # For time parsingrequire "cgi" # For parsing urlsrequire 'net/http' # For image downloadingURL = URI.parse("http://www.gocrimson.com/landing/index")hBOList = Nokogiri::HTML(open(URL))解决方法 浏览器的源视图不一定与请求的HTML文件本身相匹配,因为AJAX被用于在原始的,请求的页面加载之后加载页面块.
如果使用JavaScript和AJAX,则不能使用常规方法来检索页面的源,除非您解码整个内容链并在Ruby代码中重新创建它们.
或者,您可以使用Ruby可以与之交谈的浏览器,告诉它加载初始页面,然后在浏览器中触发JavaScript的 *** 作,浏览器将加载其他内容,然后您的代码可以提取它并执行您想要的 *** 作.为此,您应该查看Watir或其衍生产品之一.
总结以上是内存溢出为你收集整理的下载整个HTML页面?全部内容,希望文章能够帮你解决下载整个HTML页面?所遇到的程序开发问题。
如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)