Scrapy无法解释javascript。
如果您绝对必须与页面上的javascript交互,则要使用Selenium。
如果使用Scrapy,问题的解决方案取决于按钮的作用。
如果只是显示以前隐藏的内容,则可以毫无问题地抓取数据,也不会出现在浏览器中,HTML仍然存在。
如果在按下按钮时通过AJAX动态获取内容,那么最好的办法是使用Firebug等工具查看按下按钮时发出的HTTP请求。然后,您可以直接从该URL请求数据。
我是否必须使用诸如机械化或lxml之类的外部库?
如果您想解释javascript,是的,您需要使用其他库,尽管这两者都不适合。他们俩都不了解javascript。硒是要走的路。
如果您可以提供要抓取的页面的URL,我可以看一下。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)