使用Python进行屏幕抓取

使用Python进行屏幕抓取,第1张

使用Python进行屏幕抓取

在处理静态HTML时,有很多选项,其他响应也涵盖了这些选项。但是,如果需要Javascript支持并希望保留在Python中,建议您使用webkit渲染网页(包括Javascript),然后检查生成的HTML。例如:

import sysimport signalfrom PyQt4.QtCore import *from PyQt4.QtGui import *from PyQt4.QtWebKit import QWebPageclass Render(QWebPage):    def __init__(self, url):        self.app = QApplication(sys.argv)        QWebPage.__init__(self)        self.html = None        signal.signal(signal.SIGINT, signal.SIG_DFL)        self.connect(self, SIGNAL('loadFinished(bool)'), self._finished_loading)        self.mainframe().load(QUrl(url))        self.app.exec_()    def _finished_loading(self, result):        self.html = self.mainframe().toHtml()        self.app.quit()if __name__ == '__main__':    try:        url = sys.argv[1]    except IndexError:        print 'Usage: %s url' % sys.argv[0]    else:        javascript_html = Render(url).html


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zaji/5632285.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-12-16
下一篇 2022-12-16

发表评论

登录后才能评论

评论列表(0条)

保存