如何用Python开发一个简单的Webkit浏览器

如何用Python开发一个简单的Webkit浏览器,第1张

在这篇教程中,我们会用 Python 的 PyQt 框架编写一个简单的 web 浏览器。关于 PyQt ,你可能已经有所耳闻了,它是 Qt 框架下的一系列 Python 组件,而 Qt(发音类似“cute”)是用来开发 GUI 的 C++ 框架。严格来讲, Qt 也可用于开发不带图形界面的程序,但是开发用户界面应该是 Qt 框架最为广泛的应用了。Qt 的主要优势是可以开发跨平台的图形界面程序,基于 Qt 的应用能够借助于各平台的原生性在不同类的设备上运行,而无须修改任何代码库。

Qt 附带了 webkit 的接口,你可以直接使用 PyQt 来开发一个基于 webkit 的浏览器。

我们本次教程所开发的浏览器可以完成如下功能

加载用户输入的url

显示在渲染页面过程中发起的所有请求

允许用户在页面中执行自定义的 JavaScript 脚本

牛刀小试

让我们从最简单的 PyQt 的 Webkit 用例开始吧:输入 url,打开窗口并在窗口中加载页面。

这个例子十分短小,连 import 语句和空行在内也只有 13 行代码。

Python

1

2

3

4

5

6

7

8

9

10

11

12

13

   

import sys

from PyQt4QtWebKit import QWebView

from PyQt4QtGui import QApplication

from PyQt4QtCore import QUrl

app = QApplication(sysargv)

browser = QWebView()

browserload(QUrl(sysargv[1]))

browsershow()

appexec_()

   

当你通过命令行将 url 传给脚本时,程序会加载 url 并且在窗口中显示加载完成的页面。

现在,看似你已经有一个“命令行浏览器”啦!至少比 python 的 requests 模块强多了,甚至比 Lynx 还略高一筹,因为我们的浏览器还可以加载 JavaScript 脚本呢。但是目前为止还没有跟 Lynx 拉开差距,因为在启用浏览器的时候只能通过命令行传入 url。那么,必然需要通过某种方式把需要加载的 url 传入浏览器。没错,就是地址栏!

添加地址栏

其实地址栏的实现非常简单,我们只需要在窗口顶端加一个输入框就够了。用户在文本框中输入 url 之后,浏览器就会加载这个地址。下面,我们将用到 QLineEdit 控件来实现输入框。鉴于我们的浏览器现在有地址栏和浏览器显示框两部分,因此还要给我们的应用增加一个网格布局。

Python

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

   

import sys

from PyQt4QtGui import QApplication

from PyQt4QtCore import QUrl

from PyQt4QtWebKit import QWebView

from PyQt4QtGui import QGridLayout, QLineEdit, QWidget

class UrlInput(QLineEdit):

def __init__(self, browser):

super(UrlInput, self)__init__()

selfbrowser = browser

# add event listener on "enter" pressed

selfreturnPressedconnect(self_return_pressed)

def _return_pressed(self):

url = QUrl(selftext())

# load url into browser frame

browserload(url)

if __name__ == "__main__":

app = QApplication(sysargv)

# create grid layout

grid = QGridLayout()

browser = QWebView()

url_input = UrlInput(browser)

# url_input at row 1 column 0 of our grid

gridaddWidget(url_input, 1, 0)

# browser frame at row 2 column 0 of our grid

gridaddWidget(browser, 2, 0)

# main app window

main_frame = QWidget()

main_framesetLayout(grid)

main_frameshow()

# close app when user closes window

sysexit(appexec_())

   

到这里,我们已经有一个浏览器的雏形啦!看上去和当年的 Google Chrome 还有几分相像呢,毕竟两者采用了相同的渲染引擎。现在,你可以在输入框中输入 url ,程序便会将地址传入浏览器,接着渲染出所有的 HTML 页面和 JavaScript 脚本并展示出来。

添加开发工具

一个浏览器最有趣也最重要的部分是什么?当然是各种各样的开发工具了!一个没有开发者控制台的浏览器怎么能算是浏览器呢?所以,我们的 Python 浏览器当然也要有一些开发者工具才行。

现在,我们就来添加一些类似于 Chrome 的开发者工具中 “Network” 标签的功能吧!这个功能就是简单地追踪浏览器引擎在加载页面的时候所执行的所有请求。在浏览器主页面的下方,我们将通过一个表来显示这些请求。简单起见,我们只会记录登录的 url、返回的状态码和响应的内容类型。

首先我们要通过 QTableWidget 组件创建一个表格,表头包括需要存储的字段名称,表格可以根据每次新插入的记录来自动调整大小。

Python

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

   

class RequestsTable(QTableWidget):

header = ["url", "status", "content-type"]

def __init__(self):

super(RequestsTable, self)__init__()

selfsetColumnCount(3)

selfsetHorizontalHeaderLabels(selfheader)

header = selfhorizontalHeader()

headersetStretchLastSection(True)

headersetResizeMode(QHeaderViewResizeToContents)

def update(self, data):

last_row = selfrowCount()

next_row = last_row + 1

selfsetRowCount(next_row)

for col, dat in enumerate(data, 0):

if not dat:

continue

selfsetItem(last_row, col, QTableWidgetItem(dat))

   

想要追踪所有请求的话,我们还需要对 PyQt 的内部构件有更深入的了解。了解到,Qt 提供了一个 NetworkAccessManager类作为 API 接口,通过调用它可以监控应用加载页面时所执行的请求。我们需要自己编写一个继承自 NetworkAccessManager 的子类,添加必要的事件监听器,然后使用我们自己编写的 manager 来通知 webkit 视图执行相应的请求。

首先我们需要以 NetworkAccessManager 为基类创建我们自己的网络访问管理器。

Python

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

   

class Manager(QNetworkAccessManager):

def __init__(self, table):

QNetworkAccessManager__init__(self)

# add event listener on "load finished" event

selffinishedconnect(self_finished)

selftable = table

def _finished(self, reply):

"""Update table with headers, status code and url

"""

headers = replyrawHeaderPairs()

headers = {str(k):str(v) for k,v in headers}

content_type = headersget("Content-Type")

url = replyurl()toString()

# getting status is bit of a pain

status = replyattribute(QNetworkRequest>

status, ok = statustoInt()

selftableupdate([url, str(status), content_type])

   

在这里需要提醒大家的是, Qt 的某些实现并不像想象中那么简单明了,比如说从响应中获取状态码就十分繁琐。首先,你得把请求对象的类属性作为参数传入 response 的方法 attribute() 中,attribute() 方法的返回值是 QVariant 类型而非 int 类型。接着,需要调用内置函数 toInt() 将其转换成一个包含两个元素的元组,最终得到响应的状态码。

现在,我们终于有了一个记录请求的表和一个监控网络的 manager,接下来只要把他们聚拢起来就可以了。

Python

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

   

if __name__ == "__main__":

app = QApplication(sysargv)

grid = QGridLayout()

browser = QWebView()

url_input = UrlInput(browser)

requests_table = RequestsTable()

manager = Manager(requests_table)

# to tell browser to use network access manager

# you need to create instance of QWebPage

page = QWebPage()

pagesetNetworkAccessManager(manager)

browsersetPage(page)

gridaddWidget(url_input, 1, 0)

gridaddWidget(browser, 2, 0)

gridaddWidget(requests_table, 3, 0)

main_frame = QWidget()

main_framesetLayout(grid)

main_frameshow()

sysexit(appexec_())

   

现在,运行浏览器程序,在地址栏键入 url,就可以看到在主页面下方的记录表中记录下的所有请求。

如果你有兴趣的话,还可以为浏览器添加很多新的功能:

通过content-type添加筛选功能

添加记录表的排序功能

添加计时器

高亮显示出错的请求(比如说把错误信息置为红色)

显示出更为具体的请求内容,比如说完整的头信息、响应内容、请求方法等。

增加一个重复发送请求并加载出来的选项。比如说用户可以点击在记录表中的请求来重试请求。

其实还有太多的功能可以继续完善和改进,你可以一一尝试一下,这会是一个非常有趣而且收获良多的学习过程。但是如果想把这些功能都说完,估计都能写一本书了。所以限于篇幅,本文就不一一介绍了,感兴趣的朋友可以参考其他书籍和网上教程。

增加解析自定义 JavaScript 脚本的功能

我们终于迎来最后一个功能了!就是解析在页面中包含的 JavaScript 脚本。

基于我们之前已经打下的基础,要完成这个功能非常简单。我们只需要在添加一个 QLineEdit 组件,把它和页面联系起来,然后调用 evaulateJavaScript 方法就可以了。

Python

1

2

3

4

5

6

7

8

9

   

class JavaScriptEvaluator(QLineEdit):

def __init__(self, page):

super(JavaScriptEvaluator, self)__init__()

selfpage = page

selfreturnPressedconnect(self_return_pressed)

def _return_pressed(self):

frame = selfpagecurrentFrame()

result = frameevaluateJavaScript(selftext())

   

下面是这个功能的示例。看,我们的开发者工具已经整装待发了!

Python

1

2

3

4

5

6

7

8

9

10

11

   

if __name__ == "__main__":

#

#

page = QWebPage()

#

js_eval = JavaScriptEvaluator(page)

gridaddWidget(url_input, 1, 0)

gridaddWidget(browser, 2, 0)

gridaddWidget(requests_table, 3, 0)

gridaddWidget(js_eval, 4, 0)

   

现在唯一缺少的就是在页面中不能执行 Python 脚本。你可以开发自己的浏览器,提供对 JavaScript 和 Python 的支持,这样其他开发者就可以针对你的浏览器开发应用了。

后退、前进和其他页面 *** 作

我们在前面已经使用了 QWebPage 对象来开发浏览器,当然作为一个合格的浏览器,我们也需要为终端用户提供一些重要功能。Qt 的网页对象支持很多不同 *** 作,我们可以把它们全都添加到浏览器中。

现在我们可以先尝试着添加“后退”、“前进”和“刷新”这几个 *** 作。你可以在界面上添加这些 *** 作按钮,简单起见,这里只加一个文本框来执行这些动作。

Python

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

   

class ActionInputBox(QLineEdit):

def __init__(self, page):

super(ActionInputBox, self)__init__()

selfpage = page

selfreturnPressedconnect(self_return_pressed)

def _return_pressed(self):

frame = selfpagecurrentFrame()

action_string = str(selftext())lower()

if action_string == "b":

selfpagetriggerAction(QWebPageBack)

elif action_string == "f":

selfpagetriggerAction(QWebPageForward)

elif action_string == "s":

selfpagetriggerAction(QWebPageStop)

   

和之前一样,我们要创建一个 ActionInputBox 的实例,把参数传入页面对象并把输入框对象添加到页面中。

For reference here’s code for final result 示例代码看这里

[1]: Graphical User Interface,图形用户界面,又称图形用户接口,是指采用图形方式显示的计算机 *** 作用户界面。

[2]: WebKit是一个开源的浏览器引擎,与之相对应的引擎有 Gecko(Mozilla Firefox 等使用)和 Trident(也称 MSHTML ,IE 使用)。

PyQt5不兼容PyQt4(尽管经验表明,将PyQt4的应用程序移植到PyQt5难度不是很大)。本节描述了两者之间的主要差异。

支持Python的版本

不支持较早的Python26之前的版本┊。

推荐使用特性

PyQt5不支持任何被标记为过时的或废弃的QTV50的API。然而,还是可能有一些“漏网之鱼”。如果将来发现了,这些错误将被删除。

多个API

PyQt4支持许多不同的API版本(QString,QVariant等)。QVariant

PyQt5只支持V2版本的API。一个例外:对于QVariant,去除了。

老式的信号和槽

PyQt4的旧式的信号和槽不再被支持。因此以下用法在PyQt5中已经不能使用:

QObjectconnect()

QObjectemit()

SIGNAL()

SLOT()

所有那些含有参数,并且对返回结果调用SIGNAL()或SLOT()的方法不再被支持。绑定信号与调用函数总是等效的。

此外,另一个差异是增加了下面的函数:

disconnect()断开所有对QObject实例的连接,不需要参数。

新风格的信号和槽

QT实现的信号与一个可选的参数作为两个独立的信号,一个与论点和一个没有它。PyQt4暴露这两允许你连接到他们每个。然而,当发射信号,你必须使用适当的参数发出的信号数。

PyQt5暴露唯一的信号在所有指定参数。然而它允许任何可选参数被省略时,发射信号。

不同于PyQt4,PyQt5支持在类中自定义属性、信号与槽,即使这个类没有继承自QObject(比如:混合类)。

,QtScript和模块

PyQt4的,QtScript和模块不再支持。这些已被替换为PyQt5的QtQml和QtQuick模块,PyQt5支持Python对象创建QML。

QtGui模块

PyQt4的QtGui模块,在PyQt5中被拆分成三个模块:QtGui,和QtWidgets。

QtOpenGL模块

只有QGlContext,QGlFormat和QGlWidget类被PyQt5支持。

QtWebKit模块

PyQt4的QtWebKit模块被分成PyQt5的QtWebKit和模块。

pyqtconfig模块

PyQt4的pyqtconfig模块不支持。截面PyQt5扩展的API介绍了支持PyQt5(例如提供第三方包qscintilla),要建立在PyQt5。

dbusmainloopqt模块

PyQt4的dbusmainloopqt模块称为dbusmainloopPyQt5在PyQt5。这使得他们可以并排安装。它们的功能是相同。

QDataStream

的reaint8(),readint8(),writeuint8()和writeint8()方法解释值读写数字。PyQt4中它们被解释为单个字符的字符串。

QFileDialog

PyQt4的QFileDialog类的(),()和()方法,在PyQt5中已更名为(),()和()。

而PyQt4原来的(),()和()不再被PyQt5支持。

QGraphicsItemAnimation

对废弃的QGraphicsItemAnimation类的支持已被删除。如果移植现有的PyQt4应用程序,首先考虑用QPropertyAnimation替换。

QMatrix

对废弃的QMatrix类的支持已被删除。如果移植现有的PyQt4应用程序,首先考虑用QTransform替换。

QPyTextObject

PyQt4的QPyTextObject,是作为一个无法定义一个继承多个Qt类的Python类的变通的解决方法。PyQt5支持定义一个Python类,来继承多个Qt类,只要他们已经在C声明为Q_DECLARE_INTERFACE。所以,QPyTextObject没有在PyQt5中实现。

QSet

PyQt4,套装在Python中的V2和V3一组Python列表实现。在PyQt5套装总是作为一个集实现。

pyuic5

pyuic5不支持pyqt3——包装国旗pyuic4。

pyr5

pyr5不支持-PY2和-PY3国旗pyr4。输出pyr5兼容所有版本的PythonPython26入手。

多重继承

不像PyQt4PyQt5类实现多重继承,合作。在其他的话总是做PyQt5类下面的Python代码在等效V3__init__方法(如kwds是一个未使用的关键词参数字典):

super()__init__(kwds)

这意味着,那些未使用的关键字的参数传递给__init__任何mixin类的方法。这些混合类必须合作,即必须如果他们有自己做一个类似的电话__init__实现。

当使用多重继承PyQt4是常见的电话__init__的超类方法明确,例如:

classMyQObject(QObject,MyMixin):

def__init__(self,parent,mixin_arg):

QObject__init__(self,parent)

MyMixin__init__(self,mixin_arg)

#Otherinitialisation

在上述将导致PyQt5mymixin__init__。被称为两。而要实现:

classMyQObject(QObject,MyMixin):

def__init__(self,kwds):

super()__init__(kwds)

#Otherinitialisation

请注意,如果没有其他的初始化做那么__init__方法不需要。

混合类应实施如下:

classMyMixin:

def__init__(self,mixin_arg,kwds):

super()__init__(kwds)

#Otherinitialisation

= =C++和汇编语言是两个东西 不要搞混 python是一门语言。你看pyqt的内容不如先看看python。 qt是C++开发的一个框架。你可以用这个去做GUI应用程序,比如QQ,当然也可以做其他的一些。就像vc60不只是c++的工具 其他暂时不管。

pyqt还不错,它是Python语言的GUI编程解决方案之一。可以用来代替Python内置的Tkinter。其它替代者还有PyGTK、wxPython等优点:PyQt的API与Qt类似,Qt的文档通常仍然可以应用于PyQt。因此,PyQt的文档比PyGTK、wxPython、Tkinter等GUI编程库的文档丰富得多。如果程序员具备使用Qt的经验,一般很快就可以过渡到PyQt上。而使用PyQt的程序员,如果同时精通C++的话,也可以很快地过渡到Qt平台上。利用SIP,大多数为Qt开发的控件可以方便地port到PyQt。——然而,SIP也需要一些学习成本。有方便的周边工具支持PyQt。如QtDesigner,可以使用拖拉式的方法来设计界面,简单易用。Eric4,一个使用PyQt设计的PythonIDE,对PyQt有特殊的支持。缺点:由于PyQt同时使用Qt以及Python的两种内存管理方法,所以在使用PyQt的过程中要注意避免内存泄露以及悬挂指针[4]。运行时庞大,在Windows平台,只使用PyQtQtCore与PyQtQtGui两个子模块时,压缩后至少需要409M需要学习一些C++知识,主要是C++类型、内存管理两个方面,以便于阅读Qt文档和理解PyQt的行为

pylupdate的目录: Python\Scripts\pylupdate5exe

Qt Linguist的目录: Python\Lib\site-packages\pyqt5-tools\linguistexe

已经在上一节做过了:

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zz/9702097.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-01
下一篇 2023-05-01

发表评论

登录后才能评论

评论列表(0条)

保存