如何用python抓取网页数据库

如何用python抓取网页数据库,第1张

最简单可以用urllib,python2.x和python3.x的用法不同,以python2.x为例:

import urllib

html = urllib.open(url)

text = html.read()

复杂些可以用requests库,支持各种请求类型,支持cookies,header等

再复杂些的可以用selenium,支持抓取javascript产生的文本

方法/步骤

在做爬取数据之前,你需要下载安装两个东西,一个是urllib,另外一个是python-docx。

请点击输入图片描述

然后在python的编辑器中输入import选项,提供这两个库的服务

请点击输入图片描述

urllib主要负责抓取网页的数据,单纯的抓取网页数据其实很简单,输入如图所示的命令,后面带链接即可。

请点击输入图片描述

抓取下来了,还不算,必须要进行读取,否则无效。

请点击输入图片描述

5

接下来就是抓码了,不转码是完成不了保存的,将读取的函数read转码。再随便标记一个比如XA。

请点击输入图片描述

6

最后再输入三句,第一句的意思是新建一个空白的word文档。

第二句的意思是在文档中添加正文段落,将变量XA抓取下来的东西导进去。

第三句的意思是保存文档docx,名字在括号里面。

请点击输入图片描述

7

这个爬下来的是源代码,如果还需要筛选的话需要自己去添加各种正则表达式。

仅在里边定义连接字串,在使用的时候在创建对象,使用完对象就关闭

Config.asp:

Quote

<%

Dim Def_Sample

Def_Path=server.MapPath("data.mdb")

Def_Sample="DBQ="+Def_Path+"DefaultDir=DRIVER={Microsoft Access Driver (*.mdb)}" '连接字串

%>


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/sjk/6691324.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-03-26
下一篇 2023-03-26

发表评论

登录后才能评论

评论列表(0条)

保存