如何用python写爬虫来获取网页中所有的文章以及关键词

如何用python写爬虫来获取网页中所有的文章以及关键词,第1张

所谓网页抓取,就是把URL地址中指定的网络资源从网络流中读取出来,保存到本地。 

类似于使用程序模拟IE浏览器的功能,把URL作为>

在Python中,我们使用urllib2这个组件来抓取网页。

urllib2是Python的一个获取URLs(Uniform Resource Locators)的组件。

它以urlopen函数的形式提供了一个非常简单的接口。

最简单的urllib2的应用代码只需要四行。

我们新建一个文件urllib2_test01py来感受一下urllib2的作用:

import urllib2

response = urllib2urlopen('>

按下F5可以看到运行的结果:

我们可以打开百度主页,右击,选择查看源代码(火狐OR谷歌浏览器均可),会发现也是完全一样的内容

也就是说,上面这四行代码将我们访问百度时浏览器收到的代码们全部打印了出来。

这就是一个最简单的urllib2的例子。

除了">

>

客户端提出请求,服务端提供应答。

urllib2用一个Request对象来映射你提出的>

在它最简单的使用形式中你将用你要请求的地址创建一个Request对象,

通过调用urlopen并传入Request对象,将返回一个相关请求response对象,

这个应答对象如同一个文件对象,所以你可以在Response中调用read()。

我们新建一个文件urllib2_test02py来感受一下:

import urllib2 

req = urllib2Request('>

可以看到输出的内容和test01是一样的。

urllib2使用相同的接口处理所有的URL头。例如你可以像下面那样创建一个ftp请求。

req = urllib2Request('ftp://examplecom/')

在>

1发送data表单数据

这个内容相信做过Web端的都不会陌生,

有时候你希望发送一些数据到URL(通常URL与CGI[通用网关接口]脚本,或其他WEB应用程序挂接)。

在>

这个通常在你提交一个HTML表单时由你的浏览器来做。

并不是所有的POSTs都来源于表单,你能够使用POST提交任意的数据到你自己的程序。

一般的HTML表单,data需要编码成标准形式。然后做为data参数传到Request对象。

编码工作使用urllib的函数而非urllib2。

我们新建一个文件urllib2_test03py来感受一下:

import urllib 

import urllib2 

url = '>

如果没有传送data参数,urllib2使用GET方式的请求。

GET和POST请求的不同之处是POST请求通常有"副作用",

它们会由于某种途径改变系统状态(例如提交成堆垃圾到你的门口)。

Data同样可以通过在Get请求的URL本身上面编码来传送。

import urllib2 

import urllib

data = {}

data['name'] = 'WHY' 

data['location'] = 'SDU' 

data['language'] = 'Python'

url_values = urlliburlencode(data) 

print url_values

name=Somebody+Here&language=Python&location=Northampton 

url = '>

这样就实现了Data数据的Get传送。

2设置Headers到>

有一些站点不喜欢被程序(非人为访问)访问,或者发送不同版本的内容到不同的浏览器。

默认的urllib2把自己作为“Python-urllib/xy”(x和y是Python主版本和次版本号,例如Python-urllib/27),

这个身份可能会让站点迷惑,或者干脆不工作。

浏览器确认自己身份是通过User-Agent头,当你创建了一个请求对象,你可以给他一个包含头数据的字典。

下面的例子发送跟上面一样的内容,但把自身模拟成Internet Explorer。

(多谢大家的提醒,现在这个Demo已经不可用了,不过原理还是那样的)。

import urllib 

import urllib2 

url = '>

以上就是python利用urllib2通过指定的URL抓取网页内容的全部内容,非常简单吧,希望对大家能有所帮助。

浏览器显示为/,但源码显示为\x2F不奇怪。打开ascii码表,网页链接,可以看到/的ascii码16进制是2F。所以是/被转义了。至于为什么要转义,有可能是与某些浏览器内置的符号冲突。

解决办法:直接替换即可。如果想获取用户可见字符串:

str_user = str_srcreplace(r'\x2F',r'/')

使用 python爬虫 爬取页面信息。首先从网络上获取芒果TV网页内容,然后提取网页内容中信息到合适的数据结构 ,最后利用数据结构展示并输出结果。

输入:芒果TV的url链接

输出:电视剧信息输出(电视剧,剧情)

技术路线:request—bs4

定向爬虫:仅对输入url进行爬取,不进行扩展爬取

网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

其实通俗的讲就是通过程序去获取web页面上自己想要的数据,也就是自动抓取数据。

爬虫可以做什么?

你可以用爬虫爬,爬取视频等等你想要爬取的数据,只要你能通过浏览器访问的数据都可以通过爬虫获取。

爬虫的本质是什么?

模拟浏览器打开网页,获取网页中我们想要的那部分数据

浏览器打开网页的过程:

当你在浏览器中输入地址后,经过DNS服务器找到服务器主机,向服务器发送一个请求,服务器经过解析后发送给用户浏览器结果,包括html,js,css等文件内容,浏览器解析出来最后呈现给用户在浏览器上看到的结果。

所以用户看到的浏览器的结果就是由HTML代码构成的,我们爬虫就是为了获取这些内容,通过分析和过滤html代码,从中获取我们想要资源。

你好,

获取某个url请求的响应,现在python比较受欢迎的库就是requests了,我就拿requests这个库给你举个简单的例子吧:

requests库最简单的功能应该就是获取某个url请求了,说白了就是使到某个页面的源码, 我在本地搭了个web服务器,在根目录下有一个examplehtml文件,我们在浏览器中访问这个页面会显示 "Hello Friend":

examplehtml文件内容:

访问该文件浏览器的输出:

-------------

接下来我们就使用python的requests库来获取examplehtml的内容:

从上到下四个红框的意思:

导入requests库;

使用requests库的get()方法访问url: >

使用response对象的text属性来获取刚刚访问url的响应内容;

因为responsetext输出的内容没有格式化,所以这里又使用print()函数打印一下,这样看起来更清晰一点

最后我们可以再导入像re这样的正则库去responsetext中拿到我们想得到的内容

一点点建议:

requests库很常用,但建议先稍系统的学一下该库常用的方法和属性,有一个大概的了解,再去找简单的例子练练手,一点点找感觉这样会好一点像requests官方文档应该有中文的,把tutorial看完了简单的一些 *** 作就不在话下了如果你没有学习相应要用的库,然后就按自己的想法去 *** 作,步步都是坎,这样不仅耗时长,而且长时间没有进展会很打击积极性的

希望对你有帮助,欢迎追问

以上就是关于如何用python写爬虫来获取网页中所有的文章以及关键词全部的内容,包括:如何用python写爬虫来获取网页中所有的文章以及关键词、这个爬虫怎么获取到正确的字符串(python)、爬虫实例——利用BeautifulSoup库爬取页面信息等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/web/9389853.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-04-27
下一篇 2023-04-27

发表评论

登录后才能评论

评论列表(0条)

保存