python初体验-网页爬虫

python初体验-网页爬虫,第1张

概述爬虫的原理:刚爬虫是自动化帮我们获取网页数据的程序。那么你可能会好奇,我们究竟是如何获取网页数据的?这里我们将网络通信与打电话做一个类比:当我们想访问某个网址(URL)时,网址(URL)就类似于电话号码,而电脑、智能手机这样的客户端(client)也就类似于电话。我们通过客户端的浏览器(browser)发送访问请求(request),就好比用电话拨打电话号码。接收请求的一方叫做服务器(web se

爬虫的原理:刚爬虫是自动化帮我们获取网页数据的程序。那么你可能会好奇,我们究竟是如何获取网页数据的?这里我们将网络通信与打电话做一个类比:当我们想访问某个网址(URL)时,网址(URL)就类似于电话号码,而电脑、智能手机这样的客户端(clIEnt)也就类似于电话。我们通过客户端的浏览器(browser)发送访问请求(request),就好比用电话拨打电话号码。接收请求的一方叫做服务器(web server),如果服务器运行正常并且同意我们的请求,则会向客户端发送回答(response),回答的内容会放在HTML文件里。这时,浏览器又可以帮我们解析HTML文件,让它变成我们通常看到的网页的模样。

urllib 是 Python 的一个模块,我们通过 import 调用它,并让它(urllib.request)帮我们向网址发送请求,接收回答。

相当于目标网址给我们一封尚未拆封的信,而接下来要做的是用 urllib中的 read(),来读这封信的具体内容。

from urllib.request import urlopenpage = "https://assets.baydn.com/baydn/public/codetime/1/shanbay_news.HTML"# 爬取page数据存入shanbay_newsshanbay_news = urlopen(page)news_data = shanbay_news.read()print(news_data)

总结

以上是内存溢出为你收集整理的python初体验-网页爬虫全部内容,希望文章能够帮你解决python初体验-网页爬虫所遇到的程序开发问题。

如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/langs/1191883.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-06-03
下一篇 2022-06-03

发表评论

登录后才能评论

评论列表(0条)

保存