Python爬虫实战之二:requests-爬取亚马逊商品详情页面

Python爬虫实战之二:requests-爬取亚马逊商品详情页面,第1张

Python爬虫实战之二:requests-爬取亚马逊商品详情页面

本实战项目是中国大学MOOC国家精品课程《Python网络爬虫与信息提取》(by 嵩天 北京理工大学)学习笔记。代码段均可在ide中运行by now(2021-11-29).

目录

1.爬取目标

2.爬取链接

3.技术路线

4.全部代码及输出

原始爬虫模板

改良爬虫模板

寻找请求

改良后运行结果

5.总结


1.爬取目标

爬取亚马逊商品页面,比如这个商品。

相比上一篇爬取京东商品页面:

Python爬虫实战之一:requests-爬取京东商品详情页面_miracle2me的专栏-CSDN博客

本次爬取需要为请求连接添加请求头,避免第一步就被反爬机制给挡出来啦。

2.爬取链接

https://www.amazon.cn/dp/B07PCPQ7HX

3.技术路线

requests

4.全部代码及输出 原始爬虫模板

 这里直接失败噢,亚马逊还是很细致的,不带请求头访问直接不给机会。

改良爬虫模板
import requests
# 全代码
url ='https://www.amazon.cn/dp/B07PCPQ7HX'
try:
    kv ={'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3878.400 QQBrowser/10.8.4518.400'}
    r= requests.get(url,headers = kv)
    r.raise_for_status()
    r.encoding= r.apparent_encoding
    print(r.text[:1000])
except:
    print('爬取失败')

 本案例技术实现关键在于请求头的添加:

寻找请求头

请求头数据可在指定网页右键-检查,按如下1-2-3方式找到。

改良后运行结果

5.总结

主要运用requests.get(url,headers = kv)中的header参数添加请求头,模拟真实浏览器访问网页情况。

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zaji/5625409.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-12-15
下一篇 2022-12-15

发表评论

登录后才能评论

评论列表(0条)

保存