本实战项目是中国大学MOOC国家精品课程《Python网络爬虫与信息提取》(by 嵩天 北京理工大学)学习笔记。代码段均可在ide中运行by now(2021-11-29).
目录
1.爬取目标
2.爬取链接
3.技术路线
4.全部代码及输出
原始爬虫模板
改良爬虫模板
寻找请求头
改良后运行结果
5.总结
1.爬取目标
爬取亚马逊商品页面,比如这个商品。
相比上一篇爬取京东商品页面:
Python爬虫实战之一:requests-爬取京东商品详情页面_miracle2me的专栏-CSDN博客
本次爬取需要为请求连接添加请求头,避免第一步就被反爬机制给挡出来啦。
2.爬取链接https://www.amazon.cn/dp/B07PCPQ7HX
3.技术路线requests
4.全部代码及输出 原始爬虫模板这里直接失败噢,亚马逊还是很细致的,不带请求头访问直接不给机会。
改良爬虫模板import requests # 全代码 url ='https://www.amazon.cn/dp/B07PCPQ7HX' try: kv ={'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3878.400 QQBrowser/10.8.4518.400'} r= requests.get(url,headers = kv) r.raise_for_status() r.encoding= r.apparent_encoding print(r.text[:1000]) except: print('爬取失败')
本案例技术实现关键在于请求头的添加:
寻找请求头请求头数据可在指定网页右键-检查,按如下1-2-3方式找到。
改良后运行结果 5.总结主要运用requests.get(url,headers = kv)中的header参数添加请求头,模拟真实浏览器访问网页情况。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)