相信说起“淘宝” ,大家都不会感到陌生吧。作为中国最大的电商平台,淘宝仿佛已经与我们的生活紧密相连。今天就让我们随便愉快地利用Python爬取并简单分析爱淘宝网商品数据。
开发工具Python版本:3.6.4相关模块:numpy模块;
seaborn模块;
requests模块;
pyecharts模块;
pandas模块;
matplotlib模块;
wordcloud模块;
scipy模块;
以及一些Python自带的模块。
环境搭建安装Python并添加到环境变量,pip安装需要的相关模块即可。。
数据爬取我们想要爬取的是爱淘宝网搜索某一关键字后出现的所有商品信息数据:
测试之后发现请求:
https://ai.taobao.com/search/getItem.htm
并添加关键字和页码数据就可以获取对应的商品信息数据了。于是我们就可以愉快地写代码了:
在cmd窗口运行aiTaobao.py文件测试一下:
爬取结果保存在data.pkl文件中。
All Done!完整源代码详见主页获取相关文件。
数据分析因为圣诞节就快要到了,那我们就来分析一下圣诞帽数据呗T_T然后一直用pyecharts好像有点偷懒的样子,所以有些图我换seaborn库画了,日后会逐渐引入一些其他数据可视化用的库
看看圣诞帽的价格分布先吧:
好像还蛮便宜的~
再来看看卖圣诞帽的商家位置分布呗:
看来大部分卖圣诞帽的商家在浙江呀~
再来看看各商家的销售量排名呗(有些商家名字太长所以只取前面几个字符了):
因为抓取的数据数量和种类不多,所以感觉没啥图好画了,最后再画两个词云玩玩吧:
All Done!源代码详见主页获取相关文件。
总结以上是内存溢出为你收集整理的Python爬虫系列之抓取爱淘宝网并简单分析商品数据全部内容,希望文章能够帮你解决Python爬虫系列之抓取爱淘宝网并简单分析商品数据所遇到的程序开发问题。
如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)