- 零、前言
- 一、安装
- 1、使用Chrome浏览器
- 2、使用Edge浏览器
- 二、打开
- 三、品个好小好小的🌰
- 第一步:创建任务
- 第二步:选择元素
- 第三步:数据爬取
- 第四步:导出数据
- 四、整个稍微大点的🌰
- 第一步:创建任务
- 第二步:选取父级元素
- 第三步:选取子级目录
- 第四步:选取所要信息
- 第五步:数据爬取
- 第六步:导出数据
每位需要坐到电脑前的打工人,似乎无论咱们从事的是什么样的岗位,都离不开要用Excel做表吧?(宇宙的尽头是Excel~)
你的工作中有那种要从自家公司的网站里把数据汇总进Excel表格的活吗?要是自家公司网站做的好(各种的筛选器交互都比较人性化,导出到Excel表格进行分析的工作流设计的比较合理)倒还好,但很多时候这可能都过于理想化了。更多时候咱们会遇到的情况可能是好多数据不好导出,甚至好多东西难以复制,从网页上罗列出的动辄上百条数据中凭借我们可怜的肉眼逐条去查,去把所需的信息元素逐个录入Excel表格,那感觉,真的是:
我想如果是基于上面这种悲惨的而又每天发生的故事背景,在咱们C站查提效方案,那更多的应该都是要介绍爬虫技术了?什么Scrapy包啊,pySpider包啊,beautifulsoup包啊……然后你要是继续想了解说这玩意要怎么掌握呢?人家就只能跟你说,那python你得基本掌握吧,html网页结构得了解吧,CSS检查器怎么也得知道吧,CSS盒子结构得理解吧?咱别的不说,就前面这些东西,网上视频课不得干个几十个小时?那还卷屁啊,这不欺负打工人吗?
所以本文还是想介绍一款非代码式 *** 作的免费爬虫工具来帮助解决更多人面对前文背景的这样一类困扰。
一、安装 1、使用Chrome浏览器那么要介绍的这款工具软件叫Web Scraper,很容易在Chrome网上应用店搜索到它
Chrome网上应用店的进入方法:
步骤一: 点开“扩展程序”
步骤二: 点开“Chrome网上应用店”
使用Edge浏览器安它也很容易(毕竟Edge也使用的Chrome内核)
步骤一: 右上角找到扩展程序,再点击“打开Microsoft Edge加载项”
步骤二: 搜索web scraper,找到它并点击“获取”
或者你也可以直接在 Web Scraper官网 点击“install”完成安装。
二、打开安装好后,它的打开方式可能看起来稍微极客一点,但一点也不用害怕。
我们先像下图这样找到“开发者工具”:
或者,你也可以点击鼠标右键后点开“检查”:
之前若是没调整过,那这个“开发者工具”应该会展现在页面右侧:
我们需要把它调整为展示在页面下方以更方便地使用Web Scraper:
看到那个“Web Scraper”了吗?点开它:
很好,这便是这一插件软件的打开方式啦。
我们就以淘宝网为例,假设我就是要获取它首页上所有“猜你喜欢”的商品的价格:
第一步:创建任务为了完成我们这个活,首先要点击下面这个“Create Sitemap”:
然后出现的两栏中,下面一栏填写我们要进行信息提取的网站的网址,上面一栏给你本次任务命个名:
点击“Create Sitemap”后会出现下面的界面:
我们点那个“Add new selector”
看到那个“Select”了吗?点它。而后界面会变成下面这样:
可以发现,我们可以选择要提取的页面元素,而我们要提取的是价格,所以就在页面上选中价格部分即可:
此时再选中另一个“价格”元素:
上下滚动一下,我们发现所有我们想要的“价格”元素都已自动选中了,之后点击“Done selecting”:
(可以点击“Element preview”再检查一下是否我们想要的元素都被自动选中了)
同时这里要把“multiple”勾选上以获取所有的价格信息:
Id那栏命个名,就可以点“Save selector”了。
可以先点下“Data preview”看看我们会获取到的前几条数据长啥样:
检查完毕,我们就在下面这里点这个“Scrape”:
再点击这个“start scraping”,而后程序会帮我们爬取全部数据:
程序执行完,点击“refresh”刷新一下应该就可以看到结果:
额,好吧,翻车了,刷新了n多遍都没有出现结果,判断应该是被淘宝拦截了,【手动捂脸】
不过,假设我们把前面的任务改为“淘宝‘连衣裙’品类商品首页所有商品的价格”实证直到这步都是没有问题的,每一步的 *** 作逻辑和上面一致:
第四步:导出数据很尴尬,不过照理来说,我们应该到了这第四步数据导出了
看到数据被正常爬取出来了的话,点这个“Export data”以完成数据导出到Excel:
出现的两种格式均为excel文件格式,我们选择csv吧
文件导出以后,就可以用excel看到成果了:
上面的例子差不多描述了一下软件的大体使用逻辑,我想还显而易见的存在的一个问题是,我们要做的excel表很少会只有一栏数据,那如果我们要拉多栏数据要怎样呢?比如还是淘宝连衣裙品类商品,我们既要获取商品价格,也要获取商品名称,这个基本需求要怎么来实现呢?
第一步:创建任务这一步和上面的没啥两样:
第二步:选取父级元素在选取元素这一步,我们可以发现价格也好,名称也好都在下面这个黄框里,整个网页的商品呈现区其实就是以这样的元素所堆成的:
因此为了获取商品的多维信息,我们需要先把这样的父级结构选出来:
同时,要把type类型由Text(文本类型)调整为Element(元素类型):
简单理解一下,Element元素这玩意里面可以含一些文本啊,图片啥的,而Text文本类型,这玩意从名字字面上来理解就不具备这样的嵌套属性。
调整为Element类型后,我们可以注意到下方“Parent Selector”这里多了一层。哦对了,因为我们要取多个元素,所以还是记得把multiple选上。
在选好添加好父级元素后,我们点进我们加的这个父级元素“dress”中:
会注意到上方的目录由“_root”进一步变为了“_root / dress”:
在这里我们再“Add new selector”选取我们要的各件商品的各块信息就行了。
由于我们要商品名称和价格,
so,把名称选上:
保存好之后回到这里:
我们再“Add new selector”,再把价格选上:
并保存:
由于我们已经在选取父级元素那里声明过“multiple”,我们要所有同类的父级元素了,这里我们只是在选择要拿的数据是每一个那种父级元素中的哪一部分所展示的数据,所以不需要再勾选“multiple”,也不需要在这一层看到页面上的每个出现的价格及每个出现的商品名称都被我们选中了,因为把获取价格和获取名称这两个动作重复到每个父级元素上是父一级要做的事。
因而我们需要回到root那一级,点击“data preview”看下我们最终会获取到什么样的信息:
可以看到是我们要的东西:
这一步当然与上面那个小例子别无二致:
可以看到爬到了我们想要的信息。
同上面那个小🌰:
可以看到数据被正常导进了Excel,而假设我们想要价格在200元以内的,只需用Excel的筛选功能正常来进行一个筛选:
本篇文章介绍了一下图形化界面爬虫工具web scraper的基础使用,若大家有进一步的需要,笔者也愿进一步深下去给大家讲解更多“爬法”,嘻嘻,先这样,下篇见?
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)