- WebScraper
- 关于 WebScraper
- 一、下载安装
- 方式二:crxdl 搜索下载 WebScraper
- 二、简单爬取
- 1、添加站点
- 2、添加 selector
- 三、爬取更多页面
- 四、爬取详情页内容
- 五、复制规则代码
仅供学习交流
关于 WebScraper
官网 : https://www.webscraper.io/web-scraper-first-time-install
一、下载安装
方式一:google 应用商店
https://chrome.google.com/webstore/detail/web-scraper-free-web-scra/jnhgnonknehpejjnehehllkliplmbmhn
方式二:crxdl 搜索下载 WebScraper
1、下载
crxdl 是一个 下载Chrome扩展插件Crx离线安装包 的网站;
在 https://crxdl.com 输入 Web Scraper 搜索下载
可以发现存在 Web Scraper 和 Scheduled Web Scraper
2、安装
将上述下载的安装包解压后,可以看到 .crx 文件。
双击此文件,chrome 将会自动读取;点击继续,就会安装。
也可以在进入扩展程序面板,将 crx 文件拖拽到这个面板上。
调整为,检查内容布局在下面
二、简单爬取 1、添加站点
2、添加 selector
以爬取标题为例
选中一个标题后,选择下方标题,默认选中下方所有标题;上方没有被选上;
所以一开始就选择第一个第二个比较好
勾选 multiple
点击 scrape 开始抓取
会提示你设置延时
最低是 2000,50
点击抓取后,会d出浏览器;
这个浏览器 爬取结束后,将自动关闭;结束前,不能手动关闭;
我们会看到原来的 *** 作台,会显示 no data scraped yet
点击 refresh data 可以刷新,看到爬取到的数据;
点击 export data as csv 可以导出数据为 csv 文件。
三、爬取更多页面
可以观察到,页数是有规律的
https://www.zhihu.com/people/li-gang-44-11/posts
https://www.zhihu.com/people/li-gang-44-11/posts?page=4
创建站点时,改为这个
https://www.zhihu.com/people/li-gang-44-11/posts?page=[1-20]
规则为 [首页-末页:差值], 差值为1 时可省略。可以理解为正则。
模拟器将自动翻页,抓取信息
四、爬取详情页内容
selector 选择 element
进入整体的那个 selector,再添加 子 seletor
如果爬取这个页面的特定内容(如 标题、发布时间,而非列表数据),就不需要勾选 multiple
五、复制规则代码
点击进入 selector,点击 export sitemap
去新的 site 下面,点击导入 import Sitemap
复制 json 进去,修改相关 url 等。
伊织 21-09-24
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)