爬虫 - WebScraper

爬虫 - WebScraper,第1张

爬虫 - WebScraper WebScraper

文章目录
  • WebScraper
    • 关于 WebScraper
    • 一、下载安装
      • 方式二:crxdl 搜索下载 WebScraper
    • 二、简单爬取
      • 1、添加站点
      • 2、添加 selector
    • 三、爬取更多页面
    • 四、爬取详情页内容
    • 五、复制规则代码


仅供学习交流


关于 WebScraper

官网 : https://www.webscraper.io/web-scraper-first-time-install


一、下载安装

方式一:google 应用商店

https://chrome.google.com/webstore/detail/web-scraper-free-web-scra/jnhgnonknehpejjnehehllkliplmbmhn


方式二:crxdl 搜索下载 WebScraper

1、下载

crxdl 是一个 下载Chrome扩展插件Crx离线安装包 的网站;
在 https://crxdl.com 输入 Web Scraper 搜索下载
可以发现存在 Web Scraper 和 Scheduled Web Scraper


2、安装

将上述下载的安装包解压后,可以看到 .crx 文件。
双击此文件,chrome 将会自动读取;点击继续,就会安装。


也可以在进入扩展程序面板,将 crx 文件拖拽到这个面板上。


调整为,检查内容布局在下面


二、简单爬取 1、添加站点


2、添加 selector


以爬取标题为例

选中一个标题后,选择下方标题,默认选中下方所有标题;上方没有被选上;
所以一开始就选择第一个第二个比较好


勾选 multiple


点击 scrape 开始抓取


会提示你设置延时


最低是 2000,50

点击抓取后,会d出浏览器;

这个浏览器 爬取结束后,将自动关闭;结束前,不能手动关闭;

我们会看到原来的 *** 作台,会显示 no data scraped yet

点击 refresh data 可以刷新,看到爬取到的数据;

点击 export data as csv 可以导出数据为 csv 文件。


三、爬取更多页面

可以观察到,页数是有规律的

https://www.zhihu.com/people/li-gang-44-11/posts
https://www.zhihu.com/people/li-gang-44-11/posts?page=4


创建站点时,改为这个

https://www.zhihu.com/people/li-gang-44-11/posts?page=[1-20]

规则为 [首页-末页:差值], 差值为1 时可省略。可以理解为正则。


模拟器将自动翻页,抓取信息


四、爬取详情页内容

selector 选择 element


进入整体的那个 selector,再添加 子 seletor

如果爬取这个页面的特定内容(如 标题、发布时间,而非列表数据),就不需要勾选 multiple


五、复制规则代码

点击进入 selector,点击 export sitemap


去新的 site 下面,点击导入 import Sitemap

复制 json 进去,修改相关 url 等。


伊织 21-09-24

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zaji/5689650.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-12-17
下一篇 2022-12-17

发表评论

登录后才能评论

评论列表(0条)

保存