关于八爪鱼的伪原创采集器的正确使用方法

关于八爪鱼的伪原创采集器的正确使用方法,第1张

关于八爪鱼的伪原创采集器的正确使用方法

1。图像采集

在octopus中,采取以下步骤来收集图片

1)首先链接URL图片收藏。

2)通过八达通提供的批量下载工具将网址转换成图片。

八达通批量下载工具

2。常见应用场景

1)非瀑布网站的纯图片集

样本采集:豆瓣。com图片收集教程

2)瀑布网站纯图片集

这些瀑布网站的采集规则需要按照以下步骤进行设置:

(1)点击采集规则,打开网页步骤的高级选项;

(2)页面加载后向下滚动;

(3)填写各卷的卷号和间隔;

(4)滚动方式设置如下:直接滚动到底部;

完成上述规则后,页面上图片的URL将被收集。

举例:百度图片收藏教程

注意:根据网页加载情况设置滚动条数量和滚动间隔。如果向下滚动,页面信息加载速度会很慢。建议将滚动间隔设置得大一些。滚动的量应该取决于我们滚动多少次来加载我们需要的所有数据。建议多准备一两次。滚动是看页面滚动时是否能顺利加载所有数据,或者是否需要一次滚动一屏。一般来说,一次滚动一个屏幕更好,但需要更多的时间。滚动取决于屏幕的大小,而云捕捉默认为全屏。

3)文章图片集

文章收集文字和图片有两种方式。

方法:设置判断条件,分别收集文字和图片。

采集实例:腾讯新闻图片文字采集

方法二:先收集全文,再收集图片。

样本采集:UC头部图像采集

3。课程目的

这个收集图片URL的步骤在上面的图片收集教程中有详细描述,不再赘述。本文将重点介绍图像采集的技术和注意事项。

4。图片URL收集过程

下面是具体 *** 作步骤的演示,以百度图片的URL采集为例,抓取图片的URL。不同的网站图片网址会遇到不同的情况。请灵活一点。

选择所有图片以收集以下图片地址

(2)开始收集和查看结果。收藏图片网址。

参考具体流程步骤:瀑布图采集,以百度图片为例,步骤1-4。

5。批量导出图片的 *** 作步骤

经过上面的 *** 作,我们得到了要收集的图像的URL。接下来,我们通过Octopus的图像批量下载工具将图像下载并保存到本地计算机的图像URL。

1)下载章鱼图片批量下载工具,双击文件中的mydownloader.app.exe打开软件。

2)打开文件菜单,选择从Excel导入(目前仅支持Excel格式文件)

3)设置

选择Excel文件:导入需要下载图像地址的Excel文件。

Excel表名:对应数据表的名称

URL列名:表中相应URL的列名

保存文件夹名称:Excel需要一个单独的列,列出将图像保存到该文件夹的路径。在上面的例子中,我们在excel中添加了一个名为“picturesavefolder”的列,列中的数据为“d:baidupicturecollection”,然后“d:baidupicturecollection”成为保存图片的路径(其他磁盘可以自定义保存,文件夹名称可以自定义修改;“d:\”要求英语状态)。

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zz/880126.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-05-13
下一篇 2022-05-13

发表评论

登录后才能评论

评论列表(0条)

保存