1。图像采集
在octopus中,采取以下步骤来收集图片
1)首先链接URL图片收藏。
2)通过八达通提供的批量下载工具将网址转换成图片。
八达通批量下载工具
2。常见应用场景
1)非瀑布网站的纯图片集
样本采集:豆瓣。com图片收集教程
2)瀑布网站纯图片集
这些瀑布网站的采集规则需要按照以下步骤进行设置:
(1)点击采集规则,打开网页步骤的高级选项;
(2)页面加载后向下滚动;
(3)填写各卷的卷号和间隔;
(4)滚动方式设置如下:直接滚动到底部;
完成上述规则后,页面上图片的URL将被收集。
举例:百度图片收藏教程
注意:根据网页加载情况设置滚动条数量和滚动间隔。如果向下滚动,页面信息加载速度会很慢。建议将滚动间隔设置得大一些。滚动的量应该取决于我们滚动多少次来加载我们需要的所有数据。建议多准备一两次。滚动是看页面滚动时是否能顺利加载所有数据,或者是否需要一次滚动一屏。一般来说,一次滚动一个屏幕更好,但需要更多的时间。滚动取决于屏幕的大小,而云捕捉默认为全屏。
3)文章图片集
文章收集文字和图片有两种方式。
方法:设置判断条件,分别收集文字和图片。
采集实例:腾讯新闻图片文字采集
方法二:先收集全文,再收集图片。
样本采集:UC头部图像采集
3。课程目的
这个收集图片URL的步骤在上面的图片收集教程中有详细描述,不再赘述。本文将重点介绍图像采集的技术和注意事项。
4。图片URL收集过程
下面是具体 *** 作步骤的演示,以百度图片的URL采集为例,抓取图片的URL。不同的网站图片网址会遇到不同的情况。请灵活一点。
选择所有图片以收集以下图片地址
(2)开始收集和查看结果。收藏图片网址。
参考具体流程步骤:瀑布图采集,以百度图片为例,步骤1-4。
5。批量导出图片的 *** 作步骤
经过上面的 *** 作,我们得到了要收集的图像的URL。接下来,我们通过Octopus的图像批量下载工具将图像下载并保存到本地计算机的图像URL。
1)下载章鱼图片批量下载工具,双击文件中的mydownloader.app.exe打开软件。
2)打开文件菜单,选择从Excel导入(目前仅支持Excel格式文件)
3)设置
选择Excel文件:导入需要下载图像地址的Excel文件。
Excel表名:对应数据表的名称
URL列名:表中相应URL的列名
保存文件夹名称:Excel需要一个单独的列,列出将图像保存到该文件夹的路径。在上面的例子中,我们在excel中添加了一个名为“picturesavefolder”的列,列中的数据为“d:baidupicturecollection”,然后“d:baidupicturecollection”成为保存图片的路径(其他磁盘可以自定义保存,文件夹名称可以自定义修改;“d:\”要求英语状态)。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)