直接用八爪鱼采集器就可以了。
随着瀑布流网站、AJAX网页等技术和网站表现形式大行其道,技术架构和网页结构都与以往传统的网站有所区别,展现形式表现的更加的灵活,有些企业或
个人出于营销研究或者收藏的需求,需要对这类型网站进行网页数据采集,下面,八妹子就来介绍下,遇到这类型网站时我们要如何使用八爪鱼采集器来快速收集数
据。
我们以“韩国东大门”这个网站为例,来说明下采集要如何实现。先来看下这个网站的特殊之处,首先,页面上的不是一次加载完成,而需要滚动多次才会
滚动到底部,这类型的网站像新浪微博也是类似情况,当然也有的瀑布流网站是一直加载无法见底的,这种情况八妹子会在别的文章来单独介绍,在此不赘述。其
次,产品详情页不能通过点击标题进入,而需要点击才能进入。
针对以上两点问题,在使用八爪鱼采集器采集等信息的时候,在设置规则的时候需要注意以下几点:
1、
打开网页的时候,需要设置AJAX网页加载,以便确保数据采集的时候不会遗漏,像东大门这个示范站,我们实际滚动大约需要4次,所以我们在AJAX加载到
底部,滚动次数可以设置为4次或5次均可,次数可以适当的比实际的滚动次数稍微多一两次!
2、
由于我们采集时需要点击才能进入到产品详情页,在建立元素循环列表的时候,需要将链接设置为列表项,如下图所示,我们需要点击A标签取到的链
接地址,并以此链接为循环列表,添加元素到列表的时候,每次都需要点击A标签,2-3次添加之后系统会将所有选中的链接自动读取出来。
3、
采集的URL,按第二步的 *** 作进入到详情页后,就是提取数据了,对于产品名称和价格,都是文本形式,提取非常简单,而对于,会需要先采集到本
身的URL,再进行转换,采集办法如下图所示,选中后,在d出的对话框中可选中IMG标签,选择的超链接进行采集。
4、 设置完成后,保存,来看下采集的战果!URL、产品名称、价格均已采集下来,我们导出为EXCEL格式的文件。
5、 将的URL转换为批量下载下来,相关的工具再八爪鱼数据采集器论坛可以免费下载。将URL地址导入工具即可将转换下来!
经过以上简单的5步,AJAX网页上的瀑布流就轻松采集下来了,当然,如果你要进行多页采集,只需要再第2步的设置一次翻页循环即可,翻页循环的相关视频教程可直接。
获取网络链接方法如下:1从网上找到你喜欢的。你可以轻松获取大部分在线的URL地址。
2确保你正查看的是原始版本的。有些网站会显示的缩略图,而不是整张原图。如果此时你获取它的URL地址,那你只能获得缩略图的URL地址。因此,请确保在浏览器中加载原始。
例如,我们wikiHow文章里的实际上就是缩略图。如果想查看原始,你需要点击,在新窗口中打开完整大小的原图。
3右键点击(电脑上)或长按(移动设备上)。当你找到目标后,如果你使用电脑的话,请右键点击;如果你使用移动设备,请长按目标。
4选择“复制地址”选项。这个选项的名称可能根据你使用的浏览器不同而稍有差别:
Chrome浏览器(电脑) - “复制地址”
Chrome浏览器(移动设备) - “复制URL”
Internet Explorer浏览器 - “复制”
Safari浏览器(iOS设备) - “复制” (注意:这个 *** 作是适用于本身不是链接的情况夏。如果这个是另一个页面的链接,你将无法在iOS设备的Safari浏览器里获得的URL地址。)
Safari浏览器(OS X系统) - “复制地址”
火狐浏览器- “复制地址”
5粘贴的URL地址。复制的URL地址后,就可以把它粘贴到设备的剪切板了。然后你就可以根据你的需求把它粘贴到任何地方,如信息、文档或浏览器的地址栏。如果在粘贴前你复制了其它东西,那么最后复制的内容会覆盖你复制的URL地址。把自己的照片上传至免费网上相册,像网易,校友录,QQ等等,然后在上点击右键就能得到解决地址,或是直接看到。
免费的相册可以用搜索引擎(百度,Google,中搜等等)一下就找得到的
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)