用火车头采集器怎样收集网站上的信息?

用火车头采集器怎样收集网站上的信息?,第1张

先去下载火车头采集软件吧,

两种方法,一种是按关键字采集,

也就是没有限制采集哪个站点的文章,

另一种是你提供具体的板块链接,

然后按关键字采集,只采集当前提供的地址。

火车头采集器采集内容之前是先采集网址的,所以你说的这个网址其实早就知道了,而采集内容的时候是不会采集到得,因为一般情况下一个网页的源代码里不会有这个网页的网址。

比如A是一个网页的网址,用火车头采集器的时候首先读取的就是这个网页地址A,然后再根据这个地址来请求数据,根据你的采集规则来采集内容,而这个网页的内容里没有这个网址A,那么你肯定是采集不到的。那么这个网址A在哪里呢?在生成的文件里。

比如你保存到本地之后生成一个CSV的文件,打开之后再最后一列(URL)就是采集的内容对应的这个网址。


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/sjk/6754516.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-03-27
下一篇 2023-03-27

发表评论

登录后才能评论

评论列表(0条)

保存