关于火车头网址采集

关于火车头网址采集,第1张

location/(*) 这个是不同分类的,要分开来采集,应该就是不同面页的。所以location/(*) 变量不同的网址分开来采集,它并不是同一面页下的分页,火车头我比较熟识,可以找我。

1、打开火车头,进入采集网址规则—添加多级网址采集规则,选中手动填写链接地址规则,并将第二步骤中选中的代码粘贴进去,如图:

2、将代码进行如下修改

3、改好后保存并进行采集测试,如图所示

4、然后再在采集内容规则里进行修改,选中“缩略图”标签,打开,进行内容替换,如图:

5、然后点击文件下载,选中下载图片,并填好缩略图保存路径及命名方式,如图:

6、在“文件保存及部分高级设置”里设定缩略图的保存盘符及其前缀,设定为桌面,前缀为“/”,如图:

7、大功告成,保存后测试一下,一起顺利,缩略图顺利采集下来了。

要能采集网址的火车头,必须是7版以上的,以下的版本无法办到。

首先创建一个标签为本文网址,勾选后面的“从网址中采集”。

选择下面的“正则提取”,点击通配符“(?<content>?)”,这样在窗口中就显示为(?<content>[\s\S]*?)

我们再在它前加一个与字符串开始的地方匹配的符号^,又在它后面加一个与字符串结束的地方匹配的符号$,这样就变成了^(?<content>[\s\S]*?)$。如图:

我们来解释下意思

Content  代表内容

?        表示匹配0次或者1次

\s        匹配所有空白字符

\S        匹配所有非空白字符

*       修饰匹配次数为 0 次或任意次


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/bake/8001294.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-04-12
下一篇 2023-04-12

发表评论

登录后才能评论

评论列表(0条)

保存