1、打开火车头,进入采集网址规则—添加多级网址采集规则,选中手动填写链接地址规则,并将第二步骤中选中的代码粘贴进去,如图:
2、将代码进行如下修改
3、改好后保存并进行采集测试,如图所示
4、然后再在采集内容规则里进行修改,选中“缩略图”标签,打开,进行内容替换,如图:
5、然后点击文件下载,选中下载图片,并填好缩略图保存路径及命名方式,如图:
6、在“文件保存及部分高级设置”里设定缩略图的保存盘符及其前缀,设定为桌面,前缀为“/”,如图:
7、大功告成,保存后测试一下,一起顺利,缩略图顺利采集下来了。
要能采集网址的火车头,必须是7版以上的,以下的版本无法办到。
首先创建一个标签为本文网址,勾选后面的“从网址中采集”。
选择下面的“正则提取”,点击通配符“(?<content>?)”,这样在窗口中就显示为(?<content>[\s\S]*?)
我们再在它前加一个与字符串开始的地方匹配的符号^,又在它后面加一个与字符串结束的地方匹配的符号$,这样就变成了^(?<content>[\s\S]*?)$。如图:
我们来解释下意思
Content 代表内容
? 表示匹配0次或者1次
\s 匹配所有空白字符
\S 匹配所有非空白字符
* 修饰匹配次数为 0 次或任意次
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)