关于火车头网址采集_IT百科

location/(*) 这个是不同分类的，要分开来采集，应该就是不同面页的。所以location/(*) 变量不同的网址分开来采集，它并不是同一面页下的分页，火车头我比较熟识，可以找我。

1、打开火车头，进入采集网址规则—添加多级网址采集规则，选中手动填写链接地址规则，并将第二步骤中选中的代码粘贴进去，如图：

2、将代码进行如下修改

3、改好后保存并进行采集测试，如图所示

4、然后再在采集内容规则里进行修改，选中“缩略图”标签，打开，进行内容替换，如图：

5、然后点击文件下载，选中下载图片，并填好缩略图保存路径及命名方式，如图：

6、在“文件保存及部分高级设置”里设定缩略图的保存盘符及其前缀，设定为桌面，前缀为“/”，如图：

7、大功告成，保存后测试一下，一起顺利，缩略图顺利采集下来了。

要能采集网址的火车头，必须是7版以上的，以下的版本无法办到。

首先创建一个标签为本文网址，勾选后面的“从网址中采集”。

选择下面的“正则提取”，点击通配符“(?<content>?)”，这样在窗口中就显示为(?<content>[\s\S]*?)

我们再在它前加一个与字符串开始的地方匹配的符号^，又在它后面加一个与字符串结束的地方匹配的符号$，这样就变成了^(?<content>[\s\S]*?)$。如图：

我们来解释下意思

Content 代表内容

? 表示匹配0次或者1次

\s 匹配所有空白字符

\S 匹配所有非空白字符

* 修饰匹配次数为 0 次或任意次

欢迎分享，转载请注明来源：内存溢出

关于火车头网址采集