用火车头采集器怎样收集网站上的信息？_sql

先去下载火车头采集软件吧，

两种方法，一种是按关键字采集，

也就是没有限制采集哪个站点的文章，

另一种是你提供具体的板块链接，

然后按关键字采集，只采集当前提供的地址。

火车头采集器采集内容之前是先采集网址的，所以你说的这个网址其实早就知道了，而采集内容的时候是不会采集到得，因为一般情况下一个网页的源代码里不会有这个网页的网址。

比如A是一个网页的网址，用火车头采集器的时候首先读取的就是这个网页地址A，然后再根据这个地址来请求数据，根据你的采集规则来采集内容，而这个网页的内容里没有这个网址A，那么你肯定是采集不到的。那么这个网址A在哪里呢？在生成的文件里。

比如你保存到本地之后生成一个CSV的文件，打开之后再最后一列（URL）就是采集的内容对应的这个网址。

要能采集网址的火车头，必须是7版以上的，以下的版本无法办到。

首先创建一个标签为本文网址，勾选后面的“从网址中采集”。

选择下面的“正则提取”，点击通配符“(?<content>?)”，这样在窗口中就显示为(?<content>[\s\S]*?)

我们再在它前加一个与字符串开始的地方匹配的符号^，又在它后面加一个与字符串结束的地方匹配的符号$，这样就变成了^(?<content>[\s\S]*?)$。如图：

我们来解释下意思

Content 代表内容

? 表示匹配0次或者1次

\s 匹配所有空白字符

\S 匹配所有非空白字符

* 修饰匹配次数为 0 次或任意次

欢迎分享，转载请注明来源：内存溢出

用火车头采集器怎样收集网站上的信息？