两种方法,一种是按关键字采集,
也就是没有限制采集哪个站点的文章,
另一种是你提供具体的板块链接,
然后按关键字采集,只采集当前提供的地址。
火车头采集器采集内容之前是先采集网址的,所以你说的这个网址其实早就知道了,而采集内容的时候是不会采集到得,因为一般情况下一个网页的源代码里不会有这个网页的网址。比如A是一个网页的网址,用火车头采集器的时候首先读取的就是这个网页地址A,然后再根据这个地址来请求数据,根据你的采集规则来采集内容,而这个网页的内容里没有这个网址A,那么你肯定是采集不到的。那么这个网址A在哪里呢?在生成的文件里。
比如你保存到本地之后生成一个CSV的文件,打开之后再最后一列(URL)就是采集的内容对应的这个网址。
要能采集网址的火车头,必须是7版以上的,以下的版本无法办到。
首先创建一个标签为本文网址,勾选后面的“从网址中采集”。
选择下面的“正则提取”,点击通配符“(?<content>?)”,这样在窗口中就显示为(?<content>[\s\S]*?)
我们再在它前加一个与字符串开始的地方匹配的符号^,又在它后面加一个与字符串结束的地方匹配的符号$,这样就变成了^(?<content>[\s\S]*?)$。如图:
我们来解释下意思
Content 代表内容
? 表示匹配0次或者1次
\s 匹配所有空白字符
\S 匹配所有非空白字符
* 修饰匹配次数为 0 次或任意次
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)