先用单个文件做测试:
1. ctrl-o打开文本文件
2. ctrl-h打开Replace窗口
* 在Search for pattern输入[<img src="(.*?)"]不带左右的方括号。
* 在Replace with pattern输入[\1\n]不带左右的方括号。
* 去掉Print Unmatch Unit选项,把其他不需要的内容去掉。
3. 点击Replace,即完成地址的提取。
对多个文件的提取:
1. ctrl-h打开Replace窗口
* 在Search for pattern输入[<img src="(.*?)"]不带左右的方括号。
* 在Replace with pattern输入[\1\n]不带左右的方括号。
* 去掉Print Unmatch Unit选项,把其他不需要的内容去掉。
* 把右下角Output File左边的">"号选成">>Append"表示追加模式,所有的输出将追加到一个文件中
2. 点击Batch...按钮打开Batch Runner窗口
3. 点击Search Files选择待处理的多个html文件
4. 选择Set output filename,把${FILENAME}改为固定的输出文件名,比如output.txt,那么所有的结果将追加到output.txt中。
5. 点击Batch Replace即将所有的输出写入output.txt。
注:如果待处理的不是html文件,而是网页地址(保证网页中直接有需要的链接),可以首先把网页地址保存在一个文件比如a.txt中(每行必须以http开头),然后把以上第3步改为:点击Import List把a.txt文件中的网址导入。其他步骤都一样。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)