为了获取网页代码,一般人是想到直接ctrl+s,就可以保存了。确实比较方便,但是如果遇到子网页比较多就不行了。
为了方便批量获取网页代码,一个会java或者scala的程序员就不一样了。
比如:
上代码:
import java.io.{File, PrintWriter} import scalaj.http.Http object GetWeb { def main(args: Array[String]): Unit = { //定义遍历变量 var num =1 //定义网址前缀 var web_name1 = "http://www.pingfandeshijie.net/di-san-bu-" //定义网址后缀 var web_name3=".html" //源码本地保存路径,three为文件名前缀 var path1 = "C:\Users\liming\Desktop\pfsj\平凡世界第三部\" //文件名前缀 var fix = "three" //文件后缀 var path2 =".txt"; //定义爬取次数 var n = 54 //循环获取网址源码并写入文件 while (num<=n) { //将循环变量的值传递给num0并转化为字符串 var num0=String.valueOf(num) //原网址序号为01-54 if (num<10) num0 ="0"+num0 //把网址的url拼接起来 var web_name = web_name1+num0+web_name3 //使用http获取网页的源码 val txt =Http(web_name).timeout(100000000,100000000).asString.body println(txt) //拼接地址和文件名 var file_name = path1+fix+num0+path2 //把获取的源码写入文件中 val printWriter_name = new PrintWriter(new File(file_name)) printWriter_name.write(txt) //关闭PrintWriter流 printWriter_name.close //循环加1 num=num+1 //跑一次休息两秒,防止被封ip println("为了防止ip被封,程序正在休息中") Thread.sleep(2000) } } }
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)