乱码问题,可以设置编码解决。。Java一般支持UTF-8 如果不是,你可以多改几个编码看看哪个是中文。你也可以把读取到的字节码显示成二进制看看到底是哪种编码,不同编码很好辨认的。。。比如英文的UTF-8 它是高八位全一样。而GBK中英文只有一个字节
import javaio;
import javanet;
public class Demo {
public static void main(String[] args) throws Exception {
BufferedReader br = new BufferedReader(new InputStreamReader(Systemin));
Systemoutprintln("请输入要显示源码的地址:");
URL url = new URL(brreadLine());
URLConnection conn = urlopenConnection();
InputStream is = conngetInputStream();
byte[] b = new byte[1024];
int len = 0;
while((len = isread(b))!=-1){
Systemoutprintln(new String(b,0,len,"UTF-8"));
}
}
}
//下班,控制台的,网页的你稍微修改一下就OK啦。
不知道你是不是要实现抓取别人的页面进行输出……
是的话,你可以试用下面的代码。本人不会Perl,就用java的servlet实现了。希望能对你有帮助
import javaioIOException;
import javaioPrintWriter;
import javanetURL;
import javaxservletServletException;
import javaxservlet>
1新建一个servlet xml中相应配置(一般自动)
2创建service方法
3接受参数,做 *** 作,返回数据
比如页面发送ajax请求到SomeServlet
$post("SomeServlet的请求路径",{param:"param"},function(data){//data为返回的数据以json形式
alert(dataid + " " + dataname + " " + dataage );
},"json");
Servlet
public void service(>import javaawtBorderLayout;
import javaawteventActionEvent;
import javaawteventActionListener;
import javaioBufferedReader;
import javaioIOException;
import javaioInputStream;
import javaioInputStreamReader;
import javanet>
下载一个jsoup包,并导入到项目里面。然后就可以很简便地编写爬虫了。
jsoup教程:>
楼主可以试试我写的这个例子:
Java code
import javaioBufferedReader;
import javaioInputStreamReader;
import javanetURISyntaxException;
import javanetURL;
import javautilregexMatcher;
import javautilregexPattern;
public class URLTest {
/
@param args
@throws URISyntaxException
/
public static void main(String[] args) throws Exception {
URL url = new URL(">
以上就是关于VB或JAVA抓取网页源代码全部的内容,包括:VB或JAVA抓取网页源代码、用java写一个网页输入url点击查询即可在下面显示网页源代码、网页源代码提取,用java也行,用perl也行等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)