VB或JAVA抓取网页源代码

VB或JAVA抓取网页源代码,第1张

乱码问题,可以设置编码解决。。Java一般支持UTF-8 如果不是,你可以多改几个编码看看哪个是中文。你也可以把读取到的字节码显示成二进制看看到底是哪种编码,不同编码很好辨认的。。。比如英文的UTF-8 它是高八位全一样。而GBK中英文只有一个字节

import javaio;

import javanet;

public class Demo {

    public static void main(String[] args) throws Exception {

        BufferedReader br = new BufferedReader(new InputStreamReader(Systemin));

        Systemoutprintln("请输入要显示源码的地址:");

        URL url = new URL(brreadLine());

        URLConnection conn = urlopenConnection();

        InputStream is = conngetInputStream();

        byte[] b = new byte[1024];

        int len = 0;

        while((len = isread(b))!=-1){

            Systemoutprintln(new String(b,0,len,"UTF-8"));

        }

    }

}

//下班,控制台的,网页的你稍微修改一下就OK啦。

不知道你是不是要实现抓取别人的页面进行输出……

是的话,你可以试用下面的代码。本人不会Perl,就用java的servlet实现了。希望能对你有帮助

import javaioIOException;

import javaioPrintWriter;

import javanetURL;

import javaxservletServletException;

import javaxservlet>

1新建一个servlet xml中相应配置(一般自动)

2创建service方法

3接受参数,做 *** 作,返回数据

比如页面发送ajax请求到SomeServlet

$post("SomeServlet的请求路径",{param:"param"},function(data){

    //data为返回的数据以json形式

    alert(dataid + "  " + dataname + " " + dataage );

},"json");

Servlet

public void service(>

import javaawtBorderLayout;

import javaawteventActionEvent;

import javaawteventActionListener;

import javaioBufferedReader;

import javaioIOException;

import javaioInputStream;

import javaioInputStreamReader;

import javanet>

下载一个jsoup包,并导入到项目里面。然后就可以很简便地编写爬虫了。

jsoup教程:>

楼主可以试试我写的这个例子:

Java code

import javaioBufferedReader;

import javaioInputStreamReader;

import javanetURISyntaxException;

import javanetURL;

import javautilregexMatcher;

import javautilregexPattern;

public class URLTest {

/

@param args

@throws URISyntaxException

/

public static void main(String[] args) throws Exception {

URL url = new URL(">

以上就是关于VB或JAVA抓取网页源代码全部的内容,包括:VB或JAVA抓取网页源代码、用java写一个网页输入url点击查询即可在下面显示网页源代码、网页源代码提取,用java也行,用perl也行等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/web/9695274.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-01
下一篇 2023-05-01

发表评论

登录后才能评论

评论列表(0条)

保存