java提取网站内部所有URL

java提取网站内部所有URL,第1张

import javaioBufferedReader;

import javaioIOException;

import javaioInputStreamReader;

import javanetMalformedURLException;

import javanetURL;

import javautilArrayList;

import javautilList;

public class GetLinks {

private String webSource;

private String url;

public GetLinks(String url) throws MalformedURLException, IOException {

thisurl = Complete(url);

webSource = getWebCon(thisurl);

}

private String getWebCon(String strURL) throws MalformedURLException,

IOException {

StringBuffer sb = new StringBuffer();

javanetURL url = new javanetURL(strURL);

BufferedReader in = new BufferedReader(new InputStreamReader(url

openStream()));

String line;

while ((line = inreadLine()) != null) {

sbappend(line);

}

inclose();

return sbtoString();

}

private String Complete(String link)throws MalformedURLException{

URL url1 = new URL(link);

URL url2 = new URL(link+"/");

String handledUrl = link;

try{

StringBuffer sb1 = new StringBuffer();

BufferedReader in1 = new BufferedReader(new InputStreamReader(url1

openStream()));

String line1;

while ((line1 = in1readLine()) != null) {

sb1append(line1);

}

in1close();

StringBuffer sb2 = new StringBuffer();

BufferedReader in2 = new BufferedReader(new InputStreamReader(url2

openStream()));

String line2;

while ((line2 = in2readLine()) != null) {

sb2append(line2);

}

in1close();

if(sb1toString()equals(sb2toString())){

handledUrl = link+"/";

}

}catch(Exception e){

handledUrl = link;

}

return handledUrl;

}

/

处理链接的相对路径

@param link 相对路径或绝对路径

@return 绝对路径

/

private String urlHandler(String link) {

if (link == null)

return null;

link = linktrim();

if (linktoLowerCase()startsWith(">

从>

在WebContent的子目录文件夹中进行。

在WebContent的子目录中调用Servlet时,一定要注意所调用的Servlet的映射路径设置,大多数的404错误一般都是映射名字前面没有把子目录加进去导致的。

Servlet的URL就是在浏览器中输入了之后会直接访问到的地址(相对路径),比如在我们项目里面,项目运行之后的上下文地址是:>

以上就是关于java提取网站内部所有URL全部的内容,包括:java提取网站内部所有URL、struts2中怎么获取url啊,请求的地址、spring MVC拦截器怎么获取请求的URL等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/web/9434154.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-04-28
下一篇 2023-04-28

发表评论

登录后才能评论

评论列表(0条)

保存