JAVA WEB怎样抓取一个HTML源代码

JAVA WEB怎样抓取一个HTML源代码,第1张

import java.io.BufferedInputStream

import java.io.InputStream

import java.net.MalformedURLException

import java.net.URL

public class Test {

public static void main(String argv[]) {

//Test t = new Test()

//t.first()

//Test.TSR()

//Test.testDouPrase()

try {

Test.testNetStream()

} catch (Exception e) {

e.printStackTrace()

}

}

public static void testNetStream() throws Exception{

URL url = null

url = new URL("http://www.baidu.com")

InputStream in = url.openStream()

byte[] b = new byte[100000]

InputStream ins = url.openStream()

ins.read(b)

ins.close()

String s = new String(b)

System.out.println(s)

}

}

首先要理清楚代码结构和业务结构(应该有些文档或者大的流程图),这是阅读具体代码的前提。

阅读Java web项目的代码:

你需要找到

View层的代码:前端页面、图片、资源文件都在其中。

Controller层的代码:控制试图与模型层以及数据传递。

Service层的代码:业务逻辑。

Dao层的代码:数据库访问逻辑。

从web.xml - appcontext.xml - xxx

一:学会如何读一个JavaWeb项目源代码 步骤:表结构->web.xml->mvc->db->spring

ioc->log->代码

1、先了解项目数据库的表结构,这个方面是最容易忘记 的,有时候我们只顾着看每一个方法是怎么进行的,却没

有去了解数据库之间的主外键关联。其实如果先了解数据 库表结构,再去看一个方法的实现会更加容易。

2、然后需要过一遍web.xml,知道项目中用到了什么拦

截器,监听器,过滤器,拥有哪些配置文件。如果是拦截 器,一般负责过滤请求,进行AOP 等如果是监 可能是定时任务,初始化任务配置文件有如使用了 spring

后的读取mvc 相关,db 相关,service 相关,aop 相关的文件。

3、查看拦截器,监听器代码,知道拦截了什么请求,这

个类完成了怎样的工作。有的人就是因为缺少了这一步, 自己写了一个action,配置文件也没有写错,但是却怎么

调试也无法进入这个action,直到别人告诉他,请求被拦

4、接下来,看配置文件,首先一定是mvc相关的,如 springmvc

中,要请求哪些请求是静态资源,使用了哪些 view 策略,controller 注解放在哪个包下等。 然后是db 相关配置文件,看使用了什么数据库,使用了

什么orm框架,是否开启了二级缓存,使用哪种产品作 为二级缓存,事务管理的处理,需要扫描的实体类放在什 么位置。最后是spring 核心的ioc

功能相关的配置文件, 知道接口与具体类的注入大致是怎样的。当然还有一些如 apectj 置文件,也是在这个步骤中完成

5、log

相关文件,日志的各个级别是如何处理的,在哪些 地方使用了log 记录日志

6、从上面几点后知道了整个开源项目的整体框架,阅读 每个方法就不再那么难了。

7、当然如果有项目配套的开发文档也是要阅读的。


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zaji/5951723.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-03-09
下一篇 2023-03-09

发表评论

登录后才能评论

评论列表(0条)

保存