如何以Java实现网页截图技术_软件运维

事实上，如果您想以Java实现网页截图，也就是“输入一段网址，几秒钟过后就能截取一张网页缩略图”的效果。那么，您至少有3种方式可以选择。

1、最直物孝接的方式——使用Robot

方法详解：该方法利用Robat提供链返的强大桌面 *** 作能力，硬性调用浏览器打开指定网页，并将网页信息保存到本地。

优势：简单易用，不需要任何第三方插件。

缺点：不能同时处理大量数据，技术含量过低，属于应急型技巧。

实现方法：使用如下代码即可。

[java] view plaincopy

public static void main(String[] args) throws MalformedURLException,

IOException, URISyntaxException, AWTException {

//此方法仅适用于JdK1.6及以上版本

Desktop.getDesktop().browse(

new URL("http://google.com/intl/en/").toURI())

Robot robot = new Robot()

robot.delay(10000)

Dimension d = new Dimension(Toolkit.getDefaultToolkit().getScreenSize())

int width = (int) d.getWidth()

int height = (int) d.getHeight()

//最大化浏览器

robot.keyRelease(KeyEvent.VK_F11)

robot.delay(2000)

Image image = robot.createScreenCapture(new Rectangle(0, 0, width,

height))

BufferedImage bi = new BufferedImage(width, height,

BufferedImage.TYPE_INT_RGB)

Graphics g = bi.createGraphics()

g.drawImage(image, 0, 0, width, height, null)

//保存图片

ImageIO.write(bi, "jpg", new File("google.jpg"))

}

2、最常规的方式——利用JNI，调用第三方C/C++组件

方法详解：目前来讲，Java领域对于网页截图组件的开发明显不足（商机？），当您需要完成此种 *** 作时，算得上碰到了Java的软肋。但是，众所周知Java也拥有强大的JNI能力，可以轻易将C/C++开发的同类组件引为己用。不懂可以扣五七八零二四一四四

优势：实现简单，只需要封装对应的DLL文件，就可以让Java实现同类功能。

劣势：同其他JNI实现一样，在跨平台时存在隐患，而罩唤稿且您的程序将不再属于纯Java应用。

1.你洞辩清可以选择用Java代码来找到整个网页的html代码，如下

(注意在处理网页方面的内容时，需要导入htmlparser包来支持)

import org.htmlparser.util.ParserException

import org.htmlparser.visitors.HtmlPage

import org.htmlparser.Parser

import org.htmlparser.filters.HasAttributeFilter

import org.htmlparser.util.NodeList

public class htmlmover {

public static void main(String[] args){

NodeList rt= getNodeList("http://forex.hexun.com/rmbhl/")

System.out.println(rt.toHtml())

}

public static NodeList getNodeList(String url){

Parser parser = null

HtmlPage visitor = null

try {

parser = new Parser(url)

parser.setEncoding("GBK")

visitor = new HtmlPage(parser)

parser.visitAllNodesWith(visitor)

} catch (ParserException e) {

e.printStackTrace()

}

NodeList nodeList = visitor.getBody()

return nodeList

}

以上代码，public static NodeList getNodeList(String url) 为主体

传入需要分析网页的 url(String类型)，返回值是网页Html节点List(Nodelist类型)

这个方法我没有什么要说的，刚开始的时候没看懂（没接触过），后来用了几次也懂点皮毛了

注意： parser.setEncoding("GBK") 可能你的工程编码格式是UTF-8,有错误的话需要改动

运行该程序

2.通过浏览器工具直接查看 IE是按F12 （刚开始没发现这个方法，于是傻乎乎地找上面的代码）

分析你所获得的html代码让人眼花缭乱，不要紧，找到自己需要趴取的内容，找到它上下文有特征的节点

<thead>

<tr>

<th width="100" align="center">现汇买入价</th>

<th width="95" align="center">现钞买入价</th>

</tr>

</thead>

<tbody>

</tr>

</tr>

</tr>

</tr>

</tr>

</tr>

</tr>

</tr>

</tbody>

</table>

</div>

大家可以看到这是一段很有规律，书写非常规范的Html代码（这只是第一部分，中行牌价，可以想像，接下来还会有并列的相似的3部分）

大家想截取这些节点中的数据

以下代码仍需导入htmlparser Java支持包

import java.util.ArrayList

import java.util.regex.Matcher

import java.util.regex.Pattern

import org.htmlparser.Node

import org.htmlparser.NodeFilter

import org.htmlparser.Parser

import org.htmlparser.util.NodeList

import org.htmlparser.util.ParserException

public class Currencyrate {

public static void main(String[] args){

String url="http://forex.hexun.com/rmbhl/"

ArrayList<String>rt= getNodeList(url)

for (int i = 0i <rt.size()i++){

System.out.println(rt.get(i))

}

public static ArrayList<String>getNodeList(String url){

final ArrayList<String>result=new ArrayList<String>()

Parser parser = null

NodeList nodeList=null

try {

parser = new Parser(url)

parser.setEncoding("GBK")

nodeList = parser.parse(

new NodeFilter(){

@Override

public boolean accept(Node node){

Node need=node

if(getStringsByRegex(node.getText())){

for(int i=0i<6i++){

result.add(need.toPlainTextString()) need=need.getPreviousSibling().getPreviousSibling()

}

return true

}

return false

}

)

}catch (ParserException e) {

e.printStackTrace()

}

return result

}

public static boolean getStringsByRegex(String txt) {

String regex="td class=\"no\""

Pattern p = Pattern.compile(regex)

Matcher m = p.matcher(txt)

if (m.find()){

return true

}

return false

}

废话不多说，

public static ArrayList<String>getNodeList(String url) 主要方法

parser.setEncoding("GBK")需要注意，代码编码格式

nodeList = parser.parse(

new NodeFilter(){

@Override

public boolean accept(Node node){

}

｝

)

nodelist是html节点的列表，现在使用NodeFilter ( 节点过滤器 )实例，重载NodeFilter类中的accept()方法

在parser这个Parser类访问整个html页面的时候，每遇到一个html节点，就会访问这个

accept()方法，返回True的话就会将这个节点放进nodelist中，否则就不会将这个节点放进去。这个就是NodeFilter功能。

代码段一获取整个html页面时候 parser.visitAllNodesWith(visitor)就是获取所有节点

所以现在我们要趴取网页上的内容，只要告诉accept()这个方法，哪些节点要放进nodelist去，即遇到哪些节点需要返回true。

于是

public boolean accept(Node node){

Node need=node

if(getStringsByRegex(node.getText())){

for(int i=0i<6i++){

result.add(need.toPlainTextString())need=need.getPreviousSibling().getPreviousSibling()

}

return true

}

return false

}

Parser类在遇到节点，就把这个节点拿过去问accept()，于是accept()方法分析，如果满足getStringsByRegex(node.getText())就要了

接下来分析getStringsByRegex()，只剩下最后一步了，大家坚持啊！

String regex="td class=\"no\""

Pattern p = Pattern.compile(regex)

Matcher m = p.matcher(txt)

if (m.find()){

return true

}

return false

}

大家可以发现我们索要的每一段都是

</tr>

所以只要找到<td class="no">这个节点就行了，我们用正则表达式去比较

String regex="td class=\"no\"" 这个是比较标准（正则表达式 td class=”no” 其中两个引号需要作为转义字符来表示成\“ ）

变量txt是我们传过去的需要比较的节点的node.getText()，如果符合的话m.find就是true,于是getStringsByRegex()返回true，说明这个节点就是我们所需要的哪些节点，于是

for(int i=0i<6i++){

result.add(need.toPlainTextString()) need=need.getPreviousSibling().getPreviousSibling()

}

每一段html，6个为一组，先是962.6，然后是993.26，1001.24，992.7，100，英镑分别被add进result这个ArrayList<String>中去，返回，这个ArrayList装的就是我们需要抓取的数据

大家可以把我们所获得的String数据数出来试试看，是不是我们需要的顺序，main()函数获得ArrayList<String>，就可以显示到我们所需要的Java widget上去了

用这个吧，这个方法是我从apache commons中扒下来的，没有问题的，记得采纳啊

/**

* 从URL抓取一个文件写到本迹迹地<br>

* 这个方法摘自 <a href="http://commons.apache.org/proper/commons-io/apidocs/org/apache/commons/io/FileUtils.html">org.apache.commons.io.FileUtils.copyURLToFile(URL source, File destination)</a>

* @param source

* @param destination

* @throws IOException

public static void copyFileFromURL(URL source, File destination) throws 姿穗并IOException {

InputStream input = null

FileOutputStream output = null

byte[] buffer = new byte[1024]

input = source.openStream()

if (destination.exists()) {

if (destination.isDirectory()) {

throw new IOException("File '" + destination

+ "' exists but is a directory")

}

if (destination.canWrite() == 族虚false) {

throw new IOException("File '" + destination

+ "' cannot be written to")

}

} else {

File parent = destination.getParentFile()

if (parent != null) {

if (!parent.mkdirs() && !parent.isDirectory()) {

throw new IOException("Directory '" + parent

+ "' could not be created")

}

output = new FileOutputStream(destination, true)

int n = 0

while (-1 != (n = input.read(buffer))) {

output.write(buffer, 0, n)

}

output.close()

input.close()

}

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/yw/12364744.html

如何以Java实现网页截图技术

发表评论

评论列表（0条）