java代码通过HttpURLConnection发送请求获取手机在线网站的归属地信息时,数据是空的

java代码通过HttpURLConnection发送请求获取手机在线网站的归属地信息时,数据是空的,第1张

public static String getMobilAdress(String mobile) throws Exception{

InputStream inputStream = MobileServiceclassgetClassLoader()getResourceAsStream("mobilesaopxml");

byte[] data = ReadInputStram(inputStream);

String xml=new String(data);

String soap= xmlreplaceAll("\\$mobile",mobile);

String path = ">

data = soapgetBytes();

>

connsetReadTimeout(5000);

connsetRequestMethod("POST");

connsetDoOutput(true);

connsetRequestProperty("Content-Type", "application/soap+xml; charset=utf-8");

connsetRequestProperty("Content-Length", StringvalueOf(datalength));

OutputStream out = conngetOutputStream();

outwrite(data);

outflush();

outclose();

if(conngetResponseCode() ==200){

return parseXML(conngetInputStream());

}

return null;

}

你用firebug查看是有的,数据应该是使用ajax设置上去的,所以你直接查看源代码肯定没有

根据java网络编程相关的内容,使用jdk提供的相关类可以得到url对应网页的html页面代码。

针对得到的html代码,通过使用正则表达式即可得到我们想要的内容。

比如,我们如果想得到一个网页上所有包括“java”关键字的文本内容,就可以逐行对网页代码进行正则表达式的匹配。最后达到去除html标签和不相关的内容,只得到包括“java”这个关键字的内容的效果。

从网页上爬取的流程和爬取内容的流程基本相同,但是爬取的步骤会多一步。

需要先用img标签的正则表达式匹配获取到img标签,再用src属性的正则表达式获取这个img标签中的src属性的url,然后再通过缓冲输入流对象读取到这个url的信息,配合文件输出流将读到的信息写入到本地即可。

你的问题事实上包含几部分:

将 PDF 转化为纯文本格式

抽取其中部分内容

格式化写入到 excel 中

转换 PDF 有很多库可以完成,如下是通过 pdfminer 的示例:

from cStringIO import StringIO

from pdfminerpdfinterp import PDFResourceManager, PDFPageInterpreter

from pdfminerconverter import TextConverter

from pdfminerlayout import LAParams

from pdfminerpdfpage import PDFPage

def convert_pdf_2_text(path):

rsrcmgr = PDFResourceManager()

retstr = StringIO()

device = TextConverter(rsrcmgr, retstr, codec='utf-8', laparams=LAParams())

interpreter = PDFPageInterpreter(rsrcmgr, device)

with open(path, 'rb') as fp:

for page in PDFPageget_pages(fp, set()):

interpreterprocess_page(page)

text = retstrgetvalue()

deviceclose()

retstrclose()

return text

需要指出的是,pdfminer 不但可以将 PDF 转换为 text 文本,还可以转换为 HTML 等带有标签的文本。上面只是最简单的示例,如果每页有很独特的标志,你还可以按页单独处理。

以上就是关于java代码通过HttpURLConnection发送请求获取手机在线网站的归属地信息时,数据是空的全部的内容,包括:java代码通过HttpURLConnection发送请求获取手机在线网站的归属地信息时,数据是空的、java爬虫抓取指定数据、如何从文本中提取时间、地点信息python或者java都行等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/web/9598290.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-04-30
下一篇 2023-04-30

发表评论

登录后才能评论

评论列表(0条)

保存