首先,也是很重要的一步,就是下载jar包,丢到libs里面
Android studio玩家可以不下载jar包,在Gradle里面加入
dependencies {undefined
compile 'orgjsoup:jsoup:192'
}复制代码
然后,找到你心仪的网页去抓取数据
这里我们我继续使用美食的网页,然后右键查看网页源码,或者按F12,接下来可以看到一大堆标签:
Paste_Imagepng
找到需要的,例如上图这个 “美食天下” ,可以看到 “美食天下” 是放在以
为节点的 中,要获取这个“美食天下”,代码可以这样写:
try {undefined
//从一个URL加载一个Document对象。
Document doc = Jsoupconnect(">
什么意思呀?
通常都是右击它的超连接属性就有啦?
但有些隐藏了,就需要在“查看----源文件”这个文档里搜索你要下载的文件的后缀名就ok拉。
有一些网站的下载地址是彻底隐藏的,这是你需要借用第三方软件,如影音神探等,找出它的下载地址
如果你是自己的空间,想获取你自己上传的文件,就是这个地址:
>
100分让写那么多代码。。。
用webClient 或者>
用HtmlAgilityPackdll 解析html。或者用正则
HtmlAgilityPackdll应该好用多了,然后插入excel即可
HtmlAgilityPackdll的用法:
var doc = new HtmlDocument();docLoadHtml(queryPageHtml);
var node = docDocumentNodeSelectSingleNode("//input[@name='strutstokenname']");
var nodeStoken = docDocumentNodeSelectSingleNode("//input[@name='strutstoken']");
var strutStokenName = nodeGetAttributeValue("value", "");
var strutStoken = nodeStokenGetAttributeValue("value", "");
现成的>
webclient获取
WebClient wc = new WebClient();wcCredentials = CredentialCacheDefaultCredentials;
Stream resStream = wcOpenRead(PageUrl);
StreamReader sr = new StreamReader(resStream,SystemTextEncodingDefault;
string HtmlStr = srReadToEnd();
resStreamClose();
wcDispose();
下面的是就行了using System;
using SystemCollectionsGeneric;
using SystemLinq;
using SystemNetMime;
using SystemNetSecurity;
using SystemSecurityCryptographyX509Certificates;
using SystemText;
using SystemNet;
using SystemIO;
using SystemDrawing;
using SystemWindowsForms;
namespace Hosting
{
/// <summary>
/// 模拟网页 *** 作,提交、获取订单页面数据
/// </summary>
public class >}
写入excel的代码:
public static bool SaveDataTableToExcel(SystemDataDataTable excelTable, string filePath){
MicrosoftOfficeInteropExcelApplication app =
new MicrosoftOfficeInteropExcelApplicationClass();
try
{
appVisible = false;
Workbook wBook = appWorkbooksAdd(true);
Worksheet wSheet = wBookWorksheets[1] as Worksheet;
if (excelTableRowsCount > 0)
{
int row = 0;
row = excelTableRowsCount;
int col = excelTableColumnsCount;
for (int i = 0; i < row; i++)
{
for (int j = 0; j < col; j++)
{
string str = excelTableRows[i][j]ToString();
wSheetCells[i + 2, j + 1] = str;
}
}
}
int size = excelTableColumnsCount;
for (int i = 0; i < size; i++)
{
wSheetCells[1, 1 + i] = excelTableColumns[i]ColumnName;
}
//设置禁止d出保存和覆盖的询问提示框
appDisplayAlerts = false;
appAlertBeforeOverwriting = false;
//保存工作簿
wBookSave();
//保存excel文件
appSave(filePath);
appSaveWorkspace(filePath);
appQuit();
app = null;
return true;
}
catch (Exception err)
{
MessageBoxShow("导出Excel出错!错误原因:" + errMessage, "提示信息",
MessageBoxButtonsOK, MessageBoxIconInformation);
return false;
}
finally
{
}
}
分类: 电脑/网络 >> 程序设计 >> 其他编程语言
问题描述:
WEB页另存于DOC文档的疑问lawyee/bin/DownloadToDoc这个文件的代码是什么可以知道吗?
请高手支招!!!
另存于DOC文档
function fnDownloadDoc(){
var node;
var fromObj = documentgetElementById('frmDownloadToDoc');
if (fromObj==undefined){
node = documentcreateElement('form');
nodeaction = 'lawyee/bin/DownloadToDoc';
nodemethod = 'post';
nodename = 'frmDownloadToDoc';
documentappendChild(node);
fromObj = node;
}
for (var i=0; i<fromObjelementslength; i++){fromObjremoveChild(fromObjelements);}
var iCount;
var strData;
var iMaxChars = 50000;
var iBottleNeck = 2000000;
var strHTML;
strData = documentgetElementById('Matter')innerHTML;
strData = strDatareplace(/<div id=ItemCorrelation><\/div>/ig, '');
strData = strDatareplace(/<a>()<\/a>/ig, '$1');
iCount = parseInt(strDatalength / iMaxChars) + 1;
node = documentcreateElement('input');
nodetype = 'hidden';
nodename = 'File_Name';
if (documentgetElementById('File_Name')!=undefined){
nodevalue = documentgetElementById('File_Name')innerText;
}else{nodevalue = "temp";}
fromObjappendChild(node);
for (var i=1; i <= iCount; i++){
node = documentcreateElement('input');
nodetype = 'hidden';
nodename = 'strItemContent';
nodevalue = strDatasubstring((i - 1) iMaxChars, i iMaxChars);
fromObjappendChild(node);
}
fromObjsubmit();
}
这是JS代码
浏览页面的写法。
<tr><td id="Matter">
<p align=center><b id=File_Name>文章标题</p>
<p>文章内容</p>
</td></tr>
<tr><td id="File_Name" class="page_speeder_1598712623">文章标题</td></tr>
另外,lawchinalawinfo/Newlaw2002/SLC/SLCDb=chl&Gid=75166在这个页面的下载1 下载2,是如何实现的?谢谢!!
解析:
responsecontentType="application/vadns-word"
把他加在程序里,具体自己试试
以上就是关于android studio 怎么抓去网页媒体资源全部的内容,包括:android studio 怎么抓去网页媒体资源、如何用vba抓取网页数据、怎样获取文件(xls、doc、rar)的url地址等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)