html从数据库中读取数据(从网页获取数据写入数据库)

html从数据库中读取数据(从网页获取数据写入数据库),第1张

html是一种静态语言。不能直接读取数据库里的内容。

如果要读数据库。你必须会一些简单的phpasp之类。这些是服务器端的程序语言,可以 *** 作数据库的是这个。而html是客户端的。肯定不能 *** 作数据库。

var obj = documentgetElementsByTagName("center")[0];

var str = objinnerText;

var beginIndex = strindexOf("[");

var endIndex = strindexOf("]");

var ipStr = strslice(beginIndex + 1,endIndex);

consolelog(ipStr);

HTMLParser具有小巧,快速的优点,缺点是相关文档比较少(英文的也少),很多功能需要自己摸索。对于初学者还是要费一些功夫的,而一旦上手以后,会发现HTMLParser的结构设计很巧妙,非常实用,基本各种需求都可以满足。比如问题中提到的提取网页文本信息。

用以下代码来实现提取网页文本信息

// 提取网页主要文本内容

public String getContent(){

content=(isHub())getHubEntries():getTopicBlock();

Systemoutprintln("<Content>:");

Systemoutprintln("=========================");

Systemoutprintln(content);

return content;

}

// 提取Hub类网页文本内容,如yahoo,sina等门户网

public String getHubEntries(){

StringBean bean=new StringBean();

beansetLinks(false);

beansetReplaceNonBreakingSpaces(true);

beansetCollapse(true);

try {

parservisitAllNodesWith(bean);

} catch (ParserException e) {

Systemerrprintln("getHubEntries()-->"+e);

}

parserreset();

return beangetStrings();

}

// 获取主题性(Topical)网页文本内容:对于博客等以文字为主体的网页效果较好

public String getTopicBlock(){

HasParentFilter acceptedFilter=new HasParentFilter(new TagNameFilter("p"));

NodeList nodes=null;

try {

nodes=parserextractAllNodesThatMatch(acceptedFilter);

} catch (ParserException e) {

Systemerrprintln("getTopicBlock"+e);

}

StringBuffer sb=new StringBuffer();

SimpleNodeIterator iter=nodeselements();

while(iterhasMoreNodes()){

Node node=iternextNode();

sbappend(nodegetText()+"\n");

}

parserreset();

return sbtoString();

}

另外,要知道的是

HTMLParser的核心模块是orghtmlparserParser类,这个类实际完成了对于HTML页面的分析工作。这个类有下面几个构造函数

public Parser ();

public Parser (Lexer lexer, ParserFeedback fb);

public Parser (URLConnection connection, ParserFeedback fb) throws ParserException;

public Parser (String resource, ParserFeedback feedback) throws ParserException;

public Parser (String resource) throws ParserException;

public Parser (Lexer lexer);

public Parser (URLConnection connection) throws ParserException;

和一个静态类public static Parser createParser (String html, String charset);

提供几个常用的

对于树型结构进行遍历的函数,这些函数最容易理解:

Node getParent ():取得父节点

NodeList getChildren ():取得子节点的列表

Node getFirstChild ():取得第一个子节点

Node getLastChild ():取得最后一个子节点

Node getPreviousSibling ():取得前一个兄弟(不好意思,英文是兄弟姐妹,直译太麻烦而且不符合习惯,对不起女同胞了)

Node getNextSibling ():取得下一个兄弟节点

取得Node内容的函数:

String getText ():取得文本

String toPlainTextString():取得纯文本信息。

String toHtml () :取得HTML信息(原始HTML)

String toHtml (boolean verbatim):取得HTML信息(原始HTML)

String toString ():取得字符串信息(原始HTML)

Page getPage ():取得这个Node对应的Page对象

int getStartPosition ():取得这个Node在HTML页面中的起始位置

int getEndPosition ():取得这个Node在HTML页面中的结束位置

用于Filter过滤的函数:

void collectInto (NodeList list, NodeFilter filter):基于filter的条件对于这个节点进行过滤,符合条件的节点放到list中。

用于Visitor遍历的函数:

void accept (NodeVisitor visitor):对这个Node应用visitor

用于修改内容的函数,这类用得比较少:

void setPage (Page page):设置这个Node对应的Page对象

void setText (String text):设置文本

void setChildren (NodeList children):设置子节点列表

其他函数:

void doSemanticAction ():执行这个Node对应的 *** 作(只有少数Tag有对应的 *** 作)

Object clone ():接口Clone的抽象函数。

以上知识可以完整处理HTML页面的所有内容

参考资料:

htmlparser官方网站下载地址

>

要获取信息需要使用API

NavigatorGeolocationgeolocation

网页链接

需要JS基础

具体实现步骤可以参考W3School的教程

HTML5 地理定位

网页链接

望采纳

<body>

<script type="text/javascript">

<!--

function Request(strName){

var strHref = locationhref;

var intPos = strHrefindexOf("");

var strRight = strHrefsubstr(intPos + 1);

var arrTmp = strRightsplit("&");

for(var i = 0; i < arrTmplength; i++) {

var arrTemp = arrTmp[i]split("=");

if(arrTemp[0]toUpperCase() == strNametoUpperCase()) return arrTemp[1];

}

return "";

}

var id=Request("id");

if(id=="")

documentwrite ("没有ID值");

else

documentwrite ("ID值为:"+id);

//-->

</script>

</body>

查看效果:

保存代码文件为HTML文件如:aaahtml,打开会显示无ID值

再打开,后面加上ID参数如:aaahtmlid=333,打开。

用正则表达式的方法

<SCRIPT LANGUAGE="vbScript">

dim str

str="怎样从一个Html页面中提取所有汉字呢?不能有其它Html代码。"

alert RegExpTest("[\u4e00-\u9fa5]",str)

Function RegExpTest(patrn, strng)

Dim regEx, Match, Matches ' 建立变量。

Set regEx = New RegExp ' 建立正则表达式。

regExPattern = patrn ' 设置模式。

regExIgnoreCase = True ' 设置是否区分大小写。

regExGlobal = True ' 设置全局替换。

Set Matches = regExExecute(strng) ' 执行搜索。

For Each Match in Matches ' 遍历 Matches 集合。

RetStr = RetStr & MatchValue

Next

RegExpTest = RetStr

End Function

</SCRIPT>

以上就是关于html从数据库中读取数据(从网页获取数据写入数据库)全部的内容,包括:html从数据库中读取数据(从网页获取数据写入数据库)、HTML通过内嵌获取某网页元素中的内容并保存在变量当中、如何使用htmlparser提取网页文本信息等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/web/9776366.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-01
下一篇 2023-05-01

发表评论

登录后才能评论

评论列表(0条)

保存