html是一种静态语言。不能直接读取数据库里的内容。
如果要读数据库。你必须会一些简单的phpasp之类。这些是服务器端的程序语言,可以 *** 作数据库的是这个。而html是客户端的。肯定不能 *** 作数据库。
var obj = documentgetElementsByTagName("center")[0];
var str = objinnerText;
var beginIndex = strindexOf("[");
var endIndex = strindexOf("]");
var ipStr = strslice(beginIndex + 1,endIndex);
consolelog(ipStr);
HTMLParser具有小巧,快速的优点,缺点是相关文档比较少(英文的也少),很多功能需要自己摸索。对于初学者还是要费一些功夫的,而一旦上手以后,会发现HTMLParser的结构设计很巧妙,非常实用,基本各种需求都可以满足。比如问题中提到的提取网页文本信息。
用以下代码来实现提取网页文本信息
// 提取网页主要文本内容
public String getContent(){
content=(isHub())getHubEntries():getTopicBlock();
Systemoutprintln("<Content>:");
Systemoutprintln("=========================");
Systemoutprintln(content);
return content;
}
// 提取Hub类网页文本内容,如yahoo,sina等门户网
public String getHubEntries(){
StringBean bean=new StringBean();
beansetLinks(false);
beansetReplaceNonBreakingSpaces(true);
beansetCollapse(true);
try {
parservisitAllNodesWith(bean);
} catch (ParserException e) {
Systemerrprintln("getHubEntries()-->"+e);
}
parserreset();
return beangetStrings();
}
// 获取主题性(Topical)网页文本内容:对于博客等以文字为主体的网页效果较好
public String getTopicBlock(){
HasParentFilter acceptedFilter=new HasParentFilter(new TagNameFilter("p"));
NodeList nodes=null;
try {
nodes=parserextractAllNodesThatMatch(acceptedFilter);
} catch (ParserException e) {
Systemerrprintln("getTopicBlock"+e);
}
StringBuffer sb=new StringBuffer();
SimpleNodeIterator iter=nodeselements();
while(iterhasMoreNodes()){
Node node=iternextNode();
sbappend(nodegetText()+"\n");
}
parserreset();
return sbtoString();
}
另外,要知道的是
HTMLParser的核心模块是orghtmlparserParser类,这个类实际完成了对于HTML页面的分析工作。这个类有下面几个构造函数:
public Parser ();
public Parser (Lexer lexer, ParserFeedback fb);
public Parser (URLConnection connection, ParserFeedback fb) throws ParserException;
public Parser (String resource, ParserFeedback feedback) throws ParserException;
public Parser (String resource) throws ParserException;
public Parser (Lexer lexer);
public Parser (URLConnection connection) throws ParserException;
和一个静态类public static Parser createParser (String html, String charset);
提供几个常用的
对于树型结构进行遍历的函数,这些函数最容易理解:
Node getParent ():取得父节点
NodeList getChildren ():取得子节点的列表
Node getFirstChild ():取得第一个子节点
Node getLastChild ():取得最后一个子节点
Node getPreviousSibling ():取得前一个兄弟(不好意思,英文是兄弟姐妹,直译太麻烦而且不符合习惯,对不起女同胞了)
Node getNextSibling ():取得下一个兄弟节点
取得Node内容的函数:
String getText ():取得文本
String toPlainTextString():取得纯文本信息。
String toHtml () :取得HTML信息(原始HTML)
String toHtml (boolean verbatim):取得HTML信息(原始HTML)
String toString ():取得字符串信息(原始HTML)
Page getPage ():取得这个Node对应的Page对象
int getStartPosition ():取得这个Node在HTML页面中的起始位置
int getEndPosition ():取得这个Node在HTML页面中的结束位置
用于Filter过滤的函数:
void collectInto (NodeList list, NodeFilter filter):基于filter的条件对于这个节点进行过滤,符合条件的节点放到list中。
用于Visitor遍历的函数:
void accept (NodeVisitor visitor):对这个Node应用visitor
用于修改内容的函数,这类用得比较少:
void setPage (Page page):设置这个Node对应的Page对象
void setText (String text):设置文本
void setChildren (NodeList children):设置子节点列表
其他函数:
void doSemanticAction ():执行这个Node对应的 *** 作(只有少数Tag有对应的 *** 作)
Object clone ():接口Clone的抽象函数。
以上知识可以完整处理HTML页面的所有内容
参考资料:
htmlparser官方网站下载地址
>
要获取信息需要使用API
NavigatorGeolocationgeolocation
网页链接
需要JS基础
具体实现步骤可以参考W3School的教程
HTML5 地理定位
网页链接
望采纳
<body>
<script type="text/javascript">
<!--
function Request(strName){
var strHref = locationhref;
var intPos = strHrefindexOf("");
var strRight = strHrefsubstr(intPos + 1);
var arrTmp = strRightsplit("&");
for(var i = 0; i < arrTmplength; i++) {
var arrTemp = arrTmp[i]split("=");
if(arrTemp[0]toUpperCase() == strNametoUpperCase()) return arrTemp[1];
}
return "";
}
var id=Request("id");
if(id=="")
documentwrite ("没有ID值");
else
documentwrite ("ID值为:"+id);
//-->
</script>
</body>
查看效果:
保存代码文件为HTML文件如:aaahtml,打开会显示无ID值
再打开,后面加上ID参数如:aaahtmlid=333,打开。
用正则表达式的方法
<SCRIPT LANGUAGE="vbScript">
dim str
str="怎样从一个Html页面中提取所有汉字呢?不能有其它Html代码。"
alert RegExpTest("[\u4e00-\u9fa5]",str)
Function RegExpTest(patrn, strng)
Dim regEx, Match, Matches ' 建立变量。
Set regEx = New RegExp ' 建立正则表达式。
regExPattern = patrn ' 设置模式。
regExIgnoreCase = True ' 设置是否区分大小写。
regExGlobal = True ' 设置全局替换。
Set Matches = regExExecute(strng) ' 执行搜索。
For Each Match in Matches ' 遍历 Matches 集合。
RetStr = RetStr & MatchValue
Next
RegExpTest = RetStr
End Function
</SCRIPT>
以上就是关于html从数据库中读取数据(从网页获取数据写入数据库)全部的内容,包括:html从数据库中读取数据(从网页获取数据写入数据库)、HTML通过内嵌获取某网页元素中的内容并保存在变量当中、如何使用htmlparser提取网页文本信息等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)