如何遍历WEB文件夹下所有HTML文件进行关键字搜索问题

如何遍历WEB文件夹下所有HTML文件进行关键字搜索问题,第1张

配置Index Server

在执行Web服务器上的搜索之前,首先必须创建至少一个索引,并遵循以下步骤完成这项工作。

⒈启动Windows 2000 Server服务器上的索引。

缺省情况下选择图标位于管理工具组中的计算机管理。窗口的右边提供关于当前在服务器上

存在的索引信息。默认有两个索引:System和Web。

⒉要创建新的索引,用鼠标右键单击索引服务或右边的面板,选定新建编录。

显示添加编录对话框,指定索引的名称并用浏览按钮选取位置。索引服务不会立即开始索引,此时将d出一条消息框,单

击确定继续。为了达到最佳的性能,索引服务可以放在和Web服务器隔离开的硬盘上。

⒊指定索引的目录,用右键单击新建的编录名,从d出选单中选定属性,将出现如图2所示的对话框。

第一个选项卡常规显示刚刚输入的内容,在第二个选项卡跟踪中的WWW服务器下拉列表中选取你要索引的Web网站。

⒋有了创建的编录,现在可以挑选你想在索引中包括的目录。

这个强大的特性使你能创建几个用不同方式搜索内容的索引。例如,你可能想快速浏览从完整的文本中所引出的章节,这

个特性使你能在Index Server内执行这项任务。要添加一个目录,用右键单击右边的面板,选定新建目录。在出现的对话

框中通过浏览按钮选择目录并指定别名。如果必须登录到服务器才能得到需要的内容,则可以提供将使用的用户名和密

码,以便得到需要的内容。如果想检查受保护的内容,则更要维护内容的安全性,这一特性非常有用,这样只有被授权的

用户(也许是那些为此付钱的人)才能得到完整的内容。

还可以使用这个工具排除Web站点中不想索引的子目录。例如,检索Scripts/CGI目录就不会对用户有什么用。为此,只要

双击该目录,将包括在索引中选定为否即可,见图3。

⒌在已经为站点包括/排除了所有目录后,用右键单击右面板,从d出选单中选定启动,重新启动Index Server服务。

服务器将开始浏览已经创建的索引并开始检索内容。

<!DOCTYPE HTML>

<html>

<head>

<meta charset="UTF-8" />

<title>JS</title>

<STYLE>

</STYLE>

<script type="text/javascript">

var fso, f, fc, s, ti

    fso = new ActiveXObject ("Scripting.FileSystemObject")

    f = fso.GetFolder ("I:\\2013313workspace\\baidu")

    fc = new Enumerator (f.files)

    for ( !fc.atEnd () fc.moveNext ())

    {

    s = String (fc.item ())

    if (!!s.match (/^.*txt$/i))

    {

    ti = s.substring (s.lastIndexOf ('\\') + 1)

    document.write (ti + "<br / >")

    }

    }

</script>

</head>

<body>

</body>

</html>

已经解决了:

CString CTestDlg::ParseElementFromResponse(CString strResponse)

{

CString strRet("")

//declare our MSHTML variables and create a document

MSHTML::IHTMLDocument2Ptr pDoc

MSHTML::IHTMLDocument3Ptr pDoc3

MSHTML::IHTMLElementCollectionPtr pCollection

MSHTML::IHTMLElementPtr pElement

HRESULT hr = CoCreateInstance(CLSID_HTMLDocument, NULL, CLSCTX_INPROC_SERVER, IID_IHTMLDocument2, (void**)&pDoc)

//put the code into SAFEARRAY and write it into document

SAFEARRAY* psa = SafeArrayCreateVector(VT_VARIANT, 0, 1)

VARIANT *param

bstr_t bsData = (LPCTSTR)strResponse

hr = SafeArrayAccessData(psa, (LPVOID*)&param)

param->vt = VT_BSTR

param->bstrVal = (BSTR)bsData

hr = pDoc->write(psa)

hr = pDoc->close()

SafeArrayDestroy(psa)

//I'll use IHTMLDocument3 to retrieve tags. Note it is available only in IE5+

//If you don't want to use it, u can just run through all tags in HTML

//(IHTMLDocument2->all property)

pDoc3 = pDoc

//display HREF parameter of every link (A tag) in ListBox

pCollection = pDoc3->getElementsByTagName(L"input")

for(long i=0 i<pCollection->length i++)

{

pElement = pCollection->item(i, (long)0)

if(pElement != NULL)

{

//second parameter says that you want to get text inside attribute as is

strRet += (LPCTSTR)bstr_t(pElement->getAttribute("name", 2))

strRet += "="

strRet += (LPCTSTR)bstr_t(pElement->getAttribute("value", 2))

strRet += ""

}

}

return strRet

}


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/tougao/12070294.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-20
下一篇 2023-05-20

发表评论

登录后才能评论

评论列表(0条)

保存