如何使用Lucene对html文件进行索引

如何使用Lucene对html文件进行索引,第1张

和普通文件一样的 *** 作,先正则过滤掉HTML标记,只取内容索引

public virtual void Add(PageViewModel model)

{

try

{

EnsureDirectoryExists()

StandardAnalyzer analyzer = new StandardAnalyzer(LUCENEVERSION)

using (IndexWriter writer = new IndexWriter(FSDirectory.Open(new DirectoryInfo(IndexPath)), analyzer, false, IndexWriter.MaxFieldLength.UNLIMITED))

{

Document document = new Document()

document.Add(new Field("id", model.Id.ToString(), Field.Store.YES, Field.Index.ANALYZED))

document.Add(new Field("content", model.Content, Field.Store.YES, Field.Index.ANALYZED))

document.Add(new Field("contentsummary", GetContentSummary(model), Field.Store.YES, Field.Index.NO))

document.Add(new Field("title", model.Title, Field.Store.YES, Field.Index.ANALYZED))

document.Add(new Field("tags", model.SpaceDelimitedTags(), Field.Store.YES, Field.Index.ANALYZED))

document.Add(new Field("createdby", model.CreatedBy, Field.Store.YES, Field.Index.NOT_ANALYZED))

document.Add(new Field("createdon", model.CreatedOn.ToShortDateString(), Field.Store.YES, Field.Index.NOT_ANALYZED))

document.Add(new Field("contentlength", model.Content.Length.ToString(), Field.Store.YES, Field.Index.NO))

writer.AddDocument(document)

writer.Optimize()

}

}

catch (Exception ex)

{

if (!ApplicationSettings.IgnoreSearchIndexErrors)

throw new SearchException(ex, "An error occured while adding page '{0}' to the search index", model.Title)

}

}

你可以试试拖把更名器,可以将文件名导出为文本文档,至于建索引,你可以安装google桌面搜索或者百度桌面搜索,然后在桌面搜索中搜索相应的文件夹名,在把结果页面另存为html文档,就可以了。试试看吧!

拖把更名器

http://xyxg.bokee.com/1152284.html

google desktop search

http://desktop.google.com/

百度桌面搜索

http://disk.baidu.com/

配置Index Server

在执行Web服务器上的搜索之前,首先必须创建至少一个索引,并遵循以下步骤完成这项工作。

⒈启动Windows 2000 Server服务器上的索引。

缺省情况下选择图标位于管理工具组中的计算机管理。窗口的右边提供关于当前在服务器上

存在的索引信息。默认有两个索引:System和Web。

⒉要创建新的索引,用鼠标右键单击索引服务或右边的面板,选定新建编录。

显示添加编录对话框,指定索引的名称并用浏览按钮选取位置。索引服务不会立即开始索引,此时将d出一条消息框,单

击确定继续。为了达到最佳的性能,索引服务可以放在和Web服务器隔离开的硬盘上。

⒊指定索引的目录,用右键单击新建的编录名,从d出选单中选定属性,将出现如图2所示的对话框。

第一个选项卡常规显示刚刚输入的内容,在第二个选项卡跟踪中的WWW服务器下拉列表中选取你要索引的Web网站。

⒋有了创建的编录,现在可以挑选你想在索引中包括的目录。

这个强大的特性使你能创建几个用不同方式搜索内容的索引。例如,你可能想快速浏览从完整的文本中所引出的章节,这

个特性使你能在Index Server内执行这项任务。要添加一个目录,用右键单击右边的面板,选定新建目录。在出现的对话

框中通过浏览按钮选择目录并指定别名。如果必须登录到服务器才能得到需要的内容,则可以提供将使用的用户名和密

码,以便得到需要的内容。如果想检查受保护的内容,则更要维护内容的安全性,这一特性非常有用,这样只有被授权的

用户(也许是那些为此付钱的人)才能得到完整的内容。

还可以使用这个工具排除Web站点中不想索引的子目录。例如,检索Scripts/CGI目录就不会对用户有什么用。为此,只要

双击该目录,将包括在索引中选定为否即可,见图3。

⒌在已经为站点包括/排除了所有目录后,用右键单击右面板,从d出选单中选定启动,重新启动Index Server服务。

服务器将开始浏览已经创建的索引并开始检索内容。


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zaji/7007910.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-03-31
下一篇 2023-03-31

发表评论

登录后才能评论

评论列表(0条)

保存