用C语言编写一个快速文件检索程序,检索关键字

用C语言编写一个快速文件检索程序,检索关键字,第1张

#include<stdio.h>

main()

{

    char *ptr, filename[50]/*定义变量及数组为字符橘颤型*/

   谨闷 printf("please input the file name you want to search:\n")

    scanf("%s", filename)/*输入要查找的文件名*/

    if ((ptr = searchpath(filename)) != NULL)

        printf("the path is:%s\n", ptr)/*将文件所在的路径输出*/

    祥伍弯else

        printf("cannot find")/*若文件未找到,输出双引号内提示信息*/

}

目前行业网站的全文检索的方式主要有两种

方式一:通过数据库自带的全文索引

方式二:通过程序来自建全文索引系统

以sql server 2005为例

2005本身就自带全文索引功能,你可以先对数据库表

建立索引,具体如何建索引网上搜索一下,建立完索引之后,你就可以用sql来实现检索功能,例如:select * from ytbxw where

contaiins(字段,' 中国')多个查询值之间可以用and 或

or来实现,在单表以及单表视图上建全文索引对2005来誉陵说根本不是问题,但在多表视图建全文索引2005目前还无法实现这个功能,拿

www.ytbxw.com为例,其每个栏目的信息都是分开存放的,所以在检索上就无法用该方法来解决这个问题.

下面重点说一下如何用程序来实现检索功能

如果你想自己开发一个悉消全文检索系统,我想这是相当复杂事情,要想实现也不是那么容易的事情,所以在这里我推荐一套开源程序,那就是dotlucene,我想大家可能都听过这个东东吧,那我就讲讲如何来实现多表情况下的全文检索.

1、新建winform项目,把lucene.net.dll添加到该项目中来

2、创建一个类,类名可以自己取

public class indexer

{

private indexwriter writer

 //在指定路径下创建索引文件

public indexer(string directory)

{

writer = new indexwriter(directory, new standardanalyzer(), true)

writer.setusecompoundfile(true)

}

 //将信息添加到索引文件中

/*

field.text:为索引+读取

field.unindexed:不需要做索引

*/

public void addhtmldocument(string path,string title,string content)

{

document doc = new document()

doc.add(field.text("text", content))

doc.add(field.unindexed("path", path))

doc.add(field.text("title", title))

writer.adddocument(doc)

}

//解析html,过滤html代码

private string parsehtml(string html)

{

string temp = regex.replace(html, "<[^>]*>", "")

return temp.replace(" ", " ")

}

//从页面中获取文章标题

private string gettitle(string html)

{

match m = regex.match(html, "<title>(.*)</title>")

if (m.groups.count == 2)

return m.groups[1].value

return "(unknown)"

}

//添加新闻到索引

public void addnews()

{

//从数据库获取记录(这部分略过)

for (int i = 1i <= pagesizei++)

{

rootid = int.parse(dr["classid"].tostring().substring(0, 2))

// 写入索引

addhtmldocument(http://www.ytbxw.com + dr["id"].tostring() + ".html",

dr["title"].tostring(), parsehtml(dr["content"].tostring()))

}/info/

}

//关闭索庆陆戚引

public void close()

{

writer.optimize()

writer.close()

}

}

#include "stdio.h"

#include <stdlib.h>

#include <string.h>

#include "time.h"

char s[2000][1501]

int 此唯main(int argc,char *argv[]){

char t[26],f[5]="ABCD",*pt

int i,j,k,n

srand((unsigned)time(NULL))

for(i=0i<2000i++){

for(n=rand()%501+1000,j=0j<ns[i][j++]=f[rand()%4])

s[i][j]='\0'

}

for(i=0i<25t[i++]=f[rand()%4])

t[i]='\0'

printf("Looking for \'%s\'...\n",t)

for(n=j=k=i=0i<2000i++){

if((pt=strstr(s[i],t)) &搭肆& strstr(pt+1,t)){

pt=NULL

n=2

break

}

if(pt && ++n==1)

k=i,j=pt-s[i]

if(n>1)

break

}

if(n==1)

printf("There is only one \'%s\', which began from s[%d][%d].\n",t,k,j)

else if(n>1)

printf("Find more...\n")

else

printf("Could not find...\n")

return 0

}

运行样例森枝培:


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/yw/12237989.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-22
下一篇 2023-05-22

发表评论

登录后才能评论

评论列表(0条)

保存