文件检索是什么意思?

文件检索是什么意思?,第1张

信息检索的一种类型。按照一定方式将文献组织存储在某种载体上,并利用相应的方法或手段从中找出符合用户需要的文献的过程或技术。文献检索是科学技术信息工作的重要组成部分,是科学研究的前期工作。文献检索包括文献加工整序和文献查寻两个部分。按不同的加工深度,它可以分为题录检索、文摘检索和全文检索;按检索设备可分为手工文献检索和计算机文献检索。在图书馆文献检索服务工作中,对复杂课题所需文献的检索,一般要经历以下过程:①分析检索课题,包括分析检索课题的性质、读者已掌握文献的情况和要求、检索文献的类型、文种和时限以及检索的难易程度。②制定检索方案,主要是确定检索策略,安排适当人员,提出质量要求,规定完成的期限。③选择检索工具。④确定检索途径。⑤提供检索结果,包括原始文献的出处、收藏单位及索取号码,以便读者直接获取原始文献或文献复制品。 [文件检索工具]:

一、检索工具的涵义

检索工具是指用以报导、存贮和查找文献线索的工具。它是附有检索标识的某一范围文献条目的集合,是二次文献。 一般说来,检索工具应具备以激带下五个条件: ① 明确的收录范围; ② 有完整明了的文献特征标识; ③ 每条文献条目中必须包含有多个有检索意义的文献特征标识,并标明供检索用的标识; ④全部条目科学地、按照一定规则组织成为一个有机整体; ⑤ 有索引部分,提供多种必要的检索途径。 二、检索工具的类型 目前可供人们使用的检索工具有很多,不同的检索工具各有特点,可以满足不同的信息检索的需求。 检索工具有不同的分类方法,按加工文献和处理信息的手段不同可分为:手工检索工具和机械检索工具;按照出版形式不同可分为:期刊式检索工具,单卷式检索工具,卡片式检索工具,胶卷式检索工具;按照载体形式不同可分为明胡芦:书本式检索工具,磁带式检索工具,卡片式、缩微式、胶卷式检索工具。按照著录格式的不同可将检索工具分为以下四种类型。 1. 目录型检索工具 目录型检索工具是记录具体出版单位、收藏单位及其他做仿外表特征的工具。它以一个完整的出版或收藏单位为著录单元,一般著录文献的名称、著者、文献出处等。目录的种类很多,对于文献检索来说,国家书目、联合目录、馆藏目录等尤为重要。 2. 题录型检索工具 题录型检索工具是以单篇文献为基本著录单位来描述文献外表特征(如文献题名、著者姓名、文献出处等),无内容摘要,快速报道文献信息的一类检索工具。它与目录的主要区别是著录的对象不同。目录著录的对象是单位出版物,题录的著录对象是单篇文献。 3. 文摘型检索工具 文摘型检索工具是将大量分散的文献,选择重要的部分,以简炼的形式做成摘要,并按一定的方法组织排列起来的检索工具。按照文摘的编写人,可分为著者文摘和非著者文摘。著者文摘是指原文著者编写的文摘;而非著者文摘是指由专门的熟悉本专业的文摘人员编写而成。就其摘要的详简程度,可分为指示性文摘和报导性文摘两种。指示性文摘以最简短的语言写明文献题目、内容范围、研究目的和出处,实际上是题目的补充说明,一般在100字左右;报导性文摘以揭示原文论述的主题实质为宗旨,要做到基本上反映原文内容,讨论的范围和目的,采取的研究手段和方法与所得的结果与结论,同时也包括有关数据、公式,一般500字左右,重要文章可多达千字。 4. 索引型检索工具 索引型检索工具是根据一定的需要,把特定范围内的某些重要文献中的有关款目或知识单元,如书名、刊名、人名、地名、语词等,按照一定的方法编排,并指明出处,为用户提供文献线索的一种检索工具。

所谓检索表达格式,就是检索词与逻辑算符和其他算符的组合,算符包括与、或、非、“*”等等。 比如ABC三个检索词,写成 A and B not C 就是一条检索式,表达特定的检索意图。这种格式一般用于数据库的专业检索,但通常都能通过菜单式的高级检索来实现,不用记这么复杂的格式。

检索表达式&规则

检索运算符 and or not near/x same。

near/x和same运算符可以忽略,不常用。

检索运算符不区分大小写,AnD、and、AND都是一样的。当搜索两个关键词时,空格默认为and。也就是为什么你输入一篇论文的标题却能搜到很多文献的愿意。如果你想只搜到这一篇,需要给它加上引号,才会将整个题目视作一个单词。

运算符的优先级不用记,加括号就完事了 near/x>same>not>and>or。

通配符 “* ”,“$”,“?”。

“$”用来代替一个字符或什么没大都不做。如:检索flavo$r,可以检索到flavor和flavour,对于同一个单词的英美拼写差异非常有用。

“?”用来代替一个字符,它与$的差异就在于,不可以占坑不办事。如:检索Barthold?,可以检索到Bartholdi和Bartholdy等等。对于最后一个字符不确定的作者姓氏非常有用。(但是对我这种口语=0的英语渣渣,没啥用)

检索之神:“*”。

“*”可以代替任意长度的任意字符,但是使用“*”前至少要有三个字符,如:zeo加“*”是合法的,ze加“*”是不合法的。同理后面也是一样至少有三个字符,如bio加“*”。

PS:星号的检索规则还有很多,只是因为程序员要把所有情况都考虑到,实际使用起来,那些规则基本用不上。记得“*”通配符只在检索主题字段的时候使用即可。 作者字段可以用吗?你想想你真的会用吗?还不是在一篇论文枯滚竖上看到谁的名字直接复制过来搜,怎么会用得到通配符,虽然有规则,但是没必要知道。

进阶规则:词形还原+词干提取。

词形还原是默认开启的,当你检索某个单词时,会自动检索相应的词备橡根,以此避免词形变化带来的工作量。如:检索communicate。

find 命令的基本结构如下:

find 命令手册 : man find

find 命令中的 -name 选项可以根据文件名称进行检索( 区分大小写 )。如需要忽略文件名中的大小写,可以使用 -iname 选项。

-name 和 -iname 两个选项都支持 wildcards 。如:

例1:查找 /usr 目录下所有文件名以 .txt 结尾的文件

例2:查找 /usr 目录下所有文件名刚好为 4 个字符的文件

例3:查以大写字母开头的文件

例4:查以两个小写字母和两个数字开头的txt文件

类似的还有:

-lname -ilname

-path -ipath

-regx -iregx

有些时候,你需要在搜索时匹配某个文件或目录的 完整路径 ,而不仅仅是匹配文件名。可以使用 -path 或 -ipath 选项。

例1:如查找 /usr 下所有文件名以 .txt 结尾的文件或目录,且该文件的父目录必须是 src 。可以使用以下命令:

例2:在当前目录除aa之外的子目录内搜索 txt文件

例3:在当前目录,不再子目录中,查找txt文件

如果只想搜索得到文件 目录,即不想它们同时出现在结果中。可以使用 -type 选项指定文件类型。

-type 选项最常用的参数如下:

例:检索 /usr 下所有文件名以 python 开头的目录

find 命令支持 -empty 选项用来检索 为空 的文件或目录。空文件即文件里没有任何内容,空目录即目录中没有任何文件或子目录。

例:检索用户主目录下所有的空目录

find 命令也允许用户对当前的匹配条件进行 “反义” (类似于 逻辑非 *** 作)。

如需要检索 /usr 下所有文件名 以 .txt 为后缀的文件。可以使用以下命令:

也可以“翻转”任何其他的筛选条件,如:检索 /usr 下所有内容不为空的文件

为了检索归属于特定用户的文件或目录,可以使用 -user 选项。

例:检索根目录下所有属主为 starky 的文件

类似于 -user 选项, -group 选项则可以根据文件或目录的 属组 进行检索。

有些时候,需要根据文件创建或修改的时间进行检索。

Linux 系统中,与文件相关联的时间参数有以下三种:

与此对应的是 find 命令中的 -mtime , -atime 和 -ctime 三个选项。

这三个选项的使用遵循以下示例中的规则:

检索 /usr 下两天前被修改过的文件

如果觉得 -mtime 等选项以 为单位时间有点长,还可以使用 -mmin , -amin , -cmin 三个选项。

查找比 aa.txt 的文件

查找比 aa.txt 的文件

查找比aa.txt新,比bb.txt旧的文件

-size 选项允许用户通过文件大小进行搜索(只适用于文件,目录没有大小……)。

表示文件大小的单位由以下字符组成:

另外,还可以使用 + 或 - 符号表示 大于 小于 当前条件。

检索文件大小高于 1 GB 的文件

find 命令可以使用 -perm 选项以文件权限为依据进行搜索。

9.1使用符号形式

例1:如需要检索 /usr 目录下权限为 rwxr-xr-x 的文件,可以使用以下命令:

例2:搜索 /usr 目录下所有权限为 r-xr-xr-x (即系统中的所有用户都只有读写权限)的文件和目录,可以使用以下命令:

很多时候,我们只想匹配文件权限的一个睁樱 子集 。比如,检索可以直接被任何友慎用户执行的文件,即只关心文悉告丛件的执行权限,而不用管其读写权限是什么。

上述的需求可以通过以下命令实现:

其中 a=x 前面的 / 符号即用来表示只匹配权限的某个子集(执行权限),而不用关心其他权限的具体设置。

9.2使用数字形式

例如:搜索 /usr 目录下权限为 644 (即 rwxr-xr-x )的文件

find 命令默认是以 递归 的方式检索项目的,这有时候会导致得到的结果数量非常巨大。可以使用 -maxdepth 限制 find 命令递归的层数。

例如:搜索时向下递归的层数最大为 3

在之前的例子中有出现多个搜索条件的 组合 以及对某个搜索条件的 反转

实际上 find 命令支持 “and” “or” 两种逻辑运算,对应的命令选项分别是 -a 和 -o 。通过这两个选项可以对搜索条件进行更复杂的组合。

此外还可以使用 小括号 对搜索条件进行 分组 。注意 find 命令中的小括号常需要用 单引号 包裹起来。因小括号在 Shell 中有特殊的含义。

如检索 /usr 下文件名以 python 开头且类型为目录的文件

该命令等同于:

更复杂的组合形式如:

例4:在除dir0及子目录以外的目录下查找txt后缀文件

说明:-a 应该是and的缩写,意思是逻辑运算符‘与’(&&)-o应该是or的缩写,意思是逻辑运算符‘或’(||), -not 表示非.

命令行的意思是:如果目录dir0存在(即-a左边为真),则求-prune的值,-prune 返回真,‘与’逻辑表达式为真(即-path './dir0*' -a -prune 为真),find命令将在除这个目录以外的目录下查找txt后缀文件并打印出来;如果目录dir0不存在(即-a左边为假),则不求值-prune ,‘与’逻辑表达式为假,则在当前目录下查找所有txt后缀文件。

-delete 选项可以用来删除搜索到的文件和目录。

例如:删除 home 目录下所有的空目录:

-exec 选项可以对搜索到的结果执行执行该参数所给出的shell命令。形式为 command {} \,注意{}与\之间有空格 。每当 find 命令检索到一个符合条件的文件,会使用其完整路径取代命令中的 {} ,然后执行 -exec 后面的命令一次。

例1:如需要将 home 目录下所有的 MP3 音频文件复制到移动存储设备(假设路径是 /media/MyDrive ),可使用下面的命令:

其中的 大括号 ( {} )作为检索到的文件的 占位符 ,而分号( )作为命令结束的标志。因为分号是 Shell 中有特殊含义的符号,所以需要使用单引号括起来或前面加上转义符 \ 。

例2:查看当前目录下的所有普通文件,并在 - exec 选项中使用 ls -l 命令将它们列出

例3:在多个文件中检索某个指定的字符串。如在用户主目录下的所有文件中检索字符串 hello ,可以使用如下命令:

创建 Gzip 格式的压缩文件的命令为:

现在假设需要将用户主目录下所有的 MP3 文件添加到压缩包 music.tar.gz 中,直观的感觉是,其命令应为如下形式:

实际情况是,这样得到的 music.tar.gz 其实只包含一个 MP3 文件。原因是 find 命令 每次 发现一个音频文件,都会再执行一次 -exec 选项后面的压缩命令。导致先前生成的压缩包被覆盖。

可以先让 find 命令检索出所有符合条件的音频文件,再将得到的 文件列表 传递给后面的压缩命令。完整的命令如下:

如果想浏览搜索到的文件(目录)的详细信息(如权限和大小等),可以直接使用 -ls 选项。

例如:浏览所有 1G 以上大小的文件的详细信息

与exec作用相同,区别在于,在执行命令之前,都会给出提示,让用户确认是否执行

与 exec 作用相同 ,起承接作用。区别在于 |xargs 主要用于承接删除 *** 作 ,而 -exec 都可用 如复制、移动、重命名等

例1:查找以ap或may开头的文件

例2:查硬连接数大于2的文件或目录

例3:查找含特定字符串的文件。查找当前目录下含有"the string you want find…"字符串的文件:

例4:从根目录开始查tmpfile,一旦查到马上删除

例5:如何用find查找某一天更改的文件?可以使用这一行命令来实现:

A Guide to the Linux “Find” Command

https://www.cnblogs.com/wanqieddy/archive/2011/06/09/2076785.html

https://blog.csdn.net/l_liangkk/article/details/81294260

https://blog.csdn.net/hetoto/article/details/84101745

http://c.biancheng.net/view/779.html

http://blog.chinaunix.net/uid-24648486-id-2998767

https://www.runoob.com/linux/linux-comm-find.html

https://www.jb51.net/article/147275.htm


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/tougao/12277436.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-24
下一篇 2023-05-24

发表评论

登录后才能评论

评论列表(0条)

保存