书城社科档案信息检索
12551300000042

第42章 计算机信息检索常用方法和步骤

一、计算机信息检索的方法

(一)布尔逻辑检索

布尔逻辑检索就是利用布尔逻辑运算符(AND、OR、NOT等)来对提问式中的各个检索词进行逻辑组配,以确定文献被命中的条件和组配次序的检索方法。它适用面最广,使用频率最大。布尔逻辑运算符有以下三种。

1.AND(或,):逻辑与

“逻辑与”用“AND”或“,”表示,检索式写作“A AND B”或“A,B”,是一种用于相交关系的组配,表示检索结果应同时含有检索词A和B的文献信息。“逻辑与”运算是一种缩小化检索。检索时,“逻辑与”组配越多,检索限定范围越小,检索命中的文献结果也就越少。

2.OR(或+):逻辑或

“逻辑或”用“OR”或“+”表示,检索式写作“A ORB”或“A+B”,是一种用于并列关系的组配,表示检索结果含有检索词A或者B,或同时有A和B的文献信息。“逻辑或”运算是一种命中条件扩大化的检索。检索时,使用“逻辑或”可连接同一检索式的多个同义词、近义词和相关词,扩大检索范围,检索命中的文献结果也就更多。例如某用户想查找研究杜甫的文献,检索途径选择题名后,输入“杜甫”,命中500多篇。但考虑到研究杜甫的文献题名中未必都出现“杜甫”两字,也可能会出现“杜诗”、“李杜”,于是改用“杜甫+杜诗+李杜”表达式,结果命中600多篇。

3.NOT(或-):逻辑非

“逻辑非”用“NOT”或“-”表示,检索式写作“A NOTB”或“A-B”,是一种用于排除关系的组配,表示检索含有检索词A而不含检索词B的文献信息。

“逻辑非”运算是一种缩小命题的检索。组配越多,检索命中的文献结果越少。使用“逻辑非”可以排除不希望出现的概念,提高查准率。常用于主题概念去除某段年份的文献、某个语种或去除某种类型(会议、期刊)的文献等情况。

当多个布尔逻辑运算符在一个检索式中出现时,它们的运算“级别”是不同的。大部分数据库是这样规定的:“-”优先级最高,“*”次之,“+”最低。在有括号的情况下,先执行括号内的逻辑运算;在多层括号时,先执行最内层括号中的运算。用这些逻辑运算符将检索词组配构成检索式,计算机将根据提问式与系统中的记录进行匹配,当两者相符时则命中,并自动输出该文献记录。

(二)截词检索

所谓截词检索,就是指用给定的词干做检索词,检索与含有该词干的全部检索词相关的文献。由于西文单词是由字母组成,许多单词具有相同的词干,为了查找某一词干的不同变化形式,做到一“词”多用,防止漏检,可进行截词检索。它可以起到扩大检索范围、提高查全率、节省检索时间等作用,对西文文献尤为重要。截词检索首先要对检索词进行截断,根据截断的位置不同,分为后截断、前截断、中截断、复合截断;根据截断的数量不同,分为有限截词(即一个截词符只代表一个字符)和无限截词(一个截词符可代表多个字符)。不同的系统所用的截词符也不同,常用的有“?”、“、”、“$”、“*”等。

———后截断(右截断),是将截词符放在一个字符串的右方,满足截词符左方所有字符的记录都为命中记录。例如:“HEAL*”,则前4个字符为“HEAL”的所有词都满足条件,系统可检出含有“HEALTH”、“HEALTHY”等词汇的文献。

———前截断(左截断),是将截词符放在一个字符串的左方,满足截词符右方所 有 字 符 的 记 录 都 为 命 中 记 录。如:“?GRADUATE”可 检 出 含 有“POSTGRADUATE”、“UNDERGRADUATE”等检索词的文献。

———中截断,是将截词符放在一个字符串的中间,满足截词符两侧所有字符的记录都为命中记录。这种方法对于解决英美不同拼法、不规则的单复数变化很有用。如:“M?N”可检出“MAN”、“MEN”等检索词的文献。

———复合截断,又称前后截断,是将前截断和后截断结合使用,即中间一致检索。如:“?MIGRAT?”可检出含有“MIGRATE”、“IMMIGRATE”、“EMIGRATE”、“MIGRANT”、“IMMIGRANT”、“EMIGRANT”等检索词的文献。

———有限截断,允许截去有限个字符,截几个字符就加几个“?”,空一格后加 一 个“?”表 示 截 词 符。如:“STUD????”可 检 出:STUDY、STUDIES、STUDIED、STUDING,其词尾可有0—3个字母。

无限截断,允许截去无限个字符,又称开放式截断。如:“COMPUTE?”的检索结果包括COMPUTE、COMPUTERS、COMPUTERED、COMPUTERING、COMPUTERIZATION……

(三)字段检索

字段检索,就是把检索词或检索式限定在某个(些)字段中。字段一般有两种类型,一是基本字段,即反映文献内容特征的主要字段;二是辅助字段,即反映文献外部特征的次要字段。如果某一记录的指定字段中含有用户输入的检索词,即为命中,否则,就将该记录排除。检索时,既可以对检索词进行字段限定,也可以对检索式或检索生成的文献集合进行字段限定。限定的方法一般是把指定字段的标识符(代码)作为后缀,加到检索词或检索式之后。

采用基本字段限定检索词的范围时,通常将字段代码放在检索词后面,中间用“/”隔开,被称为字段后缀检索,格式为:检索词/字段代码,如“档案信息/TI”(TI为题名字段代码),表示查找题名字段中含有“档案信息”的文献。使用辅助字段时要用字段前缀检索,即在字段代码放在检索次的前面,中间用“=”隔开,如“JN=WALLSTREET”(JN为期刊字段代码),表示查找发表在 WALLSTREET期刊上的文献。

(四)词位置检索

词位置检索就是利用位置运算符连接各个检索词,让计算机进行相应的位置逻辑运算,从而查找出所需信息的检索方法。其中,位置运算符是用于规定检索词在文献记录中的位置关系的符号。在实际检索中,利用位置运算符可有效提高查全率和查准率。

常用的位置运算符有:

1.有间断无序邻接

邻接符号NN,检索式为A(NN)B,表示它关联的两个概念 A、B之间可以插入0—N个其他词汇,且两个概念前后顺序不定(顺序可以颠倒),其中,N代表可以插入的词的个数。当N=0时,检索式可直接写作:A(N)B,例如“档案馆(2N)数字化”表示在“档案馆”和“数字化”两个词中间(顺序可以颠倒)不含有其他词(N=0)或包含有1个词(N=1)或两个词(N=2)的所有组合都符合检索的标准。

当连接符号只有(N)时表示用此符号连接的两个检索词(如A(N)B)可以按任意次序紧靠在一起,它们之间除可以有空格或标点外,不能有其他检索词(包括单词、字母或代码),即N=0.

2.有间断有序邻接

邻接符号NW,检索式为A(NW)B,表示它关联的两个概念A、B间可以插入0—N个其他词汇,但两个概念前后顺序固定,不可改变,其中N代表最多可以插入词的个数。当N=0时,检索式可以直接写作:A(W)B,它们之间除可以有空格或标点外,不能有其他检索词(包括单词、字母或代码)。

3.同字段邻接

邻接符号F,要求被连接的检索词出现在同一字段(FIELD)中,词序可变,字段类型可用后缀符限定。

例如:“MARKET?(F)INFORMATION/DE,TI”说明“MARKET?”和“INFORMATION”两个词必须同时出现在叙词字段或题名字段中。

4.同句邻接

邻接符号S,表示被连接的检索词出现在同一子字段(SUBFIELD)或同一自然句(SENTENCE)中,两个词之间可夹若干词,其先后顺序不受限制。使用该词位置运算符检索能使检索结果更准确些,但由于词与词之间位置关系限制比较严,所以有可能丢失一些与检索课题相关但词位置方面却不能满足检索条件的文献。从语言使用风格和技巧来看,同一思想、同一概念的表达可以有不同的形式,而且不同的作者也可能有不同的表达形式。因此,为了提高检全率可以放松对词与词之间的要求,改用同句位置运算符进行检索。

5.同文邻接

邻接符号C,它是CITATION的缩写,表示所连接的两个词在一篇文献的记录中查找,只要这两个词同时出现在该记录中,词序不分先后,也不分字段,中间插入词的个数不限。

6.同标引邻接

邻接符号L,是LINK的缩写,它要求所连接的两个检索词同时出现在标引词字段中,而且具有词表规定的等级关系。因此,这个运算符只使用于有正式词表,且表中词具有等级关系的数据库。

7.同自然段邻接

邻接符号P,是PARAGRAPH的缩写,检索式为A(P)B,表示它所关联的两个概念必须在同一自然段中出现。

二、计算机信息检索的步骤

(一)检索准备工作

1.分析检索课题

通过对检索课题进行全面的分析研究,明确待查课题的学科性质、主要内容、相关学科及检索目标,所需文献的类型、年限、语种、输出方式、检索费用等内容。

2.选用检索系统或数据库

利用哪些检索系统(或数据库)来进行查找,这直接与检索结果有关。要根据课题要求,综合考虑选用的检索系统(或数据库)涉及的学科范围、文献类型、存储年限、检索费用、使用方法等,选择与所查课题相适应、质量较高、检索手段较完善的检索系统和数据库。

3.选择检索词

检索词(或检索项)既是构成检索策略的基本元素,同时也是进行逻辑组配和编写提问检索式的最小单位。检索词选择是否恰当,将直接影响检索效果。在全面了解检索课题的相关问题后,提炼主要概念与隐含概念,排除次要概念,以便确定检索词。检索词的确定一般有以下几种方法:

一是选用主题词:当所选择的数据库具有规范化词表时,应优先从词表规定的专业范围出发,选用各学科具有检索价值的基本名词术语。

二是选用数据库规定的代码:许多数据库的文档中使用各种代码来表示各种主题范畴,有很高的匹配性。例如,世界专利文摘数据库中的分类代码、化学文摘数据库中的化学物质登记号等。

三是选用常用的专业术语:在数据库没有专用的词表或词表中没有可选的词时,可以从一些已有的相关专业文献中选择常用的专业术语作为检索词。

四是选用同义词与相关词:同义词、近义词、相关词、缩写词、词形变化等应尽量选全,以提高查全率。

4.编写检索提问式

在选择好检索词后,检索用户可以用布尔运算符或位置运算符对各检索词进行组配,构造检索提问式。从某种意义上讲,检索提问式是检索策略的具体体现,是检索构造中的关键环节,一个准确合理的检索提问式可以极大地提高检索的质量和速度。不同的检索者拟定检索式的方法和技巧各有不同,但有几条基本原则应遵守:首先,要符合概念组配的原则;其次,应拟定精练的检索式,能化简的检索式尽量化简。同时,对于位置运算符的选择,应根据文献中常见的词间关系来选择。把选择好的检索词用系统规则或允许使用的符号连接组配起来,便成为一条检索式。构造检索式常用到的组配符号主要有布尔运算符、截词符、位置运算符、字段限制符等。

(二)上机操作

步骤:进入检索系统—选择数据库或文档—选择检索途径—键入检索词—组配检索词—审核命中文献—优化检索结果—打印检索结果—退出检索系统。