书城教材教辅网络营销理论与实务
10701400000019

第19章 3 计算机检索基本方法

计算机检索系统采用的检索词和信息标识词对比运算的主要方法有:布尔逻辑检索、截词检索、限制检索、加权检索、词位置检索和全文检索等。

3.3.1布尔逻辑检索

布尔逻辑是表达不同概念之间关系的符号逻辑系统。利用布尔逻辑算符进行检索词语或代码的逻辑组配,是计算机文献检索系统中最常使用的一种检索方法。

布尔逻辑运算采用逻辑和、逻辑乘、逻辑差等算符,指定文献标引词中必须存在的条件或不能出现的条件。逻辑运算符在检索提问式中起着逻辑组配的作用,它能把一些具有简单概念的检索词组配成一个具有复杂概念并可由计算机执行逻辑运算的检索式,凡符合布尔逻辑检索式所规定条件的文献,即为命中文献,不符合的为非命中文献。

1)逻辑乘

文献应逻辑同时乘也含叫有逻算辑符与左,右其两运边算的符检号索多词用。逻“A辑ND乘”运或算*“可以”缩,小表命示中命范中围,起到缩检作用。如,要查询课题“计算机文献检索”,可用逻辑乘运算连接“计算机”和“文献检索”两个主题词,其提问式为:

计算机AND文献检索

上面这种“逻辑与”关系,(阴影部分为命中文献):

2)逻辑和

逻辑和也叫做逻辑或,其运算符号用“OR”或“+”,表示命中文献中至少必须出现该算符左右两边的一个检索词,也可以两个词目同时出现。逻辑和运算可以扩大命中范围,起到扩检的作用。如要查询有关股票和期货方面的文献,该检索课题对用关键词“股票”和“期货”标引的文献都感兴趣,可以用逻辑和运算构造以下提问式:

股票OR期货

其逻辑关系表示:

3)逻辑差

逻辑差也叫做逻辑非,其运算符号多用“NOT”或“-”表示命中文献须出现算符左边的检索词,但不能出现右边的检索词。逻辑差可以缩小检索范围,提高文献的检准率。如检索者对成人高等教育以外的“高等教育”方面的文献感兴趣,可用逻辑差运算,构造如下检索提问式:

高等教育NOT成人教育其逻辑关系表示:

4)布尔逻辑检索的运算次序

计算机检索系统一般都是从左到右进行布尔逻辑检索处理的。但是,各种算符的运算次序,不同的系统有不同的规定。美国DIALOG和我国“全国报刊索引数据库”的检索系统运算次序是:NOT最先执行,AND其次,OR最后。有些系统采用括号优先运算,多层括号时,先执行最内层的运算。

3.3.2截词检索

截词检索就是在检索词中保留相同的部分(即词干),用相应的截词符代替可变化部分,并代表许多同词干检索用词的一种检索方*“”作为有限截断符和无限截断符举例如下。

1)右截断

右截断,也叫做后截断,将截词符号放在提问条件的右方,只要检索词前方部分符合提问条件的都为命中信息。因此,右截断的检索性质是前方一致。右截断是我国计算机信息检索系统最普遍使用的截词检索技术。

例:人*口

这是一个主题词无限右截断的例子,信息标识的词干为“人口”的信息都满足该检索条件。符合该检索条件的检索词有:人口、人口地理、人口地图、人口调查、人口分布、人口构成、人口经济学、人口素质等。

2)左截断

左截断,也叫做前截断。它与右截断相对,将截断符放在提问条件的左方,只要检索词的后方部分符合提问条件的都为命中信息。因此,左截断的检索性质是后方一致。

例*:人口

这是一个主题词无限左截断的例子,检索词后方两个字都是“人口”的信息都满足该检索条件。符合该检索条件的检索词有:常住人口、城市人口、非农业人口、静止人口、流动人口、年末人口、农业人口、平均人口等。

3)左右截断

左右截断,也叫前后截断。其检索性质是中间一致。这种截断放在检索词的前方和后方,只要被检索词的中间部分符合该提问条件的都为命中信息。

例*:水*文

这是一个主题词左右截断的检索例子。被检索词中间部分为“水文”二字的都满足该检索条件。符合该检索条件的主题词有:水文、水文地理、水文地质、工程水文学、区域水文学等。

4)中截断

中截断,也有叫“屏蔽”。这种截断是把截断符置放在一个提问词的中间,只要求被检索词的前后方与其一致,而截断符所在的位置允许是任意字符。

例:海?地貌学

这是一个主题词中截断的例子。被检索词的第1个和第3~5个汉字必须与检索提问条件一致,第2个汉字允许是任意字。符合该提问条件的主题词有:海洋地貌学、海岸地貌学、海底地貌学等。

3.3.3限制检索

在信息检索系统中,为了满足某种检索条件或达到某种精确度,通常使用一些缩小或限定检索结果的方法,这些方法称为限制检索。限制检索的方式很多,这里仅介绍其中两种主要方式。

1)字段限定检索

将检索词限定在特定的字段中用来缩小查找范围的检索方法叫做字段限定检索。字段限定检索可分为主题因素限定和非主题因素限定两种。主题因素字段有:主题词,关键词,分类号等;非主题因素字段有:责任者、出版年、语种、记录号、文献信息出处等。以文化部研制的ILAS系统的参考咨询子系统为例。该系统设计了丰富的字段限定检索功能。如要查询在期刊《经济研究》发表的政治经济学研究的文献,就可以在主题词逻辑检索式中增加一个母体文献名字段限制检索。其检索式为:

政治经济学/SUBJE理论研究/SUBJECT|经济研究/463

在该检索式中,“|”*CT是限制检索符;“/”的左方是检索词,右方是索引标识或字段标识。SUBJECT是主题词索引标识,463是母体文献名字段标识,*“”是逻辑乘运算符。

2)范围限制检索

范围限制检索主要用于出版年、记录号、专利号等数字型字段限定检索。范围限制检索使用各种比较关系符来限定其与被检索词的比较范围。常用的比较关系有:

①大于(标识为“〉”);②小于(标识为“〈”);③等于(标识为“=”);④不等于(标识为“#”);⑤大于等于(标识“≥”);⑥小于等于(标识“≤”)。

例:检索要求:1994年以后出版的有关计算机文献检索的论文。

1994检索式:计算机/SUBJECT* 文献检索/SUBJECT|250A〉

250A是出版年字段标识。该检索式先进行主题词“计算机”和“文献检索”的逻辑乘运算,在命中的文献集合中再用出版年条件进行限制检索。

3.3.4加权检索

加权检索是一种定量检索方式。它的基本方法是,在每个提问词后面加写一个具体数值表示其重要性的程度,即该提问词的“权”。在检索中,先在数据库中查找这些检索词,对查获的检索词进行权值总和计算。只有当权值之和达到或超过预先规定的值时,该记录才算命中。这个预定的值称为阈值。

例如:检索词权值

计算机4

经济文献 3

文献检索 2

阈值=6

根据上述检索要求,序号1-3的文献为命中文献,:

由于检索词加权检索可以根据命中的文献的不同权和值从高到低地排列,用户可以容易识别出相关文献的切题程度。

3.3.5词位置检索

词位置检索又叫邻接检索,它是表示所连接的各个单元词之间位置关系的一种检索方式。较常用的词位置检索有(W)算符和(N)算符等。

1)(犠)算符和(狀犠)算符

(W)算符是“WORD”或“WITH”的缩写,它表示在此算符两侧的检索词必须严格按照输入时的词序,两词之间可有一个空格、或一个标点符号、或一个连接号,此外,不得出现其他字符。W算符可广泛用于以词组作为检索词的检索命令。比如:COMMODITY(W)ECONOMY。

(NW)算符是从(W)算符衍生出来的一种词位置检索方法。该符号表示算符两侧检索词的词序不变,但允许两词中间最多可嵌入N个其他检索词。

例如:SOCIALIST(1W)ECONOMY

可能检出:SOCIALISTCOMMODITYECONOMY

SOCIALISTPLANNEDECONOMY

SOCIALISTNATIONALECONOMY等等。

2)(犖)算符和(狀犖)算符

(N)算符是“NEAR”的缩写,它表示在此算符两侧的检索词必须紧密相连,两词之间不允许嵌入任何其他单词或字母,但词序可以颠倒。

例如:MONEY(N)SUPPLY

可能检出:MONEYSUPPLY和SUPPLYMONEY两个词组。

(NN)算符用于寻找在一定区域内同时出现的检索词的信息记录。(NN)算符表示在两个检索词之间最多可嵌入N个其他检索词,两个词的词序可以颠倒。两词的间隔越小的记录排列位置越靠前。

例如:FINANC???(2N)CRISIS

可能检出:FINANCIALCRISIS……

CRISISOFTHEFINANCE……

CRISISINASIANFINANCIAL……等。

3.3.6全文检索

随着计算机技术的不断发展,信息检索技术经历了从传统的主题词检索,到基于单汉字标引的全文检索阶段。在全文检索中,任意字、词和字串都有检索意义,都可用来对整个数据库进行全面匹配查找。目前,国内检索系统已广泛地将全文检索技术用于对特定字段、书目记录和整部信息的检索。对全文数据库检索的结果可以是信息全文,也可以是信息中某个词、某个字串的出处,或所在句、段的上下文。因特网搜索引擎基本上都是采用全文检索技术。

?案例3-1

雅虎搜索到底是如何工作的呢?

当您在搜索框内输入想要搜寻的字,并按下“搜寻"按钮后,YAHOO!中国的搜索结果会从数据库中找寻以下五个部分,按照顺序列出搜索结果。

?分类类目

?网站名称

?网站描述(显示在YAHOO!中国的目录里)

?相关网页(这项服务是由搜索引擎“GOOGLE"提供的)

?YAHOO!中国的相关新闻

搜索结果的排列顺序如下:先是相关类目、相关网站,然后是相关网页(由搜索引擎“GOOGLE"提供),最后是相关新闻。

YAHOO!中国会根据中文类目、网站信息与关键字串的相关程度来排列出相关的YAHOO!中国的类目和网站。影响相关程度的因素如下:

?和关键字串相同的字串多寡。相同愈多,相关程度愈高。(意思是,在分类类目、网站名称、网站描述中出现您输入的关键字出现次数越多,相应的网站越会被排在前面,反之,则排在后面)

?和关键字串符合的字串位置。网站名称(或新闻标题)符合关键字串的相关程度高于符合网址(或新闻内文)符合关键字串的网站。

?和关键字串完全符合(EXACTMATCH),相关程度高于部分符合。

?类目的通用性。愈是高级别的类目越排在前面,例如搜寻“玩具",则“商业经济/公司/玩具"类目会比“区域/国家与地区/中国大陆/商业与经济/公司/玩具"放在前面。因为前者更为通用,而后者则具有地域性。

?对于新闻搜索,新闻更新的时间也是搜寻结果排序的考虑要素,最新更新的新闻将优先列出。

怎样正确使用YAHOO!中国搜索?

简答:在雅虎主页或是经由类目搜索进入的页面上,您会看见一个长条状的搜索框,只需将您想要搜索的关键字输入其中,点击“搜寻"按钮,雅虎的搜索系统就会运行起来,带您进入搜索结果页面,您想了解的,从类目、网站到新闻都有啦!

更加快捷的办法:YAHOO!中国目录是基于主题、可供搜索的。如果您不是在寻找一个特定的网站,那么试试用一个比您想找的东西更大的主题。例如,如果想找川菜食谱,就在搜索框里输入“烹饪"来试试,结果许多烹饪网站里包括的川菜内容可能会比您输入川菜找到的“川菜"主题网站更全。再比如说您想寻找一些歌词,可以输入这些歌词的流派,就会更好找哦!

结论:使用YAHOO!中国搜索来寻找通过主题组织在一起的网站。通过雅虎的分类类目来找,不必寻找单个的网站。您将会得到更多想要的结果!当然,如果您知道您想要搜索的网站名称,那么,简单在搜索框里输入相应名称,再点击“搜寻"按钮就行了!

在雅虎进行搜索有什么窍门吗?

头等窍门:通过YAHOO!中国的分类目录搜索通常会比寻找单个的网站来得有效,特别当您对自己的搜索目标不太明确时。例如,您要找一个关于摩托车的网站,您会发现,在“摩托车"类目下有许多实用的网站。这比起您通过输入关键字后,在搜索结果页面中一页一页翻动要好得多。

还有一个类似的秘诀:如果您在迅速浏览过搜索结果后,看到了似乎合适的一个网站,您这时可以点击该网站所在的类目,您会看到,在这个类目中,有许多相关的网站(这通常会比您点击第一个看到的链接更有价值)。

如果您确切知道您找寻的目标,那么直接输入网站名称就可以了。(记住,最好使用网站的全名,例如:您想找“北京青年报",假如只输入“青年"两字就太泛了。)

当您使用YAHOO!中国搜索功能时,我们向您提供一些特别的秘诀:

?使用引号使得搜索结果中,您输入的关键字一定是一个完整词组而不会被分开。

例如,

?如果您希望某些字词一定要显示在搜索结果中,请在该字词的前面加上+。

例如,

?如果您希望某些字词不会出现在搜索结果中,请在该字词等前面加上-。

例如,

为什么有时我的搜索结果会跑到GOOGLE页面上呢?

GOOGLE搜索引擎是YAHOO!雅虎的一个合作伙伴,它的主要特点是,它能在整个互联网资源上进行全文检索。有时,您输入的一些特定的搜索字串,YAHOO!中国无法为您找到相应的网站,这时,我们会自动将您的搜索要求转到GOOGLE中。而GOOGLE的搜索结果是在我们的“相关网页"目录下。

GOOGLE是什么东西?它和YAHOO!中国的搜索有什么区别吗?

当您使用YAHOO!中国搜索时,YAHOO!中国本身的数据库以及我们的搜索引擎合作伙伴GOOGLE,组成了您所看到的搜索结果。

-如果您搜索的字词在YAHOO!中国的数据库内,那么搜索结果会在“相关类目"和/或“相关网站"中。(搜索结果页面上方的工具条上)

-如果您搜索的字词在GOOGLE的数据库中,那么搜索结果会在“相关网页"中。

-YAHOO!中国目录采用专业人工分类,不但可以直接当成目录来浏览,还可以用来搜寻您想要的内容。GOOGLE则是一个全自动搜索引擎,它是利用电脑程序直接在网页中抓取相关字。

雅虎支持带“+"、“-"等的进阶检索语法吗?

是的,我们支持进阶检索语法。

运用以下几种进阶检索格式,您会获得更精确的检索结果:

?利用双引号,来查询完全符合关键字串的网站。

例如:键入“中文输入",会找出包含中文输入的网站,但会忽略过包含“中文形声输入"的网站。

?指定关键字出现的段落。

加T:在关键字前,搜索引擎仅会查询网站名称。

加U:在关键字前,搜索引擎仅会查询网址(URLS)。

?利用+来限定关键字串一定要出现在结果中。

?利用-来限定关键字串一定不要出现在结果中。

一些类目后附带的@标记是什么意思呢?

分类类目后面的“@"表示,这个类目会同时出现在多个YA-HOO!中国的不同分类类目下面。

?范例1:“时尚"这个类目会同时被放在“艺术"和“社会与文化"的类目下。

?范例2:“音乐剧"会被放在“音乐"和“戏剧"的不同类目下。

只要您点击这个含有“@"的类目,就会链接至YAHOO!中国的其他相关类目。