第18章 2 搜索引擎

3.2.1搜索引擎的系统结构与原理

搜索引擎的检索系统由以下几个部分组成：

1）搜索器

互联网每时每刻都在增加新的内容，为了及时反映信息源的情况，人们开发出一种名为“网络蜘蛛”或“机器人”的网页搜索软件，负责访问网络上的各个站点，搜集网上不断更新的网页信息并带回搜索系统。搜索器的主要功能就是在互联网中漫游、发现和搜集信息。它常常是一个遵循一定协议的计算机程序，即蜘蛛程序。她日夜不停地运转，要尽可能多、尽可能快地抓取网页搜集各类信息。同时，由于互联网上的信息更新非常快，所以还要定期更新已经搜集过的旧信息，以避免死链接和无效链接，保证检索结果的质量。

2）分析器

分析程序通过一些特殊算法，从蜘蛛程序抓回的网页源文件中抽取主题词，并对其赋予不同的权值，以表明这些主题词同网页内容的相关程度，以判断网页内容。分析程序的目的是从一个URL到相应网页的主题词建立起的一种关联，并通过对主题词的提取和分析，判断该网页所描述的信息。

3）索引器

信息进行分类整理，建立各种索引并更新搜索引擎数据库。索引器中将生成从关键词到URL的关系索引表。索引表一般使用某种形式的倒排表，即由索引项查找相应的URL，并以特定的数据结构存在索引数据库中。

倒排表是一个索引结构，包括两个索引表：文档表和术语表。

文档表由文档记录组成。每一条记录包括两个字段，一个是“文档标号”（DOC＿ID），另一个是“张贴表”（POSTING＿LIST），张贴表是一组出现在文档之中的术语的列表（或术语存储的地址表），它们按某种相关度量排序。

术语表则由一组术语记录组成，每一条记录中包含两个字段：一个是术语标号（TERM＿ID），另一个也是“张贴表”，此表中记录了含有此术语的文档标号。

由此种结构可以很容易地完成诸如“请返回所有与一个（组）关键词相关的文档”或“请返回与给定的一个或几个文档中术语相关的所有术语”这样的请求。

例如，用户输入了3个关键词，则可在术语表中先查到三个术语的标号，取这三个标号对应记录中的所有文档标号的交集（公共部分），作为检索的返回结果。它们是同时含有三个关键词的所有文档的标号集，由此标号集对应为这些文档的链接地址，由此可链接并查到所有文档。

4）检索器

检索器的主要功能是根据用户输入的关键词在索引器形成的倒排表中进行查询，同时完成页面与查询之间的相关度评价，对将要输出的结果进行排序，并实现某种用户相关性反馈机制。

5）用户接口

用户接口的作用是输入用户查询、显示查询结果、提供用户相关性反馈机制。主要的目的是方便用户使用搜索引擎、高效率、多方式地从搜索引擎中得到有效、及时的信息。

通过WEB服务器软件，为用户提供浏览器界面下的信息查询。每个搜索引擎都提供了一个良好的界面，并具有帮助功能。用户只要把想要查找的关键字或短语输入查询栏中，点击“查询”按钮，搜索引擎就会根据用户输入的提问，在索引中查找相应的检索词语，进行必要的逻辑运算，最后给出查询的命中结果（均为超文本链形式）。用户点击搜索引擎提供的链接点，马上就可以访问到相关网页。有些搜索引擎将搜索的范围进行了分类，如“网站”、“中文网页”、“新闻”等，在指定的类别中进行检索可以提高查询效率，搜索结果的“命中率”较高。

3.2.2搜索引擎的分类

1）按照信息搜集方法的不同分

（1）目录式搜索引擎（DIRECTORYSEARCHENGINE）。通过人工方式来搜集信息并对信息进行归类。首先，编辑人员通过查看相关网页，根据网页的内容提炼出主题词和网页摘要，并将该网页的链接归入事先确定好的分类目录中。这种做法与图书馆的分类人员所进行的工作类似。由于此类搜索引擎主要是由人工进行分类的，所以信息准确度高，能够比较好地满足查询者的需要。但是由于需要人工介入，因此目录创建的工作量大，收集的信息量有限，信息更新不及时。这类搜索引擎的代表是：YAHOO！。

（2）机器人搜索引擎（CRAWLER＿BASEDSEARCHENGINE）。由蜘蛛人程序按照某种规则自动在互联网上搜集信息，并进行归类。具体内容参见上一节的介绍。这类搜索引擎的代表是：GOOGLE。

（3）元搜索引擎（METASEARCHENGINE）。元搜索引擎和一般搜索引擎的区别在于：元搜索引擎没有自己的数据库，它是将用户的查询请求同时向多个搜索引擎递交，将返回的结果进行重复排除、重新排序等处理后，作为自己的结果返回给用户。这类搜索引擎的优点是返回结果的信息量大，缺点是不能够充分使用元搜索引擎的功能，用户需要做更多的筛选。网上的一些元搜索引擎地址如下：

HTTP：／／WWW。MAMMA。COM

HTTP：／／DOGPILE。COM

由于目录式和机器人式的搜索引擎各有优点，因此目前，各门户网站上的搜索引擎通常是将两者结合起来使用。例如，新浪在使用人工分类的同时，也使用了机器人搜索引擎。用户在进行查询时，可以同时得到两种不同的搜索引擎所反馈的结果。

2）按照检索软件分类

按照检索软件的不同，搜索引擎可分为三大类：全文数据库检索、非全文数据库检索、主题指南类检索。

（1）全文数据库检索。能够提供完整的文献和信息检索，查全率很高。但由于信息量非常大，检索起来比较困难，对检索技术的要求很高。

（2）非全文数据库检索。仅提供部分全文检索，有时需要二次检索，感到不太方便。但具有速度快、使用简便、索引量大的特点。

（3）主题指南类检索。是目前网络检索中最常用的检索软件。这种软件查准率高、速度快、使用方便。现大部分网站都具备主题指南类检索功能。

3.2.3搜索引擎注册

1）商业化注册及原因

在利用搜索引擎进行注册时，由两种途径。一种途径是分别到各个搜索引擎去注册；另一种途径是通过专业网站或软件进行一次性多个搜索引擎注册。

前者适合少量注册，后者涉及商业化的注册服务。在企业营销中，常用的是商业化注册。原因有以下几点：

（1）跟踪和了解搜索引擎站点资源是一件困难的事情

搜索引擎站点的数目很多，要掌握这些站点，并了解每个站点的特点，是一件十分困难的事情。用户如果逐一根据搜索引擎提供的站点注册入口进行注册，非常耗用时间。

（2）搜索引擎注册已经成为网络空间的一种技术

为了在搜索引擎结果中取得排名靠前，需要采用许多复杂的注册技术。搜索引擎排列结果所依赖的因素各不相同，而且搜索引擎本身也在不断变化，因此要想在众多搜索引擎中都取得靠前的排名，就必须针对不同的搜索引擎进行页面的优化。也就是说，要为每个搜索引擎定制不同的META和其他页面元素。

2）蜘蛛式搜索引擎的注册技巧

根据蜘蛛式搜索引擎的工作原理，可以采用如下一些方法使自己的网站排名尽量靠前。

（1）确定恰当的网页标题。网页标题是出现在WEB浏览器顶端名称栏的内容，即是网页文件源代码中＜TITLE＞标记符与＜／TITLE＞标记符之间的那段文字。有些搜索引擎通过对网页标题的判断来确定网页主题内容是最重要的因素。所以，标题与主题的相关程度对决定页面的级别是非常重要的，在设计标题的时候应该紧扣页面的主题。

（2）META标记。＜META＞具有多种功能，具体的功能由它的两个参数指定。

其一，HTTP－EQUIV参数：具有多种功能，具体的功能由它的内容指定。HTTP－EQUIV＝CONTENT－TYPE用来指定浏览器所使用的编码种类。

其二，CONTENT参数：具有多种功能，具体的功能由它的内容指定。CONTENT＝“TEXT／HTML；CHARSET＝GB2312＂由来指定浏览器只使用GB编码汉字。

注意，这行语句的内容与格式基本上是固定的，不必深究它的细节，只要将它添加到网页首部即可。加入这行语句后，不管浏览器目前处于哪种编码状态下，“网上音像店”总是自动显示GB编码汉字。

此外，＜META＞标签能使搜索引擎更容易找到你的位置。在你的网页中＜HEAD＞标签和＜／HEAD＞标签之间加上＜META＞标签，当然别忘了把你自己的信息填入引号之内。

＜METANAME＝“KEYWORDS＂CONTENT＝“ONLINEMARKETING，ONLINE，MARKETING，HIGHTECHNOLOGY，WEB，INTERNET，DUMMIES，GEN-IUSES，VEEBLEFETZER＂＞

＜METANAME＝DESCRIPTIONCONTENT＝“在互联网上订购、销售中外音像制品＂＞：该行为搜索引擎提供简介信息；

＜METANAME＝KEYWORDSCONTENT＝“音像＂＞：该行为搜索引擎提供关键词信息。

注意：某些公司在他们的META标签内容上走了极端。他们使用了与之竞争的公司及其产品的名字作为关键字，以使访问者浏览自己的网站。这种行为不仅不道德，而且还会招致法律责任。

（3）拟定准确的头行和主体的内容。除了页面的标题之外，页面文件主体内容靠近主标题的正文部分的内容非常重要，通常也对搜索引擎判定页面的内容有较大的影响。并且有的搜索引擎，比如EXCIT就不支持META，它的“蜘蛛”软件自动将正文的前20行视为描述文字，并将其中重复次数最多的单词视为关键字。

（4）制作站点的通道页。多数搜索引擎拒绝对所递交的URL的第二级或第三级以下层次网页的索引。解决的方法就是做一个“通道页”（HALLWAYPAGE）。“通道页”中放置网站的所有链接。注意，某些搜索引擎限制接受同一域名下的网页数，所以建议在“通道页”中按网页的重要程度排序链接，而且每个“通道页”中的链接数应当控制在50个以内。

（5）优质的页面

其一，避免死链接。检查链接是否正确，避免死链接。

其二，蜘蛛软件对包含在图像中的超链接是不能识别的，也就是说，蜘蛛软件是不能沿着图像中的超链接过渡到下一个页面的。因此，除了图像链接之外还要包括文本链接。

其三，避免提交含有帧的页面。许多搜索引擎软件是不认识帧的。因此最好将主页设计成无帧的页面。

其四，经常更新。为了鼓励网页更新，搜索引擎将清除长期没有更新的网页。

3）目录查询站点的注册技巧

（1）提供良好的网页。由于网页经过人工的判断来决定是否纳入分类目录，所以设计良好的网页会增加进入搜索引擎的可能性。在YAHOO网站中，就明确指出了这一点。

（2）优秀的内容。根据搜索引擎的统计结果来看，尽管人们可以采取许多提升排名的方法，但是优秀的内容仍然是保证排名在搜索结果前列的保证。

（3）选好适合的目录。企业应当对自己的网站有一个准确的定位。企业需要研究搜索引擎的分类目录，看看企业的产品或服务最适合于哪个分类目录。登录到合适的网站目录对于企业的成功是非常重要的。

3.2.4搜索引擎流程图

在上网搜索之前，需要先定好计划，给出了一个搜索计划的例子，它以流程图的方式去搜寻关于“数据采掘”的学术文档。

3.2.5智能代理

1）概念

计算智能（COMPUTATIONALINTELLIGENCE）指用计算手段实现机器智能的方法，包括用符号运算和逻辑推理实现智能的传统人工智能和智能技术的新进展——神经网络（NEURALNETWORKS）、模糊逻辑（FUZZYLOGIC）、进化计算（EVOLUTIONARYCOMPUTATION）、混沌（CHA-OS）和粗集（ROUGHSETS）理论，强调依赖于数值数据的智能。

智能代理技术是计算智能的一种应用，它的硬件基础可以是互联网（INTERNET）或单片系统（SYSTEMONACHIP）。若使用互联网，智能代理可表现为在互联网上漫游的电子机器人群体，它们可用于完成各种各样的任务，例如，信息收集、网络控制等。若使用单片系统，它是单片系统中一种会学习的软件，该单片系统需嵌入在其他设备中使用，智能代理则以嵌入系统（EMBEDDEDSYSTEM）形式出现，这构成了智能设备。以嵌入系统为代表的嵌入计算正在成为信息技术后PC时代除互联网络外又一个国际研究热点。

2）应用

智能代理在许多方面有着重要的应用意义。

其一，信息服务。信息服务是最广大的用户群接触网络环境的首要渠道。对于信息内容已经相当丰富的英语文化圈来说，进一步提高信息服务的质量，改变目前信息服务中存在的“信息过载”和“资源迷向”的状况，是信息服务业面临的最紧迫的任务。智能代理正好可以适应这方面的需要。具体地说，用于信息服务的智能代理主要完成以下功能：①导航，即告诉用户所需要的资源在哪里；②解惑，即根据网上资源回答用户关于特定主题的问题；③过滤，即按照用户指定的条件，从流向用户的大量信息中筛选符合条件的信息，并以不同级别（全文、详细摘要、简单摘要、标题）呈现给用户；④整理，即为用户把已经下载的资源进行分门别类的组织；⑤发现，即从大量的公共原始数据（比如股票行情等）中筛选和提炼有价值的信息，向有关用户发布。这些都是使信息服务走向个性化主动服务不可缺少的功能。目前在此方面已经有了一些能够使用的系统，但智能化的程度还远远不够，且主动有余、过滤不足已经造成了一些负面的影响，亟待尽快发展更先进的人工智能技术予以解决。

其二，电子商务。越来越多的人看好INTERNET上的商业机会。网上的商品越多，在网上寻找商品就越是买方的一大负担；同时，卖方商品的推销也有一个对客户实行因人而异的主动服务问题。因此，采用智能AGENT系统，代表买方去网上查看“广告牌”、逛“商店”寻找商品甚至讨价还价，代表卖方分析不同用户的消费倾向，并据此向特定的潜在用户群主动推销特定的商品，都是非常有诱惑力的。

现在已经出现了几种在网络上运行的智能代理软件（比如WWW。SHOPFIND。COM，WWW。ROBOSHOPPER。COM），尽管人们对智能代理软件的期望很高，但是由于技术方面的限制，智能代理软件的功能仅限于完成某些特殊的功能，还不能尽如人意。