书城社科档案信息检索
12551300000052

第52章 INTERNET基础知识

INTERNET作为世界上最大的计算机互联网络,已经成为覆盖全球的信息基础设施之一,其信息资源具有数量大、类型多、语种多、跨时空、多媒体、动态性、混杂性等特点。要从信息检索的角度了解INTERNET,首先要掌握几个主要概念。

一、万维网(WWW)

WWW在我国称为全球网或万维网,简称3W或WEB,是英文WORLD WIDE WEB的缩写。万维网是由互联网上用超文本标记语言(HTML)编写的文件(网页)构成的信息系统,作为用户搜索和浏览信息时使用,是交互式信息浏览检索工具。

万维网是20世纪90年代初,欧洲粒子物理研究中心(CERN)为了利用超文本(HTML)方式传递信息而发明的。它的目的是让用户能够通过统一的接口迅速浏览和传递互联网上文字、图像、声音、视频等多媒体超文本信息。它的实质是一种基于超文本的链接机制,客户机/服务器是它的工作模式,当用户在计算机终端上使用浏览器(如IE、FIREFOX等)访问WEB服务器并发出索取数据请求时,服务器就向浏览器发回所需要的文件和数据,浏览器收到后按语法规则将信息通过浏览器的窗口显示或播放。

万维网简单易懂的图形化用户界面,使得任何人都能迅速掌握通过它查阅因特网上各类文档的技巧,而这些文档及其相互之间的链接又构成了庞大的信息网,于是运用万维网便可以对整个因特网上的信息进行查阅浏览。如今,很多机构和个人都在INTERNET上建立了自己的万维网站。万维网已成为目前因特网上交互性能最好、应用最为广泛的信息检索系统,相比路由器、计算机等设备通过通信线路组成的有形的互联网,有人把万维网称为无形的网。因为它是通过网页之间的逻辑关系(超链接)连接起来的网,或者可以说是被互联网这个物理平台承载的网页和超链接的集合。它实际上是一个因特网上使用的分布式的、多媒体的超文本系统,其中的信息分布在全球连入因特网的计算机上。

WWW 由 WWW 服务器(WWW SERVER)、WWW 代理服务器(PROXY SERVER)、WWW浏览器(BROWSERSERVER)、主页制作器(HTML PUBLISHER,或HTMLEDITOR)和主页转换器等组成。

WWW服务器是 WWW 的核心软件,其作用是储存和转发 WWW 主页。这类软件主要是 NETSCAPEENTERPRISESERVER、INTERNETINFORMATIONSERVER、COMMERCEBUILDER等。

WWW代理服务器是 WWW服务器的辅助服务器,其主要功能是充当防火墙(即两个网络之间的安全性隔离。在保障合法用户正常跨越“防火墙”访问的同时,阻挡未合法授权用户的非法访问)和缓冲区(即将访问过的主页或文件在代理服务器中存放一个拷贝,以供以后使用,从而可提高访问速度,节省通信费用)。

WWW浏览器是用户在网上浏览 WWW页面的软件。WWW好似一本书,由许多“页”组合而成,这些“页”面分布在INTERNET网络的各个网站服务器上(WWW服务器),称之为网页,而网站的首页又常称主页。WWW 浏览器就是根据用户需要用来“阅读”这些页面的工具,它都是采用HTTP协议(超文本传输协议,是计算机之间用来传输超文本的协议)与 WWW 服务器相连,而 WWW的页面也都是按照HTML格式制作的,因此任何一个 WWW浏览器都可以浏览任何一个 WWW服务器中的 WWW页面。

主页制作器是按照HTML格式,通过菜单、按钮等制作主页的软件。现在流行的主页制作器软件主要有FRONTPAGE和GNNPRESS等。

主页转换器是指将 WORD、EXCEL、POWERPOINT、WORDPERFECT、FRAMEMAKER等非HTML文件转换为 HTML文件的软件。常用的主页转换器软件有INTERNETASSISTANT系列、HTML TRANSIT等。

二、TCP/IP协议

INTERNET是“网络之网络”,在其上运行着世界各地众多不同类型、不同规模的计算机网络,每一网络又运行着若干计算机,而维系这种网络与网络、计算机与计算机之间信息交换的语言规范,这就是TCP/IP协议。在INTERNET中只要采用TCP/IP协议的任何计算机和网络,一般都可以连入INTERNET网络。

TCP是TRANSMISSIONCONTROLPROTOCOL(传输控制协议)的缩写,负责从高层接收任意长度的报文,并将其分割成若干小包,每个包标有序列号和接收地址,再按适当的次序发送,接收端TCP接收到这些数据包后,就根据序列号重新还原信息。而IP是INTERNETPROTOCOL(网际协议)的缩写,功能是将数据包送到远程主机,保证传送准确无误。

TCP/IP共包括100多种具体协议,如支持E-MAIL功能的简单邮件传输协议(SIMPLE MAILTRANSFERPROTOCOL,简称SMTP)和邮局协议(POST OFFICE PROTOCOL,简写为POP)等。这里的协议其实就是为正确传输数据而制定的标准,INTERNET就是靠这些协议维持运行的,任何连入INTERNET的计算机都必须遵循至少一种这样的协议,而INTERNET上任意两台计算机都可以通过一定的协议进行联络和信息交换。其中支持 WWW 功能的超文本传输协议 HTTP(HYPERTEXTTRANSPORTPROTOCOL)是浏览器与 WEB服务器之间相互通信的协议,即 WWW客户机和服务器用于在网上传输、响应用户请求的协议。该协议容许文字、图画、声音等同时传输。

三、INTERNET网地址和域名

要利用因特网上的资源就必须知道资源所在的计算机的地址,DN和IP地址就是因特网上的地址。在INTERNET中的每一台计算机都必须有一个唯一的IP地址,正如电话必须有唯一的电话号码一样。INTERNET网络中的众多计算机进行信息交换时,都是利用INTERNET的域名系统DNS和计算机的IP地址相互识别。通常我们看到的地址是一组词语或有一定意义的字母或数字,它们均按标准格式用“。”隔开,这种地址的编排称为域名系统(DOMAIN NAMESYSTEM,DNS)编址。地址可以写成两种形式。

(一)IP地址

IP地址即INTERNETPROTOCOL地址,每个IP地址都由4个字节组成,中间用“。”隔开。每个字节相当于一个8位位组,每个8位位组的二进制数可以表示成0~255的十进制数。IP地址是INTERNET定位所必需的,每台以专线方式连入INTERNET的计算机都应有一个唯一的IP地址。IP地址按节点计算机所在网络规模的大小分为A、B、C三种类型。

A类地址一般用于大型网络,其表示范围为:0.0.0.0—126.255.255.255,默认网络掩码为:255.0.0.0.IP地址中第一节表示网络地址,后三节表示网内主机地址,每个A类网络可容纳1600多万台设备。

B类地址一般用于中型网络,其表示范围为:128.0.0.0—191.255.255.255,默认网络掩码为:255.255.0.0.IP地址中前两节表示网络地址,后两节表示网内主机地址,每个B类网络可容纳6万多台设备。

C类地址一般用于小型网,其表示范围为:192.0.0.0—223.255.255.255,默认网络掩码为:255.255.255.0.IP地址中前三节表示网络地址,最后一节表示主机地址,每个C类网络可容纳256台设备。

(二)域名

域名,英文为DOMAINNAME,缩写为DN。域名地址和用数字表达的IP地址实际上是同一回事,在访问INTERNET上站点时,用户输入该机的IP地址或域名地址均可。DN并非每台上网计算机所必需,只有作为服务器的计算机才需要。INTERNET上通过域名服务器(DNS)可自动将DN转换为IP。当用户输入域名地址与INTERNET上其他计算机交流信息时,域名服务器就会自动完成从计算机域名到IP地址的转换。域名由2到5段字符构成,中间用“。”隔开,域名地址的组成:计算机主机名。机构名。网络名。最高层域名,如“WWW。 SCU。EDU。CN”,含义为“WEB服务器·四川大学·教育机构·中国”。

常见的INTERNET最高层域名有两类。一是用两个字母组成的国家域名(国别代码):AU(澳大利亚)、CA(加拿大)、CN(中国)、DE(德国)、ES(西班牙)、FR(法国)、JP(日本)、IT(意大利)、UK(英国)(UK)等,如表10-1.二是用三个字母组成的网络分类代码:COM(商业机构)、EDU(教育机构)、NET(网络部门)、ORG(社团组织)、MIL(军事部门)、GOV(政府部门)、INT(国际组织),如表10-2.1997年秋季起,INTERNET管理机构决定增设ARTS(文艺机构)、FIRM(公司企业)、INFO(信息服务机构)、NOM(个人专用)、REC(娱乐专用)、STORE(商店专用)、WEB(万维网专用)七类代码。

我国计算机网络一级域名为“CN”,第二级域名是纵向域名。纵向域名按网络所有者的性质分为:AC(科学院)、COM(商业机构)、GOV(政府机构)、ORG(社团组织)、EDU(教育机构)、NET(网络服务机构);横向域名包括直辖市和各省(自治区)的34个名称缩写,如BJ(北京)、SH(上海)、TJ(天津)、AH(安徽)等。

(三)统一资源定位符URL

URL,统一资源定位符,俗称网址,是 UNIFORM RESOURCELOCATION的缩写,译作全球资源定位器。URL实际上是一个用以标识文档类型及其所在网络地址的字符串,它完整地描述了INTERNET上超媒体文档的地址,用统一的方式指明因特网上具体的信息资源及其位置,是一种标准的INTERNET网络资源地址访问工具。用户使用URL这种统一格式的INTERNET信息资源地址表达方法,可以十分方便地访问INTERNET上不同计算机上的各类信息。

URL的基本格式可以分为三部分:信息传输协议(如HTTP、FILEFTP、NEWS、GOPHER):∥服务器/路径名。其中协议解释计算机传递信息的方式,服务器指明了用户要查找的信息所在的计算机系统,路径名指明了查找服务器上某一主页的路径。如在 URL地址HTTP:∥SCU。EDU。CN/NEWS/NEWS。HTML中,“HTTP”表示超文本传输协议,提供超文本信息资源服务;“∥”其后是服务器“SCU。EDU。CN”,是一台中国教育科研网上的计算机,超文本文件“NEWS。HTML”在目录“/NEWS”之下,NEWS是路径名。

四、超文本(HYPERTEXT)

1965年,德 特 · 纳 尔 逊(TED NELSON)创 造 了 术 语“超 文 本”(HYPERTEXT)。1981年,德特在他的著作中使用术语“超文本”,描述了这一想法:创建一个全球化的大文档,文档的各个部分分布在不同的服务器中。通过激活成为链接的超文本项目,就能链接到该文本的位置。例如研究论文里的参考数目,就可以跳转到引用的论文。

超文本(HYPERTEXT)是一种按信息之间关系非线性地存储、组织、管理和浏览信息的计算机技术。是用超级链接的方法,将各种不同空间的文字信息组织在一起的网状文本。它的本质和基本特征是在文档内部和文档之间建立关系,正是这种关系给了文本以非线性的组织。超文本的内容区别于其他文本,是按照网状交叉索引链接形成的,而一般的文本通常是按照从上到下,从左到右的简单顺序排列。超文本文字包含有可以链接到其他位置或者文档的链接,允许从当前阅读位置直接切换到超文本链接所指向的位置,用户对信息的浏览可以按自己感兴趣的顺序进行,不需从头到尾逐词逐句地去获取信息,而是可以通过直观地点击文本中加以标注的词或图像,跳转访问另一个文本、新地点,随机跳跃地获取信息。我们日常浏览的网页上的链接都属于超文本。

HTML超文本标记语言(HYPERTEXTMARKUPLANGUAGE),是构成 WEB页面的主要工具,是一种用来定义信息表现方式的格式,即一种超文本标识语言,其主要功能有:

(一)超级链接功能

超文本是 WWW的基础,而作为超文本的定义语言,HTML自然支持超级链接,可以向普通文档中加入一些特殊的标识符,使之生成的文档中还含有其他文档、图像、声音、动画等链接功能,从而成为超文本文档,使用户能更便捷地获取信息,同时它还可以用于连接不同服务程序(如FTP、GOPHER、NEWS、HTTP、MAILTO等)。

(二)规范功能

超文本标记语言可以规范信息表现方式,从而使不同厂商开发的 WWW浏览器、主页转换器、编辑器等能按照同一标准对主页进行处理。