摘要:虚拟图书馆的主要工作可以分为两点,信息搜集和信息组织, 即是一次的收集和二次文献的组织。虚拟图书馆没有综合性的,都是专题性的图书馆。虚拟图书馆要对链接进行鉴定核实,不产生死链。
一、虚拟图书馆的概念
虚拟图书馆是更具特定的目标,选定信息资源的学科领域,对有关的网站网页进行搜集和整理,加以鉴定核实,并对核实后的网址进行合理组织,为有关网址进行特征描述,编制或采用一定的软件以供信息存储与检索,并实现对网页网站的链接,对数据的不断维护与更新,包括对原有网址的定期核实和新网址的纳入,使之能够提供检索、浏览和链接的信息集合。虚拟图书馆从本质上讲是一个专业性的搜索引擎,一般是采用人工著录的方法。它将互联网上某一特定领域中的网页收集起来,作为一次文献,然后对其进行标引和著录,著录的结果形成以款目的形式构成的中央数据库,在中央数据库的基础上抽取有关著录项目形成相应的倒排挡。用户检索时,输入检索式,在相应的倒排档中进行匹配,根据匹配后的结果调出中央数据库中相关款目,显示在机屏幕上,并给出相应网页的URL,供用户进一步浏览一次文献。在这个定义中,我们可以把虚拟图书馆的本质特征概括为下述三点:其一是虚拟图书馆都是专题性的,没有综合性的虚拟图书馆。其二是虚拟图书馆要对链接进行鉴定核实,不产生死链。其三是虚拟图书馆要对收集的信息进行分类、编排等合理组织。虚拟图书馆的主要工作可以概括为两点:信息搜集和信息组织,即一次文献的收集和二次文献的组织。
二、虚拟图书馆的信息搜集
虚拟图书馆的信息搜集有选定专题和搜集网站网页两个步骤。
1.拟图书馆的选题
从选题依据角度来讲,虚拟图书馆选题的基本依据是用户的需求与因特网上信息资源的现状相结合,用户需求是推动虚拟图书馆建设的原动力。纵观因特网上存在的虚拟图书馆,每一个都是用户需求驱动的直接结果。另外,因特网上所选专题信息资源的多寡构成了虚拟图书馆选题的另一个依据。如果信息资源过少,就失去了建立所选专题的虚拟图书馆的必要性。从选题内容角度来讲,虚拟图书馆都是以学科专业或专题作为选题对象的。与其他二次信息系统(如搜索引擎)相比,虚拟图书馆的选题内容都比较狭窄。例如,目前清华大学虚拟图书馆现有的选题有人工智能、计算机仿真、模式识别、机器人等。又如,目前WWW虚拟图书馆中具有代表性的选题有AIDS(爱滋病)、Distance Education(远程)等。从选题来源来讲,虚拟图书馆的选题来源一般有两种:其一是单位机构的信息资料中心(图书馆、资料室等)选题,这在大学图书馆的网站中比较普遍。许多大学图书馆选择本校的重点学科专业、特色学科专业以及重大课题项目建立虚拟图书馆,以满足有关用户的信息需求。其二是专家学者个人选题,以此来构建虚拟图书馆,上传到因特网上的WEB服务器,供广大网络用户使用,用户在使用过程中参与维护。例如,WWW虚拟图书馆中的许多专题就是这样产生的。
2.搜集网站、网页
(1)搜集方式
目前虚拟图书馆常用的搜集方式有以下两种:手工搜集:对于数量巨大、纷繁复杂的网络信息资源,手工搜集看似大海捞针,但在自动搜集走向智能化之前,手工搜集仍然是必不可少的一个环节。事实上,目录型检索工具如Yahoo的信息归类主要还是依靠人工。少数公司,如美国联机计算机图书馆中心的OCLC的Net first完全是依靠专业人员来分编和标引网络信息。自动搜集:自动搜集就是指被称为机器人(ROBORT)、蜘蛛(SPIDER)等的计算机程序定期或不定期拷贝所访问的互联网主机,绝大多数是万维网的服务器的部份或是全部内容然后由提供检索服务的公司或单位对之标引和组织,虚拟图书馆要根据本学科、本专题的特点编制适合于本学科专业信息收集的自动搜集软件。具备自动搜集功能是一个优秀的虚拟图书馆必须具备的基本条件,否则就难以对互联网上的日益增长的信息进行追踪。
(2)虚拟图书馆搜集的内容
虚拟图书馆中的网页网站收集与其他网络二次信息系统相比,虚拟图书馆所收录的网页网站都具有学科专业及专题性的特点。从内容上讲,虽然不同的虚拟图书馆收录的网页网站存在着较大差异,但除了与所选学科专业专题相关的特殊问题的信息资源外,笔者认为,一个虚拟图书馆,无论是什么专题,如果有网络信息资源保障的话,都应该收录下述类型的网页网站。网络图书是因特网上一种常见的信息资源,它具有出版发行周期短、“修订”及时、内容相对系统全面、成熟可靠等特点。网络图书的来源有三种:现有图书数字化后上网、原有的封装型图书(如软盘图书、CD-ROM图书等)上网和直接在网上出版发行的图书。网络期刊大致可分为两类:其一是传统期刊的网络版,其二是纯网络型期刊。前者大多为商业性的,而后者目前基本是免费的。另外,因特网中目前已出现了许多电子预印本系统,如较有影响的e_PrintarXiv电子预印本文献库。网络期刊及其预印本出版周期短,报道速度快,刊载的多是一些学术性较强的,因而成为虚拟图书馆重点收录的对象。因特网上的学术会议信息有会议通知(包括征文通知)和会议论文集两种。学术会议通知的生命周期很短,一旦过期就失去了存在的价值,应及时从虚拟图书馆中删除。会议论文的学术性较强,内容新颖,往往反映了某一学术领域国内外的最新状态,利用价值较高。组织机构包括从事虚拟图书馆所选领域的研究机构、实验室、教育机构、学术团体(学会、协会等)及产品的推广机构等。实际上每一个学科领域或专题都有相应的研究机构,绝大多数领域或专题都有相应的教育机构和学术团体。这些组织机构在进行教学、研究、组织学术交流以及其他日常活动中,产生了大量的原始信息。通过访问它们的网站,可以得到大量的技术报告、学位论文及教育教学信息等。
主要人物的网页网站或个人主页,一般记载了联系方式、主要的出版著作和论文、主要的研究领域、研究经历和在研项目及进展情况等,利用价值也较高。因特网上的一些交流方式往往针对某一感兴趣的问题在网上进行讨论,其中包括了许多与科技有关的话题,这些讨论的议题经常是某一学科领域的热点或疑难问题。这些信息交流的主要方式有、Usenet/Newsgroups、Listerv/Mailing list等。有关软件、专利和标准的网页网站,它们是涉及到科学专题尤其是工程技术专题的虚拟图书馆的主要收录对象。随着政府信息化的推进,因特网上的政府信息日益增多,是学术研究的重要信息资源。目前,因特网的政府信息大致包括介绍政府部门的职能、人员、机构、政策、法规、成果以及出版物信息等。近年来,因特网上出现了众多学术价值甚高的数据库,其中有的是综合性的,有的是学科专业性的,还有的是专题性的。免费数据库资源是虚拟图书馆的重点收录对象,但对于商业化的数据库,目前公益性的虚拟图书馆只能调出页面,无法调出其全文。
三、虚拟图书馆的组织方式
虚拟图书馆通常采用主题树和数据库这两种方式来组织信息。
1.主题树方式
所谓主题树方式,就是将虚拟图书馆所选定学科领域的所有已获得的信息资源按照某种事先确定的概念体系结构,分门别类地逐层地加以组织,用户通过浏览的方式逐层加以选择,层层遍历,直到找到所需要的信息线索(即相关网页链接),进而通过信息线索找到相应的网络信息资源,这种组织方式的优点在于:简单易用,屏蔽了网络信息资源系统对于用户而言的复杂性,提供了一种基于树形浏览方式的浏览界面;信息检索按照一定的体系结构,逐次查看,因而对用户而言,目的性强。其缺点在于:体系的结构不能过于复杂,每一类目录下细分的主体不宜过多。因而,这种组织方式对于小型的虚拟图书馆而言,由于体系结构简单,类目的专指度较高,检准率也高。但如果虚拟图书馆学科主题范围较宽,相应的分类体系就较复杂,为了方便显示和使用,就要牺牲类目的专指度,导致检准率下降。
2.数据库方式
即将虚拟图书馆所包含的这一学科或领域所有已获得的信息资源以固定的记录格式存储,并提供一些检索入口,就可以找到所需要的信息线索,进而通过信息线索直接链接到相应的网页。这种方式的前提是关键词标引,从而形成关键词倒排档。这种组织方式通过对信息进行规范化和优化处理,大大提高了数据操作的灵活性,因而成为应用广泛的网络信息组织方式。它对用户也提出了较高的要求,要求用户掌握一定的检索技巧,包括关键词及其组配方法的选择,等等。实际上,虚拟图书馆的信息组织往往是上述两种方式的结合,既有主题树,为用户提供分类检索,又有数据库,为用户提供主题检索。对Internet网上信息资源进行精心筛选、分类、标引、注解,针对特定的用户群体建立Internet网上的虚拟图书馆是目前开发利用Internet网上资源的一种有效途径。如果单纯使用主题树方式组织信息,那么就形成了专业学术导航这样一种组织结果,其组织的手段和形成的结果都包含在虚拟图书馆内涵中,笔者认为,专业学术导航是虚拟图书馆的一个子集,是虚拟图书馆建设中的一个中间产品,故在此不多加赘述。
四、虚拟图书馆的组织过程
1.网页、网站的著录
从功能结构上讲,虚拟图书馆相当于传统检索工具中的一部主题索引,而每一网站网页在虚拟图书馆中则相当于主题索引中的一个款目。对网页网站的著录事项是决定其信息含量、引得深度和检索途径的基础。虚拟图书馆中网页网站的著录事项主要有:(1)网页网站的标题。这是每一个虚拟图书馆中必备的著录事项,也是用户选择浏览网页网站的主要判断依据。(2)网址。这是用户浏览原始网页网站的链接入口。目前有的虚拟图书馆在显示用户的检索结果时,网址作为一个字段加以显示,但大多数都将网址隐含在网页网站的标题字段内容之中,作为该项内容的超链指针(如WWW虚拟图书馆中所有的专题都采用这种方式)。采用第一种显示方式时,对于由于镜像等原因导致相同网页网站产生多于一个网址的,可以方便地将这些网址都记录和显示,各网址间用一定的分隔符隔开。同时,对于产生死链的链接,用户还可选择其他链接来调出原始的网页网站。若采用第二种显示方式,对于上述情况系统管理员只能人为地选择其中一个网址作为用户的链接入口。地址可用文字型地址,也可用数字型地址。(3)内容简介。该著录事项为用户提供了虚拟图书馆中所收录的网页网站的内容概要,也是用户判断是否需要进一步调出原始网页网站进行详细浏览的主要依据之一。目前,几乎所有虚拟图书馆对收录的大多数网页网站都有该著录项目。内容简介除指明其覆盖面外,还应指明其收录材料的起始时间、更新周期及有无检索手段等。(4)关键词。这是虚拟图书馆实现词汇控制的方法,也是向用户提供关键词检索的前提,应该提倡人工关键词标引。目前因特网上的虚拟图书馆对信息组织有些比较简单,仅提供分类浏览功能。但也有不少虚拟图书馆提供关键词的词汇控制功能,如WWW虚拟图书馆的Anthropology(人类学)专题。(5)国别及站点的类型。这个著录事项应视虚拟图书馆的学科专题性质而选择,它是提供虚拟图书馆中所收录网页网站来自的国家以及站点类型检索途径的基础。目前在虚拟图书馆实践中,已有不少选择了该著录事项,并提供了相应的检索途径,如WWW虚拟图书馆中Agriculture(农业)专题中的Database类。(6)分类号。它是虚拟图书馆提供分类检索途径的前提。在进行分类之前,需要编制一个专用的分类表,不同专题的虚拟图书馆所编制的专用分类表有所不同。目前在虚拟图书馆实践中,有些编制的分类表比较简单,如清华大学虚拟图书馆的几乎所有专题的分类表都设置有组织机构、研究人员、出版物、软件、电子通告、特殊问题、其它地址等类目,并且只有这些一级类目,没有设置二级类目。有些虚拟图书馆的分类表比较复杂,如WWW虚拟图书馆中Chemistry(化学)专题的一级类目就有11个,每一个一级类目都设置有二级类目。还有些虚拟图书馆设置了三级类目。至于分类方法,目前所有的虚拟图书馆都采用人工分类。
2.网页、网站的序化
著录后的信息进入中央数据库,由机软件对其进行转换、排序,以适应检索软件的需要。
五、虚拟图书馆的实化
虚拟图书馆的出现是为了适应人们对网络检索效率的提高而产生的,它可以只为一个团体服务,也可以提供给广大网络用户。为了提高网络效率、适应网络信息不稳定的和保留一些有价值的信息,我们可以将加工过的信息保留在本地服务器上,从而使虚拟图书馆实化,形成本地电子资源。我们在加工网络信息时,必然要将网页下载到本地计算机上,加工后,由程序自动保存,不会增加网络负担。尤其是通过自动搜集方式,可以将有关网页内容全部下载到本地。一些国外站点,通过因特网连接时速度较慢,降低了获得信息的效率,如果将这些有关网络资源由本地服务器提供,尤其是在本地局域网中,传输效率的提高是巨大的。同时,一些不稳定的网页的信息得以保留下来,部分消除了网站地址更迭变动频繁、信息链接不稳定、信息保存时间短的缺憾。
由于要将大量的网页保存在本地,对本地服务器的存储空间提出了更高的要求。在存储介质价格逐渐下降的今天,应该不是问题。据第三次互联网络信息资源调查报告显示每个网页平均字节数为19.43KB,100G的IDE硬盘可以存储500万网页,而其价格为300元人民币左右。所以,虚拟图书馆的实化是可行的且有必要的。