摘要:本篇文章是从数字图书馆的信息检索角度,探讨搜索引擎技术、信息检索代理agent技术、基于内容的检索技术等方面的原理和特点,并根据数字图书馆信息检索技术的现状提出了数字图书馆信息检索技术的发展趋势。
一、数字图书馆
(一)数字图书馆的定义是图书馆发展的新阶段,它是以馆藏和网络上的数字信息为工作对象,以国际互联网为传输通道,利用先进的信息处理技术与计算机设备,向全球所有用户提供全方位电子信息服务的社会机构。
(二)数字图书馆的特征
(1)高效的计算机管理。
(2)新型的数字化信息存储处理技术
(3)便捷的联网查询手段
(4)用户为主的服务模式
二、信息检索技术
(一)检索的意义 信息具有共享性,信息资源共享是为了分享人类共同的知识财富、研究成果,人们必须通过一种科学的方法从取之不尽的信息源中去识别和获取所需要的那部分信息,这个过程就是检索。
(二)信息检索 信息检索是指对记录的信息集合进行查询以检索出含有能够满足个人或团体信息需求或感兴趣的信息内容的过程。即对信息集合与需求集合的匹配与选择。
三、数字图书馆的信息检索技术
(一)搜索引擎技术是对数字图书馆的数字化信息资源进行有效管理和检索的软件,是揭示馆藏和网上导航的重要工具,它能够为读者提供快速、方便的检索,使读者能够在网上即时获得所需的原文资料,是建成数字图书馆的关键。
根据信息搜索方法和信息服务方式的不同,搜索引擎可以分为目录式搜索引擎、关键词搜索引擎和元搜索引擎,目前,在数字图书馆中用得比较普遍的是元搜索引擎。 元搜索引擎一般没有自己独立的数据资源库,需依托底层的若干个独立搜索引擎的各分布式数据库,形成逻辑、虚拟的信息资源库以满足用户的信息需求。 它可给数字图书馆建设提供一定的启示。基于元搜索引擎的运作机理和数字图书馆体系构成的分析,元搜索引擎运用于数字图书馆的主要介入点是充分发挥元搜索引擎调度分布式数据库资源的优点。
(二)信息检索代理Agent技术信息检索代理Agent是一种主动信息检索技术,是将智能Agent技术、信息检索技术、 用户知识学习技术集成为一体的检索机制。 它可以根据用户事先定义的信息检索要求, 甚至能从用户日常的检索行为、浏览行为中学习用户的兴趣、推理用户隐含的需求,并利用己有的检索服务,主动从Web上检索相应的信息资源,实时监视信息源的动态变化等,并将有关信息以电子邮件的方式或其它方式及时主动地通知用户,其主要功能有: (1)智能导航。2)知识检索。3)用户知识的动态学习与管理等。
(三)基于内容的信息检索技术 在数字图书馆环境下,以多媒体、超文 本为主要存储形式的海量数字化信息资源, 关键词匹配技术已经难以足够形象和准确地 描述多媒体信息所呈现的视觉或听觉感知, 致使适用于文本信息资源的关键词检索方式 显得相形见绌,而基于内容的多媒体信息检 索技术在数字图书馆建设中逐渐显示出无比 的优越性。
(1)基于内容的图像检索 基于内容的图像检索是以图像中所包含 的内容语义为依据,通过分析图像的内容, 提取其颜色、纹理、形状等可视特征,建立 特征索引,存储于特征库中:在检索时,用 户只需把自己对图像的模糊印象描述出来, 就可以通过多次的近似匹配,在大容量图像 库中查询到所需图像。
(2)基于内容的视频检索 视频检索就是在大量的视频数据中找到 所需要的视频片断。视频数据可以用场景、 镜头和帧来描述。动态视频检索需要对视频 信息进行视频分割,将视频数据分割为镜 头, 在此基础上,从每个镜头中抽取关键 帧,关键帧是用于描述一个镜头的关键图 像,可按 颜色、形状、纹理等特征检索。一 旦视频被抽象为关键帧,搜索就变成检索在 数据库中 与查询描述相似的关键帧。一旦检 索到关键帧,用户就可以利用播放宋观看它 所代表的 视频片断。
(3)基于内容的音频检索 音频是对声音进行数字化处理得到的结果。音频数据一般用音量、音调、音强、带宽、音长和音色等属性来描述,其中音量、 音调、音强、带宽和音长这五个属性易于通 过技术手段进行信息化建模,而对音色的处 理较为复杂。在检索前,首先要对音频数据 建立索引,索引可以基于韵律、旋律以及其 它的感知或声学特征。
四、数字图书馆信息检索技术的发展趋势
第一,统一的检索界面。未来的信息检 索提倡一站式服务,强调界面友好,保证用 户使用方便。在技术上实现分布式、跨语 言、跨平台检索,可以说,统一的检索界面 将 成为未来信息服务的主流。
第二,主动的信息推送服务。过去情报 服务中的SDI(定题情报提供)技术将被普 遍用于网络信息服务,信息服务部门将利用信息推送技术把用户所需要的信息,以电子邮件的形式直接发送到用户邮箱中。
第三,多种检索模型将融为一体。未来 的检索系统采用的检索模型更趋向于多种检 索模型的融合,各种模型代表的检索技术交 融一起,相互取长补短,检索策略、检索效 率将会获得全面改善和提高。
第四,检索的智能化。未来的信息检索 智能化水平将得到极大提高,用自然语言进 行检索不再是个梦想。智能化的信息抓取、 智能信息处理、智能检索将成为未来信息检 索系统的重要组成部分。
第五,检索的个性化。未来的信息检索强调个性化服务。数字图书馆以网络为依托,将围绕用户的兴趣、爱好、习性、专长等个性需求,主动地为读者选择资源,并定期地把符合用户需求的信息以用户喜好的方式发送给用户。
总之,随着信息技术的进步,数字图书馆的信息检索技术将不断发展和完善,不仅检索界面会更加友好、检索方法更加灵活和智能化,而且检索结果也会更加丰富和准确,从而更好地为用户提供信息服务。