跨库检索比较研究
随着互联网和计算机存储技术不断发展,基于网络的数据检索逐步成为图书馆和信息服务机构提供服务的主要途径。为满足用户信息需求,许多图书情报机构引进网络数据库,同自建资源库形成统一的知识体系。然而不同资源的使用方法、检索界面、检索策略不尽相同。使用过程中需要登录不同数据库,重复输入检索词,造成诸多不便,也限制了数据库资源的进一步发展。
跨库检索(cross-database search)是以异构数据源为对象的检索系统,提供统一检索入口,将检索策略转化为符合不同数据源规范的检索表达式,并发检索分布式异构数据源,并对检索结果加以集成、去重、排序后以统一格式返回用户。
1 国内外跨库检索系统功能比较
1.1 国内跨库检索系统
(1)CALIS[1]统一检索系统旨在针对CALIS中心、各个图书馆和数据库商中的各种异构数字资源进行整合从而提高资源的利用率。CALIS采用基于元数据的检索技术,能够对各种异构资源提供统一的检索界面和检索语言,已完成了近100个国内外电子资源数据库的配置工作。
(2)清华同方异构数据库统一检索平台(USP[2])关键在于一个称为“智能搜索器”的程序,针对不同的数据库,将用户请求转化为符合其规定的格式发送到各数据库,得到返回结果后,“智能搜索器”再将不同数据库的结果转化为统一的格式发送到浏览器端显示给用户。USP目前支持几十种国内外常用的搜索引擎或数据库。
1.2 国外跨库检索系统
(1)SearchLight[3]是美国加利福尼亚大学的数字图书馆的项目成果之一。1997年该项目启动之时,利用新兴技术转变了数字信息的出版和获取方式。1999年1月正式提供服务。共整合包含商业数据库、OPAC等在内的55个数据源。
(2)Metalib/SFX[4]是Ex Libris公司开发的功能强大的图书馆信息门户,包含通用网关、资源存储、个性化和用户管理、扩展服务四类功能,通过SFX实现对不同Web信息资源的动态链接。Metalib采用Oracle作为底层数据库,提供基于网络的数据库配置工具,但是本地装载和持续配置比较复杂。
2 跨库检索系统分析
目前跨库检索的实现方式主要有四种[5]。
2.1 通过ODBC、JDBC等接口与数据库直连
通过调用接口直接检索数据库内容,无需建立索引库。但是出于对数据资源的安全性和检索效率考虑,尤其是对数据资源供应商利益的保护应用范围较小。
2.2 不同数据资源之间的格式转换
将不同结构的数据库信息导入到一个数据库中,可以完成统一检索,并能保证检索的速度和质量。但是针对海量的数据资源和不同数据库供应商,容量和版权都限制应用。
2.3 元搜索引擎
元搜索引擎由检索请求提交机制、检索接口代理机制、检索结果显示机制三部分组成。“请求提交”负责实现用户“个性化”的检索设置要求,包括调用哪些搜索引擎、检索时间限制、结果数量限制等。“接口代理”负责将用户的检索请求“翻译”成满足不同搜索引擎“本地化”要求的格式。“结果显示”负责所有源搜索引擎检索结果的去重、合并、输出处理等。
2.4 建立索引数据库
是将不同数据库的索引信息整合到同一数据库中,用户通过索引库进行检索到URL地址定位所需文献。
3 数字图书馆发展
数字图书馆的发展经历了基于资源、基于服务到基于用户的发展过程[6]。分别是基于数字化资源的数字图书馆;基于集成信息服务的数字图书馆;基于用户信息活动的数字图书馆。数字图书馆始于将特定文献资源数字化,建立独立的数字资源信息系统并嵌入到图书馆系统,突破检索和传递文献资源的时间、空间限制;随着数字信息资源规模扩大、形式多样化,为了有效利用分布式、多样化、异构的数据资源,数字图书馆的发展指向分布式、多样化信息资源的服务集成、多系统跨库统一检索等。这是目前数字图书馆技术研究、应用试验和开发的主要趋势。下一代数字图书馆在分布式数字资源系统(分布资源层)和集成信息服务体系(集成服务层)基础上,通过一定的个性化定制机制形成适应用户或用户群组需要的可能是动态过滤、析取和组合的资源、工具和服务集合(个性化定制层),这些集合被有机地嵌入到用户信息系统或用户信息利用环境(用户系统层)中,直接支持用户的信息利用活动。
4 图书情报服务机构
图书情报服务机构的职能主要包括为各级决策部门提供情报支持、为社会公众提供信息服务。而科技文献服务是信息服务的很重要一部分。图书情报机构提供的信息资源主要来自几方面:数据库供应商提供的文献资源、自建特色资源、网络信息资源、印本文献资源。数据多种数据源和服务方式决定了图书情报机构所采用的检索方式多样化。