黄山风景区光明顶天气:文献信息检索 2 - 18、20 - 23、25 - 26

来源:百度文库 编辑:九乡新闻网 时间:2024/04/30 19:33:14

信息检索基本原理的核心是用户信息需求与文献信息集合的比较和选择, 是两者匹配(match)的过程。
一方面是用户的信息需求, 一方面是组织有序的文献信息集合,检索就是从用户特定的信息需求出发,对特定的信息集合采用一定的方法、技术手段,根据一定的线索与规则从中找出(search, locate, hit) 相关的信息。
匹配有其匹配标准,这里涉及到两者一致性、相关度等问题,按一定的标准筛选出符合要求的信息。
信息检索的过程往往需要一个评价反馈途径,多次比较匹配,以获得最终的检索结果。其图示如下:

检索点(access point)是检索的出发点,以前常用"检索途径"(approach)这一术语。
每件文献均有内部的(信息内容)特征及其相关的外部特征,在检索系统中检索点是标目的总称。从文献的特征出发,将其特征值与检索系统中标目数据进行计算比较,通过匹配达到检索目的。
文献信息特征是多方面的,用于文献检索的检索点很多,
反映文献信息内容特征的有:分类检索和主题检索;
反映文献外部特征的有:作者检索、名称检索和号码检索等。
1.分类检索
分类(classification)检索是从文献内容所属的学科类别出发来检索文献,它依据的是一个可参照的分类体系(classification system)。
分类体系按文献内容特征的相互关系加以组织,并以一定的标记(类号)作排序工具,它能反映类目之间的内在联系,包括从属、并列、交替、相关等。

不同检索工具使用各自规定的分类表。
广泛用于图书资料的是图书分类法。图书分类法的作用是指示用户根据学科内容检索图书资料,指导用户从开架书库(open shelf)中按类号顺序找到指定的图书及其内容相关的资料。许多出版物上都有"图书在版编目"CIP(Cataloging In Print)。在我国出版的图书、专著上"图书在版编"数据中有"中图法分类号"一项。
2.较权威的图书分类法有, 如:
中国图书馆图书分类法
中国图书馆图书分类法
中国图书馆图书分类法简称"中图法",以下是该分类法的主类目表。
社会科学
自然科学
T: 工业技术
A 马列主义
B 哲学
C 社会科学总论
D 政治,法律
E 军事
F 经济
G 文化,科学,教育,体育
H 语言
I 文学
J 艺术
K 历史,地理
N 自然科学总论
O 数理科学和化学
P 天文学,地球科学
Q 生物科学
R 医药,卫生
S 农业科学
T 工业技术
U 交通运输
V 航空,航天
X 环境科学
Z 综合性图书
TB 一般工业技术
TD 矿 业工程
TE 石油
TF 冶金
TG 金属学,金属工艺
TH 机械,仪表工业
TJ 武器工业
TK 动力工程
TL原子能技术
TM 电工技术
TN无线电电子技术,电讯技术
TP自动化技术,计算技术
TQ化学工程
TS轻工业,手工业
TU建筑科学
TV水利工程
美国国会图书馆分类法(Library of Congress Classification)
美国国会图书馆分类法
美国国会图书馆分类法可以在以下网络址上查到它的类目设置等内容: http://lcweb.loc.gov/catdir/cpso/lcco/lcco.html
它的主类目表如下:

杜威十进分类法(Dewey decimal Classification system)
杜威十进分类法
杜威十进分类法可以在以下网络址上查到它的类目设置等内容: http://www.oclc.org/oclc/fp/
它的主类目表如下:


1.两种检索手段
检索从技术手段上分有:手工检索(手检)和计算机检索(机检)

手工检索:
手工检索(manual retrieval)使用的多为印刷型或书本型检索(paper-based retrieval) 工具,早些有检索卡片,现在使用最多的是检索刊,它们定期地将最新收集到的信息、文献加以汇总、组织和报道。手检的技术要求不高,以人的劳动为本,由人来翻阅,由人来进行比较、选择,完成匹配。手检工具能提供的检索点十分有限,检索结果往往不尽人意。
计算机检索:
计算机检索(computer-based retrieval)技术含量高,它通过数据库系统来实现的。机检不仅需要先进的技术设施,也要求较高的人的文化素质。
检索系统包括:计算机主机设备、外部存贮器、输入输出设备、终端设备、通信设备等硬件设施,还需要控制、提供检索的软件系统,包括:通信软件、操作系统、应用程序等,以实现对数据库的信息存取。
检索过程是在人与机器的合作、协同下完成的,它们经常用实时的(real time)、交互的(interactive)的方式从计算机存贮的大量数据中自动分拣出用户所需要的信息。计算、比较、选择的匹配任务是由机器来执行的,而人则是整个检索方案的设计者和操纵者。这里,检索的本质没有变,变化的是信息的媒体形式、表示方式、存贮结构、存取方式。
2、计算机检索的优势
计算机检索明显优于手工检索,主要表现为检索的信息量大、数据更新快、检索功能强、检索结果输出的多样性等。
检索的信息量大:
且不说大型机器的海量存贮,一张普通光盘的信息存贮量就达650M,相当与几十万页的书。计算机若与全球网络相连,就能获得世界范围的信息。
数据更新快:
计算机处理与电子传输的迅速、数据的动态和即时、及时的更新、检索的实时性都是手检工具无法比拟的。
检索功能强:
机检系统可提供很多检索点,对一个检索点还可以同时取若干个检索属性值,从多点交叉切入,有多重限定,有多种组合方式,允许人机交互,能达到高效、高精度的检索效果。并具多库检索,多媒体和知识检索功能。
检索结果输出的多样性:
用户可以选择各种输出形式和输出格式,比如屏幕显示、拷贝、下载、打印等都是常用的方式,输出的内容、格式和形式可选择或自行定义。
总的趋势是机检方将逐步取代手检方式。当前许多经典的印刷型工具都有其对应的电子数据格式、数据库,印刷工具则成了电子数据加工输出的"副产品",许多新生的数据库不再与印刷型工具有缘,仅有其电子版本。

从检索工具的功能出发,检索类型可分为三种:事实检索、目录检索、文摘索引检索,后者是传统意义上的文献检索。它们之间的关联体现在检索过程中,见下图。

事实检索给出直接、确定性的检索结果;目录检索、文摘索引检索是间接的、相关性检索,给出来源文献的线索,指引原始文献。
文献检索的最终目的通常是获取原始文献、全文信息,各类检索在检索流程各个环节上起自己的作用。各类检索分别由其对应的检索工具来完成,包括事实检索工具、书目检索工具和文摘索引工具。
这些工具分别对应计算机检索系统的数据库,包括:事实数据库、书目数据库和文摘索引数据库。事实检索数据库一般属源数据库(source database),而目录和文摘索引数据库则属参考数据库(reference database)。

这里,按文献著录的特点对检索工具进行分类。著录是对文献的外部特征和内容特征进行分析、处理和记录的过程。著录形成文献条目,根据这些条目著录的内容和揭示文献的深度不同而形成四种检索工具:目录、题录、文摘和索引。
1.目录
目录(catalog)也称书目,是最早的一种检索工具。它是著录一批相关的文献,并按一定的次序编排而成的一种揭示与报道文献的工具。
目录是对一批相关文献外部特征的揭示和报道,是有序的文献清单(list)。目录通常以完整的出版单位或收藏单位为著录的基本单位,以 "本"、"种"或"件"(item)为报道单位, 如一种图书,一件科技报告。
它对文献的描述较简单,条目的著录项(element)有:作者(编者,主要责任者),题名(书名,文献名)和出版项等。以下是传统的卡片目录格式。

电子目录各项著录有序,有标目,馆藏目录还常带有馆藏地点、馆藏状态、索书号等项列表,以下是INNOPAC的中英文电子目录。

2.题录
题录(bibliography,bibliographic citation)也是对文献外部特征的描述,由一组数据项的固定组合形成题录型条目,书写、印刷型条目如“文献类型的识别”一节中的样例。题录一般以内容上独立的文献单元,如一篇文章或书中某一部分、某一章节或整个出版物作为其著录的基本单位。以下是一条电子条目。

题录通常包括:作者(或含其所在单位)、篇名和来源出处及文种等,由出处导向原文。
3.文摘
文摘(abstract) 不仅描述文献的外部特征,而且揭示文献的内容特征, 是带有文摘内容的、扩展了的题录,它比题录多有文摘等项内容。按文摘的目的、用途、长短划分,文摘有以下几种:
报道性文摘(information abstract), 是原文内容的浓缩,文字一般在二、三百字(word)左右。
指示性文摘(indicative abstract), 仅是原文的简介,包括目的、方法、范围、结果、结论等,文字精简到一、二百字左右。
评论性文摘(critical abstract), 其中包括文摘评论员的分析与评介。
印刷型文摘条目见第5章书本型检索工具《科学文摘》中的样例。
文献的文摘型电子条目如下:


4.索引
索引的概念
索引(index)是对一组信息集合有系统的指引(systematic guide),一般只起指引特定信息内容及其存贮地址的作用。
在手检工具中,索引通常有三部分组成:
标目(heading)
说明语(modification)
存贮地址(location)
其中,标目和存贮地址是必须有的成分。
在计算机检索系统中,索引由倒排文档通过连接来实现。
标目:
标目是索引条目所指示的文献的某方面特征,按其属性值、即关键字(key)大小排序,其属性值有如作者姓名、主题词等等。存贮地址是属性值对应的特定信息内容在文献集合中的地址。手检工具中地址很多是文摘号、页码或流水号等,也可能用文献信息的某个特征成分,比如《SCI》中的作者名。不同的标目系统构成不同的索引,比如主题词作标目的就是主题索引,作者名作标目的就是作者索引。
说明语:
说明或注释标目含义,其形式有:文献名或经过压缩改写的文献名,根据文献内容编写的短语、关键词、术语等,它们对文献内容作简明的介绍,放在索引条目的中间部分。通过索引所指示的地址,找到相关文献条目。
例:
Television broadcasting①
Satellite TV receiver indoor unit ② 20670③
①: 标目
②: 说明语
③:存贮地址
索引在检索系统中占有重要位置,手检工具中索引补充了正文以外的检索点,常有若干个,如果正文是按分类编排的工具通常有作者索引、主题索引等。而现代计算机检系统则是通过各种索引来实现检索的。
索引参照系统
参照系统(syndetic system),常见于手检工具中,包括各种参照、标目注译、索引使用等,它们指示标目下的内容,指引对同义词、相关词的选择,方便用户做全面、准确的、无遗漏的检索。通过参照系统的指引可以把分散在工具各处的相关条目联系起来,为克服手工检索工具不可避免的局限性,参照系统就成为检索必不可少的一条隐含纽带。
参照:
参照(cross-reference)反映标目间语义关连的一种指示,实现条目之间的连接和转移。
"见"(see)项,表示转移,指示应当使用的标目(检索词),
"参见"(see also),表示参照,指引有关标目与条目,它们对检索有参考价值。如:
RAILROAD ELECTRIFICATION   See   ELECTRIC RAILROAD
RADIO ASTRONOMY   See also   RADIO TELESCOPES
标目注释:注译在标目之后的括号内,包括:
范围注释(scope note),侧重在标目的特征、概念范畴的说明和限定,
涵义注释(definitional note),侧重在标目的用法、含义方面的说明和补充。

语言是一种人们用以交流沟通的重要工具,用于人与人之间的通信活动(communication)。人与计算机对话,需要有计算机语言,人与检索系统对话来实施检索,则需要有检索语言(retrieval language)。
检索语言是用于描述检索系统中信息的内部及外部特征和表达用户信息提问的一种专门语言,检索的匹配正是通过语言的比较匹配来实现的。检索语言也称索引语言,后者是从检索系统的标引角度出发的,而前者是从用户的信息检索角度出发的。因此,检索(标引)语言实质上是检索和标引之间的约定语言。检索语言的使用是检索技能的一个重要方面。

根据检索语言不同的特征将检索语言进行分类
 按文献信息的特征,可分为:描述信息内容特征的语言和描述信息外部特征的语言;
按检索工具编排体系,可分为:分类语言和主题词语言;
按词汇的类型,可分为:关键词语言、单元词语言、标题词语言和叙词语言。

检索语言
按其规范的情况,可分为:人工语言 (规范语言)和自然语言(非规范语言);
按检索语言的词汇组配方式,可分为:先组式语言和后组式语言。
不同的检索语言构成不同的标目及其索引系统,提供各种检索点。

检索语言从规范、授控的情况,有 人工语言 (规范语言)(artificial language)和 自然语言(非规范语言)(natural language),
检索词是检索语言的基本成分,检索词的有序集合构成词表(thesaurus)。
自然语言:
自然语言是取其自然形态,不受控,使用非规范词(uncontrolled term)或称自由词(free term)。自然语言极其丰富、复杂和多样,存在着一词多义、多词一义及词义交叉的现象。常见的有同义词、近义词、同型异义词等。
自由词有较大的灵活性,使用随意,专指性强,查准率高。它能及时地反映最新出现的词汇,反映规范词难于表达的特定概念或新概念。在全文检索中自然语言独领风骚。大容量、高速、高性能的计算机检索系统的自动标引,使得自由词的全文检索,即自由文本检索(free-text search)占的比例越来越高。自然语言的缺点是由于它不规范,缺乏对词汇的控制能力,也无法指示概念之间的关系,影响到检索效率。
人工语言:

人工语言(规范语言)(artificial language,controlled language)受信息检索的控制,使用控制、规范词(controlled term)。人工语言的规范处理重在两个方面:一是使一个概念只用一个词汇来表达,这样就避免了多词一义的情况;二是使一个标引词只能表达一个概念,这样就排除了一词多义现象,这时,需要加上必要的限定和注释。比如"飞机"这一概念,用英语检索时,可用plane , airplane , aero plane , aircraft 等同义词,规范就是选定其中最适合的一个词汇来标引这一概念,如果选定aircraft 一词,则其余词均为非规范词。在使用aircraft规范词来检索时,其结果将包含所有有关飞机这一概念的文献,而不管这些文献中是否确切出现过aircraft这个词。
规范词语言采用特定词汇来网罗、指示宽度适当的概念,供检索选择。用户在检索时可省略对其概念的全部同义词或近义词的考虑,也避免了这些词在输入时的麻烦和出错,它提供了一种比较高效、能有效避免漏检、误检的查找。在检索中普遍使用规范语言及其词表,凡有规范词表的检索工具,在主题检索时首选的是规范词检索。
在实际检索中,检索词的选择是个复杂的问题,必须考虑表达概念的准确与完善,通常是规范语言和非规范语言交混使用来满足各种不同的需要。

先组式(pre-coordination)语言:
先组式语言:是指在检索实施前已事先组配好的一种检索语言,用户只能用这种已经固定好的检索词组形式去完成检索,它有较好的直接性和专指性,但灵活度差,比如标题词语言。
后组式(post-coordination)语言:
后组式语言:是指在检索实施前未事先组配好的、以单元词等形式出现的一种检索语言, 在检索时将它们临时组配起来,表达一定的概念,来完成检索。这种后组方式提供了灵活的组配方式,在计算机检索中的到广泛应用。

1. 分类语言
广义上讲,分类语言也属于主题语言。分类语言是按学科范畴划分而构成的一种语言体系,它集中反映学科的系统性、反映它们的相关、从属、派生等关系,从总体到局部分层、分面展开,形成分类体系。由类目号码及名称作为检索语言,构成分类类目表,如前述图书分类表、专利分类表用的都是分类语言。

2.主题词语言
主题词语言很多,如:关键词语言、单元词语言、标题词语言、叙词语言等,它们有不同的主题词表。主题词表达概念本身,在主题词表中通过参照系统来指示词汇之间的关系。
关键词语言:
关键词(keyword)语言是自然语言,直接取自文献的题名、文摘等,或者取自全文。除了禁用词(stop-term),如一些冠词、介词、副词或连词外,凡在概念上有意义的词都可用作关键词,它确保检索用词与文献记录中的词汇完全一致。关键词有词表,一般按字顺排序,由关键词作索引标目的就是关键词索引。这些关键词也可以组配,比如《科学引文索引》中的"轮排主题索引",就是由文献题名中提取的关键词两两组合而形成标引语言。
单元词语言:
单元词(uniterm)语言是规范语言,它是一种最基本的、不能再进一步分割的单位词语言,单元词也称元词,它能独立表达某一概念。元词语言是后组语言,它将一些元词在检索执行时组合起来使用。比?quot;科技"和"文献"分别表达两个独立的概念,它们组合成"科技文献"则又形成一个复合概念。元词强调单元化词的组配,仅限字面组配。单元词表比较简单,简单的单元词表只有一个字顺表,较完备的单元词表则由一个字顺词表和一个分类词表组成。单元词字顺表包括全部单元词和大量非单元词,非单元词列在单元词条目下,或有参照指向。单元词检索具有灵活、自由的组配方式。
标题词语言:
标题词(heading)语言是一种先组式规范语言,词之间的关系早已有词表规范表达,词表按字顺编排,也有参照指向,实现相关概念的连接。标题词除了单级标题外,还采用大量多级标题,有通用的和专用的两种。标题词作标目的索引有标题词索引,如《工程索引》93年前的检索刊,是非常典型的一种主要利用标题词来检索的工具。
叙词语言:
叙词(descriptor)语言是一种后组式规范语言,它是为克服元词与标题词的缺陷而产生的一种较新的、使用较多的检索语言。叙词语言的基本成分是叙词,叙词概念和规范程度都比标题词强,叙词有严格的同义规范、词义规范、词类规范及词形规范。叙词和元词相同,也有组配性,但它的组配是概念而不是字面组配,两个及两个以上的叙词组合在一起可形成一个新概念。叙词可采用词组形式,以提高其在反映概念上的准确性。
叙词的有序排列构成叙词表,它是规范化的、动态性的词表。

以下对各种主要的词表进行介绍,包括:《INSPEC叙词表》,《Ei叙词表》,《工程标题词表》,《美国国会图书馆标题词表》,《汉语主题词表》,《中国分类主题词表》等。

《INSPEC叙词表》
《INSPEC叙词表》(INSPEC Thesaurus)是《科学文摘》(Science Abstracts)检索工具配套使用的规范词表,它由英国电气工程师协会编辑出版,书本型词表的全表分为:字顺表和等级表两部分。
字顺表(Alphabetic Display of Thesaurus Terms):
字顺表按其所收录的词汇的字母顺序编排,表中叙词为黑体字,每个叙词下有若干可参照的相关词汇,有专门的参照项标识来表示它们的关系,这些参照项均采用大写黑体缩略形式,如:
television picture tubes
UF
display tubes, television
kinescope
picture tubes, television
NT
colour television picture tubes
BT
cathode-ray tubes
television equipment
TT
electron tubes
telecommunication equipment
RT
fluorescent screens
phosphors
CC
B2360
FC
b2360-k
DI
January 1973
television signals
USE video signals
UF: Used For,意为替代,指出本叙词所替代的非规范词,UF后的词不能作叙词检索。
NT: Narrower term,意为狭意词,指出本叙词的下位词,紧缩检索概念,
该下位词也是叙词,可用于检索。
BT: Broader Term,意为广义词,指出本叙词的上为词,扩宽检索概念,
该上位词也是叙词。
TT: Top Term,意为族首词,指出本叙词的最高上位词,它也是叙词。
RT: Related Term,意为相关词,指出与本叙词概念相关的其它叙词。
CC: Classification Code,意为分类码,对应《科学文摘》中的类号。
DI: Date of Input,意为录用日期,是词表收集该词的起始年月。
USE: 词表中也列入一些非规范词,它们使用白体字,其后用"USE"标识,意为"用",
来指向应该使用的叙词。
在INSPEC数据库中可获得对应的电子版字顺表,如下:

等级表
等级表(Hierarchical List of Thesaurus Terms )按族首词的字顺排列,每个族首词之下由上而下逐级列出其下位、下下位词,级别由增加点数来表示,如:
modulation
. amplitude modulation
. angle modulation
. . frequency modulation
. . .frequency shift keying
. . phase modulation
. . . phase shift keying
. optical modulation
. pulse modulation
. . delta modulation
. . pulse amplitude modulation
《Ei 叙词表》
《Ei 叙词表》(Ei thesaurus)的结构格式和《INSPEC词表》类似(见上表), 如:
Acoustic imaging
SN
Production of real-time images of the internal structure of opaque objects
DT
Predates 1975
UF
Acoustic lenses
BT
Imaging techniques
NT
Ultrasonic imaging
RT
Acoustic holography
Acoustics
Diagnosis
Lenses
SN:"scope Notes",意为范围注释,
DT:"Date", 起用日期。其他同《INSPEC叙词表》。

检索效果(retrieval effectiveness)是指检索系统检索的有效程度,它反映检索系统的能力,这是对机检提出,有些指标对手检也有意义。检索效果包括技术效果和经济效果两方面,技术效果主要指系统的性能和服务质量,它是由检索系统实现其功能的能力所确定的;经济效果主要指检索系统服务所花费的成本和时间,它是由检索系统完成其检索服务的代价所确定的。一些指标不仅可作定性的、也可作定量的评价,它们针对的是检索系统,也涉及实施检索的人所能发挥检索系统的最大能力、效益等因素。
有6项评价检索效果的指标,它们由克兰弗登(Cranfield)在分析用户基本要求的基础上提出的,包括:收录范围、查全率、查准率、响应时间、用户负担及输出形式。其中两个主要的衡量指标是查全率(Recall ratio)和查准率(precision ratio),分别用R 和P大写字母表示。

现将检索结果中的有关参量列于表中,讨论涉及四个方面:相关文献、非相关文献、被检出的文献和未被检出的文献。


一系列的实验结果表明查全率与查准率之间存在互逆关系, 见图。
不同检索语言出发得到的实验结果都表明了这种关系,即查全率高时,查准率较低,反之亦然。R和P各自的最佳状态是逼近100%,但同时只能满足其中的一个。要提高查准率,则要付出查全率降低的代价;要提高查全率,也会使查准率下降,这是容易理解的。


提高检索系统的质量
对用户而言,则要选择适合课题的学科覆盖范围的、优质的检索工具,包括其收录的全面、著录的清楚、标引的准确、完善等等。
 提高用户使用检索系统的能力
充分发挥检索系统的功能。这里涉及到下一章要讨论的检索策略问题。检索语言、检索技术、方法的正确、灵活的使用,以使检索者(用户)能更好地与检索系统协调、配合。另外,也要根据不同的检索课题的需要,适当调整对查全率和查准率的要求,比如要求查全率很高的查新工作,就要放弃对查准率的苛刻要求。一般来说泛指性的词用得多,或相关概念检索词用得多对提高查全率有利;反之,专指性的词用得多,或检索词互相限定多,则对提高查准率有利。当代科技信息检索系统能达到的查全率和查准率分别是60%~70%和40% ~50%。

由于二次文献检索系统的大量涌现与应用,特别是其数据库的高效、快速的报道和检索利用,使对其所揭示的一次文献需求的压力大大增加,虽然现在全文数据已经多倍于书目数据库,但还是远远不能满足需要,而成为一个瓶颈问题。如何发现并能快速地得到原文当前有以下办法。
5. 1 馆际互借与文献传递
随着信息、文献量的膨胀,世界上不可能有一个图书馆或文献信息服务中心的文献收藏能称得上是完美无缺的。
比如世界著名的美国国会图书馆,其收藏达到1.2亿件,也难于包罗万象。因此,一个用户企图在一个图书馆或文献信息服务中心得到所有全文文献的满足是不现实的。由此,馆际合作、文献信息资源共享的要求日益迫切。馆际互借方式是很早就开展的一种资源共享方式。
馆际互借
馆际互借ILL(Interlibrary Loan)是馆与馆之间的图书信息资料共享合作,是图书馆(文献信息服务中心)开放服务(open service)的一个重要方面。最早的办法是靠人去其它合作馆借还原件或取回复印件,这可由个人也可委托图书馆服务部门来完成。
文献传递
文献传递DD(Document Delivery)是利用各种通信手段、从各种文献服务中心获取文献信息的有效手段。其服务模式多样,比如:邮递(mail),快递(express mail),电传(telex),传真(fax)及电子邮件(E-mail)等。文献传递的电子化、网络环境使传送的信息量更大,内容、媒体更丰富,使传送的速度更快捷,手续更简洁,使用户获得文献信息的渠道更畅通。

联机检索中心的服务
提供多种方式的订购、传递服务
世界大型联机检索中心不断扩宽它们的服务范围和提高服务水平,不仅提供一般意义上的联机检索,而且提供原始文献的馆藏、订购等服务,提供网上电子订单的传递,由有关文献服务中心直接向用户(或其代理)传递原文。传递文献的方式可由用户根据价格、传递速度、类型等因素来决定,如DIALOG、OCLC等联机检索系统现在都有这方面服务。
有些服务中心除了支持用户的联机数据库检索外,还提供成员馆的联合目录或各馆独立的目录OPAC。比如美国俄亥俄州50多个大学组成的ohioLINK,在显示各馆馆藏目录的同时,用户便可在检索终端发出馆际互借请求,这个指令被执行后用户在二至三天内便可得到所要的图书,称作"user-orientation interlibrary loan"。它是一种无需中介的、用户自我服务,属于最终用户(end-user)方式,与之对应的是中介(intermediate)方式。
提供全文数据检索
功能强大的检索系统拥有越来越多的全文数据,直接用于检索。通过网络提供联机期刊全文,会议录、标准、专利等全文,常由二次文献检索直接指向一次文献,这种连接对用户是透明的。这样,用户从检索提问开始到获取有关文献全文的过程即能一次完成,其中的环节交由计算机网络系统执行。原文往往由电子方式传递(transfer),用户可下载(download),或从电子信箱中取到附件。所有这些都是实时方式,用户可享受到"article requesting without leaving your seat"的方便,这种集成化的最终用户方式称一步到位的服务(one-stop service),它将检索过程变得十分简捷。
网络化图书馆的合作
现在许多国家把藏书协调作为资源共享的基本原则,积极推进文献采集的分工与协调。在网络环境下,电子图书馆的联网使馆际合作形式走向更深层次,一些实力雄厚的大学图书馆、研究图书馆(academic/research library)逐步走向无墙(library without wall)、虚拟化(virtual library),实现文献资源的共享,其模式多样:
集中模式(integrated model),它的系统集中,各馆用户界面一致,数据库集中管理、共享,如美国ohioLINK。
混合模式(hybrid model),它的系统分散,各馆界面自定,数据库集中共享,如美国的Galileo模式。它将Georgia 卅的34所高校连接起来,资源联机共享,不仅有目录、文摘索引,而且有上千种期刊全文库及百科全书等事实数据库。
分散模式(distribute model),它的系统分散,界面自定,数据库也是自建、分散的模式,如美国14所著名大学的合作委员会CIC(Committee on institutional cooperation),实现跨州的开放式服务。
我国在网络化图书馆合作方面发展较快,
如:北京建立了中国高等教育保障体系CALIS,http://www.calis.edu.cn
如:上海38所高校建立了上海高校网络图书馆SCIUT,

我国一些主要的学术性图书馆和文献情报中心馆藏丰富,它们相互合作,开展服务,推进信息资源共享, 以下主要介绍它们的馆藏和信息服务。
中国国家图书馆
http://www.nlc.gov.cn/
中国国家图书馆是国家重要的文化机构,力于增进与世界各国图书馆界、文化界的交流与合作。目前,与世界120多个国家和地区的1000余家图书馆、学术研究机构建立并保持着书刊交换关系。通过设在馆内的ISSN中国国家中心,使中国连续出版物的书目信息参加世界范围内情报信息的交流与共享。
中国国家图书馆馆藏富丰,品类齐全。截止1998年底,馆藏文献已达2160万册(件),居世界国家图书馆第五位,并以每年60-70万册(件)的速度增长。

中国国家图书馆编辑出版国家书目、联合目录和馆藏目录,是全国书目中心。它成立全国图书馆联合编目中心,在全国范围内组织共建网上联合目录,共享书目数据资源和文献资源。中国国家图书馆提供良好的文献资源服务。
大型计算机综合管理系统较早启动,现已制定了《国家图书馆网络建设发展规划(1997-2000)》,正在网络建设、软件开发、数据加工等方面开展攻关。
中国科学院文献情报中心
http://www.las.ac.cn/
中国科学院文献情报中心(The Documentation and Information Center of the Chinese Academy of Science)有120余个中国科学院研究院/所和大学文献情报机构组成。中心拥有各类文献560余万册(件),期刊2180万册,其他各类文献共1342万余册(件),其中科技报告80万册件,每年入藏中外期刊5000余种,图书资料近万册。它对自然科学基础学科和高新技术领域的期刊、图书、会议文献、科技报告等的收藏较系统、丰富,有特色。文献收藏形成以自然科学、基础学科和高新技术文献为主的特色和优势。
它是目前有多种服务功能的全国最大的综合性科技图书馆和自然科学情报中心。它的任务包括根据全院的科研方向、任务,收集、整理、存储、开发和提供国内外科技文献;组织建立院内文献检索系统,致力于全院情报系统的整体化建设、信息资源建设、文献加工与数据库建设、图书馆自动化与共享网络建设;组织开展 情报调研,提供情报服务。
中国科学技术信息研究所
http://istic.ac.cn/
中国科技信息研究所(The Institute of Scientific and Technical Information of China,简称ISTIC),原称"中国科技情报所"(中情所)。 中国科技信息研究所是国家科学技术部直属的国家级综合性科技信息机构。从事科技文献收藏与服务、数据库建设、信息分析研究、信息服务网络基础设施建设等业务。它的馆藏以工程技术、管理科学、高技术文献为重点,收藏国外科技资料106万册,国外科技期刊1.66万/182万种/册,国内、外光盘154种,以及各种媒体的资料、文献,包括较多中外文会议文献,平均年收集有1000个会议的文献资料,还有美国政府四大报告。同时,该所已开发数据库8个,提供软盘、磁带、光盘、联机等检索。
中国国防科技信息中心
http://cdstic.cetin.net.cn/

该中心重点收藏综合性、通用型国防科技资料和系列出版物。中心的科技图书馆共收藏中、外文文献240万份,主要是综合性、通用性的国防科技文献。对外提供检索、借阅、复制、专利查新和代理等项服务。它有全套美国公开发表的AD,NASA,IAA,AIAA报告以及军用标准,还有国际科技会议文献及十万多种中国国防科技报告与国家军用标准。生产各类国防科技信息数据库,包括文献型数据库和事实型数据库。已建设的文献型数据库有馆藏库、联合文献库、期刊库、中国军转民库等。作为覆盖全国的大型计算机信息网络中心, 配备了完善的网络设备和先进的信息处理系统。常年提供几十种数千万篇数据库的联机检索服务和十几种多媒体光盘数据库的检索服务,并承担网络互联、软件开发、用户培训、代理查询等业务。
北京文献服务处(Beijing Document Service,简称BDS),是该中心与北京市科协联合组建的机构,提供联机检索服务。它自行开发20多种全文数据库,包括2000万篇文献。
中国标准情报中心
http://www.cei.gov.cn/homepage/gov/zgbzqbzx.htm
中国标准情报中心即中国技术监督情报研究所,它是专门从事标准信息的收集、加工、研究和服务的国家级信息机构,是我国六大科技信息中心之一。中国标准情报中心集中收藏国内外标准文献与计量文献。标准馆收藏有61个国家、70多个国际与区域性组织及450个国外专业学会的标准文献40万件,国外标准期刊160余种,标准化专著6000余册,标准年更新率达20%。文献馆收藏有计量文献6万册,中外文计量期刊700种。它还有国家标准数据库。
中国标准情报中心自行建设有GB、GBJ、ISO、IEC、DIN、BS、JIS、NF、ANSI、ASTM、ASME、IEEE、UL、EN等标准数据库。拥有中国标准分类号、中英文标题、中英文叙词等二十余项,并且格式统一、可以中英文检索;同时开发有中国行业标准数据库和中国技术监督法规全文数据库。中国标准情报中心还拥有先进的标准数据库光盘检索系统以及从美国引进的包含美国数百个专业学会标准和加、澳、印等几十个国家及区域性标准的IHS数据库光盘。

当前广泛使用的计算机检索包括:联机检索、光盘检索和国际互联网检索。国际互联网技术的突飞猛进,形成了全新的网上信息查询机制,也给传统的联机检索方式注入了新的活力。   1.1 联机检索
联机检索特点

联机检索(online retrieval)是指用户利用计算机终端设备,通过通讯线路,从信息中心的计算机(主机)数据库中检索出所需要的信息的过程。它允许用户以人机对话、联机会话这样交互的方式(interactive)直接访问系统及数据库,检索是实时(real time)、在线(online)进行的。用户的提问一旦传到主机被接收后,机器便立刻执行检索运算,很快将检索结果传送到用户终端,用户可反复修改检索式,最后获得较满意的检索结果。
联机检索能远程登录到国内外检索系统,大型国际联机检索系统的数据库总计有1万个。大型检索系统不仅数据库多,而且数据库的文献报道量大,高达有数以百万条记录,数据更新及时,系统检索点多,组合方式多样,输出形式、输出方式多样。用户容易得到比较最新、最准确和最完全的检索效果。
用户要顺利访问远程联机系统,进行检索,需要借助通讯设备,包括:调制解调器(modem)、通信线路、微机终端和通信及检索软件等。
联机通信方式有:拨号入网,租用专线和国际互联网等连接,越来越多的信息服务中心可以通过互联网访问。
联机检索方式
联机检索传统上采用命令检索方式(command search), 通过一些系统能够识别的命令(指令),完成对检索式的运算,实施检索。命令方式能比较恰当的反映检索词之间的概念范围, 表达检索各概念间的关系。检索灵活、简捷、快速、利落,检索的精度较高。由于联机检索的机时通常被计入收费,因此,准确、快速的检索十分必要。但在另一方面,它对检索技能的要求也相应较高,常需要掌握检索技能、熟悉命令的有经验的人员来执行,以发挥命令检索的优势,避免把过多的经济负担转嫁给用户。
脱机检索
和联机检索对应的是脱机检索(offline retrieval),脱机检索的含义是用户与机器脱钩,不直接参与检索,不介入与机器的对话,检索以批处理(batch processing)的方式进行。比如定题检索服务(Selected Dissemination of Information, 简称SDI), 它把一批事先制定好的检索式存放在机器中,在收到最新文献后执行检索,并将检索结果定期送用户手中,这对长期跟踪某专题的研究是十分有用的。SDI的发展是CAS,即最新资料报道服务(Current Awareness Service),检索式允许经常修改。光盘检索也提供脱机检索服务。
各类计算机检索的比较
以上综合讨论三种检索类型的特点和功能,现对它们在服务的主要方面进行比较,见下表。Web版联机检索从信息量的存储和数据更新及通讯方式等方面具有更强的优势,传统的联机数据库将更多的以Web版方式放到Internet网上。


2.1 命令检索
命令检索用于联机检索系统,应用于许多Web版数据库的检索。检索式由若干检索词组配形成。这些检索词的扩展、限定的字段,它们之间的逻辑关系、位置关系等均可由算符的连接来表示。尽管不同的联机系统有各自定义的算符表示,命令形式不尽相同,但都有许多一致的检索功能。以下用国际上比较最成熟的美国Dialog联机检索系统的命令方式为例来讨论命令检索基础。
常用算符
算符(operator)即组配符,它们与检索词互联组成检索式,表达检索策略。常用的算符有:截词符、检索字段符、逻辑算符、位置算符等。
(1) 截词符
截词符(truncation operator),也称统配符(wild card), 用来对检索词(干)进行扩展。在Dialog系统中用 ? 号表示。?号加在不完整的词或词干之后,或是插在一个词的中间来表示词后或词中可添加的随机字符。其作用是减少检索词的输入而保证相关检索概念的涵盖,同时也方便解决语言文字拼写方面的差异(如美式英语和英式英语),避免漏检。截词有:非限定性截词、限定性截词和中间截词等。
非限定性截词
截词符(truncation operator),是在一个词尾加一个 ? 号,表示在其后可添加任意多个字符,这些字符都被作为检索词进行检索。
如:smok?
它将对若干词进行检索,包括:smoke, smoky, smoked, smoker, smokes, smokers, smoking, smokeless等等。
限定性截词
限定性截词(limited truncation), 是在一个词尾加有限个 ?号,n个 ?号表示其后可添加的字符数少于等于n个。
如:smok??
将对smoke, smoky, smoked, smoker, smokes等进行检索。对于最多允许添加一个字符的情况, 则用 ? ? 的形式表示。
如;smok? ?
将只对 smoke, smoky进行检索。
中间截词
中间截词(embedded truncation), 是在一词中间出现若干个?号,表示可插入若干个字符。
如:ioni?ation
它将对ionisation和ionization进行检索。
如:cent??line
它将对centerline和centreline进行检索。

2.2 菜单检索
菜单检索普遍用于光盘检索系统,尽管不同出版厂商的数据库版本五花八门,界面各异,但在检索上它们遵循类似的法则,是有步骤地进行的。
1. 菜单检索过程
(1) 检索字段的选择。
(2) 检索词的选择,直接键入或在展开的索引词典中选择。
(3) 检索式的修改,重复以上两个步骤,多次循环,来完成一个复杂的逻辑组配检索。
(4) 输出的选择,包括输出记录,输出方式,输出格式的选择。
2.实施(EI光盘版)菜单检索
<说明>
conference title: 会议的名称
conference location: 会议地点
conference sponsor: 主办单位
conference year: 会议年代
如选Limit Options又会弹出一张子菜单,见下图:
<说明>
English Only: 英语
Journal Articles Only: 期刊论文
Conference Papers Only: 会议论文
Latest OnDisc Records Only: 近期论文
如选Additional Search Options则会弹出一张子菜单,见下图:
<说明>
Words and Phrases: 词和词组
EI Classification Codes: Ei分类码
Major Subject Headings: 主标题词
Treatment Codes: 文献类型
Year of Publication: 出版年代
Language: 语种

2.3 WWW版(EI网络版)检索
WWW版本数据库检索一般有基本检索和高级检索之分。
基本检索(Basic Search) 也称标准检索(Standard Search ),执行较简单的检索式,经常是对一个字段或两个字段的检索。
高级检索(Advanced Search) 执行较复杂的检索式,包括有多种逻辑组合关系的检索。也可对多个字段进行检索。在显示页面上的多个检索窗口中键入恰当的检索词,一个检索窗口对应一个字段,有的字段设有可展开的索引词典,提供检索词的选择,有的检索页面上还可有某些限定(如年代、文献类型、学科范围等)可供选择。高级检索也常包括命令检索,在有的系统中称作专家检索(Expert Search),这时要在窗口中直接键入命令检索式。
1. Web版检索过程
下图是Web版本文献数据库检索一般过程,其中"超链"即超文本链接。

用户登入系统后进入数据库,系统如有多个库的常可先通过超文本链接进入分类目录,再从分类类目表中选择(点击)数据库。检索方式可选基本检索或高级检索等。
用户浏览检索结果后,对所需文献作出选择,做上标记, 然后选择不同的方式传送。检索命中记录可以题录方式、文摘方式或全文方式显示。有的系统具有原文提供服务功能,它包括提供联机原文馆藏信息、定购服务、原文传递服务等。文献的传递又有多种方式,如邮递、快递、传真,电子邮件等。有的系统还可直接提供原文。

3.1 检索策略
执行一个课题的检索是有过程、分步来完成的,检索步骤的科学安排称为检索策略(retrieval strategy),它是为实现检索目标而制定的全盘计划或方案。特别是在计算机检索中,策略问题是明确提出来的,必须慎重考虑,因为它可能要完成的是一个比较复杂、精细的检索课题,又是在人与机器的对话、交互中实现的。
3.2 检索步骤
1. 计算机检索步骤
计算机检索步骤如下图:

(1)检索课题分析
检索课题的分析,即主题分析,以明确课题所包含的概念成份及其相互关系。这是检索策略制定的根本出发点,也是检索效率高低或成败的关键。要明确以下问题:
分析课题的主要内容其所涉及的学科范围。
 所需文献的类型、语种、年代及文献量的范围。
对查新、查准、查全的指标要求,及其侧重。
如要了解科技的最新动态、学科的进展、了解前沿、探索未知,则强调一个"新"字;如要解决研究中的具体问题,则要强调一个"准"字; 如要了解一个全过程、写综述、作鉴定、报成果,就要回溯大量文献,要求检索的全面、详尽、系统,则要强调一个"全"字。
(2)检索系统和数据库的选择
指引二次文献的工具有三次文献,它们是工具的工具,如《工具书指南》、《书目指南》
、《数据库目录》。一个计算机检索系统往往包括若干数据库,进入系统后,常会有主题分类目录提供用户选择。一些内容相同的数据库也经常出现在不同的检索系统中。一张光盘所容纳的一般是单一的数据库。
数据库选择原则可概括成4个C,"4C"原则由4个C打头的英语术语构成,它们是:Content,Coverage,Currency,Cost。
Content, 指数据库的内容,涉及它的学科范围、科技含量、数据库类型(如:数值、事实、文摘、全文等),数据来源(如:期刊论文、会议论文、专利文献、科技报告等)。