:Scirus还是Google Scholar?
来源:百度文库 编辑:九乡新闻网 时间:2024/04/29 16:30:08
Scirus还是Google Scholar?- -
Scirus还是Google Scholar?
——两种专业搜索引擎对比分析
PKULIB
摘要 综合性搜索引擎很难满足用户的专业搜索要求,而像Scirus和Google Scholar这样的专业科学搜索引擎弥补了其检索专业信息的很多缺陷。本文主要对两种搜索引擎的收录范围、检索功能、查询结果及其不足等方面进行对比分析。
关键词 搜索引擎,专业搜索引擎,Scirus,Google Scholar
前言
目前,搜索引擎的种类繁多,性能各异,以综合性的搜索引擎居多。对于综合性的搜索引擎来说,它的优点是显而易见的:它所搜索的数据量大,理论上可覆盖全部或者大部分网站;查询结果较快;具有较为友好的用户界面;采用了较高的技术来满足用户对各类信息资源搜索的要求。但是,随着网络信息资源的迅速增加,综合性的搜索引擎在满足用户的专业搜索提问时却显得力不从心。从现有的搜索引擎来看,几乎没有任何综合性的搜索引擎能够很好地满足专业检索要求的。由于综合性搜索引擎没有对专业信息进行优化处理,检索出的查询信息数量极大,而且重复过多,相关性差,利用率低,不适合专业化的信息检索。在2005年7月发布的《中国互联网发展统计报告》中,“用户经常在网上浏览或查询过的信息”的候选项第一次出现了“专业文献/论文”选项,并且占到了17.9%的比例,排名第八。但是,在“不能满足用户的需要”候选项中却占到24%的比例,排名第二。随着专业数据库的费用逐年看涨以及OA的蓬勃发展,用户越来越依赖于专业搜索引擎来查询学术文献。由此,近几年出现了一些专业搜索引擎(specialty search engine),在这其中,专业科学搜索引擎—Scirus
1. 简介
1.1. Scirus简介
Scirus科学搜索引擎
Scirus的技术支持是Fast Search & Transfer
在此,简单的介绍一下Scirus这个专业搜索引擎命名的由来。Scirus是一位古希腊的先知,后来在一次战争中死去,被古希腊人尊称为英雄。Elsevier公司是这样解释他们把自己的专业搜索引擎命名为scirus的由来:因为科学是一门有想象力的学科,通过人们创新的思想和努力来推动其健康发展。Scirus将会为你们的科学探索先行铺路,帮助你们成为科学的先知。毫无疑问,Elsevier也希望自己创立的Scirus成为专业搜索引擎界的先知Scirus,这或许是Elsevier公司用其命名的另外一个原因。
1.2. Google Scholar简介
2004年11月18日,Google公司宣布针对科学家和研究人员推出新的搜索服务Google Scholar,它目前仍然处于测试阶段。这是Google和众多科学和研究机构合作的结果,比如ACM、IEEE以及在线计算机图书中心等机构。同时这也是其计划的第一步,最终公司将为科研人员提供学术性论文、书籍、摘要及技术报告等在内的搜索服务。他们宣称:“Google公司从科学研究中得到了极大的好处,现在到了我们报答科研社会的时候了。”它一开始将不包含在Google引擎的文本广告。但是,公司高层称,最终文本广告服务业将出现在Google Scholar搜索中。
SearchWatchEngine机构的主编苏利文称,“Google公司的科研搜索服务是一个巨大的进步,我们会继续期待这种搜索服务的表现。”
不同于Scirus的宗旨“仅检索科学信息(Scientific Information Only)”,Google Scholar的口号是“站在巨人的肩膀上”(Stand on the shoulders of giants)。这句话引用自科学家牛顿(Isaac Newton)的名言:假如我能够看得更远,是因为我站在巨人的肩膀上。绝大部分的科学研究都是在前人的发现中获取的,借此,Google Scholar希望做一个巨人,帮助学者发现更多的信息,从而获得更高的成就。
2. 收录范围
2.1. Scirus的收录范围
随着Scirus 6.5的发布,它使用FAST的搜索平台对用户提供了超过2亿个科技网页的检索,涵盖了18,000,000篇全文文献及文摘,收录范围广泛,文献种类齐全。它为用户提供了强大的检索功能,具体表现在:查找网页上最大的科技及医学(STM)数据库,能够发现更多的科技信息。如Beilstein on ChemWeb、BioMed Central、MEDLINE on BioMedNet、ScienceDirect、Society for Industrial & App. Mathematics等数据库;发现其他搜索引擎未收录的最新的报告、专利、同行评议文章、作者主页、大学网址和期刊。
Scirus成立四年来,可检索的网页数量逐年递增:2001年4月收录的网页数目为0.6亿,2002年4月增加到1亿,2003年4月增加到1.5亿,2004年4月增加到1.6亿个网页,2005年则超过了2亿个网页。
2.2. Google Scholar的收录范围
使用Google Scholar除了可以搜索普通网页中的学术论文以外,还可以搜索同行评议文章、学位论文、图书、预印本、文摘、技术报告等学术文献,文献来源于学术出版物、专业学会、预印本库、大学机构,内容从医学、物理学到经济学、计算机科学等横跨多个学术领域。
Google Scholar可以过滤掉普通搜索结果中的大量垃圾信息,还可以通过引用链接方便地找到与搜索结果关联的其他相关学术资料。
目前,它可检索的网页并没有确切的数量,但是有着Google能够检索80亿个网页的坚强技术后盾,以及与各大数据库厂商、专业学会等的强强联合,收录范围预计能够在众多专业搜索引擎中名列前茅。
3. 检索功能
两种专业搜索引擎检索功能较为强大。用户可以通过简单检索(basic search)和高级检索(advanced search)两种方式来进行检索专业信息资源。
它们专为研究者设计了独特的功能型检索方式,提供了一个非常友好的用户界面和高级检索功能。特别是Scirus,除了其高级搜索的用户选项较多以外,它还使用一个特殊的叙词表来收录相关的科学词汇。在与慕尼黑大学(University of Munich)的计算语言学系(Computational Linguistics Department)的合作基础上,Scirus确定了超过50,000个叙词,涵盖所有专业科学领域的科学叙词表,以保证检索效率。系统对每次搜索到的信息内容会自动抽取反映主题内容的关键词,以列表的形式显示在搜索结果的右侧,点击列表中的某一个词,系统会自动添加到检索式中,对上一次的搜索结果再实施一次限定检索,这对于缩小一项检索是非常有效的。若在检索词列表中没有所需的检索词,可在检索词列表下的二次检索框内输入检索词,进行二次限制检索,以进一步提高搜索的专指性,这是一般的搜索引擎所无法比拟的。
现将两种专业搜索引擎高级检索方面进行对比:
3.1. Scirus通过高级检索,用户可以限定检索内容,达到更高的查准率。具体方法主要有以下几种:
3.1.1. 将查询结果限定在某一时间段内,Scirus提供的搜索范围从1920年起到现在;
3.1.2. 就信息类型 (information type)查询。如科学会议、摘要、科学家主页及专利等八种类型;
3.1.3. 就html或者PDF等文件格式(file format)查询。正如Scirus网页中所说的,大量的学术论文仅公布PDF格式文件,因而,PDF格式的文件的标引、检索对于一个专业的科学搜索引擎来说是至关重要的;
3.1.4. 就内容来源(content sources)查询。用户既可以从期刊中,如Beilstein on ChemWeb、ScienceDirect中查询,也可以从NASA、US Patent Office的Web网页中查询所需信息;
3.1.5. 在一定主题范围(subject areas)内查询。包括:天文学、数学、物理、经济、法律等20个专业学科,学科的排列是按照字母顺序展开的;
3.1.6. 除了以上几种检索限定外,在高级检索中还可以结合上文所提到的字段限制(如题名、作者等)来进行查询。
3.2. Google Scholar的高级检索界面显示的功能较为简单,具体表现为以下几种:
3.2.1. 按照作者查询。这是一个非常有效地获得专家文献的方法;
3.2.2. 按照出版物名称查询。如果想对特定出版物查询相关主题,这是一个好方法;但是由于许多出版物有多种拼法,所以用户可能需要多试几次才能找到。如Journal of Biological Chemistry经常会被缩写为J Biol Chem;
3.2.3. 按照出版日期范围查询。此方法特别适用于查询最新的学术文献,如只查询2005年的文献等等;
3.2.4. 搜索词限于文章标题或者全文的查询;
3.2.5. 可选择页面显示搜索结果数量,每个页面显示结果最高可达100个。
4. 查询结果
它们的查询结果显示有较大的不同,特别是Google Scholar的文献被引次数及其链接功能尤为显著。
4.1. Scirus的查询结果
Scirus为了能够精确地搜集相关的科学信息,它使用了倒置的金字塔技术来描述搜集过程。在过程中的每一个层次,数据都进行了严格地过滤。位于倒置的金字塔顶端的是种子列表(Seed List),它是Scirus进行因特网搜寻信息的基础。在其中,有多种途径为种子列表加入资源。
Scirus使用一个机器人(就好像网络蚂蚁或爬虫一样)来读取在种子列表的信息。不像通用型搜索引擎,Scirus的机器人不会去搜寻资源的链接网页,除非种子列表中包含有其链接的网页。这种做法主要是仅为科学资源做标引,以确保精确查询。举例来说,如果Scirus在对www.newscientist.com进行搜索,那么这个网站链接到的www.google.com则不会被搜索,因为www.google.com不在种子列表中。
当机器人对种子列表进行搜索时,Scirus从所搜索的科学资源下载信息。然后将信息归类(classification)并建立索引(index)和等级(rank)以供用户查询使用。
为了保证查询结果的有效性,Scirus通过以下几种方式来显示查询结果:
4.1.1. 它合并一个网站下的多个相关的网页。尽管网页间的内容不一样,但是因为从属于一个网站下,所以很多网页的信息是非常相似的。用户如果在显示结果后点击“more hits from”,Scirus将会显示在同一网站下的更多的相关匹配结果;
4.1.2. 在查询结果中列明出处,以保证用户清楚地知道哪些结果是来自Web网页,哪些结果是来自数据库。如果我们检索地结果中的文献信息来自BioMed Central,结果中除了给出文章的主题、作者、摘要等相关信息,还在末尾显示“full text article available from BioMed Central”;
4.1.3. 可以将查询结果保存及通过电子邮件邮寄到指定的地址。
4.2. Google Scholar的查询结果
Google Scholar使用的搜索技术与普通的Google搜索技术是一样的,都是利用他们专利网页级别技术PageRank来进行,由于此类技术的分析较多,本文不再赘述。为了保证查询结果的有效性,Google Scholar通过以下几种方式来显示查询结果:
4.2.1. 了解某一作者的著述,并提供书目信息(引用时必需的图书出版信息或期刊论文的刊名、刊期信息)。可通过Web Search直接在网上搜索原文、文摘等;如果是图书,还可通过Library Search(OCLC的Open WorldCAT)检索附近图书馆的收藏;
4.2.2. 了解某文献被引情况。可直接点击Cited by...(引用数)搜索引用文献。检索结果中每条信息按照题目、著者、文章被引用数、摘要、出版物、出版年月和相关网页排列,特别要指出的是,在文章被引用数中除了储存在各种数据库中的引用文献外,还包括在书籍中和各类非联机出版物中的引用文献,这对于从事科学研究的科研人员很有帮助,因而这也是Google Scholar的一个亮点。
4.2.3. 如果一种文献被引用,但是这种引用文献没有联机上网,则在显示结果的左侧标注[Citation]。
4.2.4. 如果用户因为未能够看到这篇文献,而又对此类文献有兴趣的话,可以点击题目右侧的Web Search进行检索,这类检索较为广泛,属于扩大检索范围的方法。
5. 检索结果的排序
面对浩如烟海的检索结果,用户如何在较短的时间内查找到有用信息呢?一个较好的排序方法可以为用户省去很多查询无关信息的时间。
5.1. Scirus的检索结果按照相关性和日期排列两种方式显示。相关性排列主要基于两种标准:一是检索词:被检索词汇所处的位置(location)和使用频率(frequency),这被称为静态排序。二是链接:被其他网页链接的次数。一个网页被其他的网页链接的次数越多,那么这个网页的排序就越靠前,被称为动态排序。这与很多的综合性搜索引擎是相似的。Scirus的总体排序是基于静态和动态排序的总体评价的基础上进行的。另外,通过时间排序显示的搜索结果,用户可以了解最新的专业进展,分析不同时期对专业问题的研究层次等。
特别提及的是,Scirus不使用任何META标记作为网页排序的依据,因为许多网页的制作者会简单孤立地在META标记中堆砌大量的关键字,以期待网站在搜索引擎中排名的靠前位置。不同于像Inktomi对该标记在排名中给予较高权重的搜索引擎,Scirus更看重的是网页内容。
5.2. Google Scholar的检索结果所返回的信息有其特色,主要按照相关度排序,具体表现在一篇文献被引用的次数排列。它采取自动分析与抽取引文的方法,首先按照检索词出现在文献题目中的顺序,未被引用的文献排列在后,其次是按照检索词出现在文献的其它部分排列。点击被引用文献数后,可以看到更多的引用文献,包括这些文献被引用和连续被引用的情况。这也包括一篇论文在书籍中被引用的情况。通过引文检索功能可查找相关研究各个时期的学术文献,同时获取论文摘要,从而看到所引用参考文献的记录、被引用情况及相关文献的记录。
6. 不足
作为一个专业的搜索引擎来讲,Scirus在检索结果及检索的功能型方面是比较出色的,它获得了Search Engine Watch
6.1 语言单一,只设有英文界面检索,没有像普通Google那样有多种语言用户界面,而且检索内容局限于几种语言,这对于非英语国家的用户显得非常不方便。可喜的是,Google Scholar开始拓展其它语言的学术搜索领域,如它已经牵手中国的维普资讯公司,将其中文期刊数据引入其中。
6.2 对比许多专业学科数据库搜索,搜索学术文献量偏少,而且它们主要是对科技及医学文献进行查询。相对于Scirus,Google Scholar查询范围要大一些。由于可以检索到OCLC的书目信息,所以许多人文学科也有显示结果。
6.3. 在许多目录下,它们检索的网络资源是学术网站,但是这并不意味着它包含科学主题或者是检索到学术资源。不管你检索的内容为何,结果中还是有大量的选项包含着非科学主题的内容。当然,很重要的一个原因就是一个学术机构或者学术资源的URL不一定能够保证它们的网站内容全部都是学术的内容。
6.4. Google Scholar的相关度排序主要是从被引用次数来考虑,势必会影响到最新文献的检索。较之Scirus,Google Scholar的用户界面简单,限定性检索较少,如没有仅限定检索第一著者或者题名;检索图书时,没有ISBN号的检索选项等等。
6.5. 由于搜索到的文献很多都来源于收费数据库,所以用户很难从中得到所需的内容。如果作为一个普通的检索的话,不失为一个好的选择。但是如果对自己研究领域的文献做深层挖掘,传统的图书馆才是最佳的选择。
结语
十八世纪的著名作家塞缪尔•约翰逊(Samuel Johnson)曾经说过:知识可以分为两种,一种是我们已知的信息,另外一种就是发现所需信息的方法。200多年后,我们在信息高速增长的今天对这句话应有更深刻的理解。网络飞速发展,信息更新迅速,我们不可能掌握本领域的所以信息,当需要查找所需信息的时候,搜索引擎给了我们很大的帮助。它就像我们发现所需信息的方法一样,给我们的科学研究或者休闲娱乐带来了前所未有的帮助。
尽管如此,网络上大量的、丰富的信息对于搜索引擎来说是一个很大的挑战,对于像Scirus及Google Scholar这样的专业搜索引擎来说更是如此。由于面对的用户大部分是专业领域内人士,所以用户对于检索结果的要求尤为苛刻。专业搜索引擎还有很多不足,但瑕不掩瑜,较之综合性搜索引擎来说,它在检索专业文献方面有很大的进步和独特的优势。随着技术的发展,为了迎合用户的需求,专业搜索引擎的一些收录和检索的功能将向着更加完善的方面去努力。我们希望它们在仅检索专业范围内的信息、能够搜索深层网页(deep web)信息、过滤无关信息等专业搜索引擎的特点上要多下功夫,加大检索范围,减少冗余资源,增加检索效率,成为更高效率的专业搜索引擎。
参考文献
1. http://www.scirus.com(2005年6月10日查)
2. http://www.google.com(2005年6月10日查)
3. http://www.searchenginewatch.com(2005年6月10日查)
4. http://www.fastsearch.com(2005年6月10日查)
5. 王娟萍,张捷. 科学搜索引擎——Scirus的检索模式与评述. 津图学刊, 2003(4)
6. 邹小筑. 科学搜索引擎——Scirus科学搜索引擎研究. 图书馆建设, 2002(6)
7. Peter Jacso. Scirus: Elsevier‘s science search engine. Information Today. Jun 2001. Vol. 18, Iss. 6; pg.34, 2 pgs
8. Scirus White Paper: How Scirus Works. http://www.scirus.com(2005年6月10日查)
9. http://www.tiandaotech.com/meta-tags.html(2005年6月10日查)
10. Elsevier‘s Scirus Science Search Engine Challenges google. Library Journal.Oct 15, 2004. Vol.129, Iss.17; pg. 21, 2 pgs
11. http:// scholar.google.com(2005年7月10日查)
12.http://tech.tom.com/1121/1794/20041118-140084.html (2005年7月10日查)
13. http://www.donews.com/Content/200506/28f6c63e6f784b7fbbdefaddee31cda3.shtm(2005年7月10日查)
14. http://www.cnnic.com.cn(2005年7月21日查)
- 作者: pkulib 访问统计: 37 2005年08月5日, 星期五 16:04 加入博采 打印