高光漆有些什么特色:factiva神经键白皮书

来源:百度文库 编辑:九乡新闻网 时间:2024/05/02 15:57:56

分类法、本体论、叙词表和规范文档
完善信息搜索的关键

隐蔽信息

没有人能够准确描述出21世纪初信息时代的成败。我们可以获得海量的数字化信息,有着连接数百万台电脑的全球化网络,但要想找到特定信息却比以往更像是大海捞针。

那么,信息检索为何如此困难呢?其中一个主要原因在于语言是有弹性的:一词可以表示多义,同样一个概念也可以用各种不同的词汇去描述。人类的理解能力之所以强于机器,就是因为人类的大脑中储存着一个庞大、复杂的词汇关联网络,在这个庞大的网络中,没有任何一个词汇以孤岛的形式独立存在。

在查询大量数据集时,文本搜索算不上是一个令人满意的方法,而且随着数据集继续呈指数级增长,这种搜索方法将越来越令人失望。

数十年来,文本搜索存在的缺陷在信息科学领域一直被看作是精准率与召回率的折衷。

实证研究表明,精准率和召回率不可两全,当召回率上升时,精准率就会下降,反之亦然;这种此消彼长是文本搜索的固有特性。

换言之,如果你需要尽可能地看到所有的相关信息,那么这就意味着你要不可避免地费力浏览大量的不相关数据。要想提高搜索结果的全面性,你就必须以牺牲搜索结果的精准度为代价。

– 整个世界都被信息网络所覆盖,没有什么可以遁逃。但海量的信息使信息本身更加分散,我们无法做到包罗万象。-- Günther Grass

人类学范式

人类大脑约有1000亿个神经元,但这并不是人类之所以高级的理由。人类无穷无尽的能力源自大脑内一种由神经键组成的复杂网络。这个网络内部的联系方式是不能用数十亿来衡量的,其数量要大于整个宇宙中所有的基本粒子,例如电子、质子、中子等。

相互关联性是理解人类大脑活动方式的关键,同时也是解决信息系统中存在的精准率与召回率难题的根本。

与机器不同的是,在人类大脑中,语言并不是孤立的。每一个想法、词汇和图像都通过多种微妙的联系与其他相关语言和概念形成错综复杂的关系。如果我们希望机器可以理解人类的信息请求并提供全面相关的结果,那么我们就需要为它们建立一个知识库,其结构应该与人类大脑相似。

机器相关性

“关联”这个词意味着绑在一起或相互连接;在信息科学领域,“关联”指的是用来描述代表各种联系的词汇交叉指示。

利用控制词集建立信息系统概念间联系的标准方法论经历了一段时期的发展。总体而言,其中包括属分关系、等同关系和类缘关系。

最终,控制词集的目标是用一个并且仅用一个精确的索引项代表每个真实世界的独立物体或者唯一的抽象概念,然后对这些索引项进行交叉指示用以代表概念或真实世界关联性内在的丰富互联关系。

同形多义词需要消除歧义。同义词需要映射到一个常用词。

概念被安排在一个或是几个层级结构中,用以代表不同的范畴组织。同时概念还通过与其他相关概念间的自由联合相互关联,如此便进一步丰富了这个关联网络。以下三个部分将对此做出更详尽的阐述。y

语言的弹性

第一本英文同义词辞典的作者Peter Roget博士描述了一种被他称作是“语言弹性”的现象。简而言之就是:一个词可表达多种意思(同形异义),一个事物可以用许多不同的词来描述(同义词)。

例如,“mercury”就是一词多义,其中含义包括:罗马众神的信使、太阳系中的一个星球、一种化学元素以及一种汽车的品牌。

再举个同义词的例子:用来装水的桶可称作“bucket”或“pail”。

如果说解决这种差异似乎并不难的,那是因为人类的大脑可以在信息
传输过程中即刻并下意识地转换同义词,并通过内部知识库根据语境区分一词多义。但当谈到信息检索系统时,这种差异性简直就是一大难题。

试想当你走进一家由机器人经营的五金商店、想购买一个bucket时。。。

机器人店员可能会态度坚决地告诉你,他们那里不卖bucket,但事实上,屋内堆着许多pail。

这是文本系统中语言弹性导致的最直接的结果:相关信息经常隐身。在一个控制词集中,等同关系用于映射同义词,并挑选出其中的一个词作为索引功能的首选术语。

例如,在线搜索关于Mercury的天文类文章时,用户可能会被迫浏览数千条关于神、汽车和化学领域的不相关信息。建立一个布尔搜索,例如“水星”和“星球”,这样就可以提高搜索的精准度了。然而,如此一来,信息的全面性势必会受到影响,一些相关结果由于不包含“星球”这个关键词而被系统过滤掉了。在一个控制词集中,插入修饰语则可以消除一词多义所产生的歧义,例如,“水星(星球)”。在分类学结构中,上下文和语境也可以解决语言歧义的问题。

除了同义词外,等同关系还可以用作其他种类的连接,例如拼写变体、地区和多语种等价词、机构特定优先术语、缩略词和缩写等。

分层角度

属分关系用于概念的分级,它们提供了任何知识领域中有关某一实体各种概念的自上而下的组织结构。在表示层级关系的树形结构中,每个分支既与其母体有着共同点又存在差异。差异关系可分为三种类型:类属关系、总括关系和实例关系。

类属关系指的是每一个下位概念都属于上位概念的一种。例如,仙人掌属于肉质植物的一种。


植物
肉质植物
仙人掌

总括关系指的是每一个下位概念属于上位概念的一部份,例如火花塞是汽车点火系统的一部份。

汽车电气系统
点火系统
火花塞

实例关系指的是下位概念是上位概念的一个例证。上位概念通常是一个普通名词,而下位概念可能是一个专有名词。例如,贝灵哲创始者庄园是红酒中子范畴梅洛的一个例子。

红酒
梅洛
贝灵哲创始者庄园

通常一个词可以在逻辑上属于多层分级,例如乐器可以分为弦乐器和打击乐器;钢琴既属于弦乐器也属于打击乐器,因此,钢琴这个词就需要分属于两个结构。 这种现象被称作多层属分关系。

属分关系存在着一个问题,这就是不同的信息用户会有不同的分级方式。分级结构取决于每个用户的审视角度。

例如,当描述一个医学本体时,人们会从不同的角度考虑问题,因此分级结构也会因人而异。

疾病
腹部疾病
心血管疾病
内分泌疾病
症状
发烧
恶心
皮疹
疗法
针刺疗法
解毒疗法
放射疗法

通过建立单一层级结构、构建所有的概念排列并满足不同的用户角度,这是不可能实现的。在这种情况下,我们或许有必要创建一套独立层级结构,描述知识领域的每个主要方面。

“方面”为我们带来了用户界面设计上的新挑战,因为多种层级结构需要导航和动态重组。其中一种可行的解决方案可以被比作平行宇宙和虫洞。

以下是两个例证:
酒的种类>酒质>产区

红酒
梅洛
浓情
纳帕产区
贝灵哲
产区>酒质>酒的种类
美国酿酒厂
纳帕产区
贝灵哲
浓情
红酒
梅洛

联想思维

除了属分和等同关系外,还存在着一种更丰富、更微妙的联想关系。这些相关基于各种语境将概念和物体联系起来。例如,温度与温度计相关,收获与庄稼相关,死亡与哀丧相关,甚至与反义词生命相关。

以上所有例子之间的关系都代表着非常重要的关联性,但它们都是不能用属分关系或等同关系来描述的。这种关系是最难定义的,但却提供了概念之间一种最丰富、最微妙的联系,它可以使机器越来越接近人类的知识库。

电子叙词表

电子叙词表代表的是终极机器智能知识库,它能存储概念间存在的各种形式的关联。

与分类法只能存储属分关系不同的是,电子叙词表可以将分类法中的范畴顺序、等同和映射关系以及更多的直觉上的联系相互连接在一起。目前已经有了为构建这种叙词表提供指导的国内和国际标准,例如ANSI/NISO Z39.19 、ISO 2788 和5984。

名称实体控制

到目前为止,讨论主要集中在概念词集方面,但词集控制技术也同样适用于其他种类的词集,例如人名、组织名称、地理实体以及其他专有名词表。

名称实体的权限控制属于信息科学的一个分支,它利用了概念词集控制的原则。名称实体权限控制的目标是:
1.消除不同个人、组织或其他实体因拥有类似或相同名称而产生的误会;
2.将他们使用的所有名称变体形式联系在一起;
3.组织适当的实体层级结构;
4 表现实体间其他种类的联系。

无论不同的信息来源正在使用多少种变体名称,也不管查询者是否了解某一特定形式,有了这样一个知识库后,机器便可以呈现出关于个体、组织和其他实体的更为完整的情况。

有时我们需要使用特殊方法,以允许特定的变体形式用于特定联系。例如:由萨缪尔-克莱门斯创作的部分书籍署名为该法定姓名,而另一些书籍的署名就变成了他的笔名—马克-吐温。

尽管允许这些变体关系的存在,但我们需要将实体的所有关联集中成一体。

个体名称

假名、别名、昵称、婚后名、婚前名、工作时使用的名字、短名、长名、代码名称、法定名称、笔名、艺名和绰号,这些都可能使得信息系统中个人或组织实体的真正身份出现混淆。以上所有名称或许只是某个真实名称正当、合法的不同表现形式而已。而当个人或组织故意隐瞒真实身份的时候,问题将会变得更加复杂化。

在正式与非正式关系以及人与人之间的交往中,例如婚姻关系、父母关系、朋友关系以及商业关系,姓名也可以利用个性化的关系而进行表示。

消除相似名或同名引起的个体间的误会,可能需要引入规则确认,它指的是一些可控的元数据元素,例如出生地、住所、生卒日期、国籍和其他一些官方证明数据,以及许多其他数据。

组织名称

组织名称适用于正规实体,例如企业、学术机构、非赢利组织、地方和全国性政府机构及其执行部门。不太正规的团体也可以有组织名称,例如行为艺术组织和文化圈等。另外犯罪集团、政治集团和恐怖主义组织等也同样适用。

与人名一样,组织名称也面临着别名、假名和其他多种变体形式的困扰。组织经常通过并购和合作更改名称。许多组织还存在一定的层级结构,例如公司部门/分部结构。

组织间的主要关系可以这样描述:例如,A公司与B公司合并,C公司是D公司的客户等。

人名也可能与组织名称相关联,以反映具体个人是特定组织中的成员。

地理名称

地理名称可以描述国家、州、地区、城市、领土、海域、河流、山脉、沙漠、树木、丛林、平原以及其他诸多地理及地质实体。这些实体也有着各种形式的名称,同样的名称也可用于不同的地点,而且名称会随着历史发生变化。

大部分地质实体都有自己的层级结构和其他关联关系。

企业知识库

对于大部分大型企业和政府机构而言,目标是建立一个中心控制词库,目的在于将组织中所有的数据来源都统一起来。企业可能包括多个业务部门,各部门可能各自使用专业、私人、传统或第三方词汇。

六度空间理论

六度空间这个词最早是由John Guare于1991年在他的同名舞台剧中提出的。六度空间概念是指通过六个中间人你就能够认识地球上的任何一个陌生人。最初这种观点听起来让人觉得难以置信,但在1967年,哈佛大学教授斯坦利-米尔格兰姆设计了一个实验。他从美国随机选择了两个人,目标是让这两个人素不相识的人最终产生联系。最后的结果是,中间平均通过了5.5个人后两人结识。

我们从六度空间现象中可以获得这样的启示:复杂网络的节点间都存在着紧密的关系,不同地点间取得联系只需通过几步就可以完成,迅速且便捷,例如打个电话、点点鼠标就可以轻松实现。

结论

对于文本搜索而言,由于语言弹性的存在,精准与全面必然不能两全。人类大脑就可以克服这一问题,因为人类拥有一套复杂的知识库,其中没有一个词是孤立存在的。为了使机器也能在信息搜索时达到同样水平的精准召回率,就需要为他们设计一个具有大量连接网络的控制词库。

分级至关重要。简单的分类法不足以用来访问大型企业和政府机构管理的、迅速增长的信息知识库。

然而,关联网络可以消除类似概念和名称产生的误会,将不同的变体形式组合在一起,捕捉多语言中词汇的共同点,将概念、实体分成多层级结构,并抓住概念和名称实体间的微妙关联。

词集内部及词集间的交叉指示网络越是丰富,该关联网络在准确、全面、快速解答用户搜索提问方面的效果就愈加卓著。