贴吧用户服务中心在哪:一种基于文章主题和内容的自动摘要方法 Automatic Text Summarization Based on Topic and Content

来源:百度文库 编辑:九乡新闻网 时间:2024/05/06 11:04:52
Page 1 一种基于文章主题和内容的自动摘要方法陈燕敏 王晓龙 刘远超 楼喜中(哈尔滨工业大学计算机科学与技术系,黑龙江 哈尔滨 150001)Email: petrel@hit.edu.cn摘要 本文介绍一种新的使用自然语言处理技术的自动摘要系统。通过融合基于内容的方法和基于主题的方法,将主题与内容相结合,生成具有良好连贯性和流畅性的摘要。该方法首先对主题词进行分析,动态地处理具有抽象标题和具体标题的文档;然后采用词汇、语法、语义分析等自然语言处理技术,文章的文本内容进行深入分析;再根据线性加权融合两种分析得到的结果,生成摘要;最后采用指代消解技术使生成的摘要更连贯流畅。与仅基于内容的自动文摘系统相比较,评测结果显示,该系统生成的摘要质量有明显提高。 关键词 自动文摘 自然语言处理 主题分析 内容分析 融合Automatic Text Summarization Based on Topic and ContentChen Yanmin Wang XiaolongLiu Yuanchao Lou Xizhong (Dept. of Computer Science and Engineering, Harbin Institute of Technology, Harbin 150001) Abstract A new system using Natural Language Processing techniques is proposed. It processes documents not only based on content of original texts by analyzing its structure, but also based on topics ofsummaries, which are determined by user or text title. The method first analyzes subjective words andprocesses the document with abstract title or actual title separately; then a method based on content is adoptedby integrated many kinds of NLP technologies; the results produced by above two methods are fused togenerate the summary; the anaphora resolution technology is applied to improve the fluency of the summarylast. Evaluation results show that quality summaries are produced from arbitrary Chinese text. The proposedsystem is compared to system based on content and it is shown that it produces either comparable or bettersummaries overall. key wordAutomatic text summarization, Natural Language Processing (NLP), Topic analysis, Content analysis, Fusing1 引言随着互联网的普及、信息获取途径的增加,每天都有不断涌现的海量信息。为了从这些海量信息中快速、准确的获取有用信息,文档的自动摘要处理变得越来越重要。通过阅读文摘而不是全文能极大的加快信息过滤速度,帮助人们了解概况或确定是否应详读原文。这一技术是快速准确获取信息的一个有力工具,它的市场需求相当广泛。摘要是指通过对文档内容处理,从中提取满足用户需求的重要信息,经过重组修饰后生成比原文更精炼的文摘过程。目前主要自动文摘技术有三类:基于浅层分析的方法、基于实体分析的方法、基于话语结构的方法[1]。基于浅层分析的方法对文档中蕴含的一些浅层特征进行统计分析,将其中某些特征如词频、位置、线索词等按特定的量化模型结合起来作为文档信息的量化度量,据此选择文档核心内容。如Kupiec、Pedersen和Chen研制的一个基于统计的可训练的摘要系统[2]。浅层分析通常不需要复杂的文档内部表示,易于计算实现、处理速度快、无受限域。但它在处理不同类型文档时,准确性上常有很大变化。并且这一方法是建立在文本表层的形式特征基础上的,缺乏对文本内容的深层次分析,所以文摘质量基金项目:国家自然科学基金(60373100) ; 国家“八六三”高技术研究发展计划项目基金(2002AA117010-09). 作者单位:王晓龙,教授、博导,主要从事自然语言处理研究。陈燕敏,博士研究生,主要从事自然语言处理及自动文摘研究。
Page 2 的进一步提高将受到限制。基于实体分析的方法先分析文本内部的概念性表示,然后提取文档中各实体并建立起实体间的相互关系,通过对文档实体及其相互关系建模来确定各实体对表述文档内容的作用。如Regina和Michael采用词汇链方法来生成摘要[3]。这种分析常常涉及比较复杂的算法。基于话语结构的方法主要是对全文宏观结构建模(即对文档格式、主题线索、修辞结构、文体结构等的分析),准确把握全文的内容结构。如在修辞结构分析方面,Marcu给了一个比较完整的分析方法[4]。由于文章结构分析不受文本领域限制,文档结构信息往往能较为准确的标示语言单元间的逻辑关系,为自动文摘生成提供重要线索。由于上述几种方法各自的优缺点,为提高自动文摘质量,采用混合方法是自动摘要技术的必然趋势。为此文中系统采用了将浅层分析与话语结构分析相结合的方法,有效地融合文档的主题特征和内容结构,在满足系统处理性能的同时也进一步提高了生成文摘的质量。文中首先分析了文档主题词,动态地处理具有不同类型标题的文档;然后采用词汇、语法、语义分析等自然语言处理技术,深入分析文档的文本内容;再线性加权融合两种分析得到的结果,据此生成摘要并采用指代消解技术使生成的摘要更连贯流畅;最后了相应的评测结果。2 基于主题词和内容分析的自动摘要系统涉及到自然语言处理中的多个领域,具体过程如图 1 所示,主要包含以下 4 个模块:①文档结构初始化,主要是将文档转换成便于系统处理的形式;②主题词分析:对文档主题进行分析,根据标题的特点动态处理标题词对文摘的作用;③文本内容分析:利用词汇、语法、语义分析等自然语言处理技术对文档进行独立的分析,以确定文档内部不同单元之间的内在逻辑关系;④文摘句的抽取及文摘生成:融合两种方法来选择组成文摘的文摘句;应用指代消解来整合各文摘句,以生成一个较连贯流畅的文本摘要2.1 文档结构初始化进行文档分析之前,要对文档进行预处理。根据文本的物理结构,一篇文档可以通过文档结构树的形式来表示[5]。我们将一篇文档按照其自然结构划分为依次存在包含关系的章节、段落、复句、分句四个层次,用文档结构树来表示。文档的各个层次可按统一的方式进行访问。根据相应结点在文档结构树中的位置,每个基本单元赋予唯一对应坐标值。如[1.2.1.1]表示第 1 个章节中第 2 自然段的第 1 个复句中第 1个分句节点的坐标。这样可以方便获取及处理文档中任一单元节点的信息。完成预处理之后,再进行主题分析。图 1 基于主题和内容的自动文摘系统体系结构图2.2 基于主题词分析的自动摘要主题词根据标题词、用户指定词来确定,不包括高频词、虚词等停用词。目前许多摘要系统在分析文档时,常常只考虑了的文档的内容,仅分析文章正文,而忽略了用户的需要。而不同的用户对同一篇文档所关注的内容点是不相同的。如果将用户指定的主题词作为摘要题,这样的系统生成的摘要更能满足用户的需求。此外,在使用文档的标题特征来分析时,如果对不同类型的标题作相同的处理,常常会给系统加入一些无用甚至有误导性的标题特征。在分析研究大量网络文档后,系统对此进行了改进,对不同类型标题的文档采2
Page 3 用不同的处理方法,以改善生成文摘的质量。这里于评测比较的需要,主要关注标题中的词。面向用户摘要只需在此系统基础上,对系统生成的主题词集进行修改,加入用户指定主题词即可。标题和文章的主题之间有着紧密的联系。专业的摘要者常常集中注意力于文章表层特征和比较规范的部分,特别是标题。这些专业摘要者的经验对我们进行自动摘要研究有很大的价值。为了详细分析标题与主题之间的关系,我们从互联网上收集了 100 篇不同风格的文章并对其进行了分类简化。根据标题多大程度地反应了文章的主题,我们将文章的标题分为 2类:“具体型”标题和“抽象型”标题。“具体型”标题明显指示了文章的主题,如《女足确定奥运会目标:至少进入前四 争取夺奖牌》。“抽象型”标题常常是文章主题的一种比喻性表达,特点是标题中的词很少出现在正文中,如《世界杯决赛“亚洲三龙”能否升天》;这类标题还包含“疑问型”,如《环球嘉年华 到底要从北京人的兜里掏走多少钱?》。分析发现,“抽象型”标题对文章分析用途很少,而“具体型”标题则常常就是文章的主题,为此系统作了相应的分析处理。根据标题特征,基于主题词的算法描述如下:1) 对全文进行分词处理(即中文词间象英文一样用空格分开,便于处理);2) 过滤掉停用词(它是有较少语义含义的词,如虚词和一些高频词。停用词由于出现在很多文件里, 故对信息分析没什么贡献。);3) 提取文档标题,将标题词集存入向量Vh4) 提取文档第一段、第二段、末段,将内容词集存入向量Vc5) 如果| VhVc|标题。其中,P为一个给定阈值,根据实验确定为 3;| |为集合的势;6)xVh,如果x{疑问词库},文档标题也判断为“抽象型”标题,其中疑问词库是事先构造的;7) 如果标题无 5)或 6)中特征,则判断其为“具体型”标题;8) 对于有“具体型”标题的文章,我们分析其标题并将其中有意义的词置入主题词集;9) 遍历全文中句子,根据主题词集给文档中各句赋予一定的权值。10) 将各句权值按各句在原文中顺序输出到一个文档中,以便与基于内容的分析结果融合。算法可根据用户的需求,对如上算法第 8 步中系统生成的主题词集进行修改,加入用户指定主题词。这样有侧重地选择原文中的内容,即可生成满足用户特定需求的摘要。为评测比较的需要,这里只研究与文章标题相关的主题词。2.3 基于内容分析的自动摘要基于内容的文档分析综合文本的中心语义、各个主要单元间的内在逻辑关系及每个基本单元的信息含量等,以定量的确定每个语句在文章中的作用,确定组成文本摘要的基本单元。其算法描述如下:1) 进行内容结构分析,利用层次结构分析用词典,建立一棵层次结构依存树;2) 若分析完后各自然段间只存在顺序关系,则进行子主题划分,否则转 4;3) 将子主题划分后位于同一意义段中的多个自然段间的关系由原来的顺序关系改为并列关系并按并列关系构造每个意义段内部的结构树;意义段间按顺序关系重新构造内容结构树;4) 进行语句间的修辞结构分析,利用连接结构分析用词典,构造一颗修辞结构树;5) 对修辞结构树和内容结构树进行重构,根据隶属关系将树中父节点与其它节点的关系传递到隶属关系中的子节点,使树中仅保留对应于文摘抽取的基本单元(在此为复句)的节点;6) 遍历修辞结构树和内容结构树,依规则融合两树构造一个有向图,图中的每个节点唯一对应于文档中的一个文摘基本单元;7) 遍历构造的有向图,将有向图中的每种连接关系转化成一个统一的量化度量,根据加权规则计算图中每个节点的权值,完成对文摘基本单元的加权。内容分析主要从多个角度对文档内容进行独立的分析,以确定文档内部各种不同单元之间的内在逻辑关系、获取文档中心语义,再将分析的结果按一个统一的量化度量融合到一起,给文档中每个句子赋予一定权值,以定量的确定每个语句在文章中的作用,为文摘抽取提供一个量化的标准。内容分析主要包含三部分:文档的内容结构分析借助于文档中一些能明确指示内容结构的线索,如子标题、序号等明显的浅层特征,建立起文档中各个基本单元间在内容上的逻辑联系。它包括宏观结构分析和微观结构分析。文本宏观结构分析全文结构,研究组成全文的各自然段之间的依存关系。文本微观结构分析复句结构,研究各自然段内部各复句之间的依存关系。利用对大规模网络文档研究总结的层次结构词典,根据排歧规则确定每个语句中所包含的层次结构知识,再根据相关规则,通过对文本结构依存树进行文本层次结构分析,建立一棵用于抽取文摘的层次结构依存树。文档的子主题切分主要是将以自然段为基础的文本的物理结构转换成以意义段为基础的文本的逻辑结构,这样可以提高系统生成的文摘的中心主题覆盖率及文摘抽取的准确率。这里使用一种基于语义相似度的文本隐式章节划分方法 [6],在原有的 Dotplot3
Page 4 方法[7]基础上通过引入语义相似度的计算来改进该算法。通过用语义相似度来取代 Reynar 模型的字符串匹配,将 Dotplot 中的二值运算转换成模糊计算,同时避免了简单的字符串匹配所带来的无法描述同义词、词语缩写等问题。语句间的修辞结构分析主要分析各个语句间的语义连接关系,利用对大规模文档研究总结的连接结构分析用词典,通过分析单句或复句间的语义依存关系,来确定每个语句在表达文本内容时的角色,构造分析树,为文摘抽取提供判别依据。它首先区分一个连接词所引导的是分句还是复句,然后根据语法语义规则来进行分句或复句间的语义依存关系分析,最后据此构造分析树。多个结构分析的结果出来之后,再将这些结果按前面的算法融合到一起,定量的确定每个语句在文章中的作用,为给文摘抽取提供一个量化的标准。这样的综合分析策略使系统可以很容易的加入新的方法,从而保证了系统的开放性和可扩充性。3 融合两种分析方法生成摘要现在研究如何简单而无冲突地融合基于内容的方法和基于主题词的方法的分析结果,以提高系统抽取主题的性能。权值融合采用线性插值方法,最终句子的权重值由下式计算: csWeightWeightWeight21λλ+=(1)==211iiλ(2)其中, Weight: 句子的权重; iλ: 第i项权重的权重系数; Weights:主题法计算获得的权重值; Weightc: 基于内容方法获得的权重值。各句的权值计算出来后,依据其权值将各句排序。摘要的构造方法是依次将权值最小的文摘基本单元(这里为复句)加入摘要,直到摘要达到特定长度。其中长度是以句数而非字数来计算的。摘要长度由用户确定,通常为原文长度的5%-30%。根据各句权值抽取文摘句后,需要将这些从原文抽取的文摘句重新组织,按其在原文中顺序排列。因为算法得到的文摘句是根据其权值从文档中各自独立地抽取的,相互之间可能缺少一定的逻辑上的连贯性及流畅性,故在此应用指代消解技术进行改进。为解决指代问题,须先将文档中相关的人名识别出来。考虑到文摘系统的实时性、准确性要求,经过对大规模真实语料的统计研究,系统采用了计算语言模型与人名相关规则结合的识别方法,借助于手工收集的人名识别的统计资源,可以较快速准确地识别文档中人名。然后系统采用基于句子结构和人称格的指代消解方法,通过对大量汉语句子的分析,提出了一些指代消解规则和基于这些规则的消解算法。算法能处理文章中出现的 80%以上的指代现象。这样生成的摘要已能较好满足用户的要求。4 实验结果与评价如何准确评价摘要质量,目前仍是一个难题。即使是人工构造的摘要也很少能达到唯一性。就象描述同一件事有很多种方式一样,用户也会构造许多不同的普通摘要或是他们认为可以接受的以用户为焦点的摘要。事实上,实验显示,人们在一篇摘要应该包含哪些句子或段落上很少能达成一致[8]。即使是同一个专业摘要者,在间隔一段时间后对同一篇文章所做的摘要也有很大一部分不相同。如何准确评价一个摘要系统真是一个挑战。通常有两种评价方法:内部评价方法和外部评价方法。内部评价方法直接分析评价自动摘要系统生成的摘要,通过比较来判断摘要中包括了多少原文的主题内容及摘要的流畅度等。例如,将自动要系统生成的摘要与原文比较、自动摘要与人工生成的“理想”摘要比较、自动摘要与不同自动摘要系统生成的摘要比较等。外部评价通过自动摘要统对某项工作的作用来评价摘要的质量。例如,用户使用摘要确定原文主题的程度,或用户基于摘要能回答的原文有关问题的程度等[9]。本文采用的是一种内部评价方法。评价实验是这样构建的:从网络上收集了100篇不同风格的新闻文章作为测试语料。对于每篇文章3个文学专业研究生各自独立地从中抽取构造与原文长度比率分别为10%和20%的手工摘要,作为“理想”摘要。其中,文章的长度以句子数来计算。这样一共构造了600篇“理想”摘要。然后将系统生成摘要与手工抽取的“理想”摘要作比较,通过计算平均精确率和召回率来评价系统生成摘要的质量。精确率和召回率按如下公式计算:精确率mmtSSS (3)召回率ccmSSS (4)其中,Sm是系统生成摘要的句子集,St是 3 个研究生所抽取的手工摘要的并集,Sc是 3 个研究生所抽取的手工摘要的交集。算子 "| |" 取集合的势。下图4
Page 5 比较了基于内容和主题词方法的系统 1(不包含标题类型判断,各种类型标题都进行主题词处理)、基于内容和主题词方法的系统 2(根据标题类型判断是否需要融合主题词方法)、和基于内容的自动文摘系统 3。系统性能评价结果如表 1 所示:表 1: 系统性能评价摘要比率系统 1 系统 2 系统 3 精确率0.7180.720.71410% 召回率0.7650.7670.76精确率0.7220.7260.72820% 召回率0.7430.7510.74由表 1 可见,与基于内容的文摘系统 3 相比,融合了主题词方法的文摘系统 1、2 在平均精确率和召回率上均有明显提高。仔细分析各系统所获得的摘要结果发现,系统性能提高的主要原因在于,采用主题词分析法后,系统往往能将文本中一些具有画龙点睛作用的关键性主题句提取出来,从而明显改进了系统的性能。实验结果还显示,系统在不包含标题类型判断,各种类型标题都进行主题词处理时,系统的性能略有下降;但在区分“抽象型”标题和“具体型”标题,根据标题类型判断是否需要融合主题词的分析方法后,系统的性能有了明显提高。这表明在使用文档的标题特征来分析时,如果对不同类型的标题作相同的处理,常常会给系统加入一些无用甚至有误导性的标题特征。此外,10%比率的摘要质量要明显好于20%比率的摘要。这显示随着摘要长度的增加,摘要间的差异也扩大了。事实上,各个专家所做的手工摘要之间的差异也是随摘要长度增加的。此外,虽然系统所用语料是网络新闻类文档,但系统中所引入的主要分析方法与文本所属领域无关,因而系统具有良好的移植性能。5 结论基于内容和主题词的自动摘要方法将文章主题与内容分析相结合,生成具有良好的连贯性和流畅性的摘要。该方法采用词汇、语法、语义分析等多种自然语言处理技术,对文章的文本内容进行深入分析;并且引入了文档标题类型判别模块,因而能针对不同标题类型文档进行算法优化,从而获得较好的系统性能。与仅基于内容的自动文摘系统相比较,该系统生成的摘要质量有明显提高。在今后的工作中将深入研究语言生成问题,结合未登陆词识别、领域自动判别等技术,进一步改进生成的自动摘要的质量,使其更接近人工摘要的自然性、流畅性。1 I. Mani and M. Maybury, eds., Advances in Automatic TextSummarization, MIT Press, Cambridge, Mass., 1999.2 J. Kupiec, J. Pedersen, and F. Chen. A Trainable DocumentSummarizer.InProceedingsof the Eighteenth AnnualInternational ACM SIGIR Conference on Research andDevelopment in Information Retrieval, 1995: 68-73. Seattle,Washington, July.3 B. Regina, E. Michael. Using Lexical Chains for TextSummarization. Advances in Automatic Text Summarization, MITPress, Cambridge, Mass., 1999.4 D. Marcu. The Rhetorical Parsing of Natural Language Texts.Proceedings of the 35th Annual Meeting of the Association forComputational Linguistics. 1997: 96-103.5 刘挺,王开铸. 基于篇章多级依存结构的自动文摘研究. 计算机研究与发展. 1999, vol.36(4): 479-488 6 Qing-cai Chen, Xiao-long Wang, eds., Subtopic Segmentation ofChinese Document: An Adapted Dotplot Approach. ICMLC’02, 2002: 1571-1576 7 J. C. Reynar. An automatic method of finding topic boundaries.Proceedings of the 15th International Conference on ComputaionalLinguistics, 1996.8 G. Salton et al., Automatic Text Structuring and Summarization. Information Processing & Management, Vol. 33, No.2, 1997: 193-207.9 U. Habn and I. Mani. The Challenges of automatic summarization.