黑狱大逃亡八哥:文本分类入门(三)统计学习方法 看文章 www.KanWenZhang.Com
来源:百度文库 编辑:九乡新闻网 时间:2024/05/01 19:02:53
文本分类入门(三)统计学习方法
文说使统计学习进行文本分类就让计算机自己观察由人提供训练文档集,自己总结出于判别文档类别规则依据。理想结果当然让计算机理解文章容基础进行这样分类,然而遗憾,们所说“理解”往往指文章语义甚至语信息,这类信息极其复杂,抽象,而且存文相关性,这类信息计算机表示都尚未解决问题(往里说,这个“知识表示”问题,完全以另系列文章说),更不说让计算机理解。
利计算机解决问题标准思路应该:这种问题寻找种计算机以理解表示,或曰建立个模型(个文档表示模型);然基于这个模型,选择各方面满足求算法解决。谭浩强话说,程序,就数据+算法。(啥?不知道谭浩强谁?过学么?学过C么?这捣什么乱?)
既然文本语义语信息难转换成计算机能够理解表示形式,接顺理成章,人们开始文章所包含较级别词汇信息表示文档,试,效果居然还不。
统计学习进行文本分类(以就简称“统计学习”,虽然这个以应除文本分类以个领域)个重提由此产生,那就认:文档容其所包含词有着必然联系,同类文档间总存个共同词,而不同类文档所包含词间差异[1]。
进步,不光包含哪些词重,这些词出现次数分类重。
这提使得向量模型(俗称VSM,向量空间模型)成适合文本分类问题文档表示模型。这种模型,篇文章被看作特征项集合看,利加权特征项构成向量进行文本表示,利词频信息文本特征进行加权。实现起比较简单,并且分类准确度,能够满足般应求。[5]
而实际,文本种信息载体,其所携带信息由几部分组成:如组成元素本身信息(词信息)、组成元素间顺序关系带信息以及文信息(更严格说,还包括阅读本身背景理解)[12]。
而VSM这种文档表示模型,基本完全忽略除词信息以所有部分,这使得能表达信息量存限[12],直接致基于这种模型构建文本分类系统(虽然这目绝主流做法),几永远不能达人类分类能力。面们谈,相比于所谓分类算法,特征选择,就使哪些特征代表篇文档,往往更能影响分类效果。
于扩充文档表示模型所包含信息量,人们做过有益尝试,例如被称LSI(Latent Semantic Index潜语义索引),就被实验证明保留定语义信息(所以说被实验证明,因人们还无法形式严格地证明确实保留语义信息,而且这种语义信息并非以人以理解方式被保留),此话。
文说(就不能不这种老旧说法?换换新,比如Previously on "Prison Break",噢,不,Previously on Text Categorizaiton……)统计学习其实就个两阶段解决方案,(1)训练阶段,由计算机总结分类规则;(2)分类阶段,给计算机些从没见过文档,让分类(分不就打屁屁)。
章就专门说说训练阶段二三事。