黑狐之血风全集播放:文本分类入门(二)文本分类的方法
来源:百度文库 编辑:九乡新闻网 时间:2024/04/20 04:19:48
文本分类入门(二)文本分类的方法
文本分类问题其分类问题没有本质区别,其以归结根据待分类数据某些特征进行匹配,当然完全匹配不太能,因此必须(根据某种评价标准)选择最优匹配结果,从而完成分类。
因此核心问题便转化哪些特征表示个文本才能保证有效快速分类(注意这两方面需求往往互相矛盾)。因此自有文本分类系统那天起,就直特征不同选择主着派别不同。
最早词匹配法仅仅根据文档否出现类名相同词(顶再加入同义词处理)判断文档否属于某个类别。显然,这种过于简单无法带良好分类效果。
兴起过段时间知识工程则借助于专业人员帮助,每个类别定义量推理规则,如果篇文档能满足这些推理规则,则以判定属于该类别。这里特定规则匹配程度成文本特征。由于系统加入人判断因素,准确度比词匹配法提。但这种缺点仍然明显,例如分类质量严重依赖于这些规则好坏,就依赖于制定规则“人”好坏;再比如制定规则人都专家级别,人力成本幅升常常令人难以承受;而知识工程最致命弱点完全不推广性,个针金融领域构建分类系统,如果扩充医疗或社保险等相关领域,则除完全推倒重以没有其办法,常常造成巨知识资金浪费。
人们意识,究竟依据什么特征判断文本应当隶属类别这个问题,就连人类自己都不太回答得清楚,有太所谓“只意,不能言传”东西里面。人类判断依据经验以及直觉,因此自然而然有人想何让机器像人类样自己通过量同类文档观察自己总结经验,作今分类依据。
这便统计学习基本思想(有人这类称机器学习,两种叫法只涵盖范围有些区别,均无不妥)。
统计学习需批由人工进行准确分类文档作学习材料(称训练集,注意由人分类批文档比从这些文档总结出准确规则成本得),计算机从这些文档重挖掘出些能够有效分类规则,这个过程被形象称训练,而总结出规则集合常常被称分类器。训练完成,需计算机从没有见过文档进行分类时,便使这些分类器进行。
现如今,统计学习已经成文本分类领域绝主流。主原因于其技术拥有坚实理论基础(相比,知识工程专家主观因素居),存明确评价标准,以及实际表现良好。
章就深入统计学习,看看这种提,相关理论具体实现。