九乡新闻网：想知道神马，提问回答学习问题百度都知道

黑狐之血风全集播放:文本分类入门(二)文本分类的方法

来源：百度文库编辑：九乡新闻网时间：2024/04/20 04:19:48

文本分类入门(二)文本分类的方法

文本分类问题其分类问题没有本质区别，其以归结根据待分类数据某些特征进行匹配，当然完全匹配不太能，因此必须（根据某种评价标准）选择最优匹配结果，从而完成分类。

　　因此核心问题便转化哪些特征表示个文本才能保证有效快速分类（注意这两方面需求往往互相矛盾）。因此自有文本分类系统那天起，就直特征不同选择主着派别不同。

　　最早词匹配法仅仅根据文档否出现类名相同词（顶再加入同义词处理）判断文档否属于某个类别。显然，这种过于简单无法带良好分类效果。

　　兴起过段时间知识工程则借助于专业人员帮助，每个类别定义量推理规则，如果篇文档能满足这些推理规则，则以判定属于该类别。这里特定规则匹配程度成文本特征。由于系统加入人判断因素，准确度比词匹配法提。但这种缺点仍然明显，例如分类质量严重依赖于这些规则好坏，就依赖于制定规则“人”好坏；再比如制定规则人都专家级别，人力成本幅升常常令人难以承受；而知识工程最致命弱点完全不推广性，个针金融领域构建分类系统，如果扩充医疗或社保险等相关领域，则除完全推倒重以没有其办法，常常造成巨知识资金浪费。

　　人们意识，究竟依据什么特征判断文本应当隶属类别这个问题，就连人类自己都不太回答得清楚，有太所谓“只意，不能言传”东西里面。人类判断依据经验以及直觉，因此自然而然有人想何让机器像人类样自己通过量同类文档观察自己总结经验，作今分类依据。

　　这便统计学习基本思想（有人这类称机器学习，两种叫法只涵盖范围有些区别，均无不妥）。

　　统计学习需批由人工进行准确分类文档作学习材料（称训练集，注意由人分类批文档比从这些文档总结出准确规则成本得），计算机从这些文档重挖掘出些能够有效分类规则，这个过程被形象称训练，而总结出规则集合常常被称分类器。训练完成，需计算机从没有见过文档进行分类时，便使这些分类器进行。

　　现如今，统计学习已经成文本分类领域绝主流。主原因于其技术拥有坚实理论基础（相比，知识工程专家主观因素居），存明确评价标准，以及实际表现良好。

　　章就深入统计学习，看看这种提，相关理论具体实现。

文本分类入门(二)文本分类的方法文本分类入门(九)文本分类问题的分类 - Jasper's Java Jacal - BlogJava 文本分类入门(八)中英文文本分类的异同 - Jasper's Java Jacal - BlogJava 文本分类入门(一)文本分类问题的定义看文章 www.KanWenZhang.Com 各类文本资料分类文本分类入门（十一）特征选择方法之信息增益 - Jasper's Java Jacal - BlogJava 文本分类入门（十一）特征选择方法之信息增益文本分类入门（番外篇）特征选择与特征权重计算的区别 - Jasper's Java Jacal - BlogJava 文本分类入门(六)训练Part 3 - Jasper's Java Jacal - BlogJava 文本分类入门(七)相关概念总结 - Jasper's Java Jacal - BlogJava 文本分类入门（十）特征选择算法之开方检验 - Jasper's Java Jacal - BlogJava 文本分类入门(三)统计学习方法看文章 www.KanWenZhang.Com 文本分类入门(四)训练Part 1 - Jasper's Java Jacal - BlogJava 文本分类入门(五)训练Part 2 - Jasper's Java Jacal - BlogJava 文本分类入门（十）特征选择算法之开方检验 - Jasper's Java Jacal - ... 文本细读的方法太全了，早晚会用到！(文本资料分类 ) 文学类文本阅读-2010模拟新题分类汇编 fckeditor文本过滤方法记忆的分类方法茶的分类方法, 茶的分类方法采矿方法的分类 2011高考语文题分类汇编论述类（科技类）文本阅读

最新新闻沃茨手表网 CSDN程序文档上海旅游网神马百科程序博客香蕉皮作业帮景德镇新闻网余姚信息网作业帮作业网互助问答吧 16楼社区解题作业帮艺术百科亮点网神马百科神马文学网拍题作业网 UC知道我爱散文网北方网科学网第一文库网微思作业网我要文章网都市新闻网西欧教育西山新闻网好楼房产信息网九乡新闻网农企信息网仙女们写真照片音乐简谱网米粒芽学校大全网 95后网站汝南网欧普网宝宝故事网神马品牌网杭州交通信息网/"> 杭州市高中教育平台查人人中国名人网爱美之人上车买票安卓系统之家中科新闻网科学院研究所高考快车高考志愿帮大学志愿大全高校问答高考问答中考百科大学知道久游网