黑犯罪现场调查成人版:文本分类入门(一)文本分类问题的定义 看文章 www.KanWenZhang.Com

来源:百度文库 编辑:九乡新闻网 时间:2024/04/30 01:07:46

文本分类入门(一)文本分类问题的定义

个文本(以基本不区分“文本”“文档”两个词含义)分类问题就篇文档归入预先定义几个类别个或几个,而文本自动分类则使计算机程序实现这样分类。通俗点说,就好比篇文章,问计算机这文章究竟体育,经济还教育,计算机答不就打屁屁(……)。

  注意这个定义当着重强调两个事实。

  第于分类所需类别体系预先确定。例如新浪新闻分类体系,Yahoo!网页分类层次。这种分类层次旦确定,相当长时间,或即使变更,付出相当代价(基本不亚于推倒并重建个分类系统)。

  第二,篇文档并没有严格规定只能被分配给个类别。这分类这个问题主观性有关,例如找10个人判断篇文章所陈述主题究竟属于金融,银行还财政政策领域,10个人给出11个不同答案(聪明,您应该能看出并没有11个答案,这只种修辞,笑),因此篇文章能被分配个类别当,只不过分给某些类别让人信服,而有些让人感觉模棱两(说专业点,置信度不样)。

  八股文章格式,过去于科举,现于科研,总科学有点关系文章就得八股,鉴于锻炼自己论文能力,所以按照标准格式,陈述文本分类问题定义说说范围。

  现文本分类,部分人想当然这个问题简化判断篇文章说什么,这只文本分类部分应以称“依据主题分类”。实际,文本分类还于判断文章作风格,作态度(积极?消极?),甚至判断作真伪(例如看看《红楼梦》最二十回曹雪芹)。总而言,凡文本有关,分类有关,不管从什么角度出发,依据何特征,都以叫做文本分类。

  当然,目量使文本分类技术,仍依据文章主题分类,而据此构建最系统,当属搜索引擎。原因当然不言自明,想给家提个醒,文本分类还不完全等同于网页分类。网页所包含信息远比含于其文字(文本)信息个网页分类,除考虑文本分类以,链入链出链接信息,页面文本身元数据,甚至包含此网页网站结构主题,都能给分类提供莫帮助(比如新浪体育专栏里网页毫无疑问都关于体育),因此说文本分类实际网页分类个子集毫不过。当然,纯粹文本分类系统网页分类点区别都没有。文本分类有个重提:即只能根据文章文字容进行分类,而不应借助诸如文编码格式,文章作,发布日期等信息。而这些信息网页说常常,有时起!因此纯粹文本分类系统想达相当分类效果,必须本身理论基础技术含量功夫。

  除搜索引擎,诸如数字图书馆,档案管理等等海量文字信息打交道系统,都文本分类。另硕士论文(笑)。

  家侃侃文本分类有关具体概览,有事您说话。