黑客刷q币软件2016:分类算法的比较准则_DataMan'S Blog

来源:百度文库 编辑:九乡新闻网 时间:2024/04/30 09:42:28
分类算法的比较准则2008-04-02 18:45

不同的分类方法有不同的特性,侧重于不同的数据集,对于同一个数据集不同的分类方法也会产生不同的分类结果。那么对于同一问题,究竟应该采用那种方法更好呢?这一问题一般有以下五种评价方法或者叫做比较准则。

1.      分类精度。这是用得最多也是最为有效得一种评价尺度。对于预测型得分类任务,分类精度是指元组被正确分配到其所在的类别中的个数占元组总个数的百分比。

2.      分类速度。这是一个传统的算法度量方法,但是计算速度是由多种因素共同决定的如所使用的机器的硬件环境,算法本身的时间复杂度,数据质量的好坏等等。这个指标也是一个非常非常重要的度量准则,而且数据集越大该问题就越突出。

3.      模型描述的简洁性和可解释性。模型的简洁度标准也很重要,特别是对于描述型的分类任务,模型描述模型越复杂,其结果就越难以理解,应用当然也就越困难,模型描述愈简洁,愈容易理解,则愈受欢迎。可解释性就是所分类出来的结果要尽量让人看得懂,其结果尽量以可视化的方式(如图,表等)或规则来显示给用户。

4.      分类模型对各种数据的适应度。由于所分析的数据对象中经常会存在不完整数据,噪声数据,不一致数据或者数据分布是稀疏的,因此一个好的分类器需要能够对各种类型的数据集有较强的适应能力。

5.      可伸缩性。可伸缩性是指分类算法对海量数据具有有效构建模型的能力。具有良好可伸缩性的算法也是现在的一个研究热点,因为现存的许多方法在小数据集上的却有非常好的表现,但是一用到大数据集上,其表现就不尽人意。所以可伸缩性也是很重要的一个方面。