长毛腊肠:骗人的统计游戏

来源:百度文库 编辑:九乡新闻网 时间:2024/03/29 09:36:03
骗人的统计游戏 [原创 2011-06-21 05:50:22]    字号:大 中 小  

 

昨天看到有媒体报道说华为员工平均年薪近28万元。尽管华为员工的收入可能高于同行业的标准,但28万还是一个很惊人的数字,但实际上这很可能只是统计游戏。

最简单的一个例子就是烧鸡的故事。张三有1只烧鸡,李四有2只烧鸡,王五有3只烧鸡,赵六有4只烧鸡,而李嘉诚有90只烧鸡,平均下来大家每人有20只烧鸡,张三、李四、王五、赵六都愤愤不平,他们明明只有填饱肚子的一点点烧鸡,而统计数据却说他们有20只烧鸡,这不是胡扯吗?

上述的20只烧鸡只是算术平均值(mean)而已,我们完全可以用另一个统计变量去更准确的描述每个人拥有烧鸡的情况。首先把5个人按照拥有的烧鸡数量从小到大排列,我们选取排列在中间的那个人拥有的烧鸡数量作为大家平均拥有的烧鸡数量(也就是中位数,median),也就是王五的3只烧鸡,这样大家平均拥有3只烧鸡的统计结论就比20只烧鸡更加靠谱,张三、李四、王五、赵六也会感觉到统计数据与大家的真实情况差不多。

另外,如果对比平均值(mean)和中位数(median) ,如果二者差别很大,则说明数据分布不均匀,有极端情况,具体到烧鸡案例就是“烧鸡拥有数量差距太大”。

另外,如果统计数据还提供最小值(min)和最大值(max),则情况更加明显。从烧鸡案例我们可以看到,拥有烧鸡最少的是张三,只有1只,他是最穷的。拥有烧鸡最多的是李嘉诚,有90只,他最牛逼。

还有一个叫标准差(standard deviation),是用来衡量张三、李四等拥有烧鸡数量与平均值的差距。

总之,如果一组数据能够提供以上5个变量的情况,我们对整体情况就会有一个大致了解。

中国统计数据很多都有这个问题,比如人均收入。国家统计局发布的数据都看上去很好看,中国居民人均可支配收入(平均值,mean)年年有增长,但很可能也只是烧鸡的故事。如果统计局提供中位数(Median)的数据,比如排名第6.5亿居民的收入,我估计会与平均值差别很大。事实上也应该如此,人力薪酬机构Hay Group在《澳洲商业评论周刊》(BRW)发表研究报告称,中国高级管理人员与普通员工收入差别为全球之冠。2007年度中国高管与员工的收入差距高达11.8倍,在全球61个经济体中排名第一,而亚太区最发达的三个经济体,日本,澳大利亚和新西兰,排在垫底的三名,高管与普通员工收入差距平均为3.2倍。(刘振华于2011年6月21日星期二。作者电邮:  zhenhua.liu1@gmail.com