邓紫棋艳照百度网盘:数据分布倾斜性风险浅析

来源：百度文库编辑：九乡新闻网时间：2024/04/20 17:40:29

数据分布倾斜性指的是数据分布过度集中于数据空间的某端，造成“头重脚轻”或者“比萨斜塔”等不均匀的分布特点。

数据分布倾斜性将造成运算效率上的“瓶颈”和数据分析结果的“以偏概全”。

1 效率上的“瓶颈”

假如在大型商场中，共有A,B1,B2…..B9十家店铺，其中A店铺中有99W商品，B1,B2….B9这九家店铺分别有1W商品。我们要统计商场中商品总数，计算初，采用HASHMAP作为存储结构，其中Key：店铺 Value：商品。我们的计算过程是先统计每个店铺的商品总数，最后将结果累加。可以发现，由于A有99W商品，按照1+1的累积方式（假如1+1耗时1秒），我们要加99W个1才能得到A店铺的商品总数（总耗时99W秒），而B1,B2….B9只需分别累加1W个1（分别耗时1W秒），而为了得到商场中的商品总数，我们必须等待所有店铺都分别累计结束才能处理总和，显而易见，此时运算瓶颈便集中在A店铺的商品累计上。

这类状况经常发生在分布式运算过程中，比如Hadoop Job计算，因为map/reduce 过程中是以Key-value形式来处理数据，假如某key下的数据量太大，会导致整个计算过程中move/shuffle/sort的耗时远远高于其他key，因此该Key变成为效率“瓶颈”。一般解决办法是，自定义partitioner，对所有的Value进行自定义分组，使得每组的量较平均，从而解决时间瓶颈问题。

2 数据分析结果的“以偏概全”

同样使用上述的“商场”案例，并且在此基础上我们假设A店铺,B9店铺是卖低端商品，而B1,B2…..B8是卖高端商品，销量较小。如果我们要根据商品销售状况分析店铺在买家当中的受欢迎程度。由于A店铺本身商品量大，而且定位的销售价位是属于薄利多销，如果只从销售量的考虑，我们会以为A店铺在商场中是最受买家欢迎的，造成“片面”的分析结果。

其实，遇到这种情况，我们首先的分析卖家性质和买家性质，并且使用相对量来作为评估值，比如A店铺卖低端商品，日销售量1W商品，1W/99W<1%, 而B9店铺卖低端商品，日销售量5K商品，5K/1W=50%,所以在低端买家中，低端商品店铺B9应该是最受欢迎的。

数据分布倾斜性风险浅析银行保障房信贷有限倾斜风险隐忧何在银行保障房信贷有限倾斜风险隐忧何在.. 银行操作风险防范浅析124 信用证风险：可转让信用证之风险浅析李力言：正视经济数据走光的风险一个数据分析系统的技术架构设计浅析浅析会计报表审计风险易发环节及其防范111 浅析担保机构与银行合作中的风险分担问题解读2010年中国宏观经济数据：通胀风险仍在央行：14万亿地方政府债务数据错误风险可控浅析AutoCAD中扩展实体数据的组织结构及存取方法恩华药业浅析：成长的机会与风险（下）浅析银行临柜业务中的法律风险与对策 - mine522的日志 - 网易博客性调查数据 [讨论]浅析担保机构应该加以重视的外部风险点 - 【担保业】 - 【金融行业社区】 - 博... 修复倾斜照片时光倾斜，开出玫瑰向前倾斜的风倾斜 Sway的要点浅析汽车制动性与操控性利用重要数据纸黄金差价无风险套利_纸黄金吧_贴吧经济增速快速回落的风险较小中国经济动力仍然强劲（年中数据看经济）外媒7次精准"猜"对CPI,经济数据"走光风险"需重视