苏州高级中学校服:Alibaba Data Warehouse ? Blog Archive ? 与阿里云交...

来源:百度文库 编辑:九乡新闻网 时间:2024/05/03 07:38:34

与阿里云交流数据仓库(yahoo数据仓库介绍)

我要说几句 wsbuptcloseAuthor: wsbupt Name: 王赛
Email: sai.wangs@alibaba-inc.com
Site: http://
About: See Authors Posts (11) | 数据模型 2010-7-28 21:30:13

1. Yahoo数据仓库的整体架构

  Yahoo数据仓库在基础架构上由hadoop集群和Oracle集群组成,hadoop集群是一个计算平台,完成所有ETL数据处理过程;Oracle集群只是一个查询环境。

    数据通过Data highway从源系统加载进入数据仓库的ODS层,ODS层数据保持与源系统数据结构一样。EDW数据层并没有严格意义的数据层次的逻辑细分,它可能有多层的ETL加工过程;多层的数据存储。这一个层数据主要采用维度建模的方法,根据应用需求建立数据模型。数据采用列式存储的数据结构存储。

    数据经过加工处理完成后,数据将会同步到Oracle的集群中用做数据查询。Yahoo用Oracle做查询环境,他们的大量采用了基于时间RANGE分区和HASH子分区的方式来提升查询响应性能(类似与Greenplum的方式)。数据采用了压缩技术,同时基于压缩和读取的方式上ORACLE官方为他们定制了一些改进,从而获取更好的读取IO和压缩能力。

    MSTR报表工具连接ORALCE完成大部分报表查询功能,同时,如果要查询最明细的数据,工具会连接到HADOOP集群上,通过创建一些临时表来满足查询功能。

    同时,Yahoo的仓库配备了一个功能强大的元数据管理系统,他们的元数据是通过SQL解析,直接将ETL mapping的元数据解析进入元数据库,做到了字段级别的MAPPING。同时他们的PM会维护最新的业务元数据(业务规则,指标定义)进入的元数据库系统。

 

2.  Yahoo数据仓库建模方法

Yahoo数据仓库建模基本上采用维度建模的思想,他们强调一致的维度在保持数据仓库模型的一致性上的作用。他们会花一定的时间去识别每个新进入仓库的数据表,并了解它的业务规则和数据属性,由数据架构师完成对数据整合的设计工作。

Yahoo也建立一些稀疏的宽表,它的基于每个日志访问记录表的宽表就有上千个字段。

 3 . Yahoo数据仓库的团队成员构成

Yahoo团队主要由DHW配置人员,ETL开发人员、数据架构师、BI分析人员和PM人员组成。他们介绍他们团队大概有30个人,应该只有一个PM而且投入也是50%,从这看来他们的应用需求应该比我们B2B少很多。

 

4. Data Architect的职责

数据架构师基本上负责整个全局数据仓库的模型,表的设计。数据架构师对掌控整个仓库的表结构。同时,Yahoo经常从外面收购不同的公司,很大一个职责和任务是需要整合新的据源进入数据仓库的模型中。

 

5. Yahoo实时仓库的现状

Yahoo的实时仓库应用较少,应用点就是广告的结算使用,按时间窗口,采用Oracle的LogMiner捕获准实时变化数据,通过事件触发后续的ETL处理过程。

 

6. Yahoo对数据仓库人力资源的使用原则

Yahoo的数据仓库人力资源不在业务方,而由自己控制。他们将商业价值和对数据仓库整体影响排在前面两个最重要的位置。当出现资源冲突的时候,不由业务方的独自利益为导向。

Alibaba Data Warehouse ? Blog Archive ? 与阿里云交... Alibaba Data Warehouse ? Blog Archive ? ETL随笔... 我的。五道口 ? Blog Archive ? 狭隘民族主义与外交政策 闪回数据归档(Flashback Data Archive) Allegra ? Blog Archive ? Labeling the Twisted Bits Data 数据库连接与查询 老徐的博客 ? Blog Archive ? .NET Framework 4与.NET Framework 4 Client Profile 的区别 allaboutU’s blog ? Blog Archive ? <长长见识> 清宫有关... SocialBeta ? Blog Archive ? 开放或消亡?Twitter如何选择... 雾谷飞鸿 ? Blog Archive ? 美国买房纪实 - America.gov ourfolk.net青马博客 ? Blog Archive ? 租房子是个技术活 e路上-eRoading.com? Blog Archive ? 五个最佳个人财务软件 UIHACKER ? Blog Archive ? 导论 自然中的秩序及其用途 .::灵狼天::. ? Blog Archive ? 脖子落枕怎么办及治疗方法 图林中文译站 ? Blog Archive ? 公共图书馆常见的电子书问题 Linux内核之旅 ? Blog Archive ? 虚拟内存管理实例 張盛舒的話 ? Blog Archive ? 閱人有術:宿命論vs.造命論 安普若经典文章Blog汇集 ? Blog Archive ? 没事找事系列:【人物照片】储... 孔雀公主与阿里郎 SocialBeta ? Blog Archive ? 真正有价值的社交网络——微观下的T... SocialBeta ? Blog Archive ? 2011年值得关注的8大社会化媒体... 世纪心理沙龙 ? Blog Archive ? 学生为什么会改变—《教师心理学(14)》 ( f o o b a r . l u ) ? Blog Archive ? Runnni... 張盛舒的話 ? Blog Archive ? 愛情的代價 -從塵埃裡開出花來