血清二氧化碳偏高:ETL的可扩展性和可维护性

来源：百度文库编辑：九乡新闻网时间：2024/04/28 14:17:24

ETL的过程我想很多人都谈过了，最近我在比较SSIS，OWB和infomatica，结合以前的项目，加深了我对ETL过程的理解和认识。
其实这三种工具，除去应用平台以为，大同小异，各有利弊。今天我想分享一下我的经验，主要在扩展和维护方面。

1：数据落地和ELT
很多人谈到数据落地的概念，说白了，就是ODS或者DWH中，有数据input或者output的，都先把要操作的数据放到临时表里面，而数据传输的两端的表的结构都是一样的，这样的操作比较便捷，几乎不用考虑转换的问题。
同时我们还要提到的就是ELT，ELT和ETL其实各有好处，一个是用工具来转化数据，一个用SP，工具一般都是一行行的处理，而SP一般都是一列列的处理。我个人认为ELT，用SP处理数据比较好，因为我们的测试或者将来的维护，都需要经常改变表间的mapping关系。而SP只是需要在数据库里面做一些修改和操作，而且还比较容易调试，去发现问题的根源。

2：脚本文件
这里的脚本文件可以分为FTP script，table Script，Stored proc Script还有Shell脚本，不管是dos shell 还是unix shell，这些都是一些操作系统的控制文件，我们可以暂时不谈。为什么要谈谈这些脚本了，其实我们在设计和开发结构的时候很简单，但是我们修改的时候，就比较麻烦了，特别是ETL工具在打开一个package的时候，需要加载和验证，有的时候很慢很慢，如果我们只是修改一些小参数的话，花长时间就不值得，如果我们将脚本文件都放在一起的话，那么打开txt或者bat文件就很方便。还有就是我们对于一些临时表，有的时候需要将数据全部删掉，我们可以用 truncate table，有的时候用drop和create也是不错的选择。
当然，如果用脚本文件的话，主机的安全性一定要好，而且对于账号的表级操作权限也要分配好。

3. 策略表
我们按照不同的频率，定时执行package，有的时候可能遇到error，有的时候可能由于其他的问题不能按时执行。其实我们可以做一张策略表，存储每个package的执行的时间规则，然后每天开始执行前，将所有的package初始化出当天的执行情况，记录开始结束时间，还有成功标记。执行时，可以先读取上一个执行日的执行情况，将未完成的package，延续的到当日。

4. 日志表
准确的来说，ETL工作中，从package执行开始的那一刻，每一个小步都要记录日志，记录发生了什么，做了什么，还有出错的信息和控制情况，必要时，我们还要按照数据库的事物处理方式，将相关的包的执行数据全部释放掉。这样日志表和策略表join，我们就可以清楚的看到我们执行的性能，效率和准确的详细的执行信息。根据package的优先级，我们可以将日志报表和紧急的错误，通过SMS或者email，发给相关的人员。

5. 重新执行
   重新刷新数据是经常遇到的，我们发现数据不准确，就有可能需要重新执行，重新执行有中断重新执行和完全重新执行，甚至需要全部重新执行。
   我们用batchid来控制每一天或者每一批的数据，但是有的时候由于这样那样的问题，倒是我们的package在执行中中断，我们就需要去寻找日志，解决问题，然后重新执行。这一步的手工操作比较多，完全重新执行就是重新执行某天的某个packge，需要将对应的数据表做一些操作，比如删除，全部重新执行，就是将数据仓库里面的数据全部重新创新，相当于从0开始。
   这几种操作都是我们会遇到的，我们在设计包的时候，尽量的让package自己去完成，我们人为的控制尽量的减少。可以用一些参数的方式去控制。

6. 团队协作性
ETL的工作占整个数据仓库工作量的50%-70%，所以团队协作性一定要好。而ETL包含E，T，L还有日志的控制，数据模型，原数据验证，数据质量等等方面。例如我们要整合一个企业亚太区的数据，但是每个国家都有自己的数据源，有的是ERP，有的是Access，而且数据库都不一样，好要考虑网络的性能问题，如果直接用ODBC去连接两地的数据源，这样的做法很显然是不合理的，因为网络不好，经常连接，很容易数据库链接不能释放导致死机。如果我们在各地区的服务器放置一个数据导出为access或者flat file的程序，这样文件就比较方便的通过FTP的方式进行传输。我们就需要有几项工作：
1）有人写一个通用的数据导出工具，可以用java，可以用VB，或者其他的工具，总而言之就是要通用，可以通过不同的脚本文件来控制，使各地区的不同数据库导出的文件格式是一样的。而且还可以实现并行操作。
2）有人写FTP的程序，可以用bat，可以用ETL工具，可以用其他的方式，总之要准确，而且方便调用和控制。
3）有人设计数据模型，包括1）点中的导出后的结构，还有ODS和DWH中的表结构
4）有人写SP，包括ETL中需要用到的SP还有日常维护系统的SP，比如检查数据质量之类的
5）有人分析原数据，包括表结构，数据质量，空值还有业务逻辑
6）有人负责开发流程，包括实现各种功能，还有日志的记录等等。
7）有人测试

真正好的ETL，都是团队来完成的，一个人的力量是有限的

ETL的可扩展性和可维护性 ETL学习心得：探求数据仓库关键环节ETL的本质 , 数据,etl,字段,规则,表,转换,... 优化方案：ETL的过程原理和数据仓库建设 - 冰玉 - 网易博客灵活有效的数据仓库解决方案，第 3 部分: 设计并实现仓库 ETL 过程（3）微软ETL工具SSIS的一些资源（部分系转） ETL DataStage实现自己可做和布置的自助餐 Alibaba Data Warehouse ? Blog Archive ? ETL随笔... 微博特殊符号的可复制性和可移植性可安全食用的食用油和饮品、调味品李可老师的特效接骨和续筋方现有技术结合的可能性和可预见性留学生在加拿大可享受的福利和退税维他命B-17可有效的预防和对抗癌症最好的方法不用任何程序就可锁住和隐藏你的文件动态的LED照明可增强办公室员工的积极性和幸福感可更换镜头的中画幅机身和可以更换镜头的单电得分排名可移动式日志导航代码和使用方法 - 雪山雄鹰的日志 - 网易博客手指上的斗和簸箕代表什么，你可知道? 美国波特兰小学的学生可丽（中）和中国学生一起学包饺子。每周150分钟中等强度身体活动可减少乳腺癌和结肠癌的风险我和她相遇网络里！曾经有段刻骨铭心的爱！可现在！春天多吃韭菜可健胃消食和韭菜的营养柚子和柚子皮的作用---冬天常吃柚子可防感冒