铁路附近的房子:同化,你从哪里来,要到哪里去

来源:百度文库 编辑:九乡新闻网 时间:2024/04/28 08:21:07

一、借尸,同化躯体的诞生

      同化,一个并不是很起眼的名字,近十年来,不知为什么竟然越来越吸引人们的眼球。 也正因为如此,同化也在世人面前变得神秘起来。同化,你到底是谁?你还是我们以前的 插值吗?你还是我们经常关心的初值问题吗?

      记得大概50年前,为了把观测插值到模式格点上,作为模式积分的初值,产生一个叫主 观分析的名词。后来,把人工插值变为计算机插值,就改名叫客观分析。再后来,发现单 纯观测的插值不能解决模式的初值问题,又把背景场引进来。多少年来,气象领域的大部 分人都是围绕着如何更好的把观测更好“插到”格点上,如何更好的产生更好的初值(为 此,又诞生了一个初始化)的问题来思考相关问题。

      客观分析主流方法发展经历了以下几个阶段:

     (1)多项式拟合。该方法于1949年由Panofsky提出,它是用一个多项式展开去拟合包含 数个分析格点的一小块分析区域中的所有观测点。展开系数用最小二乘拟合确定。客观分 析的平滑度 可由展开系数的个数控制,根据假定的精度加权观测。多项式拟合开创了客观 分析的新纪元。

     (2)逐步订正法。这种方法的原理是不直接分析观测,从每个观测中减去背景场得到观 测增量,通过分析观测增量得到分析增量,然后将分析增量加到背景场得到最终分析。每 个分析格点上的分析增量通过其周围影响区域内观测增量的线性组合而加权,观测权重与 观测位置和格点之间的距离成反比。Cressman于1959年在这种方法的基础上采用的迭代求 解方法,形成了逐步订正法。逐步订正法引入了背景场的概念,解决了多项式拟合在资料 稀少地区的“不连续”问题。

     (3)最优插值。这是一种从统计意义上来说均方差最小的线性插值方法。最优插值比逐 步订正法最大的改进就是权重考虑了误差和相关函数,即包含了观测、预报和分析之间的 一切关系。80年代开始,它在世界上得到了广泛应用,成为业务用的最多的一种同化方法 。

     (4)变分方法。这种方法利用了变分原理,使得包括预报场和所有的观测资料进行全局 调整,从而也使分析场达到统计意义上的最优。在变分方法中,观测算子可以是非线性的 ,从而使得直接同化非常规资料变为可能。同时,它可以全局调整,克服了最优插值在实 际应用中的“资料选择”问题。变分方法90年代开始在少数国家实现了业务化,并且成为 了目前客观分析方法的一个发展主流。

      但是,在国外,不知道是谁第一个把这些工作赋予了一个“assimilation”名字, 国内 也不知道是谁首先把这个名词翻译成“同化”。这个名词也不知道到底是从其它学科引进 还是某个人茶余饭后的一句“戏言”。但是不管怎么样,同化这个名词产生后,宛如人猿 直到从直立行走那天开始,就把双手解放出来,才真正的从一般动物脱离,获得“新生” ,真正地成为“人”。

      可是上帝似乎是先赋予了同化一个“空壳”,而迟迟不予以其灵魂。以致世人一直把其 看作客观分析和初始化的结合物,甚至看成一种插值方法。结果,同化诞生后,很长时间 搞不清自己是谁。正如一个人从诞生开始,就生活在猴子群里,发现自己和猴子实在是太 象了,就把自己看成不长毛的猴子。

     上帝终于发现了自己的疏漏,于是一部分人开始肩负着上帝赋予神圣使命,开始给同化 注入新的生命。

 

 二、出发,寻找同化灵魂的栖息地

      有人说,同化已经成为一门新兴学科,甚至有人说同化已经成为一门科学。不管怎么样 ,一种方法或理论,要称的上一门学科或科学,首先必须是可以用数学语言予以精确的描 述,即完备性;其次,它必须能满足人们广泛的需要,即广泛性。 当初,气象上的同化确实是借助客观分析和初始化的躯体诞生的。在几十年的时间里面, 绝大部分的人一直把它当作处理初值问题的一个重要方法来看待。但是,同化仅仅就是客 观分析和初始化的结合体吗?不,一部分人开始唤醒沉睡在观分析和初始化的躯体里几十 年的同化的灵魂。

       那么,同化的灵魂到底是什么?诸君莫急,先砌杯茶,回顾一下科学史上两位重要的人 物及其两个重要的思想观念。

      牛顿,这位创造了经典力学的伟大科学家,自从牛顿三大定律诞生以来,人们发现,自 然界不再是神秘的捉摸不透的东西,纷纷鼓起勇气向自然界进军。之后物理学、数学和化 学这些基础学科得到了长足发展,相应的应用学科也是焕然一新。人类的科学到达了一个 前所未有的高度。借助相应的物理和数学工具,以天气学和动力气象为两根支柱,近代气 象学的大厦也建立起来。

      但是,所谓物极必反,在辉煌的科学成就面前,人们开始狂妄起来,思想观念开始走向 一个极端——决定论。拉普拉斯说过“知道了绝对准确的方程和绝对准确的初值,就知道 了未来的全部演化”。无独有偶,近代气象学的鼻祖——皮叶克尼斯也说过“根据某一时 刻实测大气状态和运动,通过描述大气运动规律的微分方程,来计算将来某一时刻的相应 大气状态和运动。从原则上说,大气的未来的状态完全由大气的初始状态和边界条件决定 ”。人们在这些思想下,拼命地去寻找并企图建立一个“绝对准确的方程”(模式)和“ 绝对准确的初值”。

      这种长达三百年的连爱因斯坦都没打破的决定论观念,在二十世纪最后二十余年里,竟 被一篇沉睡了十年的文章予以致命的一击——洛伦兹的“决定性的非周期流”。洛伦兹的 奇怪吸引子让人看到,随机性在自然界扮演着和决定性同样重要的角色。人们不但要去认 识具有必然性的规律,还要去认识具有偶然性的规律。一时间,混沌、蝴蝶效应、可预报 性、集合预报等等,相应名词和概念蜂拥而起。决定性中而不确定性开始被人接受。

      而同化,这个早早就诞生于二十世纪五十年代的客观分析里的概念,没人觉得和几十年 后才时髦起来的“混沌”等这些名词有什么联系。人们一直把同化当作为模式产生尽可能 的精确的初值的一个工具看待。可是,客观分析和初始化仅仅是同化的一个躯体,其灵魂 却一直栖息在躯体以外和混沌等概念有着密切联系的一个地方——基于随机动力学的估计 理论。它苦苦地等待着人们的唤醒。

 

 三、唤醒,同化的灵魂

      基于随机动力学的估计理论(以下简称估计理论),这个听起来似乎不是那么耳熟 , 但是,它的根源——概率论恐怕大家是最熟悉不过。但是,它又不完全等价于概率论,就 像概率论不等同于数学一样。1969年,Epstein. E. S. Tellus.发表的“Stochastic dyn amic prediction”时已经初具雏形。任何理论和技术都是根据需要而产生的,那么这种估 计理论是为了满足什么需要而产生的呢。

      大家知道,为了对现实中的现象描述,科学家们都会根据相应的物理规律,建立起相应 的数学模型。然后进行相应的输入(输入可以是实际观测的,也可以是人为的“控制”资 料),通过模型运算后,然后对输出分析,从而对其物理现象进一步研究。这是现今最常 见的科学研究方法之一。那么有一个输入,通过模式的运算,就有一个相应得输出,似乎 是属于牛顿力学的决定论的范畴。但是,在实际的工作中,我们会发现,这种方法其实是 充满着不确定性的,因为:1)对于实测资料的输入而言,也是有很多不确定性的。这个也 就是我们同化中经常提到的仪器误差和代表性误差。 2)从计算数学的角度来看,模式在 运算求解的过程中,会引入计算上的不确定性。也就是我们常说的计算误差和截断误差。 3)我们所建立的模型是不完美的。我们所建立的模型只能说是对现实情况的一个近似。虽 然有时候,我们的模式是一个很好的近似,比如牛顿第二定律对低速运动的描述。但是, 很多时候我们模式所不能很好地描述部分却对我们所关心现象有着很大的影响,比如在气 候模式中的非绝热项。

     所以,企图从决定论方面来描述我们的现实生活中的现象是行不通的。我们需要根据一 种新的理论来建立模型。这种理论不但可以考虑物理规律,而且要考虑其不确定性,从某 种最优的意义上最大地除去其噪音(即不确定性或者误差)提取信号。不但要对输出值进 行分析,还要对输出值的质量进行分析,这种理论就是估计理论。 这种估计理论首先承认了系统本身的决定性,承认物理规律,认为系统是由一定的物理规 律来决定其基本的时空状态,而引入这个决定性的规律就是我们的模式。

      同时,估计理论 还以前所未有的高度来对待系统的随机性,认为不可能具有完全决定性的系统,在一定范 围内又呈现随机性。就像吸引子一样,所有的解最终会跑到吸引子里,但是吸引子内又表 现为完全随机的。

      理论要满足人们的需要,必须通过一定具体形式来表现。气象上,有两颗新星正闪耀着 估计理论的光芒——集合预报和资料同化。集合预报就是从在一定误差范围内的一组初值 出发,这组初值代表了初始时刻的大气状态的概率分布,然后用模式去预报,得到一个预 报值的集合,即未来某时刻的大气状态的概论分布。而同化就是利用一切有用信息,尽可 能准确地估计出某一时刻的大气出现的概论分布。

      应该说,集合预报和资料同化其实是一个问题的两个方面。它们都是在给定观测和预报 模式的情况下,去描述大气状态的概论分布及其发展。它们都有一个共同的理论基础—— 估计理论。

      前面说过,气象里的同化是借客观分析和初始化的躯体诞生的。所以,它最初被认为一 种插值方法,后来有被认为是对大气状态的一个最优估计。其实,人们从最优估计的理论 上来理解同化时,同化的灵魂已经开始唤醒,但是,还没有完全醒来。因为,从估计理论 上来讲,最优不过是概率分布中概率密度最大的地方。但是,现在人们知道,小概率事件 不一定是不发生。何况,如果概率分布是一个双峰状态时,假如另一峰仅仅比主峰低一点 ,我们的仅仅去求“最优”时,其实漏了一个很重要的可能出现的状态。 那么,要完全体现估计理论,使得同化的灵魂完全复苏,同化需要一个新的躯体——基于 集合的同化。

 

四、新生,基于集合的同化

       如果说起基于集合的同化,大家可能还不大习惯,但是说起集合Kalman 滤波的话,可 能就觉得很熟悉了。记得一两年前,国内在谈同化的时候,言必出变分,某种意义来讲, 变分几乎垄断了人们对同化的思考。其实,这和国际大环境有关系。九十年代中后期,以 ECMWF为主的“欧派”开始实现四维变分同化的业务化,令世人垂涎不已,此外,以NCAR为 首的“美派”,由我们很熟悉的华人ZOU等通过开发的MM5的伴随模式,造就了国内最为熟 悉的中尺度模式MM5的四维变分同化系统。一时间,变分、伴随无不成了同化的代名词。

       但是,最近,一个叫集合Kalman 滤波的东西居然能在变分统治的同化世界里能割出一 小块领地来,并有大举扩张的趋势。表面上来看,变分是给集合Kalman 滤波用一把叫“f low dependent”的刀子在软肋上狠狠的捅了一刀,而且变分的最引以为豪的伴随之剑,在 集合Kalman 滤波面前居然毫无用武之地。正所谓没有一个统治者甘心退出历史舞台,为了 保住江山,变分也开始用集合以及减秩等方法铸造“flow dependent” 之剑。 他们到底谁胜谁负我们暂且不去讨论,但是,经过集合Kalman 滤波这么一反抗,竟然 把集合的概念活生生地带到了同化里面。于是,人们开始用集合的概念来思考同化的问题 。

       前面说过,估计理论是同化的理论基础。但是,人们并不是从一开始就从估计理论去认 识同化的。最初把它看出是个插值问题,后来又从最小方差和极大似然估计去理解同化, 即把它看成一个发生概率最大的最优问题。把同化里面的值看成概率密度函数然后求概率 最大,已经是把同化的灵魂唤醒了。但是,这并不是它的灵魂——估计理论的全部,因为 估计理论要求我们不能仅仅估计概率密度最大的地方,而是估计整个的概率分布。人们通 常会把同化理解成一种尽可能使估计值接近真值的一种方法。这种认识其实是很有局限性 的。在估计理论里面,所谓的绝对真值(在估计理论里,这不过是一个发生概率为百分百 的事件)并没有太大意义,因为假如百分百发生的事件(也就是概率分布为一个点)就无 需去估计。估计理论的对象恰恰不是百分百发生的事件,也就是认为它估计的事件具有一 定的不确定性,但统计上又具有一定的规律,也就是具有一个概率分布。

      那么同化的任务就应该是要去估计一个事件的概率分布,而不是仅仅是一个最优。那么 概率分布是通过什么描述的呢?概率论上说的很清楚,它是用随机变量来描述的,但是随 机变量还是一个精确又抽象的数学名词,实际应用中,是通过样本来描述的。集合,就是 我们气象在概率上的“样本”代名词。也就是说,只有基于集合的同化,才能完成估计理 论赋予的神圣使命。

 

 五、比较,集合同化VS非集合同化

      我们一般所说的基于最优的同化,其实都是非集合同化,而非集合同化其实仅仅是 集 合同化的一个特例,既然是特例,就有它的局限性。那么下面我们通过考查同化的具体方 法,仅从估计理论的角度(不考虑技术及其它问题)来说明这个局限性。

     目前,非集合的同化形式比较好的是Kalman滤波和变分。但是,它们得到的分析值仅仅 是一个概率最大的状态。而这个“大”的程度,在Kalman滤波里面是用分析误差来衡量的 。换而言之,如果分析误差为零,最大概率就是百分百。而分析误差越大,这个概率最大 的“绝对值”就越少,也就是可信度越差。这个时候,那些概率次大的状态就显得很有参 考价值,如果假设概率分布是正态分布的话,这时分布曲线就越平且接近X轴,那么远离最 优的其它状态可能具有和“最优”几乎相同的概率,只是不是“最优”罢了。可惜所有的 非集合同化方法这时就无法提供概率最大以外的状态,它永远只有一个最优状态。

     如果说Kalman滤波里尽管不能提供最优以外的状态,但是它还能通过一个分析误差的尺 子来衡量概率最大的“绝对值”的大小的话,那么可怜的变分连这把尺子都不能提供。当 然,由于技术上实现原因,传统的Kalman滤波变成了非集合同化里面的一朵“水中花”。

     此外,在变分里面,整个误差协方差是静态的,而静态的统计样本取自时间序列。那么 ,这就意味着它的最优只是在整个时间序列里面的统计最优。也就是说,如果样本是取一 个季度的话,那么只能说整个季的同化综合结果是最优的,对于某天或着某个天气过程, 并无最优可言。只有你的统计样本取自特定时刻可能出现的状态,同化出来的结果才能说 是真正的最优。这样的样本只能是“集合”。

     值得一提的是,在这里提的基于集合的同化不是要否定变分、否定Kalman滤波。只是提 出要从集合的观点、从估计理论的观点去看待同化。基于集合的同化和传统的同化方法并 不是完全对立的。目前国际上也开始出现基于集合的三维变分和四维变分。

     目前,几乎所有的同化形式都可以从条件概率的贝叶斯公式推导出来。如果用集合来表 示贝叶斯公式里面的概率分布,而且假设概率密度函数是高斯型的话,那么这些基于集合 的同化形式都可以归结为广义的集合Kalman滤波。由于高斯型的概率密度函数的假设会在 同化中带来极大的方便,同时这个假设又有较好的合理性,所以,到目前为止,几乎所有 的基于集合的同化形式都属于广义的集合Kalman滤波。

     可以说,基于集合的同化已经是同化发展的一个趋势。但是,目前国际上对基于集合的 同化的研究主要侧重于用集合技术来解决同化的存在的一些问题,但尚未对集合预报和同 化的统一进行系统的理论研究。如果我们国家能不失时机的抓住机遇,在这方面加大投入 和研究,必然能实现同化理论上的创新和同化技术上的跨越式发展。(完)