统计反问题

统计反问题1 介绍1.1 正向问题1.2 反问题1.3 工具2 反问题中的可识别性和一致性2.1 估计量 estimator (决策规则)2.1.1 平均距离误差和偏差2.1.2 估计量一致性2.2 线性正向问题2.3 线性反问题中线性参数的可识别性2.4 线性反问题中的一致性3 统计决策理论3.1 决策理论框架3.2. 决策估计

1 介绍

1.1 正向问题

模型集合用具有特定结构的表示,例如,它是实可分巴拿赫空间的凸子集。

从模型索引到观测量概率分布的正向映射

这个映射可以有合理的分析性质,例如连续性。

数据的可能概率分布类别表示为

线性正向问题

的概率分布,其中 是线性算子, 是分布不依赖于的随机变量。

为模型 的参数,其可以是恒等变换。

1.2 反问题

观察来自未知分布数据,并根据一些已知条件学习 ,例如估计参数

包括至少两个点

1.3 工具

泛函分析,凸分析,优化理论,非光滑分析,逼近理论,调和分析和测度论等。

2 反问题中的可识别性和一致性

参数关于 的特征,是我们想学习的。参数是关于 的连续映射 ,其中 是一个可分度量空间。(限制在连续映射也不是必须的)进一步 (因而 )包含至少两个点,如果上是常数,则已知无需任何观测值。如果我们想完全地估计 ,可以取 。我们也许会对 在低维度的投影更感兴趣,例如的范数或其它函数或泛函。

可识别性 称参数 是可识别的如果对于所有的,有

也就是说,一个参数是可识别的如果参数的变化总能导致数据概率分布的变化。在大部分反问题中,是不可识别的。进一步在大部分线性反问题(后面定义)中,大部分关于 的线性泛函是不可识别的,这里提供了关于线性反问题中参数可识别性的一些结论。

2.1 估计量 estimator (决策规则)

(随机)决策规则

是一个从 到可分度量空间 (行动空间)的概率分布 的可测映射,其中概率分布是定义在上Borel -代数的子 -代数。(从 上测度集合的映射是可测的,如果对于任意 是一个在任意Borel集上关于-可测的函数)

非随机决策规则 对每个 , 赋值一个单位质点 。考虑随机决策规则在证明以及偶尔在实际操作中确实是有用的,但实际上,它们是非随机决策规则的凸组合。为便于记号,一个非随机决策规则常被记作 -valued 函数而不是 -valued。

(非随机)估计量 (非随机)估计量是一个(非随机)决策规则,其中行动空间是空间中所有可能的参数取值。常见的参数估计量的记号为。与上同样,一个非随机估计量被写作 -valued 函数而不是 -valued。

随机估计量举例 估计硬币头朝上的概率 ,已知先验概率 。抛次硬币并观测硬币头朝上的总次数。一个合理的估计量可以如下定义:令是以概率为概率为并独立于的随机变量。定义

这个估计量只会返回 的可能估计值,但是实际上当数据没有偏好时投掷一枚均匀的硬币去决定使用哪个可能的值。

 

2.1.1 平均距离误差和偏差

衡量估计量的表现

有许多常用的测度去评估估计量可能的表现,其中两个最简单的是平均距离误差平均距离偏差。简单化起见,我们讲注意力放在非随机估计量上。令 上的度量。估计量 和参数 处的平均距离误差

其为估计量与参数的距离当模型为时的期望。因为参数空间 是一个度量空间,且度量在 中取值,因此平均距离误差总是良定义的。当度量是由范数定义时,平均距离误差又被称作平均范数误差mean norm error (MNE)。 当 是一个希尔伯特空间有范数 ,则其均方误差mean squared error (MSE)为

是一个巴拿赫空间,我们定义处的偏差

若这期望是良定义的。

,我们称对于无偏的。

偏差是系统误差,偶然的误差在每一次测量中都不同,但是偏差会使得测量值偏向同一反向。

若在一个反问题中,存在估计量 对于是无偏的 (称 -estimable ),那么 自然是可识别的。 ,那么。当 是Hilbertian,我们定义估计量方差

使用射影定理将均方误差MSE分解为两项的和, 的方差和的偏差的范数的平方。即

平均距离误差和均方误差都可以作为风险函数。

 

2.1.2 估计量一致性

在实际问题中,数据数量是有限的并且经常是固定的。 然而,至少在概念上,通常有可能将特定问题嵌入假设的hierarchical序列中,在该假设的hierarchical序列中,进行更多类似类型的实验或进行更多测量。如果可以收集更多数据,就可以以任意精度估算参数,那是极好的。

关注更自然的情形:对于数据空间 th problem ,所有的问题都有同样的索引空间 以及同样的参数 。进一步,问题序列可以被嵌入,意思是 的一个Cartesian factor,其中 (例如, ), th problem 的概率测度 ,为 上概率测度 的边缘测度。因此,问题的不同之处在于区别有多少可用数据量。若对于任何参数值,当使用更多的数据,参数的估计值都能收敛到它的真实值,那么称其估计值序列为一致的。

注记2.2.上的度量。

定义2.3. 一致性 给定正向问题一个内嵌序列 和参数,一个非随机估计量序列 对于一致的如果对任一 以及任一的邻域,有

以上定理表明,参数 是一致可估计的如果存在一个估计量序列对于是一致的。如果是恒等映射且 上的某种拓扑(不一定是上的范数拓扑)是一致可估计的,则称这个模型是一致可估计的。

 

2.2 线性正向问题

注记2.4. 是一个可分巴拿赫空间。那么 定义为的范数对偶(范数第二对偶), 且pairing between and (between and ) 记为。在 上的范数分别记为

定义2.5. 一个正向问题是线性的如果以下条件成立 (1) 是可分巴拿赫空间 的一个子集。 (2)对于中元素构成的特定序列 ,数据成立

是随机误差构成的向量,它的概率分布依赖于 。(因而 。 )

泛函是线性正向问题的'representers'或'data kernels' 。它的分布 的概率分布,而 取遍 的分布构成的集合。 往往 ,或至少是,因此估计是一个欠定问题。定义

则可以将定义2.5中的式子写作

利用数据 以及有关的知识,去估计或对参数作推断是一个线性反问题。在线性反问题中,数据的概率分布仅通过依赖于模型 ,所以如果有两个点 满足 但是,那么是不可识别的。我们继续学习关于 的一些条件,它们可以控制是否可以在上决定

2.3 线性反问题中线性参数的可识别性

考虑线性正向问题, 。令 是在 上线性的(但不必有界)泛函集合:对于 ,有 ,当 。这节将解决从数据 对线性参数向量进行估计

线性正向问题中,由data kernels线性组合构成的线性泛函在参数估计中起到了决定性的作用。令 是实元素组成的 矩阵。我们定义

实数参数可识别的以下必要条件扩展了Backus and Gilbert定理,它所处理的参数比刚刚描述的线性参数更通用。 注意,当且仅当向量值参数的每个分量都是可识别的时,向量值参数才可识别,因此考虑实值参数就足够了。 回忆引理A.4,若 是一个随机 -vector 而 ,那么 的概率分布与不同,因此在一个线性反问题中, iff 。这可以得出参数是可识别的当且仅当 可以推出 对任何

引理A.4(变换的可识别性). 是一个随机 -vector。给定一个常数 ,则的概率分布与 不同。

证明. 使用Fourier methods这是显然的。注意到 对于 成立。函数 是连续的,且在 处取值为 ,因此在 附近一个邻域中是非的。因此对于某个 ,由Fourier唯一性得证结论。

定理2.6. 是一个可识别的实值参数。设存在一个非空对称凸集 满足 (i) (ii) , (iii) 以及 (iv) 那么存在一个矩阵满足 的限制是 上的限制。

证明. 不失一般性假设 。用 张成的 的闭子空间代替 ,可以进一步不失一般性假设 张成的 的闭子空间即为所有的 。那么 是限制在 上为 上的连续线性泛函,可以同样被记为

假设这样的矩阵不存在,那么不是函数的线性组合,由连续性可以知道存在一个有限集满足限制在 上不是函数 限制在上的线性组合(我觉得有限维可以取基,无限维可以归纳反证)。也就是说,有限维向量 不是向量 的线性组合。根据有限维线性代数,存在常数满足 。进一步,用 代替 ,且取足够小,我们可以认为 观察到

然而

这与可识别性矛盾。 定理2.6可以变得更一般化,例如,假设存在 ,对称凸集 ,常量 以及映射 满足 (i) (ii) (iii) (iv) and (v) 那么存在 矩阵 满足的限制是上的限制。 定理2.6给出可识别性的一个必要条件,后面给出相应的充分条件。

 

定理2.7. 假设 是一个 -valued参数,可以被写作上的限制,其中矩阵。那么是可识别的。进一步若,那么统计量是估计量的无偏估计。如果存在协方差矩阵,那么 在任何下的协方差矩阵是

证明. 的可识别性可从引理A.4.立刻得出。若,我们计算

所以是估计量的无偏估计。另外设 有协方差矩阵。可计算

推论 2.8 (the fundamental theorem of Backus and Gilbert). 是希尔伯特空间,令 为线性参数且 ,则参数是可识别的当且仅当存在矩阵使得 。 在这种情形下,若,那么 对于是无偏的。另外,如果有协方差矩阵,那么的均方误差MSE是

 

2.4 线性反问题中的一致性

这一节在一个相当一般的情形下讨论了线性反问题中模型可以被一致估计的充分条件。

在本节假设观测误差是一个独立同分布实值随机变量组成的-vector并服从一个常见的分布。此处对矩条件没有要求。

整个模型是否可以被一致估计取决于考虑的模型空间,中模型的先验条件,已知泛函以及观测误差的概率分布。 我们的结果将根据一组概率测度的“大小”来界定。

定义2.9.,用映射来定义 的一个前推,即。用Hellinger distance 定义上度量

为测度之间的距离。度量是平移不变量(它依赖于)。

定义2.10. 任给 ,度量空间 的一个 -网是一个子集 满足对任意 ,存在 。度量空间 是全有界的,如果对于每个 存在有限的-网。 紧性总是意味着全有界,反向在完备空间中反向成立(反向并不总是成立)。

伪度量空间是度量空间的一般化,其中两个不同点之间的距离可以为零。 就像每个范数空间都是一个度量空间一样,每个半范数空间都是一个伪度量空间。

注记2.11. 给定一个严格正常数序列,定义上的伪度量

定理2.12. 假设 ,存在可数个子集序列 满足 在每一个 上一致收敛到上的度量。进一步假设每一个集合 对于 是全有界的,则模型在-topology中是一致可估的。

证明. 首先设 上一致收敛到度量 在度量下是一致有界的。对于 ,令 中的有限 -网。

根据Birgé中的结论 (see proposition 3 , section 16.4 of [44]),对每个 以及 ,存在数 及在 上的 -valued函数 满足性质

对每个 选择 ,当 ,有

对于 ,记

其中若 定义乘积为 。根据构造,若 ,那么

因此有

进一步,对任意 我们有

是空集,令 为任意点 。否则令,其中 。考虑 且选择 满足 。由上

现归纳地定义

并令

显然对每个

先考虑满足定理条件一般情形下的 。可用 代替 的角色,则记 为由以上方法构造的估计量序列。归纳地定义 满足

并令

显然对于所有的 ,序列 概率在 -topology中收敛到

推论2.17. 假设 且对于可数个集合序列 满足 ,它们对于范数拓扑中是紧的,且 在每一个 上逐点收敛到 上的度量 。进一步假设 是绝对连续的,且 ,则模型在 -topology中是一致可估的。

证明 我们首先证明 在每个 中一致收敛到 。观察到

且注意到

因为 是绝对连续的,

函数序列 因此在范数诱导的度量下在 中是等度连续的,则由紧性和逐点收敛知这是一致收敛的(见下补充证明)。

根据定理2.12的条件,我们只需要证明每个 下是全有界。由于 在范数拓扑中是紧的,则在范数诱导的度量中是全有界的。于是再由(2.48)和(2.50)得到是全有界的。(因为可以被范数控制)

补充证明.在紧度量空间上等度连续、逐点收敛,则一致收敛。

证明. 只需证明对任意,存在,满足对所有对所有

是等度连续的,则对,存在 ,当 时有

,有

由于 是紧的,存在 以及 满足

由于 ,存在,当

由此任取 ,存在 使得 ,则当

例子2.18., 巴拿赫空间上的连续函数,supremum范数。对于 ,令 为满足Hölder condition of order 的函数集合,即 满足

根据 Arzela-Ascoli 定理,集合 时可数个在范数拓扑中紧的集合的并。(见下补充说明)令 为绝对连续概率测度且取 。固定一个无理数 并令 为取值在的泛函,即。由Kronecker-Weyl equidistribution 定理,对于每一对,有

则从推论2.17得模型在-拓扑中是一致可估计的。

补充说明

其中 上的连续函数且有(这不是本质的)和。取序列 。取 是等度连续的。进一步 所以这是有界的,然后由Arzela Ascoli这是准紧的。因此存在子序列同样记为 一致收敛到某个 。对于所有的 我们有

所以,所以的紧子集。而上可转化为,每个对应的集合是紧的,所以这个集合是可列个紧集的并。

3 统计决策理论

3.1 决策理论框架

决策理论将统计估计和推理构建为两人博弈,即自然与统计者的博弈。自然挑选 ,而 的值对于统计学家是未知的;数据 将会依 产生。 统计学家选择一个策略 去依据猜测 的一些特征。数据产生后,统计学家应用这个规则并根据他的猜测以及真实值支付损失 。这个博弈含有以下元素 (1) 可分巴拿赫空间上的概率分布集合 ,其中 是可分巴拿赫空间 的一个已知子集。 的元素对于自然可能的策略。 (2) 固定的由随机决策规则构成的集 ,将 映射到行为空间 上概率分布。 中的元素为统计学家可用的策略。 (3) 损失函数 。 统计学家支付损失 若自然选择 而统计学家采取行动

基于数据,统计学家使用随机规则 去选择行为,期望损失为在 处决策规则 的风险:

是非随机的,我们可以考虑 中取值而不是在 上概率测度构成的集合

统计学家寻求更聪敏地选择 使得 尽可能小。

 

两个常用的选择最佳决策规则策略为

  1. 极小化极大准则 选择决策函数 使得对于自然可能选择的参数 最大风险最小。

定义3.1. 上的最大风险为

则称极小化极大风险为

若一个决策规则 具有风险 ,则称 为极小化极大决策规则。

 

  1. 贝叶斯准则 先假设自然会根据先验分布 中随机抽取,极小化带权重的风险。

定义 3.2. 上的概率测度,对于先验 的后验风险为

则称最小后验风险为贝叶斯风险

若一个决策规则取得贝叶斯风险( if ,则称其为对于先验 的贝叶斯决策。

虽然统计学家也许不能找到极小化极大或贝叶斯决策规则,至少可以丢弃一个决策规则如果能找到另一个决策规则对所有表现更好。

 

定义3.3. 称一个决策规则 对于损失 是可容许(admissible)的,如果不存在其他决策规则 满足

且至少存在一个 for at least one 。若存在这样的 ,则称其dominate 。若 不是可容许的则称其为不可容许的(inadmissible)。

例子3.4. 在线性反问题中,考虑估计线性独立线性泛函 -vector ,如定理2.7所描述;假设误差为Gaussian,且有如下定理条件: ,其中 矩阵。虽然 Backus-Gilbert 估计量 对于 是无偏的。但是如果 且数据误差的协方差矩阵 是满秩的,那么 对于MSE是不容许的。

但是,如果 ,则Backus-Gilbert估计量对于MSE为minimax,且能被表示为先验概率分布在中increasingly 'flat'的贝叶斯估计量的极限。

 

定义3.5. 一个统计量是从数据空间到某些其它可测空间的可测映射。一个统计量 对于 是充分的,如果给定 ,便存在一个在下的的条件分布不依赖于 的充分统计量,这是平凡正确的。

对于凸损失函数,以下结果表明,充分统计量作为估计量,没有任何信息损失。

定理3.6. (Rao-Blackwell theorem (see [47, theorem 1.7.8])). 令 有概率分布 ,且令 充分。令 为参数 的估计量且令损失 中严格突。设 对于所有的 可积,

(因为 的充分统计量,右式的条件期望部依赖于 )。那么

除非 , almost surely, 对于所有

 

3.2. 决策估计

估计参数 ,其中 是一个范数为 的巴拿赫空间。取行动空间 考虑决策规则 构成的集合 ,其为从 -measurable 映射。标准情况选取 ,其为凸集。那么 为估计量的平均误差,在 的范数下的测度称为 MNE。 一个更少见的选择是 ,其中 。当 是一个欧式空间,最常见的损失函数为 。当 (估计单个实参数),常见的损失函数为