肝纤维化时间序列分析基础理论及分类器介绍
时间序列分析基础理论及分类器介绍
2.1时间序列模型
时间序列分析是数理统计学的一个研究方向,随着近些年的快速发展,已经在诸多 领域中看到它的身影:如自然学科、经济学科、社会学科、工程学科以及生物学科,体 现出时间序列分析的广泛应用。下面介绍三种比较常用的时间序列分析模型:AR (Auto-Regressive )模型、MA (Moving-Average )模型和 ARMA (Auto-Regressive Moving-Average)模型。
1. AR 模型
当时间序列{^}满足方程:
=从―1 + 从―2 +…+ 1 + ^ (2-1)
则称是p阶AR模型,也称p阶自回归模型,因该模型中的序列为序列过去值的回 归。其中是白噪声,即其均值为0,方差为a15a2,…,是狀模型的参数。当 我们引入滞后算子5后,则方程(2-1)用滞后算子的p阶方程描述为:
0(5) xt = (1—ax B—a2 B2 apBp) xt =st (2-2)
其中,= Xt—1, B = Xt—2,…,= Xt—p。
2. MA 模型
当时间序列{'}满足方程:
Xt =St — b1St—1 — b2St— 2 bqSt —q ( 2-3 )
则称{Xt}是q阶M4模型,也称q阶滑动平均模型。其中{st}是白噪声,即其均值为0, 方差为^,^人,...,~是从4模型的参数,引入滞后算子B后,则方程(2-3)用滞后算 子的q阶方程描述为:
xt=(1—\B-b2B2 bqBq )st =0( B)st (2-4)
其中,B^t = St—1, B St = St—2,...,B<iSt = St—q。
由式(2-3)可知,q阶模型中,xt是由q + 1个白噪声的线性组合,有限个白噪
声的和是平稳的,因此,M4(g)模型是平稳的。
2丄3 ARMA模型
如果时间序列既包含自回归性质又包含滑动平均的性质,即所建模型是^模型和 ^模型的组合,我们将这种模型称为ARMA模型,其数学表达式为:
Wt—1 + ¥—2 +... + q + ^ 「Vt—2 KSt—q (2-5 )
其中,{£■,}是白噪声,即其均值为〇,方差为<,是乂^模型的参数,
是M4模型的参数,将滞后算子5代入方程(2-5)后写成:
0( B) xt = 0( B)st (2-6)
其中,
〇(B) = (1 — axB—a2 B2 aBp) (2-7)
0(B) = (1 — bxB—b2 B2 bBq) (2-8)
2.2 ARMA模型的建立
3. RF时间序列的检验与预处理
为了满足建立ARMA模型的条件,需要对采集到的超声RF时序数据进行检测 和预处理[64-65]。
2.2.1.1时间序列的检验
1.1 平稳性检验
平稳性检验:若时序数据{x,}存在相关性,进而检测时序之间是否具有平稳相关性。 下面给出时间序列严平稳的定义:
严平稳性:如果时序的模型分布与时序的起点无关,即存在xt1,xt2,xt3,-_,xtm的联 合分布函数与xt1+„,xt2+„,xt3+„,...,xtm+„的联合分布函数是一样的,则称该过程是严平稳 过程。对于严平稳过程中的均值和方差,不随时间而变化,即为恒值,该过程中的自协 方差函数是只与延迟步数W有关。
对于严平稳过程,当时间序列不能完全满足该过程要求,但均值和方差在时间域内 是恒值,自协方差只与延迟步数m有关相关,我们称这样的时序是宽平稳。本论文中研 究讨论的都是针对宽平稳过程。
4. ARMA模型的平稳性检验
对于由AR模型和MA模型组合而成的ARMA模型,其中MA模型本身就是一个 平稳过程,故ARMA模型的平稳性仅仅与AR模型的平稳性相关,ARMA模型的平稳 性检验只需考察AR模型的平稳性即可。
由宽平稳性的定义可知,可以通过以下两个方面去检测序列的平稳性:
®序列的均值和方差不随时间而变化,即为恒值。
©序列的自协方差仅仅与时间间隔w有关,与序列的起始时间/无关 时间序列的平稳性检查的概念虽然很清晰,但是实际判断过程并没有那么简单。比 较常用检验方法有:时序图检验、自相关图检验、迪基-富勒(DF)检验法、参数检验 法、逆序检验法等。本文用根据超声RF时间序列做自相关图检验,其自相关图如图2-1 所示,由图可知,超声RF时间序列的自相关函数表现出拖尾现象,即时间序列不平稳。
5. 正态性检验
正态随机过程:如果某一随机过程,其任意《维联合分布函数满足《维的正态分布, 那么称该随机过程为正态随机过程。
2.2.1.2时间序列的预处理
1.2 平稳化处理
对时序平稳性检验过程中,若检验出该序列是非平稳序列,那么需要去除该序 列中的非平稳分布。由图(2-1)可知,超声RF时间序列数据是非平稳的,需要对序列 进行平稳化处理。对序列平稳化的方法有很多,常用的方法是差分法。本文中对超声 RF时间序列采用一阶差分处理,一阶差分即数据前一项减去后一项得到的值,因 此一阶差分会损失第一个数据。其中,一阶差分方程为:
▽W xt-1 (2-9)
图2-2是超声RF时间序列V'的自相关函数的检验结果,可知一阶差分后的超声 RF时间序列Vx,是平稳序列。
自相关函数囝 n,
It——, , , , 1
;-0.354
:::::- -0.089
--0.22S --0.232
图2-2 Vx,序列自相关函数图
6. 零均值处理
对于平稳序列的均值是零,而实际过程中获取的超声RF时间序列的均值是未知且 一般不为零。因此对超声RF时间序列建模前,需要对该序列进行零均值的处理。零均 值处理的具体方法如下:先用样本序列逐一减去该序列的估计均值,之后对处理后的时 间序列进行建模。
对平稳的时间序列{x,},其均值为£(') = “,用样本均值X为:
_ 1 N
X = y x, (2-10)
Ni-t '
样本均值X时间序列均值#的无偏估计。对于非平稳时间序列,用样本均值X作 为均值的估计是不合理的,这也是为什么我们在建立模型前检验序列的平稳性,将非平 稳序列转换为平稳序列,然后再进行零均值处理,处理后的RF时间序列如图2-3所示。
图2-3零均值处理后的超声RF时间序
7. 平滑处理
超声探头采集数据中,叠加的噪声会在时序图上显示出“毛刺儿”,这样会影响数 据曲线的光滑度。为了减少由于噪声千扰带来的影响,需要对获取的超声RF时间序列
径向平滑处理。常用的数据平滑处理方法有平均法、最小二乘法、指数平滑法等,本文 使用的平滑方法是平均法[66]。
对时间序列UJ,应用平均法进行平滑处理,
yt=^KXt—n (2-11)
n=-N
其中,t = 1,2,•••,,所是时间序列的个数,h是加权平均因子,且h应满足如下关系:
S hn = 1 (2-12)
n=—N
2.2.2相关性识别和模型选择 2.2.2.1自相关函数
如果时间序列是平稳、正态、零均值的序列,则其自协方差为:
Rk = (2.13) 其中 k=1,2---,特别地,当k = 0时,=yjVar(xt)Var(xt) = R) = u2。
自协方差既描述了系统的输出性质,也表达统计过程中的全部统计量,由此可见, 自协方差代表了该序列的全部二阶矩信息。根据自协方差函数定义的自相关函数表达式 为:
n—k _ _
R S(xt—x)( xt+k—x)
Pk = -Rr =气——=^ (2-14)
〇 S (xt-x)2
t=1
其中,x是样本均值。从表达式可以看出,自相关函数刻画了序列在任何两个时刻的线 性相关程度。随着时间变化,k在大于某个常数之后,pkS〇,我们就认为该序列的自 相关函数具有截尾性;反之,不具截尾性,呈现拖尾性。
2.2.2.2偏自相关函数
从上述介绍可知,自相关函数表示在两个不同时刻序列的相关性,但不单纯是这两 个时刻之间的相关关系,同时还与中间k-1个序列相关。偏自相关函数是在给定中间
k-1个时间序列条件下,两个时刻的时间序列^和xw的相关系数,偏自相关函数为:
C〇V(xt,xk lU—2, •••,xt—k+l)
(Pkk
R〇
(2-15)
其中,左= 1,2,-1。若随着时间变化,左在大于某一个常数后,%为0,我们就认 为偏自相关函数具有截尾特征;反之,不具截尾性,呈现拖尾性。
2.2.2.3模型形式选择
根据上述介绍的自相关函数和偏自相关函数的性质可知,不同模型具有不同的截尾 性质,因此,可以利用超声RF时间序列的自相关函数和偏自相关函数的截尾性对该序 列进行模型选择[54,56]。
如果在平稳时间序列{xj中,偏自相关函数表现出截尾性,自相关函数表现出拖尾 性,那么选用AR模型;若偏自相关函数表现出拖尾性,自相关函数表现出截尾性,那 么选用MA模型;若自相关函数和偏自相关函数都表现出拖尾性,那么选用ARMA模 型。总而言之,自相关函数和偏自相关函数的性质决定了时序模型的选择,表2-1显示 了时序模型的选择。
表2-1时间序列模型选择
|
模型 |
p) |
MA( q) |
ARMA( p, q) |
|
基本方程 |
哪)'=^ |
xt = 0( B)st |
0( B) xt = 0( B)^ |
|
平稳条件 |
O(B) = 0根都 在单位圆以外 |
无平稳条件 |
O(B) = 0的根都 在单位圆以外 |
|
可逆条件 |
无条件可逆 |
〇(B) = 0的根 在单位圆以外 |
O(B) = 0的根在 单位圆以外 |
|
自相关函数 |
拖尾 |
q步截尾 |
拖尾 |
|
偏自相关函数 |
p步截尾 |
拖尾 |
拖尾 |
考虑到实际过程中的超声RF时间序列均受到随机扰动,超声RF时间序列的特征 系数不可能严格遵守理论上的截尾或者拖尾,自相关函数和偏自相关函数并不能完全呈 现理论形态,会在截尾阶数附近出现小幅震荡现象[67]。
2.2.3定阶准则确定模型阶数
由上述可知,模型的阶数可由时间序列{x,}的自相关函数和偏自相关函数初步确定。 对于超声RF时间序列,它的偏自相关函数和自相关函数都表现出拖尾性质,我们选用 了 ARMA模型,然而并不能通过偏自相关函数和自相关函数确定户、^的具体值,因 此,仍然需要通过一些定阶准则对ARMA模型进行定阶。下面介绍几种常用的定阶方
法。
8. FPE (Final Predict Error)准则
FPE准则是最小最终预报误差准则,由日本学者赤池弘次于1971年提出[68]。 a.计算模型残差方差的估计式为:
t=k+1
N-k
= 1,2,…,P
(2-16)
其中, apxt—k, k表示模型AR的阶数,N是米样点数。
b.最小最终预报误差FPE计算公式如下:
FPE (k)
N + k „2 N — k ^ k
2-17)
从式(2-17)可以看出,FPE准则考虑了两方面因素:一方面,模型与实际系统的 拟合程度随着模型阶数升高而变大;另一方面,模型参数随着模型阶数升高而变多,参 数估计误差也会随着升高。
9. F准则
F准则是通过对ARMA模型的残差函数进行分析,利用最小二乘法估计出残差函 数,减少不显著时的阶数k = p + g作为ARMA模型的最佳阶次。
10. AIC (Akaike Information Criterion)准贝lj
赤池弘次于1973年提出一种新的定阶方法,利用似然估计结合K-L距离,推出AIC 准则[69]:
AIC (k) = N ln^2 + 2k (2-18)
其中,k表示模型阶数,对于ARMA模型,k = p + g。从式(2-18)可以看出,AIC准 则包括两部分:第一部分呈现出对模型的拟合程度,模型的拟合程度随着阶数的升高而 变高;第二部分模型参数,对模型参数增加时的一种惩罚。AIC准则作为一种宏观度量 的方法,不能单纯以AIC最小作为最佳模型的准则,在实际中,应多次拟合,对比选择 最优模型。
11. BIC (Bayesian Information Criterion)准贝 1J
由于AIC准则存在样本较大时,会产生不收敛情况,1976年,赤池弘次提出了 BIC 准则[70]:
BIC (k) = N ln^2 + k ln N
2-19)
其中,TV为时间序列样本数,(J2为时间序列样本的方差,对于ARMA模型,& = p + g。 式(2-19)与式(2-18)相比较,可以看出BIC使用了 InW代替AIC准则表达式中的2, 这样BIC的惩罚力度会更大。
- 上一篇:肝纤维化ARMA模型参数估计算法介绍 2025/7/18
- 下一篇:肝纤维化基于超声RF时间序列的组织定征技术 2025/7/18
