1 卡方检验模型验证方法
模型参数的验证方法主要使用卡方拟合度检验( Chi-square Goodness-of-fit Test )结合最大似然
估计( Maximum Likelihood Estimation ),并且使用QQ图(Quantile-Quantile Plot)证明验证结果。
具体的说,就是先假定采集的样本数据符合某一分布,通过最大似然估计方法估计出该分布的参数,然后
代入并用卡方检验计算相对于该分布的偏差。实践中我们对于一组样本数据,计算所有常见分布的偏差值,
选取偏差最小的分布做为该样本的拟合结果。另外,从QQ图直观上看,该分布做为拟合结果描绘出的曲线
必须近似为接近参考线的直线(见3.3),否则我们就将数据拆分为多个部分进行分段的拟合(如对终端请
求包大小的拟合)。
1.1 卡方拟合度检验
卡方检验是一种大样本假设检验法,用于检验随机事件中提出的样本数据是否符合某一给定分布。
它需要较
大量的样本数据及已知的待检验概率分布函数。
1.1.1 卡方检验原理
对于一个服从二项分布的随机变量Y服从Binomial( n, p) ,均值为
,方差
。
由中心极限定理,
符合标准正态分布N (0, 1),所以
服从自由度为1的卡方分布
。
设
服从Binomial( n, p1 ),
,
, 则有
所以
在数据拟合时,先对数据分组,每组数据的实际个数即为随机变量
该卡方分布的自由度为k-1-nep(k为随机变量个数,nep为估计参数的个数)。
1.1.2 卡方检验步骤:
假定样本服从某一给定分布。
根据样本数据用最大似然法估计分布的密度函数参数。
设定置信度
,对n个样本数据排序。
把排序后的数据分成k组,确定每组的上下限
,
(上下限确定方法不同对验证能力有影响,
每组数据不少于5个),为了方便起见,本项目中采用平均划分分组间隔,即使
为常数,
对于所有的
成立。
计算每组数据实际个数,第i组实际个数为
。
计算每组数据期望个数,第i组期望个数为:
连续:
,其中F(x)为待验证的概率分布函数,
离散:
。
计算
。
理论上说如果
,则数据符合分布函数为F(x)的分布,
其中,nep为估计的参数的个数。但是由于实际采集的数据并非完全地符合某一分布,
总存在一定的偏差,计算出的
值并不满足这个条件,
所以我们使用的拟合标准为采用卡方估计值
最小的分布作为验证结果。
文章评论(0条评论)
登录后参与讨论