原创 卡方检验

2007-6-22 13:13 6156 13 13 分类: 工程师职场

1 卡方检验模型验证方法


   模型参数的验证方法主要使用卡方拟合度检验( Chi-square Goodness-of-fit Test )结合最大似然

估计( Maximum Likelihood Estimation ),并且使用QQ图(Quantile-Quantile Plot)证明验证结果。

具体的说,就是先假定采集的样本数据符合某一分布,通过最大似然估计方法估计出该分布的参数,然后

代入并用卡方检验计算相对于该分布的偏差。实践中我们对于一组样本数据,计算所有常见分布的偏差值,

选取偏差最小的分布做为该样本的拟合结果。另外,从QQ图直观上看,该分布做为拟合结果描绘出的曲线

必须近似为接近参考线的直线(见3.3),否则我们就将数据拆分为多个部分进行分段的拟合(如对终端请

求包大小的拟合)。

1.1 卡方拟合度检验


卡方检验是一种大样本假设检验法,用于检验随机事件中提出的样本数据是否符合某一给定分布。

它需要较

大量的样本数据及已知的待检验概率分布函数。

1.1.1 卡方检验原理


对于一个服从二项分布的随机变量Y服从Binomial( n, p) ,均值为,方差

由中心极限定理,符合标准正态分布N (0, 1),所以服从自由度为1的卡方分布

服从Binomial( n, p1 ),  , , 则有              


所以   

同理对于k个随机变量,均值分别为,               

在数据拟合时,先对数据分组,每组数据的实际个数即为随机变量

,则数据拟合即为判断是否符合分布,

该卡方分布的自由度为k-1-nep(k为随机变量个数,nep为估计参数的个数)。

1.1.2  卡方检验步骤:


假定样本服从某一给定分布。


根据样本数据用最大似然法估计分布的密度函数参数。

设定置信度,对n个样本数据排序。

把排序后的数据分成k组,确定每组的上下限,(上下限确定方法不同对验证能力有影响,

每组数据不少于5个),为了方便起见,本项目中采用平均划分分组间隔,即使为常数,

对于所有的成立。

计算每组数据实际个数,第i组实际个数为

计算每组数据期望个数,第i组期望个数为:                                

连续:,其中F(x)为待验证的概率分布函数,          

离散:

计算

理论上说如果,则数据符合分布函数为F(x)的分布,

其中,nep为估计的参数的个数。但是由于实际采集的数据并非完全地符合某一分布,

总存在一定的偏差,计算出的值并不满足这个条件,

所以我们使用的拟合标准为采用卡方估计值最小的分布作为验证结果。

文章评论0条评论)

登录后参与讨论
我要评论
0
13
关闭 站长推荐上一条 /2 下一条