统计诊断 发表评论(0) 编辑词条
统计诊断是70年代中期发展起来的一门统计新分支,三十多年来它以强烈的应用背景,新颖的统计思想,广泛的研究内容和丰富的实际成果在广大统计工作者面前展现了一个理论与实际相结合的崭新领域,受到了大家广泛的的重视。
统计诊断顾名思义就是对实际问题中得到的数据和提炼出的模型以及相应的统计推断方法进行合理性研究,检查数据和模型以及统计推断方法中可能存在的毛病和问题,并提出相应的补救措施。在实际问题中,任何统计模型都只能是对客观复杂过程的一种近似描述,它不可避免地要包含某些假定,甚至连模型本身也是一种假定,所以当我们把数据集纳入到某一方便有效的统计模型进行研究时,会存在许多值得思考的问题,例如数据集中各个数据点对我们进行统计推断的影响是否大致相仿,会不会有某些点的影响特别大,即所谓的强影响点(influential point),会不会有没有严重偏离既定模型的数据点,即所谓的异常点(outlier),有没有远离数据主体的点,即所谓的高杠杆点(high leverage point),以及对假定模型随机误差项的方差进行齐次性检验等等。
统计诊断就是针对上述种种问题而发展起来的一种分析方法。为了克服既定模型与客观实际之间可能存在的不一致性,通常有两种途径可循,第一,寻找一种统计方法使之当模型有微小变动或者扰动时,统计推断不受太大的影响,亦即这种统计方法对模型的扰动具有某种稳健性,即所谓的稳健统计方法;第二,寻找一种诊断的方法,判断实际数据是否与既定模型有较大偏差并提出相应的补救方法,这就是统计诊断的主要内容,通过统计诊断过程,可以找到严重偏离既定模型的数据点,即所谓的异常点,也可以区分出对于统计推断影响特别大的数据点,即所谓的强影响点,还可以找到偏离数据主题的数据点,即所谓的高杠杆点,在多数情况下,仍然希望保留方便有效的模型,为了我们可对数据集进行合适的数据变换,使得变换后的数据点符合原有的模型,从而可以进行必要的统计分析,我们还可以通过定义统计量定量的刻画每个数据点的影响大小,从而找到对统计诊断有较大影响的数据点,残差分析和残差图也是研究既定模型与数据是否吻合的行之有效的综合方法,它与异常点分析,影响分析,以及数据变换都有很密切的关系。除此之外,我们基于Bayes方法,也可对统计诊断进行研究,提出一些重要的统计量。
在过去三十年里,对于线性回归诊断,Cook(1977) , Cook & Weisberg
(1982),韦博成(1991)做了系统的研究; 对于某些非线性模型也有许多结果,例如 Pregibon(1981),Williams(1987),McCullagh&Nelder(1989),Davison & Tsai
(1992),Wei(1998), Wei,et al(1998); 对于非参数回归模型,也有许多作者研究,例如Eubank(1984,1985), Silverman(1985),Eubank, et al(1985),Thomas
(1991),Kim(1996)Kim, et al(2001); 而朱仲义,韦博成(2001)研究了半参数回归模型,半参数非线性模型的诊断和影响分析问题,Kim, et al(2002)详细讨论了半参数回归模型的诊断方法,曾林蕊,朱仲义(2005)研究了半参数广义线性模型的局部影响分析,林金官,韦博成(2002b)研究了加权非线性随机系数模型的异方差检验的问题,Stram &Lee(1994),Zhang & Weiss(2002c)用随机效应法研究了线性随机效应纵向数据的方差成分检验的问题,Lin & Wei(2001)研究了广义非线性纵向数据的方差成分检验,Zhu(2004)讨论了半参数混合模型的方差成分检验。但是对于变系数模型的统计诊断和影响分析的研究在文献中至今还非常少见,张从文2006年研究了半参数广义线性模型的统计分析。
统计诊断涉及到的内容很多,但是在几乎所有的统计诊断问题中,都会涉及两个基本概念,异常点和强影响点,现在就对这两个概念以及有关问题作一些简单的介绍。
1.2.1 异常点
统计诊断所研究的模型是多种多样的,其中研究得最早,也最成熟,同时应用最广泛的模型是线性回归模型,因此,我们就基于回归模型来介绍异常点和强影响点。
在线性回归中,异常点是指对原有的假设模型偏离很大的数据点,但是偏离达到什么程度才算是异常,这就必须对模型误差项的分布有一定的假设,通常,我们一般假设误差项服从正态分布,另外,尽管异常点的概念看起来很明确,图形上也很直观,但是要给它下一个精确地定义却是相当的困难,至今尚无一个公认的统一定义,Beckman 和Cook在他们的论文中指出,目前对异常点有两种较为流行的看法:第一,就是把异常点看成是那些与数据集的主体明显不协调,使得研究者和应用者感到吃惊的数据点。这时,异常点就可以解释为来源于所假定分布中的极端点(extreme point),从概率论的角度看,就是落在假定分布的单侧或双侧 分位数之外的那些数据点,而 分位数通常取很小的数,这时落在单侧或双侧 分位数之外的那些数据点出现的概率是非常小的,几乎不可能发生,但在数据集中出现了这样的极端点,这就使得观察者感到非常的意外,从而就促使我们研究这些极端点出现的原因以及改进的措施;第二,把异常点视为杂质点(contaminant),它们与数据集中的其他点来自不同的分布,是在绝大多数数据点来自某一共同分布中渗入了来自另外一个分布的少量“杂质”。Beckman 和Cook把异常点视为这两种情况的总称。但是不管采用哪种看法,异常点总是相对于数据集中的主体或者假定的模型来说的,一般来说,对它们较为精细的鉴定必须通过对度量偏离的指标作检验来确定。
一般情况下,异常点和对数据集或者模型所作的分布假定是密切相关的,不正确或者不合适的假定都会导致错误的统计推断,因此,我们在对异常点作处理时,不能只是简单地删除,许多场合下,异常点的出现是我们探测某些事先不清楚的或者更为隐藏因素的重要线索,我们必须结合实际情况对收集到的数据以及对分布所作的假定进行仔细的分析,这样我们才能得到符合实际且正确的结果。
1.2.1 强影响点
数据集中的强影响点是指那些对统计量的取值有非常大的影响力或者冲击力的数据点,在数据集中,每个数据点对统计推断的影响大小事不相同的,在分析它们的影响大小时,有几个基本的问题需要考虑,第一个问题就是:我们必须明确是对那个统计的影响,同一个数据点对不同的统计量影响是不相同的,一般来说,对于给定的模型,我们总是选择几个有兴趣的统计量,然后考虑每一个数据点对这些统计量的影响大小。第二:我们必须明确度量影响的尺度是什么,为了刻画影响的大小,迄今为止,已经提出了许多尺度,例如,基于残差的尺度,基于似然函数的尺度,基于信息比的尺度,基于局部影响函数的尺度,在每一种尺度中也可能定义不同的统计量,例如,基于影响函数的尺度,比较经典的统计量就有Cook距离,广义的Cook距离,Welsch-Kuh距离,Welch距离等,每一种度量都是着眼于某一方面影响的度量,并在某种具体的场合下市有效的,这一方面反映了度量影响问题的复杂性,另一方面也恰恰说明了统计诊断和影响分析是一个比较活跃的研究方向,还有大量的问题值得大家深入研究,在实际应用中,我们可以选择几种不同的度量对影响进行分析,并且对各种分析结果加以比较,得到全面综合的结论。
在处理强影响点时,我们也必须慎重处理,强影响点通常是数据集中更为重要的数据点,它往往能提供比一般数据点更多的信息,因此,我们需要对强影响作具体深入的探讨。
强影响点和异常点是两个不同的概念,它们之间既有一定的联系也有一定的区别,强影响点可能是异常点,也可能不是;反之,异常点可能同时也是强影响点也可能不是。也就是说异常点对统计推断的影响未必很大。
近年来,随着统计诊断技术的不断深入研究,人们不仅关心某个数据点或者某些数据点对统计推断的影响,同时也开始关心与数据集或者模型有关的各种因素对于统计分析的影响,因此,这类问题还可以从更一般的观点来考虑,广义的影响分析,就是这方面的一个具体方向,广义影响分析研究的是当原有模型有微小扰动时,其扰动对于统计推断的影响。所谓的“扰动”,一般可以理解对既定模型所作分布施加微小的变化,其分布从F变化为G,而F与G在某种距离下是非常接近的,相应的统计量因受到了扰动,从T(F)变化为T(G),现在,我们就必须研究扰动对于统计量T(F)的影响,换句话就是要研究T(F)对于扰动的稳健性。这个问题是稳健性统计和统计诊断都关心的问题,但是两者研究的出发点是不相同的,在统计诊断中,通常把扰动归结为与模型有关的若干具体因素所造成的,从而可以定量的刻画扰动的影响,进一步,我们可以提出度量影响的统计量。一般情况下,常见的扰动有均值漂移模型,方差的扩大模型,自变量的改变等等。而对于刻画影响的大小,似然距离是最常用的一个尺度,加权的似然距离,以及加权的拟似然距离在文献中也比较常见。Cook在1986年还建议从微分几何的观点分析似然距离的变化,利用曲率来研究扰动的局部影响分析。
Score检验统计量是广义似然比检验统计量的二阶近似形式,它主要应用于含有多余参数的复合假设检验问题。由于Score检验统计量只需计算在原假设条件下(方差齐次性条件下)参数的极大似然估计,而不需要在很多复杂的备择条件下(方差非齐次性条件下)计算参数的极大似然估计,从而得到了很广泛的应用。
附件列表
→如果您认为本词条还有待完善,请 编辑词条
词条内容仅供参考,如果您需要解决具体问题
(尤其在法律、医学等领域),建议您咨询相关领域专业人士。
1
同义词: 暂无同义词
关于本词条的评论 (共0条)发表评论>>