离群值 发表评论(0) 编辑词条
离群值
所谓离群值(outlier)是指在不能数据中有一个或几个数值与其他数值相比差异较大。医学实验中经常会有出现离群值的情况,究竟是由于随机涨落引起的,还是由于某些确定因素造成的,有时难以判断,如果处理不好将会引起较大的系统误差。对离群值的处理有一些统计判断的方法,如chanwennt准则规定,如果一个数值偏离观测平均值的概率小于等于1/(2n),则该数据应当舍弃(其中n为观察例数,概率可以很据数据的分布进行估计)。
发现离群值也可以通过观察值的频数表或直方图来初步判断,也可通过统计软件作观察值的箱式图来判断,如果观测值距箱式图底线Q1(第25百分位数)或顶线Q3(第75百分位数)过远,如超出箱体高度(四分位数间距)的两倍以上,则可视该观测值为离群值。当数据近似正态分布时,有一种较为简单的方法,可用均数加减2.5s来判断,如观测值在此范围以外,可视为离群值。在统计学上也可用线性回归的方法来对离群值进行判断。当出现离群值的时候,要慎重处理,要将专业知识和统计学方法结合起来,首先应认真检查原始数据,看能否从专业上加以合理的解释,如数据存在逻辑错误而原始记录又确实如此,又无法在找到该观察对象进行核实,则只能将该观测值删除。如果数据间无明显的逻辑错误,则可将离群值删除前后各做一次统计分析,若前后结果不矛盾,则该例观测值可予以保留。
附件列表
→如果您认为本词条还有待完善,请 编辑词条
词条内容仅供参考,如果您需要解决具体问题
(尤其在法律、医学等领域),建议您咨询相关领域专业人士。
0
同义词: 暂无同义词
关于本词条的评论 (共0条)发表评论>>