变量数据的统计分析 发表评论(0) 编辑词条
问题1 编辑本段回目录
官方或是民间以及研究者要了解分类数据、顺序数据和数值型数据。假如:市政府要了解本市城市居民的住房宽松拥挤状况以及住房设施条件状况。
人们常常需要从数量上了解某一范围内某种社会经济活动的某种现实状态。这就是变量数据的统计分析中所提到的统计学的第一种研究任务。收集统计数据常常是从这种研究任务开始的。为了着手收集数据,需要把研究的对象范围和研究的数量内容具体化。这样就引出了下面的问题2和问题3。
人们常常需要从数量上了解某一范围内某种社会经济活动的某种现实状态。这就是变量数据的统计分析中所提到的统计学的第一种研究任务。收集统计数据常常是从这种研究任务开始的。为了着手收集数据,需要把研究的对象范围和研究的数量内容具体化。这样就引出了下面的问题2和问题3。
问题2 编辑本段回目录
调查对象和调查单位是什么?
为了了解上述情况,须明确向何种单位作调查,也就是,由何种单位承受调查。这就是教材中所说的总体单位和教材中所说的调查单位。现在,调查人员将其确定为居民户。进一步,须明确何种居民户包括在调查的范围之内。这就是教材中所说的统计总体(有限总体)和中所说的确定调查对象。现在,调查人员规定凡地域标志表现为“该城市”以及城乡标志表现为“城市”的居民户包括在调查范围之内。也就是,符合上述条件的全体居民户组成的统计总体(有限总体)是本项调查的调查对象。
为了了解上述情况,须明确向何种单位作调查,也就是,由何种单位承受调查。这就是教材中所说的总体单位和教材中所说的调查单位。现在,调查人员将其确定为居民户。进一步,须明确何种居民户包括在调查的范围之内。这就是教材中所说的统计总体(有限总体)和中所说的确定调查对象。现在,调查人员规定凡地域标志表现为“该城市”以及城乡标志表现为“城市”的居民户包括在调查范围之内。也就是,符合上述条件的全体居民户组成的统计总体(有限总体)是本项调查的调查对象。
问题3 编辑本段回目录
怎样从数量上反映该城市居民住房宽松拥挤以及住房设施条件状况?
“宽松拥挤”,“设施条件”仅仅是一种笼统的概念,只能说它是调查意图,而不是具体的调查目的,它不能告诉调查人员去收集什么数据。为此,须将它具体化成为可以进行数量测算的统计指标。教材谈到了这个问题,并且解释了什么是统计指标。现在,调查人员设计了下列统计指标体系:
平均一户城市居民拥有住宅面积=全市城市居民拥有住宅总面积/全市城市居民户数
城市居民人均拥有住宅面积=全市城市居民拥有住宅总面积/全市城市居民人口数
有独立厕所户所占百分比=有独立厕所的户数/全市城市居民户数
有独立厨房户所占百分比=有独立厨房的户数/全市城市居民户数
“双气”齐全户所占百分比=“双气”齐全的户数/全市城市居民户数
“宽松拥挤”,“设施条件”仅仅是一种笼统的概念,只能说它是调查意图,而不是具体的调查目的,它不能告诉调查人员去收集什么数据。为此,须将它具体化成为可以进行数量测算的统计指标。教材谈到了这个问题,并且解释了什么是统计指标。现在,调查人员设计了下列统计指标体系:
平均一户城市居民拥有住宅面积=全市城市居民拥有住宅总面积/全市城市居民户数
城市居民人均拥有住宅面积=全市城市居民拥有住宅总面积/全市城市居民人口数
有独立厕所户所占百分比=有独立厕所的户数/全市城市居民户数
有独立厨房户所占百分比=有独立厨房的户数/全市城市居民户数
“双气”齐全户所占百分比=“双气”齐全的户数/全市城市居民户数
问题4 编辑本段回目录
鉴于计算上述指标的需要,调查人员须对每一调查单位(居民户)观察何种标志(观察何种调查项目)?
作统计调查,不是直接收集统计总体的统计指标的数据。统计指标的数据是计算出来的。它是根据对调查单位(总体单位,在本例中是居民户)观察得到的数据计算出来的。现在,调查人员根据计算上述指标的需要,确定需要对每一居民户观察下列标志(调查项目):[“标志”,见变量数据的统计分析 18-23页;“调查项目”,见变量数据的统计分析 45页]拥有住宅面积、家庭人口数、是否有独立厕所、是否有独立厨房、是否“双气”齐全。
作统计调查,不是直接收集统计总体的统计指标的数据。统计指标的数据是计算出来的。它是根据对调查单位(总体单位,在本例中是居民户)观察得到的数据计算出来的。现在,调查人员根据计算上述指标的需要,确定需要对每一居民户观察下列标志(调查项目):[“标志”,见变量数据的统计分析 18-23页;“调查项目”,见变量数据的统计分析 45页]拥有住宅面积、家庭人口数、是否有独立厕所、是否有独立厨房、是否“双气”齐全。
问题5 编辑本段回目录
假若市政府进一步提出:1.想要将上述指标在白领阶层与蓝领阶层①之间进行对比;2.想要研究上面所观察的各种标志(变量)与居民文化程度有无关系;3.想要了解居民总体在人均居住面积上的分布情况。应当怎样对调查资料进行分组整理?为了能够进行这样的分组整理,须对每一居民户增加观察何种标志?
问题6 编辑本段回目录
经过上面的讨论,我们明确了具体的调查内容(明确了应当收集什么数据)。下一步的工作是把这些调查内容设计成调查表(或问卷)。
问题7 编辑本段回目录
我们在前面关于统计调查的讨论中,见到了标志和指标。在统计学中,它们又被统称为变量。它们的名称与表现(数值或文字)合在一起叫做数据。为了正确地收集和处理数
据,我们需要了解标志、指标以及变量的分类,因为,它们的类型不同,在应用中所用的方法相应地也有所不同。为此,变量数据的统计分析 第20页介绍了标志的分类,第21页介绍了变量的分类,第22页介绍了数据和统计指标的分类。
问题8 编辑本段回目录
怎样把收集到的数据汇总成我们所设计的统计分组表?
首先回想一下前面的工作:市政府的调查意图被我们具体化为统计指标体系,市政府的分析意图被我们具体化为统计分组体系。把这两个体系结合在一起,我们在教材中设计了统计分组表。数据是靠调查表去收集的(我们在教材中设计了调查表),调查表中所列的调查项目应满足统计分组表的需要。
现在要讨论的问题是:调查工作结束,调查表全部回收之后,怎样对调查表中的数据进行分组汇总整理,完成统计分组表的计算填写工作。汇总整理调查数据的框架是由统计分组表提供的,而汇总整理调查数据的方法是纯技术性的。变量数据的统计分析 §3.1、3.2介绍了常用的技术方法。
问题9 编辑本段回目录
怎样利用调查得到的数据,描述该市居民总体的分布状况?
我们利用调查得到的数据,一方面将其汇总整理,完成事先根据调查意图所设计的统计分组表;另一方面还可以进一步对数据进行描述分析和推断分析。我们这里提出的问题是对数据进行描述分析,教材第5章的内容是对数据进行推断分析。
对数据作描述性分析通常包括三个方面:一是描述数据的分布,二是描述数据的一般水平(找代表值),三是描述数据均匀还是不均匀的状况。本例所关心的数据有:(1)(各户的)拥有住宅面积;(2)(各户的)人均住宅面积;(3)(各户的)是否有独立厕所;(4)(各户的)是否有独立厨房;(5)(各户的)是否“双气”齐全。
描述居民户总体的分布,就是要分别描述上述每一种数据(或者说每一个变量)的分布。描述的方法是分别编制分布列以及绘制分布图。
我们利用调查得到的数据,一方面将其汇总整理,完成事先根据调查意图所设计的统计分组表;另一方面还可以进一步对数据进行描述分析和推断分析。我们这里提出的问题是对数据进行描述分析,教材第5章的内容是对数据进行推断分析。
对数据作描述性分析通常包括三个方面:一是描述数据的分布,二是描述数据的一般水平(找代表值),三是描述数据均匀还是不均匀的状况。本例所关心的数据有:(1)(各户的)拥有住宅面积;(2)(各户的)人均住宅面积;(3)(各户的)是否有独立厕所;(4)(各户的)是否有独立厨房;(5)(各户的)是否“双气”齐全。
描述居民户总体的分布,就是要分别描述上述每一种数据(或者说每一个变量)的分布。描述的方法是分别编制分布列以及绘制分布图。
问题10 编辑本段回目录
上面5种数据各自的一般水平是什么?数据是比较均匀还是不够均匀?
变量数据的统计分析 介绍了求数据一般水平(平均值)的方法,介绍了描述数据离散状况的方法。所求结果叫做数据分布的集中趋势和离中趋势。
问题11 编辑本段回目录
变量数据的统计分析 第140页中提出了下列观点:可以把有限总体看作无限总体的随机样本。这个观点是什么意思?它对于处理统计数据有什么重要意义?
先说重要意义。我们前面的工作是从调查意图出发进行了对居民户有限总体的调查、数据整理和描述性分析。根据140页的上述观点,我们可以把前面的数据(有限总体的调查数据)看作无限总体(它是由适当的随机试验定义的)的随机样本的观察值,从而用数据进行对无限总体的推断性分析。这样,就把教材的第5章与第3章联系了起来。
在我们的案例中,按照上述观点,可以把调查时点上某市城市居民户总体看作在该市调查时点条件下产生城市居民户的随机试验的一系列结果。这一系列结果,是该随机试验的随机样本。
问题12 编辑本段回目录
既然用有限总体的调查数据进行推断性分析离不开随机试验的概念,那么,我们是否有必要稍微详细地了解一点与随机试验有关的基本知识呢?
教材第4章就是基于这样的目的设置的。这一章的内容属于《概率论》的范畴,同学们另外要专门学习这门课程。变量数据的统计分析 第4章,不是要讲概率论,而仅仅是为第5章提供必要的预备知识。
问题13 编辑本段回目录
为了学习第5章的内容,除了第4章提供的预备知识以外,是否还需要作其他的准备?
第5章的内容,属于用数据对无限总体(随机变量)作推断性分析。在这种分析工作中,要用到一种叫做“显著性检验”的重要统计方法。因此,教材在第6章的前面,安排了第6章,介绍显著性检验的一般问题。主要讲了三点:(1)怎样做显著性检验;(2)它的基本思路是什么;(3)在应用中要注意什么问题。
问题14 编辑本段回目录
在问题5第1条中曾要求在白领与蓝领之间作(1)户均住宅面积;(2)人均住宅面积;(3)有独立厕所户所占百分比;(4)有独立厨房户所占百分比;(5)“双气”齐全户所占百分比等五个指标的对比。当时的这种对比是描述性的(即:对比实际发生的状态)。
现在,把白领有限总体看作白领随机试验的样本,把蓝领有限总体看作蓝领随机试验的样本。从随机试验的角度,需要讨论:(1)二个随机试验的户面积期望值是否真有差异?(2)二个随机试验的人均面积加权平均值是否真有差异(但我们不讨论)?(3)二个随机试验发生独立厕所的概率是否真有差异?(4)二个随机试验发生独立厨房的概率是否真有差异?(5)二个随机试验发生“双气”齐全的概率是否真有差异?
现在,把白领有限总体看作白领随机试验的样本,把蓝领有限总体看作蓝领随机试验的样本。从随机试验的角度,需要讨论:(1)二个随机试验的户面积期望值是否真有差异?(2)二个随机试验的人均面积加权平均值是否真有差异(但我们不讨论)?(3)二个随机试验发生独立厕所的概率是否真有差异?(4)二个随机试验发生独立厨房的概率是否真有差异?(5)二个随机试验发生“双气”齐全的概率是否真有差异?
问题15 编辑本段回目录
我们在问题5第2条中曾提出想要研究居民户的下列5种标志与居民户的文化程度是否有关系。5种标志是:(1)居民户拥有的住宅面积;(2)居民户人均住宅面积;(3)居民户是否有独立厕所;(4)居民户是否有独立厨房;(5)居民户是否“双气”齐全。在那里,我们只作了对居民户按文化程度分组的设计,至于怎样得出结论,要到现在才能解决。
第一种标志与文化程度的关系可以归结为四种文化程度总体的户均值是否相等的检验,这种检验在第6章解决。第二种标志与前者不同:某个文化程度总体的总体人均住宅面积不是各户人均住宅面积的简单算术平均数,而是它们的加权算术平均数,第6章的方法不研究这类问题,我们也不在这里研究它。第三、四、五种标志与前二种不同之处在于:前二种是数量型变量,而这三种是品质型变量(属性变量)。关于品质型变量(属性变量)与居民户文化程度是否有关系的问题,将在第7章研究。
针对变量数据的统计分析 第*章,我们讨论下面的问题:居民户拥有住宅面积的多少与居民户的文化程度是否有关,各种不同文化程度下所作随机试验的户面积期望值是否有差异。
问题16 编辑本段回目录
在问题15中我们说过,关于品质型变量(属性变量)与居民户文化程度是否有关的问题,留待第9章讨论。现在我们就来讨论这类问题:(1)居民户拥有独立厕所的情况与其文化程度是否有关?(2)居民户拥有独立厨房的情况与其文化程度是否有关?(3)居民户是否“双气”齐全的情况与其文化程度是否有关?
问题17 编辑本段回目录
在检验了居民户拥有住宅面积的多少是否与其社会阶层(白领或蓝领)以及是否与其文化程度有关。然而,居民户拥有的住宅面积是否只与这二个因素有关?我们可能还会想到其他一些因素,例如:居民户的收入水平,居民户的(主要收入者)年龄,等等。但是,所有这些因素仅仅是靠我们的直观认识列举出来的,它们是否真正都是居民户拥有住宅面积的影响因素?这就需要依据实际数据进行筛选。怎样作这种筛选工作?另外,我们能否把居民户拥有住宅面积作为它的各种影响因素的函数,建立一个函数式子?怎样依据实际数据把函数式子中的参数估计出来?怎样依据实际数据检验我们所选择的函数式子是否恰当?另外,我们依据全市居民户总体的调查数据,算出了全市居民人均住宅面积。这时,我们可能会想到,全市居民人均住宅面积与什么因素有关?例如,我们会直观地想到,它是否与全市的人均GDP有关、是否与全市的人均收入有关、是否与房地产价格水平有关,等等。怎样依据实际数据对我们想到的各种影响因素进行筛选并建立函数式子?第9章介绍了这方面的统计方法论问题。
问题18 编辑本段回目录
我们在对全市居民户住房情况的描述以及在对居民户拥有住宅随机试验所作的统计分析,精确地说,都应当用全市全体居民户的资料(我们称之为全面调查资料)来完成。
然而,全面调查非常费时费力,对一些并非关乎国情国力重大数据的调查来说,并无必要搞全面调查,这时,完全可以改用抽样调查资料来完成任务。换句话说,我们前面所提出需要研究的那些问题,既可以用有限总体的全面资料来完成,也可以用有限总体的概率样本的资料来完成。
用有限总体概率抽样资料代替全面调查资料有二方面的用途。一是用有限总体的概率样本来估计有限总体的指标,用以完成描述有限总体现实状态的任务;二是用有限总体的概率样本代表有限总体来充当无限总体的随机样本,来完成对无限总体的统计分析任务。人们通常把前者叫做用于描述;把后者叫做用于推断。
问题19 编辑本段回目录
我们在这里提出与居民住房情况调查案例无关的另外二个问题。
(1)怎样测算消费品市场今年的物价水平与去年相比的百分比?显然,消费品市场包含有多种商品,我们要反映所有商品而不是一种商品的物价变动;而且,我们不能仅仅一种商品一种商品地分别地比,我们需要的是一个综合的数字;另外,我们无法求出消费品市场的平均的物价水平,因而无法用二年的平均物价水平来相比。为克服面临的困难,测算出上面所需要的百分比,产生了指数理论。
(2)我们知道,在消费品市场中,对一种商品,有
交易额=交易量╳价格
那么,一种商品交易额的变动中,交易量的影响、价格的影响各自有多大?全部消费品交易额的变动中,交易量的影响、价格的影响各自有多大?
变量数据的统计分析 第10章,介绍了解决上面二个问题的统计方法。
问题20 编辑本段回目录
假若我们有全市居民下列指标历年7月1日零时的全面调查结果。指标是:户均住宅面积;人均住宅面积;“双气”齐全户所占百分比。资料的年份是:“十一五”各年(2005~2010),“八五”各年(1990~1995),“九五”各年(1996~2000),“十五”各年(2000~2005)。
想要在各个五年计划之间比较各指标的水平,怎么办?——须分别在各个五年中计算平均数(称之为序时平均数)。想要分别就每一个指标描述它自1981年至2000年发展变动的轨迹并从这个轨迹中找出规律来,怎么办?——须用各年指标值画出散点图,然后为这些散点拟合趋势线。以上这些工作,变量数据的统计分析 第11章的内容。
想要在各个五年计划之间比较各指标的水平,怎么办?——须分别在各个五年中计算平均数(称之为序时平均数)。想要分别就每一个指标描述它自1981年至2000年发展变动的轨迹并从这个轨迹中找出规律来,怎么办?——须用各年指标值画出散点图,然后为这些散点拟合趋势线。以上这些工作,变量数据的统计分析 第11章的内容。
本词条由以下会员参与贡献
- 张德存 li>
附件列表
→如果您认为本词条还有待完善,请 编辑词条
词条内容仅供参考,如果您需要解决具体问题
(尤其在法律、医学等领域),建议您咨询相关领域专业人士。
0
收藏到:
同义词: 暂无同义词
关于本词条的评论 (共0条)发表评论>>