问卷调查 发表评论(0) 编辑词条
问卷调查
什么是问卷调查?
问卷调查是社会调查[1]的一种数据收集手段。当一个研究者想通过社会调查来研究一个现象时(比如什么因素影响顾客满意度),他可以用问卷调查收集数据,也可以用访谈或其它方式收集数据。问卷调查假定研究者已经确定所要问的问题。这些问题被打印在问卷上,编制成书面的问题表格,交由调查对象填写,然后收回整理分析,从而得出结论。
从问卷调查的实际应用来看,可以分为学术性问卷调查或应用性问卷调查。前者多为学校或研究机构的研究人员所采用,后者则由市场调研人员或其它机构的人员所采用,来解决实际中的问题。
问卷中要包括什么问题?
问题多种多样。按答案看,问题的答案可以是开放式的(比如:你为什么喜欢这家商店?) 或封闭式的 (比如:你在多大程度上喜欢这家商店?请选择非常喜欢、有点喜欢、即不喜欢也不讨厌、有点讨厌、非常讨厌),可以是主观的 (比如:你们在广告上的投资大吗?请选择很大,比较大,中等,比较小,很小) 或客观的 (比如,你们去年在广告上投资了多少钱?),也可以是分类性的(比如:公司的行业类型,nominal) 或序列性(比如:很大,比较大,中等,比较小,很小) 或连续性的 (你们去年在广告上投资了多少钱?)。在心理计量中,比较常用的是主观的封闭式的问题。虽然这类问题往往是序列性的,在统计中往往被视作连续性。我们的讨论将以主观的封闭式的问题为主。我们假定社会调查是通过调查对象自助填表的方式 (self-administeredsurvey)进行的。在自助填表的社会调查中,调查对象主要在没有帮助的情况下独立回答调查问卷中的所有问题。
一个问卷中要包括什么?一般地,一个问卷要包括三类的问题:理论模型中的变量、辅助变量、与人口统计学特征。以下我们逐一解释。
显然,一个问卷必须首先包括理论模型中的所有变量。在行为研究中,这些变量往往是心理变量。一个心理变量是用三个或三个以上的测度问题 (measurement item) 来测量的。一个心理变量往往对应于一组、而不是单一的语义。我们把这样的心理变量叫作一个理论构件或构件 (construct)。这些相关的细化的语义往往被叫作这个心理变量的概念空间 (concept space)。用多个问题来测量这个概念,就是要从这个概念空间中选择合适的表达方式,使这些表达方式作为一个整体可以更好地反映一个不可以直接测量的心理变量。这些被使用的问题又叫作测度项 (measurement item)。相应地,它们的记分标准叫做刻度 (scale)。心理计量学中有两种常见的刻度:立克氏刻度 (Likert scale) 与语义对比刻度 (semantic differential scale)。前者往往用“同意/不同意”来表示对一个测度项的认可程度,而后者则让调查对象在一组反义词中选择合适的位置。比如,为了测量满意度,我们的立克氏刻度问题可能是:
1. 这个产品的让我满意。
1. 非常不同意
2. 有点不同意
3. 既不反对也不同意
4. 有点同意
5. 非常同意
第二类变量是人口统计特征(年龄、性别、种族、教育程度、省份、职业等)。这些变量在心理学研究中往往并不占据主要位置。它们可以用一个测试项来测定。而且,这些变量大多比较客观,报告误差不大。在一个问卷中包括这些变量的目的往往是为了检验一个样本是不是与群体有相似的组成,从而具有代表性。
第三类变量是辅助变量。一类重要的辅助变量是控制变量 (control variables)。控制变量并不是理论模型中的主角。但是因为一个理论模型往往只从一个角度出发,所选变量有时不能有很好的充分性。这时,包括一些控制变量就可以用来表明即使另外一些重要的变量在场,所选的理论变量仍具有重要性,并表明理论变量具有有别于控制变量的额外作用。举例来讲,在组织中,如果我们的模型是信任度影响一个人向另一个人问取知识的频率,信任度是我们的理论变量。我们的控制变量可以包括私人友谊与业务上的相关性。这样,如果我们用统计方法先去除私人友谊与业务上的相关性对知识问取行为的影响后,我们还能够表明信任度可以解释这两个变量没法解释的知识问取行为,我们就可以更有力地表明信任度的作用。这样的控制变量虽然不是一个模型的主角,却是包括在统计分析中的。
[编辑本段]如何设计测度项的措词?
测度项设计的基本目的是为了测量调查对象在一个理论变量上的真实值。所以,测度项的质量可以用几个标准来衡量:§ 一个测度项反映了理论变量吗?这个一个有效性标准。
§ 一个调查对象能否对一个测度项能做出可靠的回答?
§ 多个调查对象对一个测度项的理解是否一致?后两个问题是可靠性标准。
测度项的措词会同时影响有效性与可靠性。简单而言,有效性 (validity) 指一个或一组测度项可以真实地测量一个理论构件。在方法学中,有效性往往被称作是构件有效性 (construct validity)。有效性的第一个要求是测度项在语义上是针对于一个理论构件。有效性是“问了该问的问题”。它首先要保证的是测度项语义内容上的正确性,或称为内容有效性 (content validity)。比如,研究者要测度消费者对一个产品的质量评价,有两个测度项:“这个产品的使用寿命如何? (很长—很短) ”,“您是还觉得这个产品是否值得买?(很不值得—很徝得) ”。第一个测度项反映了质量的一个方面:使用寿命(durability)。第二个反映的是产品的价值(product value)。产品价值在营销学中是一个与质量不一样的概念,它指的是质量与价格的综合考虑。所以第二个测度项虽然与产品质量有关系,却已经因为它的语义范围过大而不合适。
可靠性 (reliability) 是“把该问的问题问好”,是一个测度项可以得到所有调查对象的真实可靠回答的程度,它的反面是测度值中偏差的程度。在这一节,我们先关注可靠性。可靠性是有效性的必要但不充分条件。可靠性与有效性不是平等概念。可靠性是有效性的一部分。有时,有效性也狭义地指不包括可靠性的那一部分。
在调查对象回答一个测度项时,不准确的测度项措词会引入以下错误:
§ 调查对象缺少相关知识
§ 措词过于学术化、晦涩难懂
§ 测度项不完整
§ 语义不明确
§ 一个测度项内含有多重语义
§ 一个测度项内含有多个变量之间的关系
第一,调查对象缺少相关知识。如果调查对象缺少一个测度项中所要求的知识,结果就会不可靠。这个“对牛弹琴”的错误罪在研究者。比如你如果问一个普通市民:您觉得本市进行转基因作物研究成功的可能性有多大?(非常小—非常大)。一个市民通常不会有这方面的知识。更多时候,一个调查对象没法回答一个问题是因为他没有相关的经历,比如在商场中进行抽样调查时,你可能会问一个根本不会用电脑的老人家:“您觉得通过网站购买日用品方便么?(非常方便—非常不方便)。
第二,措词过于学术化、晦涩难懂。这是另一类“对牛弹琴”的错误。“您所在的项目小组的内聚性有多高?(非常低—非常高) ”。什么是“内聚性”(cohesion) ?除非有一个明确的定义写在问卷中,调查对象不会知道你在问什么。
第三,测度项不完整。假定测度项是:你的年龄?如果年龄对这个研究很重要,这个问题就是不完整的。在国内,有人可能报虚岁,也有人报周岁。比较好的措词是:你的出生年分?
第四,语义不明确。假定测度项是:过去一个月你向上司咨询过几次?这里有几个方面是不明确的。第一,哪些上司?是任何比你更高层的人还是你的直属上司?第二,怎样算是咨询?是询问工作中的问题还是生活中的问题?是面对面还是包括电话与电邮?一个更明确的测度项可能是:不管是以面对面还是电话或电邮的方式,过去一个月你向你的直属上司咨询过几次关于你工作中的问题?这个例子也说明测度项的准确性与简洁性往往是矛盾的。
第五,测度项内含多个问题。假定测度项是:工作带给我很高的自信心与安全感(非常同意—非常不同意)。到底是自信心还是安全感?这种问题的一个特点是其中有“与”或“或”。如果研究者对这两个方面都感兴趣,就应该把这个问题分成两个来问。再假定测度项是:你每个月在这家商店购物超过50元的次数是多少?调查对象要进行两次计算:一次是一共去了几次,另一次是超过50元的次数。分开来问会更明确。再假定测度项是:公司领导对你们的项目支持的程度是:(很高—很低,不知道)。如果研究者预计有很多人会回答“不知道”,这个问题就应该拆分成两个:您对公司领导对这个项目的态度有没有了解?如果有,领导对你们的项目支持的程度是:(很高—很低)。
第六,测度项内含有多个变量之间的关系。这是初学者很容易犯的一个错误。比如为了测试报酬与工作态度之间的因果关系,有人会为报酬设计这样的测度项“丰厚的报酬对于增加我的工作积极性十分重要,(非常不同意—非常同意) ”。 这样的问题在日常生活中十分普遍。但在研究中,为了验证报酬与工作态度之间的关系,我们必须把它们分开来测量。为什么呢?因为我们要验证的是报酬水平与工作态度的水平之间的关系,所以我们应该测量这两个水平的本身。在数据收集过程的本身,我们不能预先设定立场而应保持中立(但在提出假设时我们的确有一个立场)。而这种关于“重要性”的直接提问已经预先有了一个立场。这样一个预设的立场会产生几个问题。一,调查对象会沿着调查者的立场去回答,因而不反映他们的实际行为。二,这样的直接测试虽然可以测量到两个变量之间的关系水平,但反而无法在统计上支持这个关系水平的显著程度。假定刻度细度是7,即非常不同意=1,非常同意=7。如果得到的均值是5,这个值说明了什么呢?难道因为它大于中间点4就表明这两个变量之间有关系了吗?因为我们不知道在这两个变量真的没有因果关系时调查对象的均值是多少(也许是4,但也可能是4.5或3.6),我们无法在统计上有信心说5就表明有关系。相反,如果这两个变量分别测量,我们可以计算它们之间的统计上的相关系数,并进行显著度的检验 (比如t-test)。要注意的是,这种“重要性”并不是在所有的情况下都不可取。有时,研究者的变量就是关于重要性的感知水平,这时,这样的测度项是可以,比如:工作的稳定性会影响报酬对于工作态度的重要性。
测度项的设计还以有其它多种多样的问题。以上所提到只是一些最典型的错误。关键是研究者要有对测度项质量的敏感性。
[编辑本段]测度项从哪里来?
在讨论测度项的可靠性时,我们似乎是在自己设计测度项。在很多论文中,作者会提到:我们尽可能从已有的文献中采用别人已经测试过的测度项。我的学生会说:“我在文献中找不到这个理论构件的测度项,你能不能告诉我哪里有?”没有文献支持,他们会非常不安。测度项一定要从文献中来吗?显然不是。如果测度项都是从文献中来的,那么大家会不断在重复前人的课题,研究就不会有进步。正常情况下,你的研究会引入新的理论构件,并为它们设计测度项。如果你没有新的理论构件,你就要问问自己的研究新意在哪里。同时,大部分的研究都是站在巨人的肩膀上,你会采用一些前人的理论构件。对于这些理论构件,在采用过程中,你必须先看看别人以前是怎样设计测度项的。首先,你要检查前人的理论构件的定义与你的定义是否一致。如果是,你要判断他的测度项的可靠性与有效性如何。如果有效与可靠性都好,你要判断他的测度项的措词是否可以直接套用、还是需要进行修改以适应你的特定研究环境与研究对象。你要问:以前的研究与你的是不是针对同一个目标群体?是不是在相似环境下测试个体的心理现象?你也要决定是否要采用一个构件的全部测度项还是一部分。你也要分析这些测度项会不会与其它理论构件的测度项因语义过近而产生混淆。所以采用已有的测度项是一个选择与修改的过程。
那么新设计的测度项又从哪里来?有几种不同的方法。第一,对于一个理论构件,研究者可以邀请一些调查对象进行焦点小组讨论 (focus group discussion)。这些调查对象必须是目标群体中的成员。研究者介绍理论构件的基本定义,让调查对象针对这些现象进行讨论。这讨论中间所得的记录往往可以用来产生测度项。这样的测度项是用生活言语对一个概念的阐述。比如,我们请讨论对“信任”的看法,有些人会说他信任一个人因为那个人“本事大”,另外有人会说“可靠”,也有人会说“我们关系好”、“他一定会尽他最大的努了来帮我”等等。这些言语可以成为测度项的第一手素材。研究者会检查这些说法与理论构件的概念一致性,去芜存菁,得到一组测度项。有时,可能其他的研究者通过案例研究或采访得到了一些调查对象的评论与反馈,这些评论与反馈中的语言也可以成为素材。第二,研究者也可以根据理论构件的定义直接产生一个测度项。如果我们已经知道信任涵盖一个“能力”因素,一个“可预测性”因素,与一个“好意”因素,我们就可以针对这些因素提出一些测度项。这两种方法可以相辅相成。还有一种需要特别小心的做法是使用词典。有的学生会说:既然多个测度项反映同一个理论构件,我只要在词典中找一些同意词就好了。词典本身并不失为一种寻找素材的资源,它反映了我们日常生活中对一个概念的不同理解。但是,第一,它只是一个“素材”。研究者要有基于定义的仔细筛选。你对一个理论构件的定义往往不同于词典中对这个单词的定义。第二,多个测度项是要从不同方面反映一个构件,如果是同义词,它们很有可能因为语义重复过多,反映了一个构件的同个方面,从而不能很好覆盖一个理论构件的内涵。第三,如果语义重复过多,调查对象会说:这些问题翻来覆去在问同一个问题,这个调查表真啰嗦!没有好的态度,调查对象就不会在填表时思考,数据质量就会出问题。
[编辑本段]如何保证测度项的有效性?
我们已经提到测度项要有可靠性。但有效性不止于可靠性,还有更多的要求。有效性的基本要求是“问该问的问题”。要达到这一要求,首先,研究者对一个理论构件的定义要十分明确 。一个常犯的错误是研究者对一个理论构件还不熟悉就急于设计问卷。只有明确一个理论构件的定义(它的内涵),它的适用范围 (外延),研究者才能判断测度项的好坏。第二,测度项的产生过程要符合理论构件的定义。我们在讨论测度项的产生方法时已经提到了一些好的与不好的做法。这些做法归根到底是在保证测度项的有效性。第三,测度项设计好之后要进行内容有字面效性检查、预试 (pre-test) 、测度项分类、或预调查(pilot test)。为什么测度项按着明确的定义与合适的产生方法设计以后还要再做预试等等呢?这是因为产生步骤中考虑的主要是测度项与理论构件之间的关系,但没有考虑不同理论构件的测度项之间可能的混淆。这些方法具体的操作与统计分析可以参看《社会调查研究》
什么是问卷调查?
问卷调查是社会调查[1]的一种数据收集手段。当一个研究者想通过社会调查来研究一个现象时(比如什么因素影响顾客满意度),他可以用问卷调查收集数据,也可以用访谈或其它方式收集数据。问卷调查假定研究者已经确定所要问的问题。这些问题被打印在问卷上,编制成书面的问题表格,交由调查对象填写,然后收回整理分析,从而得出结论。
从问卷调查的实际应用来看,可以分为学术性问卷调查或应用性问卷调查。前者多为学校或研究机构的研究人员所采用,后者则由市场调研人员或其它机构的人员所采用,来解决实际中的问题。
问卷中要包括什么问题?
问题多种多样。按答案看,问题的答案可以是开放式的(比如:你为什么喜欢这家商店?) 或封闭式的 (比如:你在多大程度上喜欢这家商店?请选择非常喜欢、有点喜欢、即不喜欢也不讨厌、有点讨厌、非常讨厌),可以是主观的 (比如:你们在广告上的投资大吗?请选择很大,比较大,中等,比较小,很小) 或客观的 (比如,你们去年在广告上投资了多少钱?),也可以是分类性的(比如:公司的行业类型,nominal) 或序列性(比如:很大,比较大,中等,比较小,很小) 或连续性的 (你们去年在广告上投资了多少钱?)。在心理计量中,比较常用的是主观的封闭式的问题。虽然这类问题往往是序列性的,在统计中往往被视作连续性。我们的讨论将以主观的封闭式的问题为主。我们假定社会调查是通过调查对象自助填表的方式 (self-administeredsurvey)进行的。在自助填表的社会调查中,调查对象主要在没有帮助的情况下独立回答调查问卷中的所有问题。
一个问卷中要包括什么?一般地,一个问卷要包括三类的问题:理论模型中的变量、辅助变量、与人口统计学特征。以下我们逐一解释。
显然,一个问卷必须首先包括理论模型中的所有变量。在行为研究中,这些变量往往是心理变量。一个心理变量是用三个或三个以上的测度问题 (measurement item) 来测量的。一个心理变量往往对应于一组、而不是单一的语义。我们把这样的心理变量叫作一个理论构件或构件 (construct)。这些相关的细化的语义往往被叫作这个心理变量的概念空间 (concept space)。用多个问题来测量这个概念,就是要从这个概念空间中选择合适的表达方式,使这些表达方式作为一个整体可以更好地反映一个不可以直接测量的心理变量。这些被使用的问题又叫作测度项 (measurement item)。相应地,它们的记分标准叫做刻度 (scale)。心理计量学中有两种常见的刻度:立克氏刻度 (Likert scale) 与语义对比刻度 (semantic differential scale)。前者往往用“同意/不同意”来表示对一个测度项的认可程度,而后者则让调查对象在一组反义词中选择合适的位置。比如,为了测量满意度,我们的立克氏刻度问题可能是:
1. 这个产品的让我满意。
1. 非常不同意
2. 有点不同意
3. 既不反对也不同意
4. 有点同意
5. 非常同意
第二类变量是人口统计特征(年龄、性别、种族、教育程度、省份、职业等)。这些变量在心理学研究中往往并不占据主要位置。它们可以用一个测试项来测定。而且,这些变量大多比较客观,报告误差不大。在一个问卷中包括这些变量的目的往往是为了检验一个样本是不是与群体有相似的组成,从而具有代表性。
第三类变量是辅助变量。一类重要的辅助变量是控制变量 (control variables)。控制变量并不是理论模型中的主角。但是因为一个理论模型往往只从一个角度出发,所选变量有时不能有很好的充分性。这时,包括一些控制变量就可以用来表明即使另外一些重要的变量在场,所选的理论变量仍具有重要性,并表明理论变量具有有别于控制变量的额外作用。举例来讲,在组织中,如果我们的模型是信任度影响一个人向另一个人问取知识的频率,信任度是我们的理论变量。我们的控制变量可以包括私人友谊与业务上的相关性。这样,如果我们用统计方法先去除私人友谊与业务上的相关性对知识问取行为的影响后,我们还能够表明信任度可以解释这两个变量没法解释的知识问取行为,我们就可以更有力地表明信任度的作用。这样的控制变量虽然不是一个模型的主角,却是包括在统计分析中的。
[编辑本段]如何设计测度项的措词?
测度项设计的基本目的是为了测量调查对象在一个理论变量上的真实值。所以,测度项的质量可以用几个标准来衡量:§ 一个测度项反映了理论变量吗?这个一个有效性标准。
§ 一个调查对象能否对一个测度项能做出可靠的回答?
§ 多个调查对象对一个测度项的理解是否一致?后两个问题是可靠性标准。
测度项的措词会同时影响有效性与可靠性。简单而言,有效性 (validity) 指一个或一组测度项可以真实地测量一个理论构件。在方法学中,有效性往往被称作是构件有效性 (construct validity)。有效性的第一个要求是测度项在语义上是针对于一个理论构件。有效性是“问了该问的问题”。它首先要保证的是测度项语义内容上的正确性,或称为内容有效性 (content validity)。比如,研究者要测度消费者对一个产品的质量评价,有两个测度项:“这个产品的使用寿命如何? (很长—很短) ”,“您是还觉得这个产品是否值得买?(很不值得—很徝得) ”。第一个测度项反映了质量的一个方面:使用寿命(durability)。第二个反映的是产品的价值(product value)。产品价值在营销学中是一个与质量不一样的概念,它指的是质量与价格的综合考虑。所以第二个测度项虽然与产品质量有关系,却已经因为它的语义范围过大而不合适。
可靠性 (reliability) 是“把该问的问题问好”,是一个测度项可以得到所有调查对象的真实可靠回答的程度,它的反面是测度值中偏差的程度。在这一节,我们先关注可靠性。可靠性是有效性的必要但不充分条件。可靠性与有效性不是平等概念。可靠性是有效性的一部分。有时,有效性也狭义地指不包括可靠性的那一部分。
在调查对象回答一个测度项时,不准确的测度项措词会引入以下错误:
§ 调查对象缺少相关知识
§ 措词过于学术化、晦涩难懂
§ 测度项不完整
§ 语义不明确
§ 一个测度项内含有多重语义
§ 一个测度项内含有多个变量之间的关系
第一,调查对象缺少相关知识。如果调查对象缺少一个测度项中所要求的知识,结果就会不可靠。这个“对牛弹琴”的错误罪在研究者。比如你如果问一个普通市民:您觉得本市进行转基因作物研究成功的可能性有多大?(非常小—非常大)。一个市民通常不会有这方面的知识。更多时候,一个调查对象没法回答一个问题是因为他没有相关的经历,比如在商场中进行抽样调查时,你可能会问一个根本不会用电脑的老人家:“您觉得通过网站购买日用品方便么?(非常方便—非常不方便)。
第二,措词过于学术化、晦涩难懂。这是另一类“对牛弹琴”的错误。“您所在的项目小组的内聚性有多高?(非常低—非常高) ”。什么是“内聚性”(cohesion) ?除非有一个明确的定义写在问卷中,调查对象不会知道你在问什么。
第三,测度项不完整。假定测度项是:你的年龄?如果年龄对这个研究很重要,这个问题就是不完整的。在国内,有人可能报虚岁,也有人报周岁。比较好的措词是:你的出生年分?
第四,语义不明确。假定测度项是:过去一个月你向上司咨询过几次?这里有几个方面是不明确的。第一,哪些上司?是任何比你更高层的人还是你的直属上司?第二,怎样算是咨询?是询问工作中的问题还是生活中的问题?是面对面还是包括电话与电邮?一个更明确的测度项可能是:不管是以面对面还是电话或电邮的方式,过去一个月你向你的直属上司咨询过几次关于你工作中的问题?这个例子也说明测度项的准确性与简洁性往往是矛盾的。
第五,测度项内含多个问题。假定测度项是:工作带给我很高的自信心与安全感(非常同意—非常不同意)。到底是自信心还是安全感?这种问题的一个特点是其中有“与”或“或”。如果研究者对这两个方面都感兴趣,就应该把这个问题分成两个来问。再假定测度项是:你每个月在这家商店购物超过50元的次数是多少?调查对象要进行两次计算:一次是一共去了几次,另一次是超过50元的次数。分开来问会更明确。再假定测度项是:公司领导对你们的项目支持的程度是:(很高—很低,不知道)。如果研究者预计有很多人会回答“不知道”,这个问题就应该拆分成两个:您对公司领导对这个项目的态度有没有了解?如果有,领导对你们的项目支持的程度是:(很高—很低)。
第六,测度项内含有多个变量之间的关系。这是初学者很容易犯的一个错误。比如为了测试报酬与工作态度之间的因果关系,有人会为报酬设计这样的测度项“丰厚的报酬对于增加我的工作积极性十分重要,(非常不同意—非常同意) ”。 这样的问题在日常生活中十分普遍。但在研究中,为了验证报酬与工作态度之间的关系,我们必须把它们分开来测量。为什么呢?因为我们要验证的是报酬水平与工作态度的水平之间的关系,所以我们应该测量这两个水平的本身。在数据收集过程的本身,我们不能预先设定立场而应保持中立(但在提出假设时我们的确有一个立场)。而这种关于“重要性”的直接提问已经预先有了一个立场。这样一个预设的立场会产生几个问题。一,调查对象会沿着调查者的立场去回答,因而不反映他们的实际行为。二,这样的直接测试虽然可以测量到两个变量之间的关系水平,但反而无法在统计上支持这个关系水平的显著程度。假定刻度细度是7,即非常不同意=1,非常同意=7。如果得到的均值是5,这个值说明了什么呢?难道因为它大于中间点4就表明这两个变量之间有关系了吗?因为我们不知道在这两个变量真的没有因果关系时调查对象的均值是多少(也许是4,但也可能是4.5或3.6),我们无法在统计上有信心说5就表明有关系。相反,如果这两个变量分别测量,我们可以计算它们之间的统计上的相关系数,并进行显著度的检验 (比如t-test)。要注意的是,这种“重要性”并不是在所有的情况下都不可取。有时,研究者的变量就是关于重要性的感知水平,这时,这样的测度项是可以,比如:工作的稳定性会影响报酬对于工作态度的重要性。
测度项的设计还以有其它多种多样的问题。以上所提到只是一些最典型的错误。关键是研究者要有对测度项质量的敏感性。
[编辑本段]测度项从哪里来?
在讨论测度项的可靠性时,我们似乎是在自己设计测度项。在很多论文中,作者会提到:我们尽可能从已有的文献中采用别人已经测试过的测度项。我的学生会说:“我在文献中找不到这个理论构件的测度项,你能不能告诉我哪里有?”没有文献支持,他们会非常不安。测度项一定要从文献中来吗?显然不是。如果测度项都是从文献中来的,那么大家会不断在重复前人的课题,研究就不会有进步。正常情况下,你的研究会引入新的理论构件,并为它们设计测度项。如果你没有新的理论构件,你就要问问自己的研究新意在哪里。同时,大部分的研究都是站在巨人的肩膀上,你会采用一些前人的理论构件。对于这些理论构件,在采用过程中,你必须先看看别人以前是怎样设计测度项的。首先,你要检查前人的理论构件的定义与你的定义是否一致。如果是,你要判断他的测度项的可靠性与有效性如何。如果有效与可靠性都好,你要判断他的测度项的措词是否可以直接套用、还是需要进行修改以适应你的特定研究环境与研究对象。你要问:以前的研究与你的是不是针对同一个目标群体?是不是在相似环境下测试个体的心理现象?你也要决定是否要采用一个构件的全部测度项还是一部分。你也要分析这些测度项会不会与其它理论构件的测度项因语义过近而产生混淆。所以采用已有的测度项是一个选择与修改的过程。
那么新设计的测度项又从哪里来?有几种不同的方法。第一,对于一个理论构件,研究者可以邀请一些调查对象进行焦点小组讨论 (focus group discussion)。这些调查对象必须是目标群体中的成员。研究者介绍理论构件的基本定义,让调查对象针对这些现象进行讨论。这讨论中间所得的记录往往可以用来产生测度项。这样的测度项是用生活言语对一个概念的阐述。比如,我们请讨论对“信任”的看法,有些人会说他信任一个人因为那个人“本事大”,另外有人会说“可靠”,也有人会说“我们关系好”、“他一定会尽他最大的努了来帮我”等等。这些言语可以成为测度项的第一手素材。研究者会检查这些说法与理论构件的概念一致性,去芜存菁,得到一组测度项。有时,可能其他的研究者通过案例研究或采访得到了一些调查对象的评论与反馈,这些评论与反馈中的语言也可以成为素材。第二,研究者也可以根据理论构件的定义直接产生一个测度项。如果我们已经知道信任涵盖一个“能力”因素,一个“可预测性”因素,与一个“好意”因素,我们就可以针对这些因素提出一些测度项。这两种方法可以相辅相成。还有一种需要特别小心的做法是使用词典。有的学生会说:既然多个测度项反映同一个理论构件,我只要在词典中找一些同意词就好了。词典本身并不失为一种寻找素材的资源,它反映了我们日常生活中对一个概念的不同理解。但是,第一,它只是一个“素材”。研究者要有基于定义的仔细筛选。你对一个理论构件的定义往往不同于词典中对这个单词的定义。第二,多个测度项是要从不同方面反映一个构件,如果是同义词,它们很有可能因为语义重复过多,反映了一个构件的同个方面,从而不能很好覆盖一个理论构件的内涵。第三,如果语义重复过多,调查对象会说:这些问题翻来覆去在问同一个问题,这个调查表真啰嗦!没有好的态度,调查对象就不会在填表时思考,数据质量就会出问题。
[编辑本段]如何保证测度项的有效性?
我们已经提到测度项要有可靠性。但有效性不止于可靠性,还有更多的要求。有效性的基本要求是“问该问的问题”。要达到这一要求,首先,研究者对一个理论构件的定义要十分明确 。一个常犯的错误是研究者对一个理论构件还不熟悉就急于设计问卷。只有明确一个理论构件的定义(它的内涵),它的适用范围 (外延),研究者才能判断测度项的好坏。第二,测度项的产生过程要符合理论构件的定义。我们在讨论测度项的产生方法时已经提到了一些好的与不好的做法。这些做法归根到底是在保证测度项的有效性。第三,测度项设计好之后要进行内容有字面效性检查、预试 (pre-test) 、测度项分类、或预调查(pilot test)。为什么测度项按着明确的定义与合适的产生方法设计以后还要再做预试等等呢?这是因为产生步骤中考虑的主要是测度项与理论构件之间的关系,但没有考虑不同理论构件的测度项之间可能的混淆。这些方法具体的操作与统计分析可以参看《社会调查研究》
附件列表
→如果您认为本词条还有待完善,请 编辑词条
词条内容仅供参考,如果您需要解决具体问题
(尤其在法律、医学等领域),建议您咨询相关领域专业人士。
0
收藏到:
同义词: 暂无同义词
关于本词条的评论 (共0条)发表评论>>