资源简介 (共65张PPT)统 计 学第八章 列联分析第八章 列联分析§1 定性数据与列联表§2 拟合优度检验§3 独立性检验§4 列联表中的相关测量§5 列联分析中应注意的问题2§1 定性数据与列联表§1.1 定性数据§1.2 列联表的构造§1.3 列联表的分布3§1.1 定性数据定类数据及其特征分类型数据和顺序型数据都属于定类数据,其共同特征是,调查结果虽然是用数值表现的,但不同数值描述了调查对象的不同特征。列联表对定类数据进行统计分析时,先对原始数据进行处理,表现处理结果的表格通常采用列联的方式,故把这种表格称为列联表。数值型数据是可以转化为定性数据。4§1.2 列联表的构造列联表列联表(Contingency table)是由两个以上的变量进行交叉分类的频数分布表。例如一个集团公司在四个不同的区域设有分公司,现该集团公司欲进行一项改革,此项改革可能涉及到各分公司的利益,故采用抽样调查方法,从四个分公司共抽取420个样本单位,了解职工对此项改革的看法,调查结果见表8-1。表8-1 关于改革方案的调查结果 单位:人5§1.2 列联表的构造解释:表中的行(Row)是态度变量,这里划分为两类:赞成改革方案或反对改革方案;表中的列(Column)是单位变量,这里划分为四类:即四个分公司。表中的每个数据,都反映着来自于态度和单位两个方面的信息。将横向变量(行)的划分类别视为R,纵向变量(列)的划分类别视为C,则可以把每一个具体的列联表称为R×C列联表。6§1.3 列联表的分布列联表的分布观察值的分布(条件分布)行边缘频数列边缘频数条件频数期望值的分布7§1.3 列联表的分布表8-2 包含百分比的2×4列联表8§1.3 列联表的分布表中各数据的含义条件频数:如第一个单元第一个数字68为观察值频数;行百分数:如第一个单元第二个数字24.4为行百分数,即68/279=24.4%;列百分数:如第一个单元第三个数字68.0为列百分数,即68/100=68%;总百分数:如第一个单元第四个数字为总百分数,即68/420=16.2%;边缘频数:在最右边和最下边的合计栏中各有两行数据,第一行是边缘频数,第二行是边缘频数的百分数。如最右边的66.4%=279/420,及最下边的23.8%=100/420。§1.3 列联表的分布期望分布以前例为例。已知在全部420个样本中,赞成改革方案的有279个,占到总数的66.4%,如果各分公司对这项改革方案的看法相同,那么对第一分公司赞成该方案的人数应当为:0.664×100=66人,第二分公司赞成的人数应当为:0.664×120=80人,这66人和80人就是本例中的期望值。由此可以计算出期望值的分布,如表8-3所示。10§1.3 列联表的分布表8-3 期望值分布表 单位:人11§1.3 列联表的分布将表8-1和表8-3结合起来,便可以得到观察值和期望值频数对比分布表,如表8-4所示。表8-4 观察值和期望值频数对比分布表12§1.3 列联表的分布如果各个分公司对改革方案的看法相同,即各分公司赞成改革方案的比例相同,就应有 =0.664( 为第i个分公司赞成改革方案的百分比),那么在表8-4中,观察值和期望值就应当非常接近。对于 =0.664的假设,可以采用 分布(Chi-square Distribution)进行检验。13§2 拟合优度检验§2.1 统计量§2.2 拟合优度检验14§2.1 统计量可以用于变量间拟合优度检验和独立性检验,可以用于测定两个定类变量之间的相关程度。若用 fo 表示观察值频数(Observed Frequency),用fe表示期望值频数(Expected Frequency),则 统计量可以写为:15§2.1 统计量由 可以看出计算 统计量的步骤步骤一:用观察值 fo 减去期望值 fe;步骤二:将(fo - fe)之差平方;步骤三:将平方 ( fo - fe)2结果除以fe;步骤四:将步骤三的结果加总。16§2.1 统计量表8-5 计算表17§2.1 统计量统计量特征≥0,因为它是对平方值结果的汇总;值的大小与观察值和期望值的配对数,即R×C的多少有关。R×C越多,在不改变分布的情况下, 值越大,因此, 统计量的分布与自由度有关;统计量描述了观察值与期望值的接近程度。如果两者越接近,即 fo - fe的绝对值越小,计算出的 值越小;反之,如果 fo - fe的绝对值越大,计算出的 值也越大;检验是运用 的计算结果与 分布中的临界值进行比较,做出对原假设接受或是拒绝的统计决策。18§2.1 统计量图8-1 自由度分别为1,5和10时的 分布19§2.1 统计量分布自由度的计算公式自由度=(行数-1)(列数-1)=(R-1)(C-1)20§2.2 拟合优度检验拟合优度检验若要对多个比例是否相等进行检验,就需要利用 检验的方法。如果样本是从总体的不同类别中分别抽取,研究目的是对不同类别的目标量之间是否存在显著性差异进行检验,把它称为拟合优度检验,也称为一致性检验(Test of homogeneity)。21§2.2 拟合优度检验【例8.1】某集团公司欲进行一项改革,从所属的四个分公司中共随机抽取了420名职工,了解他们对改革方案的态度(见表8-1),以 的显著性水平检验四个分公司对改革方案的看法是否存在差异。解:如果不存在差异,四个分公司赞成改革方案的比例应该是一致的。于是原假设和备择假设分别为:: =0.664 赞成比例一致: 不全相等 赞成比例不一致§2.2 拟合优度检验由得:自由度=(R-1)(C-1)=(2-1)(4-1)= 3=0.1,查表可知:23§2.2 拟合优度检验24图8-2 检验示意图§2.2 拟合优度检验【例8.2】为了提高市场占有率,某行业两个最主要的竞争对手,A公司和B公司同时开展了广告宣传。在广告宣传战之前,A公司的市场占有率为45%,B公司的市场占有率为40%,其他公司的市场占有率为15%。为了了解广告战之后A、B和其他公司的市场占有率是否发生变化,随机抽取了200名消费者,其中102人表示准备购买A公司产品,82人表示准备购买B公司产品,另外16人表示准备购买其他公司产品。以 的显著性水平检验广告战前后各公司的市场占有率是否发生了变化。25§2.2 拟合优度检验解:采用拟合优度的 检验。为了检验广告战之后各公司市场占有率的变化,把广告战之前各公司的市场占有率设为原假设。: , ,:原假设的等式中至少有一个不成立如果广告战之后各公司产品的市场占有率没有发生变化, 即如果原假设仍然成立,则在200个被调查者中,喜欢各个公司产品人数的期望值应当是:各类别期望值的计算公式26,,§2.2 拟合优度检验表8-7 观察值、期望值及有关计算结果27§2.2 拟合优度检验由 计算为:=8.18当 ,自由度=(R-1)*(C-1)=(2-1)*(3-1)= 2时, =5.99147, ,故拒绝原假设,可以认为广告战之后,各公司产品市场占有率发生了显著变化。28§3 独立性检验独立性检验(Test of Independence)在研究问题时有时会遇到要求判断两个定类变量之间是否存在联系的问题。在这种情况下可以使用 检验,判断两组或多组的资料是否相互关联。如果不相互关联,就称为独立。把这类问题的处理称为独立性检验(Test of Independence)。29§3 独立性检验【例8.3】一种原料来自三个不同的地区,原料质量被分成三个不同等级。从这批原料中随机抽取500件进行检验,结果如表8-9所示。要求检验各个地区和原料质量之间是否存在依赖关系?表8-9 原料抽样的结果30§3 独立性检验解: :地区和原料等级之间是独立的(不存在依赖关系)。:地区和原料等级之间不独立 (存在依赖关系)。在第一行,甲地区的合计为140,用140╱500作为甲地区原料比例的估计值。在第一列,一级原料的合计为162,用162╱500作为一级原料比例的估计值。如果地区和原料等级之间是独立的,可以用下式估计第一个单元(甲地区,一级)中的期望比例。31§3 独立性检验令:A = 样本单位来自甲地区的事件B = 样本单位属于一级原料的事件根据独立性的概率乘法公式有:P(第一单元) =P(A·B)=P(A)·P(B)=0.0907232§3 独立性检验计算任何一个单元中频数的期望值公式fe :给定单元中的频数期望值RT:给定单元所在行的合计CT:给定单元所在列的合计n:观察值的总个数,即样本容量。33§3 独立性检验表8-10 3×3列联表期望值计算过程34§3 独立性检验的自由度为(R-1)*(C-1)=4取 =0.05,查表知: 0.05(4)=9.488> 0.05(4),故拒绝H0,接受H1 ,即地区和原料等级之间存在依赖关系,原料的质量受地区的影响。35§4 列联表中的相关测量§4.1 φ相关系数§4.2 列联相关系数§4.3 V相关系数§4.4 数值分析36§4.1 φ相关系数系数系数是描述2*2列联表数据相关程度最常用的一种相关系数。它的计算公式为:式中, n为列联表中的总频数,即样本量。37§4.1 φ相关系数表8-11 2*2列联表38注:a,b,c,d均为条件频数。§4.1 φ相关系数表8-11中,当变量X,Y 相互独立,不存在相关关系时,频数间应有下面的关系化简后有:ad=bc。结论差值ad-bc的大小可以反映变量之间相关程度的强弱。若差值越大,说明两个变量的关联程度越高。39§4.1 φ相关系数在2*2列联表中,每个单元中频数的期望值为:40§4.1 φ相关系数41§4.1 φ相关系数当ad=bc时,表明变量X,Y之间相互独立,若b=0, c=0时,X与Y完全相关,若a=0, d=0 ,X与Y完全相关,在列联表中,变量的位置可以任意变换,因此 的符号在这里没有什么实际意义,其绝对值 只是表明X与Y完全相关。42§4.2 列联相关系数C系数列联相关系数又称列联系数(Coefficient of Contingency),简称C系数,主要用于大于2*2列联表的情况。C系数的计算公式为:43§4.2 列联相关系数C系数的特点当列联表中的两个变量相互独立时,系数C=0,但它不可能大于1。C系数可能的最大值依赖于列联表的行数和列数,且随着R和C的增大而增大。根据不同的行和列计算的列联系数不便于比较,除非两个列联表中行数和列数一致。44§4.3 V相关系数V 相关系数计算公式式中的min[(R-1),(C-1)]表示取(R-1),(C-1)中较小的一个。当两个变量相互独立时,V=0;当两个变量完全相关时,V=1。所以V 的取值在0—1之间。如果列联表中有一维为2,即min[(R-1),(C-1)]=1,则V 值就等于 值。45§4.4 数值分析在【例8.3】中,对原料的等级和产地之间的关系进行了独立性检验,结果表明,原料的等级和产地之间存在相互关系。下一个问题是,这种相关程度有多高,能否对此给出数量化描述?解:由前已知,计算出 =19.82,列联表的总频数n=500。这是3*3列联表,min[(R-1),(C-1)]=3-1=2。于是46§4.4 数值分析对于 而言,当R>2, C>2时, 值有可能突破1,相比之下,例8.3中的=0.199不能认为很大。对于C 而言,其结果必然低于 值,因为C值总是小于1。本例中是3*3列联表,C 的最大可能值是0.8165。相比0.8165而言,本例中的C=0.195也并不大。对于V而言,V=0.141则更小。综上,虽然检验表明原料和产地存在一定关系,但这种关系的密切程度却不太高。47§4.4 数值分析上例说明,对于同一个数据,系数 , C,V 的结果不同。同样,对于不同的列联表,由于行数和列数的差异,也会影响系数值。结论在对不同列联表变量之间的相关程度进行比较时,不同列联表中行与行,列与列的个数要相同,并且采用同一种系数,这样的系数值才具有可比性。48§5 列联分析中应注意的问题§5.1 条件百分表的方向§5.2 分布的期望值准则49§5.1 条件百分表的方向条件百分表的方向一般在列联表中变量的位置是任意的,即既可以把变量X放在列的位置,也可以放在行的位置。如果变量X与Y存在因果关系,令X为自变量(原因),Y为因变量(结果),那么一般的做法是把自变量X放在列的位置,条件百分表也多按自变量的方向计算,因为这样便于更好地表现原因对结果的影响。如有下面的一个2*2列联表。50§5.1 条件百分表的方向表8-14 职业背景与工作价值观取向51§5.1 条件百分表的方向表8-14 分析数据显示,总共调查了225人,其中制造业145人,服务业80人;在制造业被调查者中,以物质报酬为价值取向的有105人,占该群体的72%;以人情关系为价值取向的有40人,占该群体的28%。而服务业被调查者中,以物质报酬为价值取向的有45人,占该群体的56%;以人情关系为价值取向的有35人,占该群体的44%;数据表明,与制造业相比,服务业就业人员更注重人情关系。人们的职业背景不同,工作的价值观有可能不同。52§5.1 条件百分表的方向特殊情况如果因变量在样本内的分布不能代表其在总体内的分布,例如,为了满足分析的需要,抽样时扩大了因变量某项内容的样本容量,这时仍以自变量的方向计算百分表就会歪曲实际情况。53§5.1 条件百分表的方向例:社会学家欲研究家庭状况(自变量)对青少年犯罪(因变量)的影响。该地区有未犯罪记录的青少年10000名,犯罪记录的青少年150名。如果从未犯罪青少年中抽取百分之一,即100名进行研究,则用相同比例从犯罪青少年中抽取的样本量仅为1.5人。显然,这样少的数量无法满足对比研究的需要。因此,对犯罪青少年的抽样比要扩大,譬如扩大到二分之一,即抽取75人。假定从两个样本调查所获得的数据如表8-15所示。54§5.1 条件百分表的方向表8-15 家庭状况与青少年犯罪55§5.1 条件百分表的方向表8-15是调查结果的条件分布。由表8-15可以计算其条件百分表,如表8-16。表8-16 家庭状况与青少年犯罪百分表56§5.1 条件百分表的方向表8-16分析表8-16中得到的显示是,在完整家庭接受调查的130人中,犯罪青少年所占的比例是29%。其实,这个比例是歪曲的,这是由于抽样时扩大了对犯罪青少年抽取的数量。如果把计算百分表的方向变换一下,改为按因变量方向计算,则得到表8-17。57§5.1 条件百分表的方向表8-17 家庭状况与青少年犯罪百分表58§5.1 条件百分表的方向表8-17分析在完整家庭中,未犯罪青少年的比例占到92%,而在离异家庭中,这个比例仅为8%。完整家庭的青少年未犯罪率远远高于离异家庭的这个比例。家庭状况对青少年行为的影响得到了比较真实的反映。59§5.2 分布的期望值准则用 分布进行独立性检验,要求样本容量必须足够大,特别是每个单元中的期望频数(理论频数)不能过于小,否则应用 检验可能会得出错误结论。关于小单元次数的准则1. 如果只有两个单元,每个单元的期望频数必须是5或5以上,如表的数据:60§5.2 分布的期望值准则此时有两个单元,或分为两个类别:患过肝炎和未患过肝炎。样本量足够大,每个单元的期望频数fe > 5,因此可以使用 检验。2. 若有两个以上的单元,如果20%的单元期望频数fe小于5,则不能应用 检验。根据准则2,表8-19中的数据可以计算 ,因为6个单元中只有1个单元的期望频数小于5。而表8-20中的数据不能应用 统计量,因为7个单元中有3个单元的期望频数小于5。61§5.2 分布的期望值准则表8-19 说明表 表8-20 说明表62§5.2 分布的期望值准则表8-20中的fo与fe非常接近,最大的差别只是3,应当说期望值与观察值拟合得很好,它们之间并无显著区别。然而用 =0.05的 进行检验,则会得到:结果拒绝原假设H0 ,结论是期望值与观察值之间存在显著差异。63§5.2 分布的期望值准则如果将这个例子中的某些类别合并,使得fe≥5,差异就消除。例如,将表8-20中的类别E、F、G合并,合并后f =5+5+4=14, fe=2+4+1=7此时虽然fo与fe之间的差别扩大到7,合并以后有:结果是接受H0 ,期望值与观察值之间不存在显著差异。64谢 谢 ! 展开更多...... 收起↑ 资源预览