资源简介 (共23张PPT)第八章 成对数据的统计分析§8.1 成对数据的统计相关性§8.2 一元线性回归模型及其应用§8.3 列联表与独立性检验8.3.1 分类变量与列联表在现实生活中,人们经常需要回答一定范围内的两种现象或性质之间是否存在关联性或相互影响的问题。例如,就读不同学校是否对学生的成绩有影响,不同班级学生用于体育锻炼的时间是否有差别,吸烟是否会增加患肺癌的风险等等。在讨论上述问题时,为了表述方便,我们经常会使用一种特殊的随机变量,以区别不同的现象或性质,这类随机变量称为分类变量。分类变量的取值可以用实数表示,例如,学生所在的班级可以用1,2,3等表示,男性、女性可以用1,0表示,等等。在很多时候,这些数值只作为编号使用,并没有通常的大小和运算意义。【引例】为了有针对性地提高学生体育锻炼的积极性,某中学需要了解性别因素是否对本校学生体育锻炼的经常性有影响,为此对学生是否经常锻炼的情况进行了普查。全校学生的普查数据如下:523名女生中有331名经常锻炼;601名男生中有473名经常锻炼。你能利用这些数据,说明该校女生和男生在体育锻炼的经常性方面是否存在差异吗?【分析】这是一个简单的统计问题。最直接的解答方法是,比较经常锻炼的学生在女生和男生中的比率。那么,只要求出f0和f1的值,通过比较这两个值的大小,就可以知道女生和男生在锻炼的经常性方面是否有差异。由所给的数据可知,该校的女生和男生在体育锻炼的经常性方面有差异,而且男生更经常锻炼。上面的问题还可以通过建立一个古典概型,使用条件概率的语言,给出另外一种解答方法。用Ω表示该校全体学生构成的集合,这是我们所关心的对象的总体。考虑以Ω为样本空间的古典概型,并定义一对分类变量X和Y如下:对于Ω中的每一名学生我们希望通过比较条件概率P(Y=1 | X=0)和P(Y=1 | X=1)回答上面的问题。按照条件概率的直观解释,如果从该校女生和男生中各随机选取一名学生,那么该女生属于经常锻炼群体的概率是P(Y=1 | X=0),而该男生属于经常锻炼群体的概率是P(Y=1 | X=1)。因此,“性别对体育锻炼的经常性没有影响”可以描述为而“性别对体育锻炼的经常性有影响”可以描述为为了清楚起见,我们用表格整理数据性别 锻炼 合计不经常(Y=0) 经常(Y=1) 女生(X=0) 192 331 523男生(X=1) 128 473 601合计 320 804 1124根据古典概型和条件概率的计算公式,我们有在该校的学生中,性别对体育锻炼的经常性有影响,即该校的女生和男生在体育锻炼的经常性方面存在差异,而且男生更经常锻炼。X Y 合计Y=0 Y=1 X=0 a b a+bX=1 c d c+d合计 a+c b+d a+b+c+d在实践中,由于保存原始数据的成本较高,人们经常按研究问题的需要,将数据分类统计,并做成表格加以保存。我们将如上表这种形式的数据统计表称为2×2列联表。2×2列联表给出了成对分类变量数据的交叉分类频数。它包含了X和Y的如下信息:最后一行的前两个数分别是事件{ Y=0 }和{ Y=1 }中样本点的个数;最后一列的前两个数分别是事件{ X=0 }和{ X=1 }中样本点的个数;中间的四个格中的数是表格的核心部分,给出了事件{ X=x,Y=y }(x,y=0,1)中样本点的个数;右下角格中的数是样本空间中样本点的总数。8.3.2 独立性检验X Y 合计Y=0 Y=1 X=0 a b a+bX=1 c d c+d合计 a+c b+d a+b+c+d前面我们通过2×2列联表整理成对分类变量的样本观测数据,并根据随机事件频率的稳定性推断两个分类变量之间是否有关联。对于随机样本而言,因为频率具有随机性,频率与概率之间存在误差,所以我们的推断可能犯错误,而且在样本容量较小时,犯错误的可能性会较大。因此,需要找到一种更为合理的推断方法,同时也希望能对出现错误推断的概率有一定的控制或估算。考虑以Ω为样本空间的古典概型。设X和Y为定义在Ω上,取值于{ 0,1 }的成对分类变量。我们希望判断事件{ X=1 }和{ Y=1 }之间是否有关联。注意到{ X=0 }和{ X=1 },{ Y=0 }和{ Y=1 }都是互为对立事件,与前面的讨论类似,我们需要判断下面的假定关系是否成立,通常称H0为零假设或原假设。这里,P(Y=1 | X=0)表示从{ X=0 }中随机选取一个样本点,该样本点属于{ X=0,Y=1 }的概率;而P(Y=1 | X=1)表示从{ X=1 }中随机选取一个样本点,该样本点属于{ X=1,Y=1 }的概率。由条件概率的定义可知,零假设H0等价于因此,零假设H0等价于{ X=1 }与{ Y=1 }独立。因此,我们可以用概率语言,将零假设改述为H0:分类变量X和Y独立假定我们通过简单随机抽样得到了X和Y的抽样数据列联表。X Y 合计Y=0 Y=1 X=0 a b a+bX=1 c d c+d合计 a+c b+d n=a+b+c+d假定我们通过简单随机抽样得到了X和Y的抽样数据列联表。据频率稳定到概率的原理,考虑所有对应频数的总的偏差并加以调整,构造统计量 2,这种构造方法非常容易推广到取值超过两个的分类变量的独立性检验。检验统计量 2的推导过程,课本P129-130,自行阅读统计学家建议,用随机变量 2取值的大小作为判断零假设H0是否成立的依据,当它比较大时推断H0不成立,否则认为H0成立。在假定H0的条件下,对于有放回简单随机抽样,当样本容量n充分大时,统计学家得到了 2的近似分布。忽略 2的实际分布与该近似分布的误差后,对于任何小概率值α,可以找到相应的正实数xα,使得下面关系成立我们称xα为α的临界值,这个临界值就可作为判断 2大小的标准。概率值α越小,临界值xα越大。当总体很大时,抽样有、无放回对 2的分布影响较小。因此,在应用中往往不严格要求抽样必须是有放回的。xα在假设H0成立的情况下,事件{ 2 ≥xα }是不大可能发生的。根据这个规律,如果该事件发生,我们就可以推断H0不成立。不过这个推断有可能犯错误,但犯错误的概率不会超过。基于小概率值α的检验规则是:当 2 ≥xα时,我们就推断H0不成立,即认为X和Y不独立,该推断犯错误的概率不超过α;当 2 < xα时,我们没有充分证据推断H0不成立,可以认为X和Y独立。下表给出了 2独立性检验中5个常用的小概率值和相应的临界值α 0.1 0.05 0.01 0.005 0.001xα 2.706 3.841 6.635 7.879 10.828例如,对于小概率值α=0.05,我们有如下的具体检验规则:(1)当 2 ≥x0.05 =3.841时,我们推断H0不成立,即认为X和Y不独立,该推断犯错误的概率不超过0.05;(2)当 2 < x0.05 =3.841时,我们没有充分证据推断H0不成立,可以认为X和Y独立。总结:应用独立性检验解决实际问题(1)提出零假设H0:X和Y相互独立,并给出在问题中的解释。(2)根据抽样数据整理出2×2列联表,计算 2的值,并与临界值xα比较。(3)根据检验规则得出推断结论。(4)在X和Y不独立的情况下,根据需要,通过比较相应的频率,分析X和Y间的影响规律。【例1】某校开展了“冰雪答题王”冬奥知识竞赛活动.现从参加冬奥知识竞赛活动的学生中随机抽取100名学生,根据他们的竞赛成绩得到如下数据:优秀 非优秀 合计男生 10女生 30 50合计 100(1) 请将上面的 列联表补充完整,并判断在犯错误的概率不超过0.01的前提下,能否认为“竞赛成绩是否优秀与性别有关”.(2) 求出等高堆积条形图需要的数据,并画出等高堆积条形图(按“优秀”和“非优秀”所对应阴影画线),利用等高堆积条形图判断竞赛成绩是否优秀与性别是否有关系.(1) 请将上面的 列联表补充完整,并判断在犯错误的概率不超过0.01的前提下,能否认为“竞赛成绩是否优秀与性别有关”.【答案】 根据题表中已知数据,可得完整的 列联表如下表所示.优秀 非优秀 合计男生 10 40 50女生 20 30 50合计 30 70 100提出零假设 竞赛成绩是否优秀与性别无关.由表中数据可知 ,又因为,所以根据小概率值的独立性检验,我们推断不成立,即认为“竞赛成绩是否优秀与性别有关”,此推断犯错误的概率不超过0.01.(2) 求出等高堆积条形图需要的数据,并画出等高堆积条形图(按“优秀”和“非优秀”所对应阴影画线),利用等高堆积条形图判断竞赛成绩是否优秀与性别是否有关系.【答案】 根据(1)中 列联表数据可知,样本中男生优秀的频率为,男生非优秀的频率为 ,女生优秀的频率为,女生非优秀的频率为 ,则可画出等高堆积条形图如图所示,根据等高堆积条形图,比较图中两个用斜纹实线所画矩形的高度可以发现,女生样本中成绩优秀的频率明显大于男生样本中成绩优秀的频率,因此可以认为竞赛成绩是否优秀与性别有关.【例2】某兴趣小组调查并统计了某班级学生期末统考中的数学成绩和建立个性化错题本的情况,用来研究这两者是否有关.若从该班级中随机抽取1名学生,设“抽取的学生期末统考中的数学成绩不及格”, “抽取的学生建立了个性化错题本”,且,, .(1) 求和 .(2) 若该班级共有36名学生,请完成列联表,并讨论能否在犯错误的概率不超过0.005的前提下认为学生期末统考中的数学成绩与建立个性化错题本有关?个性化错题本 期末统考中的数学成绩 合计及格 不及格 建立未建立合计(3) 为进一步验证(2)中的判断,该兴趣小组准备在其他班级中抽取一个容量为的样本(假设根据新样本数据建立的列联表中,所有的数据都扩大为(2)中列联表中数据的 倍,且新列联表中的数据都为整数),若要使得在犯错误的概率不超过0.001的前提下可以肯定(2)中的判断,试确定 的最小值.(1) 求和 .【答案】 因为,, ,所以,, .由,得 ,解得,所以 .则 ,即,解得 .(2) 若该班级共有36名学生,请完成列联表,并讨论能否在犯错误的概率不超过0.005的前提下认为学生期末统考中的数学成绩与建立个性化错题本有关?个性化错题本 期末统考中的数学成绩 合计及格 不及格 建立未建立合计【答案】 完整的列联表如下表所示.个性化错题本 期末统考中的数学成绩 合计及格 不及格 建立 20 4 24未建立 4 8 12合计 24 12 36提出零假设 学生期末统考中的数学成绩与建立个性化错题本无关.根据列联表中的数据,经计算得到 .根据小概率值的独立性检验,我们推断 不成立,所以可以在犯错误的概率不超过0.005的前提下认为学生期末统考中的数学成绩与建立个性化错题本有关.(3) 为进一步验证(2)中的判断,该兴趣小组准备在其他班级中抽取一个容量为的样本(假设根据新样本数据建立的列联表中,所有的数据都扩大为(2)中列联表中数据的 倍,且新列联表中的数据都为整数),若要使得在犯错误的概率不超过0.001的前提下可以肯定(2)中的判断,试确定 的最小值.【答案】 由新的列联表可得,解得 .要使新列联表中的数据都为整数,则需 .又因为,所以的最小值为5,故的最小值是 . 展开更多...... 收起↑ 资源预览