资源简介 (共28张PPT)8.3.1 分类变量与列联表第八章 成对数据的统计分析数学1. 能通过具体实例说明一元线性回归模型修改的依据与方法.2. 通过对具体问题的进一步分析,能将某些非线性回归问题转化为线性回归问题并加以解决,提高数学运算能力.学习目标3.能通过实例说明决定系数R2的意义和作用,提高数据分析能力.课堂导入有关法律规定:香烟盒上必须印上“吸烟有害健康”的警示语. 吸烟已成为全球范围内严重危害健康、危害人类生存环境、降低人们的生活质量、缩短人类寿命的紧迫问题.为此,联合国固定每年5月31日为全球戒烟日那么吸烟和健康之间有因果关系吗?每一个吸烟者的健康问题都是由吸烟引起的吗?如果你认为“健康问题不一定是由吸烟引起的,那么可以吸烟”的说法对吗 课堂导入问题1:(1)前面所学的判断成对数据的关联性使用的是什么方法?体现了什么数学思想?(2)如果要判断吸烟与患肺癌之间的关联性,还能用上面的方法吗?变量数值变量分类变量例:人的身高;100米短跑所用时间;产品月销量数值变量的取值为实数.其大小和运算都有实际含义.两个数值变量之间的关系:回归分析法;例:班级;性别;是否经常锻炼;是否每年体检分类变量的取值可以用实数来表示;这些数值只作为编号使用,用来表示不同的类别;并没有通常的大小和运算意义例如,学生所在的班级可以用1,2,3等表示,男性、女性可以用1,0表示利用统计数据判断一对分类变量之间的关联性课堂探究问题2: 为了有针对性地提高学生体育锻炼的积极性,某中学需要了解性别因素是否对本校学生体育锻炼的经常性有影响,为此对学生是否经常锻炼的情况进行了普查.全校学生的普查数据如下:523名女生中有331名经常锻炼;601名男生中有473名经常锻炼.你能利用这些数据,说明该校女生和男生在体育锻炼的经常性方面是否存在差异吗?解法一:比较经常锻炼的学生在女生和男生中的比率男生经常锻炼的比率比女生高出15.4个百分点,所以该校的女生和男生在体育锻炼的经常性方面有差异,而且男生更经常锻炼.课堂探究问题2: 为了有针对性地提高学生体育锻炼的积极性,某中学需要了解性别因素是否对本校学生体育锻炼的经常性有影响,为此对学生是否经常锻炼的情况进行了普查.全校学生的普查数据如下:523名女生中有331名经常锻炼;601名男生中有473名经常锻炼.你能利用这些数据,说明该校女生和男生在体育锻炼的经常性方面是否存在差异吗?解法二:借助条件概率性别 锻炼 合计不经常(Y=0) 经常(Y=1) 女生(X=0) 192 331 523男生(X=1) 128 473 601合计 320 804 1124若从该校女生和男生中各随机选取一名学生,那么该女生属于经常锻炼群体的概率为 而该男生属于经常锻炼群体的概率为性别对体育锻炼的经常性没有影响:性别对体育锻炼的经常性有影响:性别 锻炼 合计不经常(Y=0) 经常(Y=1) 女生(X=0) 192 331 523男生(X=1) 128 473 601合计 320 804 1124课堂探究根据条件概率的计算公式:概念生成2×2列联表由于保存原始数据的成本较高,人们经常按研究问题的需要,将数据分类统计,并做成表格加以保存.我们将下表这种形式的数据统计表称为 2×2 列联表 .X Y 合计Y=0 Y=1 X=0 a b a+bX=1 c d c+d合计 a+c b+d n=a+b+c+d2×2列联表表示的意义2×2 列联表给出了成对分类变量数据的交叉分类频数.以上表为例,它包含了X 和Y的如下信息:最后一行的前两个数分别是事件{Y=0}和{Y=1} 中样本点的个数;最后一列的前两个数分别是事件{X=0} 和 {X=1} 中样本点的个数;中间的四个格中的数是表格的核心部分,给出了事件{X=x,Y=y}(x,y=0,1) 中样本点的个数;右下角格中的数是样本空间中样本点的总数.概念生成X Y 合计Y=0 Y=1 X=0 a b a+bX=1 c d c+d合计 a+c b+d n=a+b+c+d学以致用例 1 为比较甲,乙两所学校学生的数学水平,采用简单随机抽样的方法抽取 88 名学生.通过测验得到了如下数据:甲校 43 名学生中有 10 名数学成绩优秀;乙校 45 名学生中有 7 名数学成绩优秀.试分析两校学生中数学成绩优秀率之间是否存在差异.用 Ω 表示两所学校的全体学生构成的集合.考虑以 Ω 为样本空间的古典概型.对于 Ω 中每一名学生,定义分类变量 X 和 Y 如下:我们将所给数据整理成下表学校 数学成绩 合计不优秀(Y=0) 优秀(Y=1) 甲校(X=0) 33 10 43乙校(X=1) 38 7 45合计 71 17 88表中的数据是关于分类变量 X 和Y的抽样数据的2×2 列联表:最后一行的前两个数分别是事件{Y=0}和{Y=1}的频数;最后一列的前两个数分别是事件{X=0} 和{X=1}的频数;中间的四个格中的数是事件 {X=x,Y=y}(x,y=0,1) 的频数;右下角格中的数是样本容量.因此,甲校学生中数学成绩不优秀和数学成绩优秀的频率分别为学以致用学以致用乙校学生中数学成绩不优秀和数学成绩优秀的频率分别为我们可以用等高堆积条形图直观地展示上述计算结果,如图所示.左边的蓝色和红色条的高度分别是甲校学生中数学成绩不优秀和数学成绩优秀的频率;右边的蓝色和红色条的高度分别是乙校学生中数学成绩不优秀和数学成绩优秀的频率.通过比较发现,两个学校学生抽样数据中数学成绩优秀的频率存在差异,甲校的频率明显高于乙校的频率.依据频率稳定于概率的原理,我们可以推断 P(Y=1∣X=0)>P(Y=1∣X=1) .也就是说,如果从甲校和乙校各随机选取一名学生,那么甲校学生数学成绩优秀的概率大于乙校学生数学成绩优秀的概率.因此,可以认为两校学生的数学成绩优秀率存在差异,甲校学生的数学成绩优秀率比乙校学生的高.学以致用课堂探究问题4:你认为“两校学生的数学成绩优秀率存在差异”这一结论是否有可能是错误的?事实上,"两校学生的数学成绩优秀率存在差异"这个结论是根据两个频率间存在差异推断出来的.有可能出现这种情况:在随机抽取的这个样本中,两个频率间确实存在差异,但两校学生的数学成绩优秀率实际上是没有差别的.这就是说,样本的随机性导致了两个频率间出现较大差异.在这种情况下,我们推断出的结论就是错误的.跟踪练习练习:为调查吸烟是否对患肺癌有影响,某肿瘤研究所随机地调查了9 965人,其中,不吸烟的7 817人中42人患肺癌,吸烟的2 148人中91人患肺癌,试分析吸烟是否对患肺癌有影响.不患肺癌(Y=0) 患肺癌(Y=1) 合计不吸烟(X=0) 7 775 42 7 817吸烟(X=1) 2 099 49 2 148合计 9 874 91 9 965 解:方法一(概率):用 Ω 表示所有被调查的人构成的集合.考虑以 Ω 为样本空间的古典概型.对于 Ω 中每一个人,定义分类变量X 和Y 如下:在不吸烟者中患肺癌的比重是在吸烟者中患肺癌的比重是方法二(等高条形图):在吸烟者中患肺癌的比重是2.28%.在不吸烟者中患肺癌的比重是0.54%.吸烟者中患肺癌的概率更高一些哦!跟踪练习名师解惑判断两分类变量是否有关联的步骤(1)根据实际问题,引入样本空间,建立古典概型,并定义分类变量X和Y;(2)将样本数据整理成2×2列联表的形式;(3)计算并比较分类变量X和Y相应的频率;(4)用等高堆积条形图直观展示上述频率;(5)根据频率稳定于概率的原理,估计分类变量X和Y相应的条件概率,进而作出推断.评价反馈B评价反馈B评价反馈DCD评价反馈评价反馈是评价反馈乙解析:如果高度差越大,则两个分类变量关系越强评价反馈7.某班主任对班级22名学生进行了作业量多少的调查,数据如下:在喜欢玩电脑游戏的12人中,有9人认为作业多,3人认为作业不多;在不喜欢玩电脑游戏的10人中,有4人认为作业多,6人认为作业不多.(1)根据以上数据建立一个2×2列联表;(2)试分析喜欢玩电脑游戏与认为作业多少是否存在差异?解:(1)根据题意所给数据,得到如下2×2列联表:学生是否喜欢玩电脑游戏 认为作业多 认为作业不多 合计喜欢玩电脑游戏 9 3 12不喜欢玩电脑游戏 4 6 10合计 13 9 22评价反馈课堂小结分类变量与列联表变量与分类变量等高堆积条形图2×2列联表教科书第135页习题8.3第1,3,5,6题.布置作业谢谢大家 展开更多...... 收起↑ 资源预览