资源简介 中小学教育资源及组卷应用平台第八章 成对数据的统计分析章末复习提升课素养一 直观想象本章中的直观想象体现在用散点图和残差图判断成对变量的相关性以及利用等高堆积条形图判定两个分类变量是否有关系.主题一 散点图和残差图例 (1)(2021·广东深圳高二期末)在一项调查中有两个变量x和y,如图是由这两个变量近8年来的取值数据得到的散点图,那么适宜作为y关于x的经验回归方程的函数类型是( )A.y=a+bx(b>0) B.y=c+d(d>0)C.y=m+nx2(n>0) D.y=p+qcx(q>0)(2)下列选项分别为一组观测值的四个一元线性回归模型对应的残差图,则对应的一元线性回归模型的拟合效果最好的残差图是( )【解析】 (1)选B.散点图呈曲线,排除A选项,且增长速度越来越慢,排除选项C,D,故选B.(2)选A.残差点比较均匀地落在以取值为0的横轴为对称轴的水平带状区域中,说明选用的模型比较合适,选A.【答案】 (1)B (2)A利用散点图可以选择合适的拟合函数模型,通过残差图可分析回归模型的拟合效果. 如图所示,从人体脂肪含量(单位:%)与年龄散点图中,能比较清楚的表示人体脂肪含量与年龄的相关性的经验回归直线为( )A.l1 B.l2C.l3 D.l4解析:选A.根据线性相关的意义知,当所有的数据在一条直线附近排列时,这些事件具有很强的线性相关关系.因为从人体脂肪含量与年龄散点图中,能比较清楚的表示人体脂肪含量与年龄的相关性的经验回归直线是l1,因为图中的散点大部分都分布在此直线两边.故选A.主题二 等高堆积条形图例 (多选)(2021·黑龙江哈师大附中高三四模)为了调查A,B两种药物预防某种疾病的效果,某研究所进行了动物试验.已知参与两种药物试验的动物的品种、状态、数量均相同,图①是A药物试验结果对应的等高堆积条形图,图②是B药物试验结果对应的等高堆积条形图,则下列说法正确的是( )A.服用A药物的动物的患病比例低于未服用A药物的动物的患病比例B.服用A药物对预防该疾病没有效果C.在对B药物的试验中,患病动物的数量约占参与B药物试验动物总数量的60%D.B药物比A药物预防该种疾病的效果好【解析】 选AD.根据题中两组等高堆积条形图,可知服用A药物的动物的患病比例低于未服用A药物的动物的患病比例,所以A正确;服用A药物未患病的动物的频率明显大于未服用A药物的,所以可以认为服用A药物对预防该疾病有一定效果,所以B不正确;在对B药物的试验中,患病动物的数量占参与B药物试验动物总数量的比例为×100%=30%<60%,所以C不正确;B药物试验结果对应的等高堆积条形图显示未服用药与服用药动物的患病数量的差异较A药物试验的大,所以B药物比A药物预防该种疾病的效果好,所以D正确.【答案】 AD在等高堆积条形图中,两个分类变量所占的比例差距越大,说明两个分类变量有关系的把握越大. 如图是某地区中学生是否喜欢物理的等高堆积条形图,从图中可以看出( )A.是否喜欢物理与性别无关B.女生中喜欢物理的百分比为80%C.男生比女生喜欢物理的可能性大D.男生中不喜欢物理的百分比为60%解析:选C.由等高堆积条形图,可知女生中喜欢物理的百分比为1-0.8=0.2=20%,男生中喜欢物理的百分比为1-0.4=0.6=60%,因此男生比女生喜欢物理的可能性大.故选C.素养二 数学建模和数据分析本章中的回归分析及独立性检验是统计在实际问题中的应用体现,重在培养学生的数学建模及数据分析等核心素养.主题三 回归分析例 某省级示范高中高三年级对考试的评价指标中,有“难度系数”和“区分度”两个指标.其中,难度系数=,区分度=.(1)在某次数学考试(满分150分)中,从实验班和普通班各随机抽取三人,实验班三人的成绩分别在147分,142分,137分,普通班三人的成绩分别为97分,102分,113分,通过样本估算本次考试的区分度(精确到0.01);(2)以下表格是高三年级6次考试的统计数据:难度系数x 0.64 0.71 0.74 0.76 0.77 0.82区分度y 0.18 0.23 0.24 0.24 0.22 0.15①计算样本相关系数r,|r|<0.75时,认为相关性弱;|r|≥0.75时,认为相关性强.通过计算说明,能否利用一元线性回归模型拟合y与x的关系;②已知t=|x-0.74|,求出y关于t的经验回归方程,并预报x=0.75时y的值(精确到0.01).参考数据:xiyi=0.930 9, eq \r(\o(∑,\s\up6(6),\s\do4(i=1)) (xi-)2\o(∑,\s\up6(6),\s\do4(i=1)) (yi-)2)≈0.011 2,tiyi=0.048 3, (ti-)2≈0.007 3.参考公式:相关系数r=eq \f(\o(∑,\s\up6(n),\s\do4(i=1)) (xi-)(yi-),\r(\o(∑,\s\up6(n),\s\do4(i=1)) (xi-)2\o(∑,\s\up6(n),\s\do4(i=1)) (yi-)2))=eq \f(\o(∑,\s\up6(n),\s\do4(i=1))xiyi-n\o(x,\s\up6(-))\o(y,\s\up6(-)),\r(\o(∑,\s\up6(n),\s\do4(i=1)) (xi-)2\o(∑,\s\up6(n),\s\do4(i=1)) (yi-)2)),经验回归方程中斜率和截距的最小二乘估计公式分别为=eq \f(\o(∑,\s\up6(n),\s\do4(i=1)) (xi-)(yi-),\o(∑,\s\up6(n),\s\do4(i=1)) (xi-)2)=eq \f(\o(∑,\s\up6(n),\s\do4(i=1))xiyi-n\o(x,\s\up6(-))\o(y,\s\up6(-)),\o(∑,\s\up6(n),\s\do4(i=1)) (xi-)2),=-.【解】 (1)易求得实验班三人成绩的平均分为=142(分),普通班三人成绩的平均分为=104(分),所以区分度为≈0.25.(2)①由表格数据知,==0.74,==0.21,r=eq \f(\o(∑,\s\up6(6),\s\do4(i=1))xiyi-n\o(x,\s\up6(-))\o(y,\s\up6(-)),\r(\o(∑,\s\up6(6),\s\do4(i=1)) (xi-)2\o(∑,\s\up6(6),\s\do4(i=1)) (yi-)2))≈≈-0.13,故|r|<0.75,相关性较弱.综上可知,不能利用一元线性回归模型拟合y与x的关系.②y与t的值如下表:t 0.10 0.03 0 0.02 0.03 0.08区分度y 0.18 0.23 0.24 0.24 0.22 0.15则=eq \f(\o(∑,\s\up6(6),\s\do4(i=1))tiyi-n\o(t,\s\up6(-))\o(y,\s\up6(-)),\o(∑,\s\up6(6),\s\do4(i=1)) (ti-)2)≈≈-0.86,=-=0.21+0.86×≈0.25.故所求经验回归方程为=-0.86t+0.25,当x=0.75时,t=0.01,所以y≈0.24.使用经验回归方程进行预测时应注意的问题(1)只适用于我们所研究的样本的总体;(2)一般都有时效性;(3)样本数据中的解释变量有一定的取值范围,在该范围内,经验回归方程预报效果好,超出这个范围越远,效果越差;(4)不能期望经验回归方程得到的预报值就是响应变量的精确值.事实上,它是响应变量的可能取值的平均值. 在一段时间内,某种商品的价格x(元)和需求量y(件)的一组对应数据如下:x(元) 14 16 18 20 22y(件) 12 10 7 5 3且知x与y具有线性相关关系,求出y关于x的经验回归方程,并说明拟合效果的好坏.解:=×(14+16+18+20+22)=18,=×(12+10+7+5+3)=7.4,x=142+162+182+202+222=1 660,xiyi=14×12+16×10+18×7+20×5+22×3=620,所以===-1.15.所以=7.4+1.15×18=28.1,所以y关于x的经验回归方程为=-1.15x+28.1.列出残差表为:yi-i 0 0.3 -0.4 -0.1 0.2yi- 4.6 2.6 -0.4 -2.4 -4.4所以 (yi-i)2=0.3,(yi-)2=53.2,R2=1-≈0.994.所以拟合效果较好.主题四 独立性检验例 某校数学课外兴趣小组为研究数学成绩是否与性别有关,先统计本校高三年级每个学生一学期数学成绩的平均分(采用百分制),剔除平均分在40分以下的学生后,共有男生300名,女生200名.现采用分层随机抽样的方法,从中抽取了100名学生,按性别分为两组,并将两组学生成绩分为6组,得到如下所示频率分布表:分数段 [40,50) [50,60) [60,70) [70,80) [80,90) [90,100]男 3 9 18 15 6 9女 6 4 5 10 13 2(1)估计男、女生各自的平均分(同一组数据用该组区间中点值作代表),从计算结果看,数学成绩与性别是否有关;(2)规定80分以上为优秀(含80分),请你根据已知条件作出2×2列联表,并判断是否在犯错误的概率不超过0.1的前提下认为数学成绩与性别有关. 单位:人性别 数学成绩 合计优秀 非优秀男生女生合计 100【解】 (1) 男=45×0.05+55×0.15+65×0.3+75×0.25+85×0.1+95×0.15=71.5,女=45×0.15+55×0.1+65×0.125+75×0.25+85×0.325+95×0.05=71.5,因为男=女,所以从男、女生各自的平均分来看,数学成绩与性别无关.(2)由频数分布表可知,在抽取的100名学生中,“男生组”中数学成绩优秀的有15人,“女生组”中数学成绩优秀的有15人,据此可得2×2列联表如下: 单位:人性别 数学成绩 合计优秀 非优秀男生 15 45 60女生 15 25 40合计 30 70 100零假设为H0:数学成绩与性别无关,由表中数据可得χ2==≈1.79<2.706=x0.1,根据小概率值α=0.1的χ2独立性检验,没有充分证据推断H0不成立,所以在犯错误的概率不超过0.1的前提下不能认为数学成绩与性别有关.随机变量χ2的值越大,说明“X与Y有关系”成立的可能性越大.因此根据列联表中数据求得χ2的值,而选用不同的临界值xα作比照时,认为“X与Y有关系”犯错误的概率就会有所不同. (2021·福建师大附中高二期中)为了解学生的课外阅读时间情况,某学校随机抽取了50人进行统计分析,把这50人每天阅读的时间(单位:分钟)绘制成频数分布表,如下表所示:阅读时间 [0,20) [20,40) [40,60) [60,80) [80,100) [100,120]人数 8 10 12 11 7 2若把每天阅读时间在60分钟以上(含60分钟)的同学称为“阅读达人”,根据统计结果中男女生阅读达人的数据,制作出如图所示的等高堆积条形图.(1)根据已知条件完成2×2列联表;(2)判断是否在犯错误的概率不超过0.01的前提下认为是否为“阅读达人”跟性别有关.解:(1)由频数分布表得“阅读达人”的人数是11+7+2=20,根据等高堆积条形图得2×2列联表如下:男生 女生 合计阅读达人 6 14 20非阅读达人 18 12 30合计 24 26 50(2)零假设为H0:是否为“阅读达人”跟性别无关.由列联表可得χ2=≈4.327<6.635=x0.01,根据小概率值α=0.01的χ2独立性检验,没有充分证据推断H0不成立,故在犯错误的概率不超过0.01的前提下不能认为是否为“阅读达人”跟性别有关.21世纪教育网 www.21cnjy.com 精品试卷·第 2 页 (共 2 页)HYPERLINK "http://www.21cnjy.com/" 21世纪教育网(www.21cnjy.com) 展开更多...... 收起↑ 资源预览