资源简介 (共137张PPT)第54讲 成对数据的统计分析课前基础巩固课堂考点探究教师备用习题作业手册答案核查【听】答案核查【作】【课标要求】1.了解样本相关系数的统计含义,了解样本相关系数与标准化数据向量夹角的关系,会通过样本相关系数比较多组成对数据的相关性.2.了解一元线性回归模型的含义,了解模型参数的统计意义,了解最小二乘原理,掌握一元线性回归模型参数的最小二乘估计方法,会用一元线性回归模型进行预测.3.理解列联表的统计意义,了解 列联表独立性检验及其应用.◆ 知识聚焦 ◆一、经验回归分析1.两个变量相关性的判断(1)相关关系:两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系.(2)正相关与负相关从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现______的趋势,则称这两个变量正相关;当一个变量的值增加时,另一个变量的相应值呈现______的趋势,则称这两个变量负相关.增加减小(3)线性相关关系:两个变量的取值呈现正相关或负相关,而且散点落在__________附近,则称这两个变量线性相关.一条直线(4)样本相关系数计算:.样本相关系数 的性质①当时,表明成对样本数据________;当 时,表明成对样本数据________.②当越接近1时,成对样本数据的线性相关程度越____;当 越接近0时,成对样本数据的线性相关程度越____.正相关负相关强弱2.一元线性回归模型(1)经验回归方程:利用最小二乘法求得 ,其中(2)评价回归模型的优劣:利用残差平方和: ,残差平方和越____,拟合效果越好.利用残差图:残差点分布在以______为对称轴的带状区域内,该区域越____,拟合效果越好.利用决定系数: ,决定系数越____,拟合效果越好.小横轴窄大二、独立性检验1.分类变量,的 列联表合计合计记,则随机变量 ,读作卡方.2.独立性检验(1)定义:利用随机变量____的取值推断两个分类变量和 是否______的方法称为独立性检验.(2)独立性检验的基本步骤①提出零假设分类变量和 相互独立;②列出分类变量和 的抽样数据列联表;③利用公式计算随机变量 的值;独立④把计算得到的的值与小概率值 相应的临界值表中的临界值比较.当 时,就推断不成立,即认为与 不独立,此推断犯错误的概率不超过 ;当 时,没有充分证据推断不成立,可以认为 成立,即认为与 独立.常用结论经验回归直线一定过点, .◆ 课前演练 ◆题组一 易错辨析判断下列说法是否正确.(请在括号中打“√”或“×”)(1)只有两个变量有相关关系,所得到的回归模型才有预测价值.( )√[解析] 根据相关关系的概念知正确.(2)独立性检验的本质是比较观测值与期望值之间的差异.( )√[解析] 根据独立性检验的概念知正确.(3)独立性检验与简单比较两个频率得到的结果是一致的.( )×[解析] 相对于简单比较两个频率得到的推断,用 独立性检验得到的结果更理性、更全面,理论依据更充分.故不正确.(4)由变量,的样本数据点集合,2, , ,求得的经验回归方程为,且 ,现发现两个数据点和误差较大,去除后重新求得的经验回归直线 的斜率为,则去除数据点后的经验回归方程为 .( )×[解析] 设去除数据点前变量的样本平均数为,去除数据点后变量 ,的样本平均数分别为,,经验回归方程为.将 代入经验回归方程,得.去掉两个数据点 和后,, ,又因为去除数据点后的经验回归方程为,所以 ,解得,所以去除数据点后的经验回归方程为 .故不正确.题组二 教材改编1.在研究吸烟是否对患肺癌有影响的案例中,通过对列联表的数据进行处理,计算得到随机变量 ,则下面说法正确的是( )0.01 0.005 0.0016.635 7.879 10.828A.因为随机变量,所以依据小概率值 的独立性检验,认为“吸烟与患肺癌有关联”,并且这个结论犯错误的概率不超过0.001B.因为随机变量,所以依据小概率值 的独立性检验,认为“吸烟与患肺癌有关联”,并且这个结论犯错误的概率不低于0.001C.因为随机变量,所以依据小概率值 的独立性检验,认为“吸烟与患肺癌没有关联”,并且这个结论犯错误的概率不超过0.001D.因为随机变量,所以依据小概率值 的独立性检验,认为“吸烟与患肺癌没有关联”,并且这个结论犯错误的概率不低于0.001√[解析] 由题意知随机变量 ,所以依据小概率值 的独立性检验,认为“吸烟与患肺癌有关联”,这个结论犯错误的概率不超过 ,故选A.2.根据变量和 的成对样本数据,由一元线性回归模型 得到经验回归模型 ,对应的残差如图所示,则模型误差( )A.满足一元线性回归模型的所有假设B.只满足一元线性回归模型的 的假设C.只满足一元线性回归模型的 的假设D.不满足一元线性回归模型的, 的假设√[解析] 根据一元线性回归模型中对随机误差的假定,残差应是均值为0,方差为 的随机变量的观测值,在残差图中显示应均匀分布在以取值为0的横轴为对称轴的水平带状区域内.而图中的残差与观测时间存在线性关系,说明均值不为0,残差的方差不是一个常数,所以不满足一元线性回归模型的所有假设.故选D.3.以下是标号分别为①②③④的四幅散点图,它们的样本相关系数分别为, ,, ,那么样本相关系数的大小关系为________________(按由小到大的顺序排列).[解析] 根据散点图可知,图①③中的样本数据正相关,图②④中的样本数据负相关,,,, .又图①②中的散点近似在一条直线上,图①②中的样本数据的线性相关程度比较强.图③④中的散点比较分散,故图③④中的样本数据的线性相关程度比较弱,则与比较大,与比较小, .4.某食品研究部门为了解一种酒品的储藏年份与芳香度之间的相关关系,在市场上收集到了一部分不同储藏年份的该酒品,并测定了其芳香度(如下表).储藏年份 0 1 4 5 6 8芳香度 1.3 1.8 5.6 7.4 9.3由最小二乘法得到经验回归方程 ,但不小心在检测后滴到表格上一滴检测液,污损了一个数据,则推断该数据为____.6.1[解析] 由表格数据知,设被污损的数据为,则 ,,解得 ,即被污损的数据为6.1.储藏年份 0 1 4 5 6 8芳香度 1.3 1.8 5.6 7.4 9.3探究点一 成对数据的统计相关性例1(1)[2026·四川崇州模拟]某市环保部门研究近十年空气质量数据,得到以下结论:结论一:浓度与机动车保有量的样本相关系数 ;结论二:绿化覆盖率与呼吸道疾病发病率的样本相关系数;结论三:工业能耗与近地面臭氧浓度的样本相关系数 .下列说法正确的是( )A.由结论一可知,机动车保有量的增加是 浓度升高的直接原因B.由结论二可知,绿化覆盖率与呼吸道疾病发病率无关联C.结论三表明工业能耗与近地面臭氧浓度正相关,且线性相关性比结论一更强D.结论一中接近1,说明 浓度与机动车保有量存在极强的线性相关关系√[解析] 由,可知 浓度与机动车保有量存在极强的线性相关关系,不能说明机动车保有量的增加是 浓度升高的直接原因,故A错误,D正确;因为, ,所以工业能耗与近地面臭氧浓度正相关,但线性相关性没有结论一的强,故C错误;由 ,可知绿化覆盖率与呼吸道疾病发病率负相关,相关性不是很强,但不能说绿化覆盖率与呼吸道疾病发病率无关联,故B错误.故选D.(2)在如图所示的散点图中,六组数据 去掉点后重新进行回归分析,则下列说法正确的是( )A.样本数据的两变量, 正相关B.样本相关系数 的绝对值更接近于0C.残差平方和变大D.变量与变量 相关性变强√[解析] 由题图可知,样本数据的两变量, 负相关,故A错误;点 相对其他点,偏离直线较远,故去掉点后,样本相关系数 的绝对值更接近于1,残差平方和变小,变量与变量 相关性变强,故B,C错误,D正确.故选D.总结反思对两个变量的相关关系的判断有两种常用方法:1.根据散点图进行判断,这种方法具有很强的直观性,能够直接得出两个变量是正相关还是负相关,拟合效果的好坏也可由散点图直接判断.2.计算样本相关系数,样本相关系数能比较准确地反映两个变量的相关程度,样本相关系数的绝对值越接近1,两个变量的相关程度就越强.【对点演练1】(1)根据身高和体重的散点图(如图所示),下列说法正确的是( )A.身高越高,体重越重B.身高越高,体重越轻C.身高与体重正相关D.身高与体重负相关√[解析] 由于身高比较高的人,其体重可能大,也可能小,故A,B不正确;由散点图知,身高和体重有明显的相关性,且身高增加时,体重也呈现增加趋势,所以身高与体重正相关,故C正确,D错误.故选C.(2)已知表示变量与之间的样本相关系数,表示变量与 之间的样本相关系数,且, ,则( )A.变量与之间正相关,且与之间的线性相关程度强于与 之间的线性相关程度B.变量与之间负相关,且与之间的线性相关程度强于与 之间的线性相关程度C.变量与之间负相关,且与之间的线性相关程度弱于与 之间的线性相关程度D.变量与之间正相关,且与之间的线性相关程度弱于与 之间的线性相关程度√[解析] 因为,,所以变量与 之间正相关,变量与之间负相关.因为 越接近1,两个变量的线性相关程度越强,所以与之间的线性相关程度弱于与 之间的线性相关程度.故选C.探究点二 一元回归模型题型1 线性回归模型例2(1)已知变量和满足经验回归方程 ,且变量和 之间的一组相关数据如表所示,则下列说法错误的是( )5 6 9 128 7 2.4A. B.当时,C.变量和负相关 D.该经验回归直线必过点√[解析] 对于A,由表可得, ,因为经验回归直线必过点 ,所以,解得 ,故A中说法正确;对于B,当时, ,故B中说法正确;5 6 9 128 7 2.4对于C,因为经验回归方程 中,斜率,所以变量和 负相关,故C中说法正确;对于D,该经验回归直线必过点 ,故D中说法错误.故选D.5 6 9 128 7 2.4(2)将收集到的6组数据对制作成如图所示的散点图(点旁数据为该点坐标),由最小二乘法计算得经验回归直线的方程为,样本相关系数为,决定系数为.残差分析确定点 对应残差过大,把它去掉后,再用剩下的5组数据计算得经验回归直线的方程为 ,样本相关系数为,决定系数为 .则以下结论中不正确的是( )A., B.,C. D.√[解析] 从散点图可以看出,两个变量正相关,故A中结论正确;易知经验回归直线的斜率是正数,且的斜率大于 的斜率,故B中结论正确,C中结论正确;从散点图可以看出,去掉点后,两变量的线性相关程度更强,拟合的效果更好, 值越大,所以 ,故D中结论错误.故选D.(3)[2026·安徽蚌埠调研] 下表统计了某部纪录片上映前15天累计票房到达(单位:亿元)与所用时间 (单位:天)的数据:①利用表中的数据,计算样本相关系数结果精确到 ,并推断两个变量的线性相关程度;样本相关系数 .参考数据:,, , .#1.1.6累计票房 20 40 60 80 100用时 4 7 9 10 15解:由题意得 , ,又,, ,所以,所以两个变量的线性相关程度很强.②求关于的经验回归方程系数精确到 ,并预测153天时的累计票房,判断这种预测方法是否合理.参考公式:经验回归方程,其中 ,.参考数据:,, ,.#1.1.6解:由题意得 ,,所以所求经验回归方程为 ,令,得 ,预测153天时的累计票房为1151.56亿元,远超过实际票房,故该预测方法不合理.题型2 非线性回归模型例3(1)云计算是信息技术发展的集中体现,近年来,我国云计算市场规模持续增长.已知某科技公司2018年至2022年的云计算市场规模数据,且市场规模与年份代码的关系可以用模型 (其中为自然对数的底数)拟合,设 ,得到数据统计表如下:年份 2018年 2019年 2020年 2021年 2022年年份代码 1 2 3 4 52 2.4 3 3.6 4年份 2018年 2019年 2020年 2021年 2022年年份代码 1 2 3 4 52 2.4 3 3.6 4由上表可得经验回归方程 ,则2026年该科技公司云计算市场规模的估计值为参考公式: ( )A. B. C. D.√[解析] 由题可知, ,所以 ,即经验回归方程为,当时, ,所以,即2026年该科技公司云计算市场规模 的估计值为.故选C.年份 2018年 2019年 2020年 2021年 2022年年份代码 1 2 3 4 52 2.4 3 3.6 4(2)[2026·河南驻马店模拟] 已知相关变量 和的散点图如图所示,拟用 ,(其中 , , ,均为常数, 为自然对数的底数)两个模型拟合,令 ,,计算得如下数据:20 66 770 200 14460 4.20 3 125 000 0.308 21 500(i)设和的样本相关系数为,和 的样本相关系数为 ,请从样本相关系数的角度,选择一个拟合效果更好的模型;解:由题意得,,因为 ,所以从样本相关系数的角度分析,模型 的拟合效果更好.(ii)根据的选择及表中数据,建立关于 的经验回归方程.系数精确到附:样本相关系数 ,经验回归直线 中斜率和截距的最小二乘估计公式分别为, .解:先建立关于 的经验回归方程.由,得,即 .因为 ,,所以关于的经验回归方程为 ,所以,则 .总结反思1.一元线性回归分析问题的解题步骤:(1)求经验回归方程.①根据散点图判断两变量是否线性相关(已知相关时不必再验证).②利用公式,求出参数 .③利用经验回归直线过点求参数 .(2)利用经验回归方程进行预测,把经验回归方程看作一次函数,求函数值作为预测值.2.非线性回归分析问题的解题方法与常见变换:(1)解题方法:借助散点图,确定合适的非线性回归模型,再通过变换,转化为求经验回归方程,最后还原.(2)常见非线性回归方程的变换:令 ;令 ;令 ;(令 );,其中【对点演练2】(1)[2026·福建莆田质检]下列说法正确的是( )A.经验回归直线必过点B.当样本相关系数 时,两个变量负相关C.甲、乙两个模型的决定系数分别约为0.88和 ,则模型乙的拟合效果更好D.残差图中残差点所在的水平带状区域越宽,则经验回归方程的预报精确度越高√[解析] 选项A,经验回归直线必过点 ,所以选项A正确;选项B,当样本相关系数 时,说明两个变量正相关,所以选项B错误;选项C,模型的决定系数 越大,说明残差平方和越小,拟合效果越好,因为 ,所以模型甲的拟合效果更好,所以选项C错误;选项D,残差图中残差点所在的水平带状区域越宽,说明观测值与预报值之间的差距越大,数据分布越分散,因此经验回归方程的预报精确度就越差,所以选项D错误.故选A.(2)(多选题)[2026·江苏南通质检]为研究某种树的树高和胸径的关系,某人随机测量了10棵该品种的树,得到该品种树的胸径 单位:和树高单位: 的数据,已知其中一组数据为 ,且,求得经验回归方程为 ,并绘制了如图所示的残差图,则下列说法正确的是( )A.由残差图可判定该品种树的树高与胸径的关系符合上述经验回归模型B.该品种树的平均树高约为C.数据对应的残差为D.删除一组数据 后,重新求得的经验回归直线的斜率变小√√√[解析] 对于A,由残差图可知,残差分布比较均匀,且集中在 轴附近,所以由残差图可判定该品种树的树高与胸径的关系符合上述经验回归模型,选项 A正确;对于B,已知 ,则 ,将代入经验回归方程 中,可得,所以该品种树的平均树高 约为 ,选项B正确;对于C,当 时,,残差为 ,选项C正确;对于D,删除数据后,因为38.4大于 ,且23.7小于38.4对应的预测值 ,所以删除该点后,重新求得的经验回归直线的斜率变大,选项D错误.故选 .(3)[2026·河北邯郸模拟] 2016年至2025年某果园每年的投资金额(单位:万元)与年利润增量(单位:万元)的散点图如图所示.由图中样本点的分布,可以认为样本点集中在曲线的附近,令,则 ,且, ,, .#5①根据所给的统计量,求关于 的经验回归方程;解:由, ,可得, ,,则 ,所以,因为 ,所以关于 的经验回归方程为 .②预测投资金额为20万元时的年利润增量.(结果保留两位小数)附:在经验回归方程中,, .参考数据:, .解:当 时,,故预测投资金额为20万元时的年利润增量为42.75万元.探究点三 独立性检验例4(1)根据分类变量与的观测数据,计算得到 ,依据小概率值 的独立性检验,则( )A.变量与 不独立B.变量与 独立C.变量与 不独立,这个结论犯错误的概率不超过0.1D.变量与 独立,这个结论犯错误的概率不超过0.01[解析] 因为 ,所以没有充分证据拒绝原假设,因此我们认为变量与 是独立的,故选B.√(2)某科技公司新开发了一款人工智能应用软件,为了测试青年人和中年人对该软件的应用体验是否良好,某机构从中年、青年用户中随机调查了300人,得到如下 列联表:单位:人组别 应用体验是否良好 合计是 否 青年用户中年用户 150合计 300①求, 的值;解:由已知得青年用户的人数为 ,则解得②补全列联表,并依据小概率值的 独立性检验,分析用户的年龄段与对该软件的应用体验是否良好是否有关联.附:, .0.1 0.05 0.01 0.005 0.0012.706 3.841 6.635 7.879 10.828组别 应用体验是否良好 合计是 否 青年用户中年用户 150合计 300解: 列联表如下:单位:人组别 应用体验是否良好 合计是 否 青年用户 120 30 150中年用户 60 90 150合计 180 120 300零假设为 这两组不同年龄段的用户对该软件的应用体验不存在差异,由题意可知.根据小概率值的独立性检验,推断 不成立,所以认为用户的年龄段与对该软件的应用体验是否良好有关联,此推断犯错误的概率不大于0.001.总结反思独立性检验的一般步骤:第一步,提出零假设两个分类变量和 没有关联;第二步,根据列联表和公式计算 的值;第三步,查对临界值表,作出判断.【对点演练3】(1)[2026·江苏镇江模拟]某医疗研究所为了检验某项运动对预防感冒的作用,把500名每天进行该项运动的人与另外500名未进行该项运动的人一年中的感冒记录作比较,利用 列联表计算得 .附表:0.15 0.10 0.05 0.025 0.0102.072 2.706 3.841 5.024 6.635则推断“这种运动能起到预防感冒的作用”犯错误的概率不大于( )A.0.025 B.0.05 C.0.95 D.0.975√[解析] 由题意知 ,所以对照题中的附表可推断“这种运动能起到预防感冒的作用”犯错误的概率不大于0.05.故选B.(2)为了解某地初中学生体育锻炼时长与学业成绩的关系,从该地区29 000名学生中随机抽取580人,得到其日均体育锻炼时长(单位:小时)与学业成绩的数据如表所示:学业 成绩 日均体育锻炼时长/小时优秀 5 44 42 3 1不优秀 134 147 137 40 27①该地区29 000名学生中日均体育锻炼时长不小于1小时的人数约为多少?解:抽取的样本中日均体育锻炼时长不小于1小时的人数为.设该地区29 000名学生中有 人的日均体育锻炼时长不小于1小时,则 ,解得 .故该地区29 000名学生中日均体育锻炼时长不小于1小时的人数约为12 500.②估计该地区初中学生的日均体育锻炼时长(同一组数据用该组区间的中点值代表,精确到0.1小时).学业 成绩 日均体育锻炼时长/小时优秀 5 44 42 3 1不优秀 134 147 137 40 27解:依题意得,该地区初中学生日均体育锻炼时长为 .所以该地区初中学生日均体育锻炼时长约为0.9小时.③依据小概率值 的独立性检验,分析学业成绩是否优秀与日均体育锻炼时长不小于1小时且小于2小时是否有关联?附:, .解:对数据重新组合,得到 列联表如下:单位:人学业成绩 日均体育锻炼时长/小时 合计其他 优秀 45 50 95不优秀 177 308 485合计 222 358 580零假设为 学业成绩优秀与日均体育锻炼时长不小于1小时且小于2小时无关联.经计算可得,根据小概率值的独立性检验,我们推断 不成立,即认为学业成绩优秀与日均体育锻炼时长不小于1小时且小于2小时有关联,该推断犯错误的概率不超过0.05.【备选理由】例题中 综合性强,让学生更加全面地掌握成对数据的统计分析问题.例 [配合探究点二、三使用](1)(多选题)下列说法中正确的是( )A.经验回归直线恒过点 ,且至少过一个样本点B.用决定系数来刻画回归效果时, 越接近1,说明模型的拟合效果越好C.将一组数据中的每一个数据都加上同一个正数后,标准差变大D.基于小概率值 的检验规则是:当 时,我们就推断 不成立,即认为和不独立,该推断犯错误的概率不超过√√[解析] 对于A,经验回归直线恒过点 ,但不一定会过样本点,故A错误;对于B,用决定系数来刻画回归效果时, 越接近1,说明模型的拟合效果越好,故B正确;对于C,将一组数据中的每一个数据都加上或减去同一个常数后,数据的波动性不变,故方差不变,则标准差不变,故C错误;对于D,根据独立性检验可知D正确.故选BD.(2)(多选题)[2025·山东泰安联考]某企业为了研究物流成本和企业利润的数据关系,记录了1月到8月的物流成本 (单位:万元)和企业利润(单位:万元)的数据 ,已知其中一组数据为且 ,根据最小二乘法公式求得经验回归方程为 ,则下列说法中正确的是( )A.若企业9月份物流成本预计为85万元,则预测9月份企业利润约为117.7万元B.1月到8月企业的月平均利润约为115万元C.数据 对应的残差为1.8D.删除一组数据 后,重新求得的经验回归直线的斜率变小√√√[解析] 对于A,经验回归方程为,则当 时,,故预测9月份企业利润约为117.7万元,故A正确;对于B,由,可得1月到8月的物流成本 的平均值,设1月到8月企业的月平均利润为 ,且点在经验回归直线上,所以 ,即1月到8月企业的月平均利润约为115万元,故B正确;对于C,当时,,数据对应的残差为,故C正确;对于D,删除数据 后,因为,且 ,所以删除该点后,重新求得的经验回归直线的斜率变大,故D不正确.故选ABC.作业手册◆ 夯实基础 ◆1.[2026·天津滨海新区质检]下列说法正确的是( )A.点 不一定在经验回归直线上B.残差平方和越小的模型拟合效果越好C.经验回归直线就是散点图中经过样本数据点最多的那条直线D.若两个变量的线性相关性越强,则样本相关系数 就越接近1√[解析] 对于选项A,点 一定在经验回归直线上,故A错误;对于选项B,残差平方和越小的模型拟合效果越好,故B正确;对于选项C,经验回归直线在散点图中可能不经过任意一个样本数据点,故C错误;对于选项D,如果两个变量的线性相关性越强,则样本相关系数的绝对值就越接近1,故D错误.故选B.2.已知某企业对新品按事先拟定的价格进行试销,得到以下数据:单价 (元) 40 50 60 70 80 90(件) 45 39 38 35 30 23由表中数据,求得经验回归方程为 ,则下列说法错误的是( )A.产品的销售量和单价负相关B.该经验回归直线过点C.样本点的残差为D.当单价定为100元时,销售量 估计为21件√[解析] 由 ,可知产品的销售量和单价负相关,故选项A中说法正确;由表中数据得 ,,所以该经验回归直线过点 ,故选项B中说法正确;由,得 ,解得,所以,当 时,,所以样本点的残差为 ,故选项C中说法错误;当时, ,所以当单价定为100元时,销售量 估计为21件,故选项D中说法正确.故选C.3.有下列四组成对数据:,,, ,;,,,,;, ,,,;,,, ,.其中样本相关系数最小的是( )A.① B.② C.③ D.④√[解析] 对于①,数据均在 上,故该组数据的样本相关系数为1;对于②,可看出其数据的两个变量正相关,故样本相关系数大于0;对于③,数据均在 上,故该组数据的样本相关系数为 ;对于④,显然所有数据无法落在某一个一次函数的图象上,故,事实上, ,其中,,故 ,故样本相关系数 .综上,样本相关系数最小的是③.故选C.4.[2026·山东潍坊模拟]已知变量与 的一组数据如表所示,根据数据得到关于的经验回归方程为 .2 3 4 5若,则 ( )A.6.8 B.7.8 C.8.8 D.9.8√[解析] 由题意可得,设,则变量与 的一组数据如下:2 3 4 52 3 5 6由表中数据可得,,故点在直线 上,故,故,则.当 ,即时,,解得 ,故选D.5.已知两个变量和之间具有较强的线性相关关系,且关于 的经验回归方程为,由它计算出成对样本数据 对应的残差为,则 ( )A.0.28 B.0.56 C.0.34 D.0.48[解析] 因为关于的经验回归方程为,所以当时,,又因为 ,所以 .故选B.√6.[2025·福建厦门质检]为考察药物对治疗疾病 的效果,在两个不同规模的动物种群中分别进行了试验,根据种群一的试验结果得到如下 列联表:(单位:只)药物 疾病 合计未患病 患病 未服用 28 22 50服用 34 16 50合计 62 38 100计算得到 .假设种群二试验结果对应的列联表中,每个单元格的数据都为上表对应单元格数据的5倍,则根据小概率值 的独立性检验,下列说法正确的是( )附:, .0.1 0.05 0.01 0.0052.706 3.841 6.635 7.879A.当时,种群一中药物对预防疾病 有效,该推断犯错误的概率不超过B.当时,种群一中药物对预防疾病 有效,该推断犯错误的概率不超过C.当时,种群二中药物对预防疾病 有效,该推断犯错误的概率不超过D.当时,种群二中药物对预防疾病 有效,该推断犯错误的概率不超过√[解析] 对于A,B,因为,所以当 时,无法推断种群一中药物对预防疾病 有效,故A,B错误;对于C,由,将各项数据变为原来的5倍,则,所以当时,种群二中药物对预防疾病 有效,该推断犯错误的概率不超过,故C正确;对于D,因为 ,所以当时,无法推断种群二中药物对预防疾病 有效,故D错误.故选C.7.(多选题)[2025·四川绵阳模拟]某类商品在今年1至5月的销量(单位:千辆)如下表所示(其中2月份销量未知)月份 1 2 3 4 5月销量 2.4 4 5 5.5若变量与之间存在线性相关关系,且关于 的经验回归方程为,则下列说法正确的是( )A. B.残差绝对值最大为0.19C.样本相关系数 D.当每增加1时, 增加0.81√√[解析] 由题意知, ,代入方程得,所以,解得 ,故A正确;1月份的残差为 ,2月份的残差为,月份的残差为 ,4月份的残差为 ,5月份的残差为,所以残差绝对值最大为, 故B正确;由表格可知变量与正相关,则,故C不正确;当 每增加1时,不一定增加,故D不正确.故选 .8.(多选题)随着科技的进步和人民生活水平的提高,电脑已经走进了千家万户,成为人们生活、学习、娱乐的常见物品,便携式电脑(俗称“笔记本”)也非常流行.某公司为了研究“台式机”与“笔记本”的受欢迎程度是否与性别有关,随机抽取了50人调查研究,调查数据如下表所示.单位:人性别 喜好情况 合计喜欢“台式机” 喜欢“笔记本” 男性 18 9 27女性 8 15 23合计 26 24 50由上述数据给出下列结论,其中正确的是( )A.没有充分证据证明“台式机”与“笔记本”的受欢迎程度与性别有关B.依据小概率值 的独立性检验,认为“台式机”与“笔记本”的受欢迎程度与性别有关C.依据小概率值 的独立性检验,认为“台式机”与“笔记本”的受欢迎程度与性别无关D.依据小概率值 的独立性检验,认为“台式机”与“笔记本”的受欢迎程度与性别无关√√[解析] 由表中数据可得 ,因为,所以依据小概率值, 的独立性检验,认为“台式机”与“笔记本”的受欢迎程度与性别有关,依据小概率值 的独立性检验,认为“台式机”与“笔记本”的受欢迎程度与性别无关.故选 .9.[2026·江苏镇江期末] 已知, 的取值如下表:0 1 3 44 4.5 5.5 6从散点图分析,与线性相关,且经验回归方程为 ,则___.4[解析] 由表中数据计算得 ,,又经验回归直线 过点,所以,解得 .10.[2026·重庆七校联盟联考] 某景区自从实行门票打折、推出特色美食、不断提高服务质量等措施后,旅游人数明显增加.下表是该景区改进措施后,前5个月的旅游人数(单位:十万)与第 个月的数据.1 2 3 4 52 3 5 7 8(1)已知可用经验回归模型拟合与的关系,请建立关于 的经验回归方程 ,并预测第8个月的旅游人数.解:由已知得, ,,,则 ,故 ,所以,当时, ,故预测第8个月的旅游人数为130万人.(2)为了解景区游客性别与满意度的关系,随机抽查了200名游客,得到如下的列联表:单位:人性别 是否满意 合计是 否 男 100 ____ 150女 ____ 30 ____合计 _____ ____ _____请填写上表,并依据小概率值 的独立性检验判断能否认为游客是否满意与性别有关.50205012080200参考公式:,, ,其中 .0.050 0.010 0.0013.841 6.635 10.828解: 补全列联表如下:单位:人性别 是否满意 合计是 否 男 100 50 150女 20 30 50合计 120 80 200零假设为游客是否满意与性别无关,计算可得,所以依据小概率值的独立性检验,我们推断 不成立,即认为游客是否满意与性别有关.◆ 综合提升 ◆11.(多选题)[2025·云南昆明质检]已知由样本数据组成的一个样本,得到的经验回归方程为且,去除两个异常数据和 后,得到的新的经验回归直线的斜率为3,则( )A.变量, 正相关B.去除异常数据后,新的一组数据的平均数C.去除异常数据后,新的一组数据的经验回归方程为D.去除异常数据后,随着值的增加, 的值增加速度变小√√[解析] A选项,因为,所以变量, 正相关,所以A正确;B选项,因为,所以去除两个异常数据和 后,得到新数据的平均数,所以B错误;C选项,将 代入中,得,故去除两个异常数据 和后, ,因为得到的新的一组数据的经验回归直线的斜率为3,所以 ,所以去除异常数据后的经验回归方程为 ,所以C正确;D选项,因为经验回归直线的斜率为正数,所以变量, 正相关,且去除异常数据后,斜率由1.5增大到3,故 的值增加的速度变大,所以D错误.故选 .12.(多选题)[2026·陕西西安模拟]下列说法正确的是( )A.在经验回归方程中,若样本相关系数 越大,则两个变量的线性相关程度越强B.数据1,3,4,5,7,9,11,16的第75百分位数为10C.根据分类变量与的成对样本数据,计算得到 ,根据小概率值的独立性检验,可判断与 有关联,此推断犯错误的概率不超过0.05D.样本甲中有件样品,其方差为,样本乙中有 件样品,其方差为,则由甲、乙组成的总样本的方差为√√[解析] 对于A,样本相关系数的绝对值越接近1,两个变量的线性相关程度越强,反之两个变量的线性相关程度越弱,故A错误;对于B,数据1,3,4,5,7,9,11,16是按从小到大的顺序排列的,由,得这组数据的第75百分位数为第6项数据与第7项数据的平均数,即为,故B正确;对于C,因为 ,所以依据小概率值的独立性检验判断分类变量与 有关联,此推 断犯错误的概率不大于 ,故C正确;对于D,设样本甲的平均数为,样本乙的平均数为,甲、乙组成的总样本的平均数为 ,所以甲、乙组成的总样本的方差为,故D错误.故选 .13.(多选题)某中学为更好地开展素质教育,现对选修外出研学课程是否和性别有关联进行调查,其中被调查的男生和女生人数相同,且男生中选修外出研学课程的人数占男生总人数的 ,女生中选修外出研学课程的人数占女生总人数的.若依据小概率值 的独立性检验认为选修外出研学课程与性别有关联,依据小概率值的独立性检验认为选修外出研学课程与性别无关联,则调查的男生可能有( )附:0.05 0.013.841 6.635,其中 .A.150人 B.220人 C.300人 D.350人√√[解析] 设男生和女生人数均为,根据题意可得 列联表如下:单位:人是否选修外出研 学课程 性别 合计男生 女生 是否合计零假设为选修外出研学课程与性别无关联,则 ,依据小概率值 的独立性检验认为选修外出研学课程与性别有关联,依据小概率值 的独立性检验认为选修外出研学课程与性别无关联,,解得,则 , .故选 .14.某部门在一次培训学习后,对同一工作小组中的5名员工采取如下考核制度:①在本季度末,从部门中另抽120人,每人1票,对这5名员工进行投票;②在本季度末,统计这5名员工本季度创造的营销收入.记员工本季度创造的营销收入为(单位:千元),所得票数为 ,现将5人的情况用数对表示:,,, ,关于的样本相关系数为,部门规定:若 ,则认为本次统计数据异常.(1)证明:本次统计数据异常;证明:由已知得,故该工作小组本次统计数据异常.(2)经查验,本季度创造的营销收入最少的员工的数据存在异常,将其剔除后,求关于 的经验回归方程.(系数精确到个位数)附:对于一组数据,, , ,经验回归方程的斜率和截距的最小二乘估计公式分别为:,;样本相关系数 .参考数据:,, ,,,, .#2.4解:将本季度创造的营销收入最少,即营销收入为75千元的员工数据剔除,剔除数据后的, .代入计算得 ,, .设剔除异常数据后,关于的经验回归方程为 ,则 ,所以 ,故所求经验回归方程为 .知识聚焦1.(2)增加 减小 (3)一条直线 (4)①正相关 负相关 ②强 弱 2.小横轴 窄 大 2. 独立课前演练(1)√ (2)√ (3)× (4)× 1.A 2.D 3. 4.6.1课堂考点探究例1(1)D (2)D 【对点演练1】(1)C (2)C 例2(1)D (2)D(3)①, 两个变量的线性相关程度很强;②所求经验回归方程为,预测153天时的累计票房为1151.56亿元,远超过实际票房,故该预测方法不合理.例3(1)C (2)(i)从样本相关系数的角度分析,模型的拟合效果更好.(ii) .【对点演练2】(1)A (2)ABC (3)①关于的经验回归方程为.②预测投资金额为20万元时的年利润增量为42.75万元.例4(1)B (2)① ②列联表如下:单位:人组别 应用体验是否良好 合计是 否 青年用户 120 30 150中年用户 60 90 150合计 180 120 300认为用户的年龄段与对该软件的应用体验是否良好有关联,此推断犯错误的概率不大于0.001.【对点演练3】(1)B (2)①该地区29 000名学生中日均体育锻炼时长不小于1小时的人数约为12 500. ②该地区初中学生日均体育锻炼时长约为0.9小时.③认为学业成绩优秀与日均体育锻炼时长不小于1小时且小于2小时有关联,该推断犯错误的概不超过0.05.教师备用习题例(1)BD (2)ABC夯实基础1.B 2.C 3.C 4.D 5.B 6.C 7.AB 8.BD 9.410.(1),预测第8个月的旅游人数为130万人.(2)50 20 50 120 80 200 认为游客是否满意与性别有关.综合提升11.AC 12.BC 13.BC14.(1)证明:略(2)所求经验回归方程为.第54讲 成对数据的统计分析【备选理由】 例题中(1)(2)综合性强,让学生更加全面地掌握成对数据的统计分析问题.[配合探究点二、三使用] (1)(多选题)下列说法中正确的是 ( BD )A.经验回归直线=x+恒过点(,),且至少过一个样本点B.用决定系数R2来刻画回归效果时,R2越接近1,说明模型的拟合效果越好C.将一组数据中的每一个数据都加上同一个正数后,标准差变大D.基于小概率值α的检验规则是:当χ2≥xα时,我们就推断H0不成立,即认为X和Y不独立,该推断犯错误的概率不超过α(2)(多选题)[2025·山东泰安联考] 某企业为了研究物流成本和企业利润的数据关系,记录了1月到8月的物流成本x(单位:万元)和企业利润y(单位:万元)的数据(xi,yi)(i=1,2,…,8),已知其中一组数据为(80,106)且xi=672,根据最小二乘法公式求得经验回归方程为=2.7x-111.8,则下列说法中正确的是 ( ABC )A.若企业9月份物流成本预计为85万元,则预测9月份企业利润约为117.7万元B.1月到8月企业的月平均利润约为115万元C.数据(80,106)对应的残差为1.8D.删除一组数据(80,106)后,重新求得的经验回归直线的斜率变小[解析] (1)对于A,经验回归直线=x+恒过点(,),但不一定会过样本点,故A错误;对于B,用决定系数R2来刻画回归效果时,R2越接近1,说明模型的拟合效果越好,故B正确;对于C,将一组数据中的每一个数据都加上或减去同一个常数后,数据的波动性不变,故方差不变,则标准差不变,故C错误;对于D,根据独立性检验可知D正确.故选BD.(2)对于A,经验回归方程为=2.7x-111.8,则当x=85时,=2.7×85-111.8=117.7,故预测9月份企业利润约为117.7万元,故A正确; 展开更多...... 收起↑ 资源列表 03-第54讲 成对数据的统计分析.pptx 第54讲 成对数据的统计分析.docx