资源简介 第54讲 成对数据的统计分析【课标要求】 1.了解样本相关系数的统计含义,了解样本相关系数与标准化数据向量夹角的关系,会通过样本相关系数比较多组成对数据的相关性.2.了解一元线性回归模型的含义,了解模型参数的统计意义,了解最小二乘原理,掌握一元线性回归模型参数的最小二乘估计方法,会用一元线性回归模型进行预测.3.理解2×2列联表的统计意义,了解2×2列联表独立性检验及其应用.一、经验回归分析1.两个变量相关性的判断(1)相关关系:两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系.(2)正相关与负相关从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现 的趋势,则称这两个变量正相关;当一个变量的值增加时,另一个变量的相应值呈现 的趋势,则称这两个变量负相关. (3)线性相关关系:两个变量的取值呈现正相关或负相关,而且散点落在 附近,则称这两个变量线性相关. (4)样本相关系数(i)计算:r==.(ii)样本相关系数r的性质①当r>0时,表明成对样本数据 ;当r<0时,表明成对样本数据 . ②当|r|越接近1时,成对样本数据的线性相关程度越 ;当|r|越接近0时,成对样本数据的线性相关程度越 . 2.一元线性回归模型(1)经验回归方程:利用最小二乘法求得=x+,其中(2)评价回归模型的优劣:(i)利用残差平方和:(yi-)2,残差平方和越 ,拟合效果越好. (ii)利用残差图:残差点分布在以 为对称轴的带状区域内,该区域越 ,拟合效果越好. (iii)利用决定系数:R2=1-,决定系数越 ,拟合效果越好. 二、独立性检验1.分类变量X,Y的2×2列联表X Y 合计Y=0 Y=1X=0 a b a+bX=1 c d c+d合计 a+c b+d n=a+ b+c+d记n=a+b+c+d,则随机变量χ2=,读作卡方.2.独立性检验(1)定义:利用随机变量 的取值推断两个分类变量X和Y是否 的方法称为独立性检验. (2)独立性检验的基本步骤①提出零假设H0:分类变量X和Y相互独立;②列出分类变量X和Y的抽样数据列联表;③利用公式计算随机变量χ2的值;④把计算得到的χ2的值与小概率值α相应的临界值表中的临界值xα比较.当χ2≥xα时,就推断H0不成立,即认为X与Y不独立,此推断犯错误的概率不超过α;当χ2常用结论经验回归直线=x+一定过点(,).题组一 易错辨析判断下列说法是否正确.(请在括号中打“√”或“×”)(1)只有两个变量有相关关系,所得到的回归模型才有预测价值. ( )(2)独立性检验的本质是比较观测值与期望值之间的差异. ( )(3)独立性检验与简单比较两个频率得到的结果是一致的. ( )(4)由变量x,y的样本数据点集合{(xi,yi)|i=1,2,…,n},求得的经验回归方程为=1.5x+0.5,且=3,现发现两个数据点(1.3,2.1)和(4.7,7.9)误差较大,去除后重新求得的经验回归直线l的斜率为1.2,则去除数据点后的经验回归方程为=1.2x+1.6. ( )题组二 教材改编1.在研究吸烟是否对患肺癌有影响的案例中,通过对列联表的数据进行处理,计算得到随机变量χ2≈56.632,则下面说法正确的是( )α 0.01 0.005 0.001xα 6.635 7.879 10.828A.因为随机变量χ2>10.828,所以依据小概率值α=0.001的独立性检验,认为“吸烟与患肺癌有关联”,并且这个结论犯错误的概率不超过0.001B.因为随机变量χ2>10.828,所以依据小概率值α=0.001的独立性检验,认为“吸烟与患肺癌有关联”,并且这个结论犯错误的概率不低于0.001C.因为随机变量χ2>10.828,所以依据小概率值α=0.001的独立性检验,认为“吸烟与患肺癌没有关联”,并且这个结论犯错误的概率不超过0.001D.因为随机变量χ2>10.828,所以依据小概率值α=0.001的独立性检验,认为“吸烟与患肺癌没有关联”,并且这个结论犯错误的概率不低于0.0012.根据变量Y和x的成对样本数据,由一元线性回归模型得到经验回归模型=x+,对应的残差如图所示,则模型误差 ( )A.满足一元线性回归模型的所有假设B.只满足一元线性回归模型的E(e)=0的假设C.只满足一元线性回归模型的D(e)=σ2的假设D.不满足一元线性回归模型的E(e)=0,D(e)=σ2的假设3.以下是标号分别为①②③④的四幅散点图,它们的样本相关系数分别为r1,r2,r3,r4,那么样本相关系数的大小关系为 (按由小到大的顺序排列). 4.某食品研究部门为了解一种酒品的储藏年份与芳香度之间的相关关系,在市场上收集到了一部分不同储藏年份的该酒品,并测定了其芳香度(如下表).储藏年份x 0 1 4 5 6 8芳香度y 1.3 1.8 5.6 7.4 9.3由最小二乘法得到经验回归方程=1.03x+1.13,但不小心在检测后滴到表格上一滴检测液,污损了一个数据,则推断该数据为 . 成对数据的统计相关性例1 (1)[2026·四川崇州模拟] 某市环保部门研究近十年空气质量数据,得到以下结论:结论一:PM2.5浓度与机动车保有量的样本相关系数r1=0.92;结论二:绿化覆盖率与呼吸道疾病发病率的样本相关系数r2=-0.12;结论三:工业能耗与近地面臭氧浓度的样本相关系数r3=0.75.下列说法正确的是 ( )A.由结论一可知,机动车保有量的增加是PM2.5浓度升高的直接原因B.由结论二可知,绿化覆盖率与呼吸道疾病发病率无关联C.结论三表明工业能耗与近地面臭氧浓度正相关,且线性相关性比结论一更强D.结论一中|r1|接近1,说明PM2.5浓度与机动车保有量存在极强的线性相关关系(2)在如图所示的散点图中,六组数据(xi,yi)(i=1,2,3,4,5,6)去掉B点后重新进行回归分析,则下列说法正确的是 ( )A.样本数据的两变量x,y正相关B.样本相关系数r的绝对值更接近于0C.残差平方和变大D.变量x与变量y相关性变强总结反思对两个变量的相关关系的判断有两种常用方法:1.根据散点图进行判断,这种方法具有很强的直观性,能够直接得出两个变量是正相关还是负相关,拟合效果的好坏也可由散点图直接判断.2.计算样本相关系数,样本相关系数能比较准确地反映两个变量的相关程度,样本相关系数的绝对值越接近1,两个变量的相关程度就越强.【对点演练1】 (1)根据身高和体重的散点图(如图所示),下列说法正确的是 ( )A.身高越高,体重越重B.身高越高,体重越轻C.身高与体重正相关D.身高与体重负相关(2)已知r1表示变量x与y之间的样本相关系数,r2表示变量u与v之间的样本相关系数,且r1=0.836,r2=-0.958,则 ( )A.变量x与y之间正相关,且x与y之间的线性相关程度强于u与v之间的线性相关程度B.变量x与y之间负相关,且x与y之间的线性相关程度强于u与v之间的线性相关程度C.变量u与v之间负相关,且x与y之间的线性相关程度弱于u与v之间的线性相关程度D.变量u与v之间正相关,且x与y之间的线性相关程度弱于u与v之间的线性相关程度 一元回归模型题型1 线性回归模型例2 (1)已知变量x和y满足经验回归方程=-0.78x+11.84,且变量x和y之间的一组相关数据如表所示,则下列说法错误的是( )x 5 6 9 12y 8 7 m 2.4A.m=5B.当x=10时,=4.04C.变量x和y负相关D.该经验回归直线必过点(9,5.6)(2)将收集到的6组数据对(xi,yi)(i=1,2,3,4,5,6)制作成如图所示的散点图(点旁数据为该点坐标),由最小二乘法计算得经验回归直线l1的方程为=x+,样本相关系数为r1,决定系数为.残差分析确定点E对应残差过大,把它去掉后,再用剩下的5组数据计算得经验回归直线l2的方程为=x+,样本相关系数为r2,决定系数为.则以下结论中不正确的是 ( )A.r1>0,r2>0 B.>0,>0C.> D.>(3)[2026·安徽蚌埠调研] 下表统计了某部纪录片上映前15天累计票房到达y(单位:亿元)与所用时间x(单位:天)的数据:累计票房y 20 40 60 80 100用时x 4 7 9 10 15①利用表中的数据,计算样本相关系数r(结果精确到0.01),并推断两个变量的线性相关程度;②求y关于x的经验回归方程(系数精确到0.01),并预测153天时的累计票房,判断这种预测方法是否合理.参考公式:经验回归方程=x+,其中=,=-.样本相关系数r=.参考数据:xiyi=3200,=471,=22 000,≈12.845. 题型2 非线性回归模型例3 (1)云计算是信息技术发展的集中体现,近年来,我国云计算市场规模持续增长.已知某科技公司2018年至2022年的云计算市场规模数据,且市场规模y与年份代码x的关系可以用模型y=c1(其中e为自然对数的底数)拟合,设z=ln y,得到数据统计表如下:年份 2018年 2019年 2020年 2021年 2022年年份代码x 1 2 3 4 5z=ln y 2 2.4 3 3.6 4由上表可得经验回归方程z=0.52x+,则2026年该科技公司云计算市场规模y的估计值为(参考公式:=-) ( )A.e5.08 B.e5.6C.e6.12 D.e6.5(2)[2026·河南驻马店模拟] 已知相关变量x和y的散点图如图所示,拟用①y=α+βx2,②y=eλx+t(其中α,β,λ,t均为常数,e为自然对数的底数)两个模型拟合,令ui=,vi=ln yi(i=1,2,…,12),计算得如下数据:(xi-)(vi-)20 66 770 200 14(ui-)(yi-)460 4.20 3 125 000 0.308 21 500(i)设ui和yi的样本相关系数为r1,xi和vi的样本相关系数为r2,请从样本相关系数的角度,选择一个拟合效果更好的模型;(ii)根据(i)的选择及表中数据,建立y关于x的经验回归方程.(系数精确到0.01)附:样本相关系数r=,经验回归直线=+x中斜率和截距的最小二乘估计公式分别为=,=-. 总结反思1.一元线性回归分析问题的解题步骤:(1)求经验回归方程.①根据散点图判断两变量是否线性相关(已知相关时不必再验证).②利用公式,求出参数.③利用经验回归直线过点(,)求参数.(2)利用经验回归方程进行预测,把经验回归方程看作一次函数,求函数值作为预测值.2.非线性回归分析问题的解题方法与常见变换:(1)解题方法:借助散点图,确定合适的非线性回归模型,再通过变换,转化为求经验回归方程,最后还原.(2)常见非线性回归方程的变换:=+(x-c)2→=+t(令t=(x-c)2);=+ln(x-c)→=+t(令t=ln(x-c));=+→=+t(令t=);=+→=+t;=·→ln =ln +xln b→=+x,其中【对点演练2】 (1)[2026·福建莆田质检] 下列说法正确的是 ( )A.经验回归直线必过点(,)B.当样本相关系数r>0时,两个变量负相关C.甲、乙两个模型的决定系数R2分别约为0.88和0.80,则模型乙的拟合效果更好D.残差图中残差点所在的水平带状区域越宽,则经验回归方程的预报精确度越高(2)(多选题)[2026·江苏南通质检] 为研究某种树的树高和胸径的关系,某人随机测量了10棵该品种的树,得到该品种树的胸径x(单位:cm)和树高y(单位:m)的数据(xi,yi)(i=1,2,…,10),已知其中一组数据为(38.4,23.7),且xi=291.6,求得经验回归方程为=0.25x+15,并绘制了如图所示的残差图,则下列说法正确的是 ( )A.由残差图可判定该品种树的树高与胸径的关系符合上述经验回归模型B.该品种树的平均树高约为22.29 mC.数据(38.4,23.7)对应的残差为-0.9D.删除一组数据(38.4,23.7)后,重新求得的经验回归直线的斜率变小(3)[2026·河北邯郸模拟] 2016年至2025年某果园每年的投资金额x(单位:万元)与年利润增量y(单位:万元)的散点图如图所示.由图中样本点的分布,可以认为样本点集中在曲线=ln x+的附近,令t=ln x,则=t+,且ti=22,yi=230,tiyi=569,=50.92.①根据所给的统计量,求y关于x的经验回归方程;②预测投资金额为20万元时的年利润增量.(结果保留两位小数)附:在经验回归方程=x+中,=,=-.参考数据:ln 2≈0.69,ln 5≈1.61. 独立性检验例4 (1)根据分类变量x与y的观测数据,计算得到χ2≈0.837,依据小概率值α=0.1(x0.1=2.706)的独立性检验,则 ( )A.变量x与y不独立B.变量x与y独立C.变量x与y不独立,这个结论犯错误的概率不超过0.1D.变量x与y独立,这个结论犯错误的概率不超过0.01(2)某科技公司新开发了一款人工智能应用软件,为了测试青年人和中年人对该软件的应用体验是否良好,某机构从中年、青年用户中随机调查了300人,得到如下2×2列联表:单位:人组别 应用体验是否良好 合计是 否青年用户 3m+n 2m-n中年用户 m+n m+2n 150合计 300①求m,n的值;②补全2×2列联表,并依据小概率值α=0.001的χ2独立性检验,分析用户的年龄段与对该软件的应用体验是否良好是否有关联.附:χ2=,n=a+b+c+d.α 0.1 0.05 0.01 0.005 0.001xα 2.706 3.841 6.635 7.879 10.828 总结反思独立性检验的一般步骤:第一步,提出零假设H0:两个分类变量A和B没有关联;第二步,根据2×2列联表和公式计算χ2的值;第三步,查对临界值表,作出判断.【对点演练3】 (1)[2026·江苏镇江模拟] 某医疗研究所为了检验某项运动对预防感冒的作用,把500名每天进行该项运动的人与另外500名未进行该项运动的人一年中的感冒记录作比较,利用2×2列联表计算得χ2≈3.918.附表:α 0.15 0.10 0.05 0.025 0.010xα 2.072 2.706 3.841 5.024 6.635则推断“这种运动能起到预防感冒的作用”犯错误的概率不大于 ( )A.0.025 B.0.05 C.0.95 D.0.975(2)为了解某地初中学生体育锻炼时长与学业成绩的关系,从该地区29 000名学生中随机抽取580人,得到其日均体育锻炼时长(单位:小时)与学业成绩的数据如表所示:学业 成绩 日均体育锻炼时长/小时[0,0.5) [0.5,1) [1,1.5) [1.5,2) [2,2.5)优秀 5 44 42 3 1不优秀 134 147 137 40 27①该地区29 000名学生中日均体育锻炼时长不小于1小时的人数约为多少 ②估计该地区初中学生的日均体育锻炼时长(同一组数据用该组区间的中点值代表,精确到0.1小时).③依据小概率值α=0.05的独立性检验,分析学业成绩是否优秀与日均体育锻炼时长不小于1小时且小于2小时是否有关联 附:χ2=,n=a+b+c+d(x0.05=3.841). 第54讲 成对数据的统计分析● 课前基础巩固【知识聚焦】一、1.(2)增加 减小 (3)一条直线(4)(ii)①正相关 负相关 ②强 弱2.(2)(i)小 (ii)横轴 窄 (iii)大二、2.(1)χ2 独立【课前演练】题组一(1)√ (2)√ (3)× (4)×[解析] (1)根据相关关系的概念知正确.(2)根据独立性检验的概念知正确.(3)相对于简单比较两个频率得到的推断,用χ2独立性检验得到的结果更理性、更全面,理论依据更充分.故不正确.(4)设去除数据点前变量y的样本平均数为,去除数据点后变量x,y的样本平均数分别为,,经验回归方程为=1.2x+.将=3代入经验回归方程=1.5x+0.5,得=5.去掉两个数据点(1.3,2.1)和(4.7,7.9)后,==3,==5,又因为去除数据点后的经验回归方程为=1.2x+,所以5=3×1.2+,解得=1.4,所以去除数据点后的经验回归方程为=1.2x+1.4.故不正确.题组二1.A [解析] 由题意知随机变量χ2≈56.632>10.828=x0.001,所以依据小概率值α=0.001的独立性检验,认为“吸烟与患肺癌有关联”,这个结论犯错误的概率不超过0.001,故选A.2.D [解析] 根据一元线性回归模型中对随机误差的假定,残差应是均值为0,方差为σ2的随机变量的观测值,在残差图中显示应均匀分布在以取值为0的横轴为对称轴的水平带状区域内.而图中的残差与观测时间存在线性关系,说明均值不为0,残差的方差不是一个常数,所以不满足一元线性回归模型的所有假设.故选D.3.r20,r2<0,r3>0,r4<0.又图①②中的散点近似在一条直线上,∴图①②中的样本数据的线性相关程度比较强.图③④中的散点比较分散,故图③④中的样本数据的线性相关程度比较弱,则|r1|与|r2|比较大,|r4|与|r3|比较小,∴r24.6.1 [解析] 由表格数据知=4,设被污损的数据为a,则=,∴=1.03×4+1.13,解得a=6.1,即被污损的数据为6.1.● 课堂考点探究探究点一例1 (1)D (2)D [解析] (1)由r1=0.92,可知PM2.5浓度与机动车保有量存在极强的线性相关关系,不能说明机动车保有量的增加是PM2.5浓度升高的直接原因,故A错误,D正确;因为|r1|>|r3|,r3=0.75,所以工业能耗与近地面臭氧浓度正相关,但线性相关性没有结论一的强,故C错误;由r2=-0.12,可知绿化覆盖率与呼吸道疾病发病率负相关,相关性不是很强,但不能说绿化覆盖率与呼吸道疾病发病率无关联,故B错误.故选D.(2)由题图可知,样本数据的两变量x,y负相关,故A错误;点B相对其他点,偏离直线较远,故去掉B点后,样本相关系数r的绝对值更接近于1,残差平方和变小,变量x与变量y相关性变强,故B,C错误,D正确.故选D.对点演练1 (1)C (2)C [解析] (1)由于身高比较高的人,其体重可能大,也可能小,故A,B不正确;由散点图知,身高和体重有明显的相关性,且身高增加时,体重也呈现增加趋势,所以身高与体重正相关,故C正确,D错误.故选C.(2)因为r1=0.836,r2=-0.958,所以变量x与y之间正相关,变量u与v之间负相关.因为|r|越接近1,两个变量的线性相关程度越强,所以x与y之间的线性相关程度弱于u与v之间的线性相关程度.故选C.探究点二例2 (1)D (2)D [解析] (1)对于A,由表可得==8,==,因为经验回归直线=-0.78x+11.84必过点(,),所以=-0.78×8+11.84,解得m=5,故A中说法正确;对于B,当x=10时,=-0.78×10+11.84=4.04,故B中说法正确;对于C,因为经验回归方程=-0.78x+11.84中,斜率k=-0.78<0,所以变量x和y负相关,故C中说法正确;对于D,该经验回归直线必过点(8,5.6),故D中说法错误.故选D.(2)从散点图可以看出,两个变量正相关,故A中结论正确;易知经验回归直线的斜率是正数,且l1的斜率大于l2的斜率,故B中结论正确,C中结论正确;从散点图可以看出,去掉点E后,两变量的线性相关程度更强,拟合的效果更好,R2值越大,所以<,故D中结论错误.故选D.(3) 解:①由题意得==9,==60,又=-=60-×9=-≈-8.18,所以所求经验回归方程为=7.58x-8.18,令x=153,得=1151.56,预测153天时的累计票房为1151.56亿元,远超过实际票房,故该预测方法不合理.例3 (1)C [解析] 由题可知=3,=3,所以=-0.52=3-3×0.52=1.44,即经验回归方程为z=0.52x+1.44,当x=9时,z=0.52×9+1.44=6.12,所以y=ez=e6.12,即2026年该科技公司云计算市场规模y的估计值为e6.12.故选C.(2)解:(i)由题意得对点演练2 (1)A (2)ABC [解析] (1)选项A,经验回归直线必过点(,),所以选项A正确;选项B,当样本相关系数r>0时,说明两个变量正相关,所以选项B错误;选项C,模型的决定系数R2越大,说明残差平方和越小,拟合效果越好,因为0.88>0.80,所以模型甲的拟合效果更好,所以选项C错误;选项D,残差图中残差点所在的水平带状区域越宽,说明观测值与预报值之间的差距越大,数据分布越分散,因此经验回归方程的预报精确度就越差,所以选项D错误.故选A.(2)对于A,由残差图可知,残差分布比较均匀,且集中在x轴附近,所以由残差图可判定该品种树的树高与胸径的关系符合上述经验回归模型,选项 A正确;故选ABC.(3)解:①探究点三例4 (1)B [解析] 因为χ2≈0.837(2)解:①由已知得青年用户的人数为300-150=150,则解得②2×2列联表如下:单位:人组别 应用体验是否良好 合计是 否青年用户 120 30 150中年用户 60 90 150合计 180 120 300零假设为H0:这两组不同年龄段的用户对该软件的应用体验不存在差异,由题意可知χ2==50>10.828.根据小概率值α=0.01的独立性检验,推断H0不成立,所以认为用户的年龄段与对该软件的应用体验是否良好有关联,此推断犯错误的概率不大于0.001.对点演练3 (1)B [解析] 由题意知χ2≈3.918>3.841,所以对照题中的附表可推断“这种运动能起到预防感冒的作用”犯错误的概率不大于0.05.故选B.(2)解:①抽取的样本中日均体育锻炼时长不小于1小时的人数为42+3+1+137+40+27=250.设该地区29 000名学生中有x人的日均体育锻炼时长不小于1小时,则=,解得x=12 500.故该地区29 000名学生中日均体育锻炼时长不小于1小时的人数约为12 500.②依题意得,该地区初中学生日均体育锻炼时长为(0.25×139+0.75×191+1.25×179+1.75×43+2.25×28)÷580=540÷580≈0.9.所以该地区初中学生日均体育锻炼时长约为0.9小时.③对数据重新组合,得到2×2列联表如下:单位:人学业 成绩 日均体育锻炼 时长/小时 合计[1,2) 其他优秀 45 50 95不优秀 177 308 485合计 222 358 580零假设为H0:学业成绩优秀与日均体育锻炼时长不小于1小时且小于2小时无关联.经计算可得χ2=≈3.976>3.841,根据小概率值α=0.05的独立性检验,我们推断H0不成立,即认为学业成绩优秀与日均体育锻炼时长不小于1小时且小于2小时有关联,该推断犯错误的概率不超过0.05. 展开更多...... 收起↑ 资源列表 03 第54讲 成对数据的统计分析 【正文】.docx 03 第54讲 成对数据的统计分析 【答案】.docx