资源简介 (共70张PPT)第三节成对数据的统计分析明确目标1.了解样本相关系数的统计含义,会通过样本相关系数比较多组成对数据的相关性.2.掌握一元线性回归模型参数的最小二乘估计方法,会使用相关的统计软件.3.针对实际问题,会用一元线性回归模型进行预测.4.理解2×2列联表的统计意义.了解2×2列联表独立性检验及其应用.目录01.课前·“四基”落实02.课堂·题点精研03.课时跟踪检测课前·“四基”落实01教材再回首1.变量的相关关系(1)正相关和负相关:从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现______的趋势,我们就称这两个变量________;当一个变量的值增加时,另一个变量的相应值呈现_____的趋势,则称这两个变量_______.(2)线性相关:一般地,如果两个变量的取值呈现___相关或___相关,而且散点落在__________附近,我们就称这两个变量线性相关.(3)非线性相关或曲线相关:一般地,如果两个变量具有相关性,但不是线性相关,那么我们就称这两个变量非线性相关或曲线相关.增加正相关减小负相关正负一条直线2.样本相关系数(1)样本相关系数r=(2)样本相关系数r的性质①当r>0时,称成对样本数据________;当r<0时,称成对样本数据________;当r=0时,只表明成对样本数据间没有线性相关关系,但不排除它们之间有其他相关关系.②|r|≤1.当|r|越接近于1,成对样本数据的线性相关程度越____;|r|越接近于0,成对样本数据线性相关程度越_____.正相关负相关强弱3.一元线性回归模型(1)一元线性回归模型我们称为Y关于x的一元线性回归模型.其中,Y称为因变量或响应变量,x称为自变量或解释变量;a和b为模型的未知参数,a称为截距参数,b称为斜率参数;e是Y与bx+a之间的随机误差.(2)经验回归方程与最小二乘估计经验回归方程:=x+.最小二乘估计:=-.说明:经验回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线.经验回归直线过点().(3)残差:对于响应变量Y,通过观测得到的数据称为观测值,通过经验回归方程得到的称为预测值,观测值减去_________所得到的差称为残差.(4)决定系数:决定系数R2用来比较两个模型的拟合效果,R2=1-.其中 (yi-)2是残差平方和,R2越大(越接近1),表示残差平方和越小,即模型的拟合效果越好;R2越小,表示残差平方和越大,即模型的拟合效果越差.预测值4.列联表与独立性检验(1)2×2列联表:一般地,假设有两个分类变量X和Y,它们的取值为{0,1},其样本频数列联表(称为2×2列联表)为X Y 合计Y=0 Y=1X=0 a b a+bX=1 c d c+d合计 a+c b+d n=a+b+c+d(2)独立性检验χ2=.利用χ2的取值推断分类变量X和Y是否独立的方法称为χ2独立性检验,读作“卡方独立性检验”,简称独立性检验.(3)临界值对于任何小概率值α,可以找到相应的正实数xα,使得P(χ2≥xα)=α成立,我们称xα为α的临界值,这个临界值可作为判断χ2大小的标准.概率值α越小,临界值xα________.下表给出了χ2独立性检验中5个常用的小概率值和相应的临界值.越大α 0.1 0.05 0.01 0.005 0.001xα 2.706 3.841 6.635 7.879 10.828(4)基于小概率值α的检验规则当χ2≥xα时,我们就推断H0___________,即认为X和Y________,该推断犯错误的概率不超过α;当χ2不成立不独立独立课堂·题点精研02[例1] (2024·广安二模)某公司收集了某商品销售收入y(万元)与相应的广告支出x(万元)共10组数据(xi,yi)(i=1,2,3,…,10),绘制出如下散点图,并利用线性回归模型进行拟合.若将图中10个点中去掉A点后再重新进行线性回归分析,则下列说法正确的是 ( )题点一 成对数据的相关性A.决定系数R2变小B.残差平方和变小C.样本相关系数r的值变小D.解释变量x与响应变量y的相关性变弱解析:从题图中可以看出A点较其他点偏离直线远,故去掉A点后,回归效果更好,故决定系数R2会变大,更接近于1,残差平方和变小,样本相关系数r的绝对值,即|r|会更接近于1,由题图可得x与y正相关,故r会更接近于1,即样本相关系数r的值变大,解释变量x与响应变量y的相关性变强,故A、C、D错误,B正确.√判定两个变量相关性的方法(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.(2)样本相关系数:当r>0时,正相关;当r<0时,负相关;|r|越接近于1,相关性越强.(3)决定系数法:利用决定系数判定,R2越接近1,模型的拟合效果越好,相关性越强.思维建模1.(苏教选必修②P153“思考”改编)下列四个散点图中,变量x与y之间具有负的线性相关关系的是 ( )即时训练√2.(2024·南昌三模)如图对两组数据x,y和v,u分别进行回归分析,得到散点图如图,并求得经验回归方程分别是=x+和=v+,并对变量x,y进行线性相关检验,得到样本相关系数r1,对变量v,u进行线性相关检验,得到样本相关系数r2,则下列判断正确的是( )A.b1>0 B.b2<0C.|r1|<|r2| D.r1+r2<0解析:由散点图可知,x与y负相关,v与u正相关,则<0,>0,故A、B错误;且图形中点(x,y)比(v,u)更加集中在一条直线附近,则|r1|>|r2|.又r1<0,r2>0,得r1+r2<0,故C错误,D正确.√考法(一) 一元线性回归模型[例2] 为实施乡村振兴,科技兴农,某村建起了田园综合体,并从省城请来专家进行技术指导.根据统计,该田园综合体西红柿亩产量的增加量y(千克)与某种液体肥料每亩使用量x(千克)之间的对应数据如下.题点二 回归模型x/千克 2 4 5 6 8y/千克 300 400 400 400 500(1)由上表数据可知,可用线性回归模型拟合y与x的关系,请计算样本相关系数r并加以说明;(若|r|>0.75,则线性相关程度很高,可用线性回归模型拟合)解:由已知数据可得=×(2+4+5+6+8)=5,=×(300+400+400+400+500)=400,(xi-)(yi-)=600, (xi-)2=20,(yi-)2=20 000,∴样本相关系数r==≈0.95.∵|r|>0.75,∴可用线性回归模型拟合y与x的关系.(2)求y关于x的经验回归方程,并预测当液体肥料每亩使用量为20千克时,西红柿亩产量的增加量约为多少千克 参考数据:≈3.16.解:= ==30,=-=400-30×5=250,∴经验回归方程为=30x+250.当x=20时,=30×20+250=850.即当液体肥料每亩使用量为20千克时,西红柿亩产量的增加量约为850千克.回归分析问题的类型及解题方法(1)求经验回归方程:①当两个系数均未知时,可利用公式法求解;②当两个系数已知一个求另一个时,可利用经验回归直线过样本点的中心求解.(2)利用经验回归方程进行预测,把经验回归方程看作一次函数,求函数值.(3)经验回归方程的拟合效果可以利用样本相关系数判断,当|r|越趋近于1时,两变量的线性相关性越强.思维建模考法(二) 非线性回归模型[例3] (2025·广州模拟)一企业生产某种产品,通过加大技术创新投入降低了每件产品成本,为了调查年技术创新投入x(单位:千万元)对每件产品成本y(单位:元)的影响,对近10年的年技术创新投入xi和每件产品成本yi(i=1,2,3,…,10)的数据进行分析,得到如下散点图,并计算得=6.8,=70, =3, =1.6, =350.(1)根据散点图可知,可用函数模型=+拟合y与x的关系,试建立y关于x的回归方程;解:令u=,则=0.3.则y关于u的经验回归方程为=+u,由题意可得= ==200,=-=70-200×0.3=10,则=10+200u,所以y关于x的回归方程为=10+.(2)已知该产品的年销售额m(单位:千万元)与每件产品成本y的关系为m=-+++100.该企业的年投入成本除了年技术创新投入,还要投入其他成本10千万元,根据(1)的结果回答:当年技术创新投入x为何值时,年利润的预报值最大 (注:年利润=年销售额-年投入成本)解:由=10+可得x=,年利润M=m-x-10=-+++100--10=-(y-20)2+90.8,当y=20时,年利润M取得最大值,此时x===20,所以当年技术创新投入为20千万元时,年利润的预报值最大.(1)非线性回归分析问题的解题方法:借助散点图,确定合适的非线性回归模型,再通过变换,转化为求线性经验回归方程,最后还原.(2)常见非线性经验回归方程的变换:①=+(x-c)2→=+t(令t=(x-c)2);②=+ln(x-c)→=+t(令t=ln(x-c));③=+→=+t(令t=);思维建模④=+→=+t;⑤=·→ln =ln +xln →=+x,其中3.[多选]某厂近几年陆续购买了几台A型机床,该型机床已投入生产的时间x(单位:年)与当年所需要支出的维修费用y(单位:万元)有如下统计资料:根据表中的数据可得到经验回归方程为y=1.23x+,则( )即时训练X 2 3 4 5 6Y 2.2 3.8 5.5 6.5 7A.y与x的样本相关系数r≥0B.=0.08C.表中维修费用的第60百分位数为6D.该型机床已投入生产的时间为10年时,当年所需要支出的维修费用一定是12.38万元√√解析:根据题意可得=4,=×(2.2+3.8+5.5+6.5+7)=5,所以样本中心点为(4,5),由表中数据可得y随着x的增大而增大,x与y正相关,所以样本相关系数r>0,r=0时x与y不相关,故A错误;将样本中心点(4,5)代入经验回归方程y=1.23x+,解得=0.08,故B正确;维修费用从小到大依次为2.2,3.8,5.5,6.5,7,第60百分位数为=6,故C正确;根据回归分析的概念,机床投入生产的时间为10年时,所需要支出的维修费用大概是12.38万元,故D错误.4.某企业为响应国家号召,汇聚科研力量,加强科技创新,准备加大研发资金投入,为了解年研发资金投入额x(单位:亿元)对年盈利额y(单位:亿元)的影响,通过对“十二五”和“十三五”规划发展10年期间年研发资金投入额xi和年盈利额yi(i=1,2,…,10)数据进行分析,建立了两个函数模型:y=α+βx2;y=eλx+t,其中α,β,λ,t均为常数,e为自然对数的底数,ui=,vi=ln yi(i=1,2,…,10).经计算得如下数据:(1)请从样本相关系数的角度,分析哪一个模型拟合度更好 解:设模型y=α+βx2的样本相关系数为r1,模型y=eλx+t的样本相关系数为r2,对于模型y=α+βx2,令u=x2,即y=α+βu,所以r1==≈0.87.对于模型y=eλx+t,有ln y=ln eλx+t=λx+t,令v=ln y,即v=λx+t,所以r2===0.9.因为r1(2)根据(1)的选择及表中数据,建立y关于x的回归方程.(系数精确到0.01)解:因为===0.18,=-=5.36-0.18×26=0.68,所以y关于x的回归方程为=e0.18x+0.68.反思领悟:对y=eλx+t取对数得ln y=λx+t,求得v关于x的线性回归方程,再转化为y关于x的回归方程,是处理本题的难点和关键点.[例4] (2025年1月·八省高考适应性演练)为考察某种药物A对预防疾病B的效果,进行了动物(单位:只)试验,得到如下列联表.题点三 独立性检验药物 疾病 合计未患病 患病未服用 100 80 s服用 150 70 220合计 250 t 400(1)求s,t;解:由列联表知s=100+80=180,t=80+70=150.(2)记未服用药物A的动物患疾病B的概率为p,给出p的估计值;解:由列联表知未服用药物A的动物有s=180(只),未服用药物A且患疾病B的动物有80只,所以未服用药物A的动物患疾病B的频率为=,所以未服用药物A的动物患疾病B的概率的估计值为p=.(3)根据小概率值α=0.01的独立性检验,能否认为药物A对预防疾病B有效 附:χ2=.P(χ2≥k) 0.050 0.010 0.001k 3.841 6.635 10.828解:零假设为H0:药物A对预防疾病B无效,由列联表得到χ2==≈6.734>6.635.根据小概率值α=0.01的独立性检验,推断H0不成立,即认为药物A对预防疾病B有效,该推断犯错误的概率不超过0.01,所以根据小概率值α=0.01的独立性检验,能认为药物A对预防疾病B有效.独立性检验的一般步骤(1)根据样本数据制成2×2列联表.(2)根据公式χ2=计算.(3)比较χ2与临界值的大小关系,作统计推断.思维建模5.(2025·绵阳阶段练习)2021年8月,义务教育阶段“双减”政策出台,某初中在课后延时服务开设奥数、科技、体育等特色课程.为了进一步了解学生选课的情况,随机选取了400人进行调查问卷,整理后获得如下统计表:即时训练 喜欢奥数 不喜欢奥数 合计已选奥数课(A组) 150 50 200未选奥数课(B组) 90 110 200合计 240 160 400(1)若从样本内喜欢奥数的240人中用分层随机抽样的方法随机抽取32人,则应在A组、B组各抽取多少人 解:应在A组抽取×150=20人,应在B组抽取×90=12人.(2)依据小概率值α=0.005的独立性检验,能否认为选报奥数延时课与喜欢奥数有关 α 0.1 0.05 0.01 0.005 0.001xα 2.706 3.841 6.635 7.879 10.828解:零假设为H0:选报奥数延时课与喜欢奥数无关联,根据列联表中的数据,经计算可得χ2==37.5>7.879,根据小概率值α=0.005的独立性检验,我们推断零假设不成立,即认为选报奥数延时课与喜欢奥数有关联,此推断犯错误的概率不大于0.005.课时跟踪检测03一、单选题1.甲、乙、丙、丁四位同学各自对A,B两个变量的线性相关性做试验,并用回归分析方法分别求得样本相关系数r与残差平方和m,如下表:则哪位同学的试验结果体现A,B两个变量有更强的线性相关性 ( )A.甲 B.乙C.丙 D.丁解析:r的绝对值越大,m越小,线性相关性越强.√15678234 甲 乙 丙 丁r 0.82 0.78 0.69 0.85m 106 115 124 103√156782342.根据分类变量X和Y的样本观察数据的计算结果,有不少于99.5%的把握认为X和Y有关,则χ2的一个可能取值为 ( )A.3.971 B.5.872C.6.775 D.9.698解析:因为有不少于99.5%的把握认为X和Y有关,所以χ2≥7.879,9.698>7.879,满足题意,故选D.α 0.10 0.05 0.025 0.010 0.005xα 2.706 3.841 5.024 6.635 7.879二、多选题3.为了解阅读量多少与幸福感强弱之间的关系,一个调查机构根据所得到的数据,绘制了如下所示的2×2列联表(个别数据暂用字母表示):15678234 幸福感强 幸福感弱 合计阅读量多 m 18 72阅读量少 36 n 78合计 90 60 150计算得χ2≈12.981,参照下表:对于下面的选项,正确的是 ( )A.根据小概率值α=0.010的独立性检验,可以认为“阅读量多少与幸福感强弱无关”B.m=54C.根据小概率值α=0.005的独立性检验,可以在犯错误的概率不超过0.5%的前提下认为“阅读量多少与幸福感强弱有关”D.n=5215678234α 0.10 0.05 0.025 0.010 0.005 0.001xα 2.706 3.841 5.024 6.635 7.879 10.828√√解析:∵χ2≈12.981>7.879>6.635,∴根据小概率值α=0.010的独立性检验,可以在犯错误的概率不超过1%的前提下认为“阅读量多少与幸福感强弱有关”,根据小概率值α=0.005的独立性检验,可以在犯错误的概率不超过0.5%的前提下认为“阅读量多少与幸福感强弱有关”,∴A错误,C正确.∵m+36=90,18+n=60,∴m=54,n=42,∴B正确,D错误.15678234三、填空题4.(2025·江门阶段练习)已知x,y之间的一组数据:若y与满足经验回归方程=+,则此曲线必过点_________. 15678234x 1 4 9 16y 1 2.98 5.01 7.01(6.25,4)解析:由已知=+,设t=,则=t+,由经验回归直线性质可得()在直线=t+上,又=×(1+2+3+4)=2.5,=×(1+2.98+5.01+7.01)=4,所以点(2.5,4)在直线=t+上,故点(6.25,4)在曲线=+上.156782345.一项研究同年龄段的男、女生的注意力差别的脑功能实验,其实验数据如表所示.则χ2=_______ (精确到小数点后三位),依据概率值α=0.05的独立性检验,该实验______该年龄段的学生在注意力的稳定性上对于性别没有显著差异.(填“拒绝”或“支持”) 15678234性别 注意力稳定 不稳定男 29 7女 33 5 支持0.538解析:由表中数据可知a=29,b=7,c=33,d=5,n=a+b+c+d=74,根据χ2=,计算可知χ2=≈0.538<3.841=x0.05,所以没有充分证据认为学生在注意力的稳定性上与性别有关,即该实验支持该年龄段的学生在注意力的稳定性上对于性别没有显著差异.15678234四、解答题6.(10分)某地区的一种传染病与饮用水的调查表如下:15678234饮用水 是否得病 合计得病 不得病干净水 52 466 518不干净水 94 218 312合计 146 684 830(1)这种传染病是否与饮用水的卫生程度有关 请说明理由;(5分)解:零假设为H0:这种传染病与饮用水的卫生程度无关.=≈54.21>10.828=x0.001,根据小概率值α=0.001的独立性检验,可推断H0不成立,即认为该地区这种传染病与饮用水的卫生程度有关,此推断犯错误的概率不超过0.001.15678234(2)若饮用干净水得病5人,不得病50人;饮用不干净水得病9人,不得病22人.按此样本数据分析这种传染病是否与饮用水的卫生程度有关,并比较两个样本在反映总体时的差异.(5分)附:χ2=,其中n=a+b+c+d.15678234α 0.1 0.025 0.01 0.005 0.001xα 2.706 5.024 6.635 7.879 10.828解:依题意得2×2列联表如下:15678234饮用水 是否得病 合计得病 不得病干净水 5 50 55不干净水 9 22 31合计 14 72 86零假设为H0:这种传染病与饮用水的卫生程度无关.=≈5.785>5.024=x0.025,根据小概率值α=0.025的独立性检验,可推断H0不成立,即认为该种传染病与饮用水的卫生程度有关,此推断犯错误的概率不超过0.025.两个样本都能得到这种传染病与饮用水的卫生程度有关这一相同结论,但两者的准确程度不同.156782347.(10分)我国某农业大学植物研究所相关人员为了解仙人掌的植株高度y(单位:cm),与其根茎长度x(单位:cm)之间是否存在线性相关关系,通过采样和数据记录得到如下数据:15678234样本编号i 1 2 3 4根茎长度xi 10 12 14 16植株高度yi 62 86 112 132(1)由上表数据计算样本相关系数r,并说明是否可用线性回归模型拟合y与x的关系;(若|r|>0.75,则可用线性回归模型拟合,计算结果精确到0.001)(5分)解:易得=×(10+12+14+16)=13,=×(62+86+112+132)=98,(xi-)(yi-)=(-3)×(-36)+(-1)×(-12)+1×14+3×34=236,故r= ==≈≈0.998.则|r|>0.75,故可用线性回归模型模拟.15678234(2)求y关于x的经验回归方程.(5分)附:对于一组数据(x1,y1),(x2,y2),…,(xn,yn),其经验回归直线的斜率和截距的最小二乘估计公式、样本相关系数r的公式分别为==-,r=.参考数据: =20, =2 792,≈59.1.15678234解:= ==11.8,=-=98-11.8×13=-55.4,故y关于x的经验回归方程为=11.8x-55.4.156782348.(15分)数据显示,某企业近年加大了科技研发资金的投入,其科技投入x(百万元)与收益y(百万元)的数据统计如下:15678234科技投入x 1 2 3 4 5 6 7收益y 19 20 22 31 40 50 70根据数据特点,甲认为样本点分布在指数型曲线y=2bx+a的周围,据此他对数据进行了一些初步处理.如下表:其中zi=log2yi, = zi.15678234(1)请根据表中数据,建立y关于x的回归方程;(系数精确到0.1)(5分)解:将y=2bx+a两边取对数得log2y=bx+a,令z=log2y,则=x+,∵=4,∴根据最小二乘估计可知= =≈0.3,∴=-≈5-0.3×4=3.8,∴经验回归方程为=0.3x+3.8,即y关于x的回归方程为=20.3x+3.8.15678234(2)①乙认为样本点分布在直线y=mx+n的周围,并计算得经验回归方程为=8.25x+3,以及该回归模型的决定系数=0.893,试比较甲、乙两人所建立的模型,谁的拟合效果更好;(6分)②由①所得的结论,计算该企业欲使收益达到1亿元,科技投入的费用至少要多少百万元 (精确到0.1)(4分)参考公式及数据:决定系数R2=1- ;log25≈2.3.15678234解:①甲建立的回归模型的决定系数R2=1- =1-≈0.939>=0.893.∴甲建立的回归模型拟合效果更好.②由①知,甲建立的回归模型拟合效果更好.设20.3x+3.8≥100,两边取对数得0.3x+3.8≥log2100=2+2log25,解得x≥9.3.∴科技投入的费用至少要9.3百万元,该企业的收益才能达到1亿元.15678234第三节 成对数据的统计分析1.了解样本相关系数的统计含义,会通过样本相关系数比较多组成对数据的相关性.2.掌握一元线性回归模型参数的最小二乘估计方法,会使用相关的统计软件.3.针对实际问题,会用一元线性回归模型进行预测.4.理解2×2列联表的统计意义.了解2×2列联表独立性检验及其应用教材再回首1.变量的相关关系(1)正相关和负相关:从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现 的趋势,我们就称这两个变量 ;当一个变量的值增加时,另一个变量的相应值呈现 的趋势,则称这两个变量 . (2)线性相关:一般地,如果两个变量的取值呈现 相关或 相关,而且散点落在 附近,我们就称这两个变量线性相关. (3)非线性相关或曲线相关:一般地,如果两个变量具有相关性,但不是线性相关,那么我们就称这两个变量非线性相关或曲线相关.2.样本相关系数(1)样本相关系数r=.(2)样本相关系数r的性质①当r>0时,称成对样本数据 ;当r<0时,称成对样本数据 ;当r=0时,只表明成对样本数据间没有线性相关关系,但不排除它们之间有其他相关关系. ②|r|≤1.当|r|越接近于1,成对样本数据的线性相关程度越 ;|r|越接近于0,成对样本数据线性相关程度越 . 3.一元线性回归模型(1)一元线性回归模型我们称为Y关于x的一元线性回归模型.其中,Y称为因变量或响应变量,x称为自变量或解释变量;a和b为模型的未知参数,a称为截距参数,b称为斜率参数; e是Y与 bx+a之间的随机误差.(2)经验回归方程与最小二乘估计经验回归方程:=x+.最小二乘估计:== ,=-.说明:经验回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线.经验回归直线过点(,).(3)残差:对于响应变量Y,通过观测得到的数据称为观测值,通过经验回归方程得到的称为预测值,观测值减去 所得到的差称为残差. (4)决定系数:决定系数R2用来比较两个模型的拟合效果,R2=1-.其中 (yi-)2是残差平方和,R2越大(越接近1),表示残差平方和越小,即模型的拟合效果越好;R2越小,表示残差平方和越大,即模型的拟合效果越差.4.列联表与独立性检验(1)2×2列联表:一般地,假设有两个分类变量X和Y,它们的取值为{0,1},其样本频数列联表(称为2×2列联表)为X Y 合计Y=0 Y=1X=0 a b a+bX=1 c d c+d合计 a+c b+d n=a+b+c+d(2)独立性检验χ2=.利用χ2的取值推断分类变量X和Y是否独立的方法称为χ2独立性检验,读作“卡方独立性检验”,简称独立性检验.(3)临界值对于任何小概率值α,可以找到相应的正实数xα,使得P(χ2≥xα)=α成立,我们称xα为α的临界值,这个临界值可作为判断χ2大小的标准.概率值α越小,临界值xα . 下表给出了χ2独立性检验中5个常用的小概率值和相应的临界值.α 0.1 0.05 0.01 0.005 0.001xα 2.706 3.841 6.635 7.879 10.828(4)基于小概率值α的检验规则当χ2≥xα时,我们就推断H0 ,即认为X和Y ,该推断犯错误的概率不超过α; 当χ2题点一 成对数据的相关性 [例1] (2024·广安二模)某公司收集了某商品销售收入y(万元)与相应的广告支出x(万元)共10组数据(xi,yi)(i=1,2,3,…,10),绘制出如下散点图,并利用线性回归模型进行拟合.若将图中10个点中去掉A点后再重新进行线性回归分析,则下列说法正确的是 ( )A.决定系数R2变小B.残差平方和变小C.样本相关系数r的值变小D.解释变量x与响应变量y的相关性变弱|思维建模| 判定两个变量相关性的方法(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.(2)样本相关系数:当r>0时,正相关;当r<0时,负相关;|r|越接近于1,相关性越强.(3)决定系数法:利用决定系数判定,R2越接近1,模型的拟合效果越好,相关性越强.[即时训练]1.(苏教选必修②P153“思考”改编)下列四个散点图中,变量x与y之间具有负的线性相关关系的是 ( )2.(2024·南昌三模)如图对两组数据x,y和v,u分别进行回归分析,得到散点图如图,并求得经验回归方程分别是=x+和=v+,并对变量x,y进行线性相关检验,得到样本相关系数r1,对变量v,u进行线性相关检验,得到样本相关系数r2,则下列判断正确的是 ( )A.b1>0 B.b2<0C.|r1|<|r2| D.r1+r2<0题点二 回归模型 考法(一) 一元线性回归模型[例2] 为实施乡村振兴,科技兴农,某村建起了田园综合体,并从省城请来专家进行技术指导.根据统计,该田园综合体西红柿亩产量的增加量y(千克)与某种液体肥料每亩使用量x(千克)之间的对应数据如下.x/千克 2 4 5 6 8y/千克 300 400 400 400 500(1)由上表数据可知,可用线性回归模型拟合y与x的关系,请计算样本相关系数r并加以说明;(若|r|>0.75,则线性相关程度很高,可用线性回归模型拟合)(2)求y关于x的经验回归方程,并预测当液体肥料每亩使用量为20千克时,西红柿亩产量的增加量约为多少千克 参考数据:≈3.16.|思维建模| 回归分析问题的类型及解题方法(1)求经验回归方程:①当两个系数均未知时,可利用公式法求解;②当两个系数已知一个求另一个时,可利用经验回归直线过样本点的中心求解.(2)利用经验回归方程进行预测,把经验回归方程看作一次函数,求函数值.(3)经验回归方程的拟合效果可以利用样本相关系数判断,当|r|越趋近于1时,两变量的线性相关性越强.考法(二) 非线性回归模型[例3] (2025·广州模拟)一企业生产某种产品,通过加大技术创新投入降低了每件产品成本,为了调查年技术创新投入x(单位:千万元)对每件产品成本y(单位:元)的影响,对近10年的年技术创新投入xi和每件产品成本yi(i=1,2,3,…,10)的数据进行分析,得到如下散点图,并计算得=6.8,=70,=3,=1.6,=350.(1)根据散点图可知,可用函数模型=+拟合y与x的关系,试建立y关于x的回归方程;(2)已知该产品的年销售额m(单位:千万元)与每件产品成本y的关系为m=-+++100.该企业的年投入成本除了年技术创新投入,还要投入其他成本10千万元,根据(1)的结果回答:当年技术创新投入x为何值时,年利润的预报值最大 (注:年利润=年销售额-年投入成本)|思维建模| (1)非线性回归分析问题的解题方法:借助散点图,确定合适的非线性回归模型,再通过变换,转化为求线性经验回归方程,最后还原.(2)常见非线性经验回归方程的变换:①=+(x-c)2→=+t(令t=(x-c)2);②=+ln(x-c)→=+t(令t=ln(x-c));③=+→=+t(令t=);④=+→=+t;⑤=·→ln =ln +xln →=+x,其中[即时训练]3.[多选]某厂近几年陆续购买了几台A型机床,该型机床已投入生产的时间x(单位:年)与当年所需要支出的维修费用y(单位:万元)有如下统计资料:x 2 3 4 5 6y 2.2 3.8 5.5 6.5 7根据表中的数据可得到经验回归方程为y=1.23x+,则 ( )A.y与x的样本相关系数r≥0B.=0.08C.表中维修费用的第60百分位数为6D.该型机床已投入生产的时间为10年时,当年所需要支出的维修费用一定是12.38万元4.某企业为响应国家号召,汇聚科研力量,加强科技创新,准备加大研发资金投入,为了解年研发资金投入额x(单位:亿元)对年盈利额y(单位:亿元)的影响,通过对“十二五”和“十三五”规划发展10年期间年研发资金投入额xi和年盈利额yi(i=1,2,…,10)数据进行分析,建立了两个函数模型:y=α+βx2;y=eλx+t,其中α,β,λ,t均为常数,e为自然对数的底数,ui=,vi=ln yi(i=1,2,…,10).经计算得如下数据:=26 =215 =680 =5.36(xi-)2 =100 (ui-)2 =22 500 (ui-)(yi-) =260 (yi- )2=4(vi-)2 =4 (xi-)(vi-) =18 (1)请从样本相关系数的角度,分析哪一个模型拟合度更好 (2)根据(1)的选择及表中数据,建立y关于x的回归方程.(系数精确到0.01)题点三 独立性检验 [例4] (2025年1月·八省高考适应性演练)为考察某种药物A对预防疾病B的效果,进行了动物(单位:只)试验,得到如下列联表.药物 疾病 合计未患病 患病未服用 100 80 s服用 150 70 220合计 250 t 400(1)求s,t;(2)记未服用药物A的动物患疾病B的概率为p,给出p的估计值;(3)根据小概率值α=0.01的独立性检验,能否认为药物A对预防疾病B有效 附:χ2=.P(χ2≥k) 0.050 0.010 0.001k 3.841 6.635 10.828|思维建模| 独立性检验的一般步骤(1)根据样本数据制成2×2列联表.(2)根据公式χ2=计算.(3)比较χ2与临界值的大小关系,作统计推断.[即时训练]5.(2025·绵阳阶段练习)2021年8月,义务教育阶段“双减”政策出台,某初中在课后延时服务开设奥数、科技、体育等特色课程.为了进一步了解学生选课的情况,随机选取了400人进行调查问卷,整理后获得如下统计表:喜欢奥数 不喜欢奥数 合计已选奥数课(A组) 150 50 200未选奥数课(B组) 90 110 200合计 240 160 400(1)若从样本内喜欢奥数的240人中用分层随机抽样的方法随机抽取32人,则应在A组、B组各抽取多少人 (2)依据小概率值α=0.005的独立性检验,能否认为选报奥数延时课与喜欢奥数有关 α 0.1 0.05 0.01 0.005 0.001xα 2.706 3.841 6.635 7.879 10.828第三节 成对数据的统计分析课前·“四基”落实[教材再回首]1.(1)增加 正相关 减小 负相关 (2)正 负 一条直线2.(2)正相关 负相关 强 弱3.(2) (3)预测值4.(3)越大 (4)不成立 不独立 独立课堂·题点精研题点一[例1] 选B 从题图中可以看出A点较其他点偏离直线远,故去掉A点后,回归效果更好,故决定系数R2会变大,更接近于1,残差平方和变小,样本相关系数r的绝对值,即|r|会更接近于1,由题图可得x与y正相关,故r会更接近于1,即样本相关系数r的值变大,解释变量x与响应变量y的相关性变强,故A、C、D错误,B正确.[即时训练]1.D2.选D 由散点图可知,x与y负相关,v与u正相关,则<0,>0,故A、B错误;且图形中点(x,y)比(v,u)更加集中在一条直线附近,则|r1|>|r2|.又r1<0,r2>0,得r1+r2<0,故C错误,D正确.题点二[例2] 解:(1)由已知数据可得=×(2+4+5+6+8)=5,=×(300+400+400+400+500)=400,(xi-)(yi-)=600 (xi-)2=20,(yi-)2=20 000,∴样本相关系数r==≈0.95.∵|r|>0.75,∴可用线性回归模型拟合y与x的关系.(2)===30,=-=400-30×5=250,∴经验回归方程为=30x+250.当x=20时,=30×20+250=850.即当液体肥料每亩使用量为20千克时,西红柿亩产量的增加量约为850千克.[例3] 解:(1)令u=,则=0.3.则y关于u的经验回归方程为=+u,由题意可得===200,=-=70-200×0.3=10,则=10+200u,所以y关于x的回归方程为=10+.(2)由=10+可得x=,年利润M=m-x-10=-+++100--10=-(y-20)2+90.8,当y=20时,年利润M取得最大值,此时x===20,所以当年技术创新投入为20千万元时,年利润的预报值最大.[即时训练]3.选BC 根据题意可得=4,=×(2.2+3.8+5.5+6.5+7)=5,所以样本中心点为(4,5),由表中数据可得y随着x的增大而增大,x与y正相关,所以样本相关系数r>0,r=0时x与y不相关,故A错误;将样本中心点(4,5)代入经验回归方程y=1.23x+,解得=0.08,故B正确;维修费用从小到大依次为2.2,3.8,5.5,6.5,7,第60百分位数为=6,故C正确;根据回归分析的概念,机床投入生产的时间为10年时,所需要支出的维修费用大概是12.38万元,故D错误.4.解:(1)设模型y=α+βx2的样本相关系数为r1,模型y=eλx+t的样本相关系数为r2,对于模型y=α+βx2,令u=x2,即y=α+βu,所以r1==≈0.87.对于模型y=eλx+t,有ln y=ln eλx+t=λx+t,令v=ln y,即v=λx+t,所以r2===0.9.因为r1(2)因为===0.18,=-=5.36-0.18×26=0.68,所以y关于x的回归方程为=e0.18x+0.68.反思领悟:对y=eλx+t取对数得ln y=λx+t,求得v关于x的线性回归方程,再转化为y关于x的回归方程,是处理本题的难点和关键点.题点三[例4] 解:(1)由列联表知s=100+80=180,t=80+70=150.(2)由列联表知未服用药物A的动物有s=180(只),未服用药物A且患疾病B的动物有80只,所以未服用药物A的动物患疾病B的频率为=,所以未服用药物A的动物患疾病B的概率的估计值为p=.(3)零假设为H0:药物A对预防疾病B无效,由列联表得到χ2==≈6.734>6.635.根据小概率值α=0.01的独立性检验,推断H0不成立,即认为药物A对预防疾病B有效,该推断犯错误的概率不超过0.01,所以根据小概率值α=0.01的独立性检验,能认为药物A对预防疾病B有效.[即时训练]5.解:(1)应在A组抽取×150=20人,应在B组抽取×90=12人.(2)零假设为H0:选报奥数延时课与喜欢奥数无关联,根据列联表中的数据,经计算可得χ2==37.5>7.879,根据小概率值α=0.005的独立性检验,我们推断零假设不成立,即认为选报奥数延时课与喜欢奥数有关联,此推断犯错误的概率不大于0.005.课时跟踪检测(七十一) 成对数据的统计分析一、单选题1.甲、乙、丙、丁四位同学各自对A,B两个变量的线性相关性做试验,并用回归分析方法分别求得样本相关系数r与残差平方和m,如下表:甲 乙 丙 丁r 0.82 0.78 0.69 0.85m 106 115 124 103则哪位同学的试验结果体现A,B两个变量有更强的线性相关性 ( )A.甲 B.乙C.丙 D.丁2.根据分类变量X和Y的样本观察数据的计算结果,有不少于99.5%的把握认为X和Y有关,则χ2的一个可能取值为 ( )α 0.10 0.05 0.025 0.010 0.005xα 2.706 3.841 5.024 6.635 7.879A.3.971 B.5.872C.6.775 D.9.698二、多选题3.为了解阅读量多少与幸福感强弱之间的关系,一个调查机构根据所得到的数据,绘制了如下所示的2×2列联表(个别数据暂用字母表示):幸福感强 幸福感弱 合计阅读量多 m 18 72阅读量少 36 n 78合计 90 60 150计算得χ2≈12.981,参照下表:α 0.10 0.05 0.025 0.010 0.005 0.001xα 2.706 3.841 5.024 6.635 7.879 10.828对于下面的选项,正确的是 ( )A.根据小概率值α=0.010的独立性检验,可以认为“阅读量多少与幸福感强弱无关”B.m=54C.根据小概率值α=0.005的独立性检验,可以在犯错误的概率不超过0.5%的前提下认为“阅读量多少与幸福感强弱有关”D.n=52三、填空题4.(2025·江门阶段练习)已知x,y之间的一组数据:若y与满足经验回归方程=+,则此曲线必过点 . x 1 4 9 16y 1 2.98 5.01 7.015.一项研究同年龄段的男、女生的注意力差别的脑功能实验,其实验数据如表所示.则χ2= (精确到小数点后三位),依据概率值α=0.05的独立性检验,该实验 该年龄段的学生在注意力的稳定性上对于性别没有显著差异.(填“拒绝”或“支持”) 性别 注意力稳定 不稳定男 29 7女 33 5四、解答题6.(10分)某地区的一种传染病与饮用水的调查表如下:饮用水 是否得病 合计得病 不得病干净水 52 466 518不干净水 94 218 312合计 146 684 830(1)这种传染病是否与饮用水的卫生程度有关 请说明理由;(5分)(2)若饮用干净水得病5人,不得病50人;饮用不干净水得病9人,不得病22人.按此样本数据分析这种传染病是否与饮用水的卫生程度有关,并比较两个样本在反映总体时的差异.(5分)附:χ2=,其中n=a+b+c+d.α 0.1 0.025 0.01 0.005 0.001xα 2.706 5.024 6.635 7.879 10.8287.(10分)我国某农业大学植物研究所相关人员为了解仙人掌的植株高度y(单位:cm),与其根茎长度x(单位:cm)之间是否存在线性相关关系,通过采样和数据记录得到如下数据:样本编号i 1 2 3 4根茎长度xi 10 12 14 16植株高度yi 62 86 112 132(1)由上表数据计算样本相关系数r,并说明是否可用线性回归模型拟合y与x的关系;(若|r|>0.75,则可用线性回归模型拟合,计算结果精确到0.001)(5分)(2)求y关于x的经验回归方程.(5分)附:对于一组数据(x1,y1),(x2,y2),…,(xn,yn),其经验回归直线的斜率和截距的最小二乘估计公式、样本相关系数r的公式分别为= ,=-,r= .参考数据: =20, =2 792,≈59.1.8.(15分)数据显示,某企业近年加大了科技研发资金的投入,其科技投入x(百万元)与收益y(百万元)的数据统计如下:科技投入x 1 2 3 4 5 6 7收益y 19 20 22 31 40 50 70根据数据特点,甲认为样本点分布在指数型曲线y=2bx+a的周围,据此他对数据进行了一些初步处理.如下表:5 140 1 239 149 2 134 130其中zi=log2yi,=.(1)请根据表中数据,建立y关于x的回归方程;(系数精确到0.1)(5分)(2)①乙认为样本点分布在直线y=mx+n的周围,并计算得经验回归方程为=8.25x+3,以及该回归模型的决定系数=0.893,试比较甲、乙两人所建立的模型,谁的拟合效果更好;(6分)②由①所得的结论,计算该企业欲使收益达到1亿元,科技投入的费用至少要多少百万元 (精确到0.1)(4分)参考公式及数据:决定系数R2=1-;log25≈2.3.课时跟踪检测(七十一)1.选D r的绝对值越大,m越小,线性相关性越强.2.选D 因为有不少于99.5%的把握认为X和Y有关,所以χ2≥7.879,9.698>7.879,满足题意,故选D.3.选BC ∵χ2≈12.981>7.879>6.635,∴根据小概率值α=0.010的独立性检验,可以在犯错误的概率不超过1%的前提下认为“阅读量多少与幸福感强弱有关”,根据小概率值α=0.005的独立性检验,可以在犯错误的概率不超过0.5%的前提下认为“阅读量多少与幸福感强弱有关”,∴A错误,C正确.∵m+36=90,18+n=60,∴m=54,n=42,∴B正确,D错误.4.解析:由已知=+,设t=,则=t+,由经验回归直线性质可得(,)在直线=t+上,又=×(1+2+3+4)=2.5,=×(1+2.98+5.01+7.01)=4,所以点(2.5,4)在直线=t+上,故点(6.25,4)在曲线=+上.答案:(6.25,4)5.解析:由表中数据可知a=29,b=7,c=33,d=5,n=a+b+c+d=74,根据χ2=,计算可知χ2=≈0.538<3.841=x0.05,所以没有充分证据认为学生在注意力的稳定性上与性别有关,即该实验支持该年龄段的学生在注意力的稳定性上对于性别没有显著差异.答案:0.538 支持6.解:(1)零假设为H0:这种传染病与饮用水的卫生程度无关.=≈54.21>10.828=x0.001,根据小概率值α=0.001的独立性检验,可推断H0不成立,即认为该地区这种传染病与饮用水的卫生程度有关,此推断犯错误的概率不超过0.001.(2)依题意得2×2列联表如下:饮用水 是否得病 合计得病 不得病干净水 5 50 55不干净水 9 22 31合计 14 72 86零假设为H0:这种传染病与饮用水的卫生程度无关.=≈5.785>5.024=x0.025,根据小概率值α=0.025的独立性检验,可推断H0不成立,即认为该种传染病与饮用水的卫生程度有关,此推断犯错误的概率不超过0.025.两个样本都能得到这种传染病与饮用水的卫生程度有关这一相同结论,但两者的准确程度不同.7.解:(1)易得=×(10+12+14+16)=13,=×(62+86+112+132)=98,(xi-)(yi-)=(-3)×(-36)+(-1)×(-12)+1×14+3×34=236,故r===≈≈0.998.则|r|>0.75,故可用线性回归模型模拟.(2)===11.8,=-=98-11.8×13=-55.4,故y关于x的经验回归方程为=11.8x-55.4.8.解:(1)将y=2bx+a两边取对数得log2y=bx+a,令z=log2y,则=x+,∵=4,∴根据最小二乘估计可知==≈0.3,∴=-≈5-0.3×4=3.8,∴经验回归方程为=0.3x+3.8,即y关于x的回归方程为=20.3x+3.8.(2)①甲建立的回归模型的决定系数R2=1-=1-≈0.939>=0.893.∴甲建立的回归模型拟合效果更好.②由①知,甲建立的回归模型拟合效果更好.设20.3x+3.8≥100,两边取对数得0.3x+3.8≥log2100=2+2log25,解得x≥9.3.∴科技投入的费用至少要9.3百万元,该企业的收益才能达到1亿元. 展开更多...... 收起↑ 资源列表 第三节 成对数据的统计分析.pptx 第三节 成对数据的统计分析.docx 课时跟踪检测(七十一) 成对数据的统计分析.docx