资源简介 (共69张PPT)第三讲 成对数据的统计分析1.了解样本相关系数的统计含义,会通过相关系数比较多组成对数据的相关性.2.了解一元线性回归模型的含义,了解最小二乘原理,掌握一元线性回归模型参数的最小二乘估计方法.3.理解 2×2 列联表的统计意义,了解 2×2 列联表独立性检验及其应用.1.回归分析(1)相关关系:两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系叫做相关关系.与函数关系不同,相关关系是一种非确定性关系.(2)散点图可以直观地判断两变量的关系是否可以用线性关系表示.若这些散点有 y 随 x 增大而增大的趋势,则称两个变量正相关;若这些散点有 y 随 x 增大而减小的趋势,则称两个变量负相关.(4)样本相关系数:它主要用于对成对样本数据的相关程度进行定量分析,以衡量它们之间的线性相关程度.当 r>0 时表示两个变量正相关,当r<0 时表示两个变量负相关.|r|越接近 1,表明两个变量的线性相关性越强;当|r|接近 0 时,表明两个变量间几乎不存在相关关系,相关性越弱.(5)残差①残差:对于响应变量 Y,通过观测得到的数据称为观测值,差..R2越接近 1,表示回归的效果越好.X Y 合计y1 y2x1 a b a+bx2 c d c+d合计 a+c b+d a+b+c+d2.独立性检验(1)2×2 列联表设 X,Y 为两个分类变量,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(2×2 列联表)如下:(2)独立性检验+d 为样本容量)来判断“两个分类变量是否独立”的方法称为独立性检验.(3)独立性检验的一般步骤①提出零假设H0:X和Y相互独立,并给出在问题中的解释.②根据样本数据列出2×2列联表.③计算随机变量χ2的值,查表确定临界值xα.④当χ2≥xα时,我们就推断H0不成立,即认为X和Y不独立,该推断犯错误的概率不超过α;当χ2【名师点睛】(1)回归分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图大致呈线性分布时,求出的线性回归方程才有实际意义,否则,求出的线性回归方程毫无意义.散点图大致呈曲线分布时,应选取合适的回归模型,再通过换元转化为线性回归.(2)独立性检验是对两个变量的关系的可信程度的判断.根据χ2的值可以判断两个分类变量有关的可信程度,并用来指导科研和实际生活.考点一 相关关系的判断1.对 4 组样本数据进行统计,获得如图所示的散点图,关于其)相关系数的比较,正确的是(样本相关系数为 r1(1)样本相关系数为 r2(2)样本相关系数为 r3(3)A.r2<r4<0<r3<r1C.r4<r2<0<r3<r1样本相关系数为 r4(4)B.r4<r2<0<r1<r3D.r2<r4<0<r1<r3解析:由散点图知图 1 与图 3 是正相关,故 r1>0,r3>0,图2 与图 4 是负相关,故 r2<0,r4<0,且图 1 与图 2 的样本点集中在一条直线附近,因此 r2<r4<0<r3<r1.故选 A.答案:A2.在一次对人体脂肪含量和年龄关系的研究中,研究人员获得了一组样本数据,并制作成如图所示的人体脂肪含量与年龄关系的散点图.根据该图,下列结论中正确的是()A. 人体脂肪含量与年龄正相关,且脂肪含量的中位数等于20%B. 人体脂肪含量与年龄正相关,且脂肪含量的中位数小于20%C. 人体脂肪含量与年龄负相关,且脂肪含量的中位数等于20%D. 人体脂肪含量与年龄负相关,且脂肪含量的中位数小于20%解析:观察题图,可知人体脂肪含量与年龄正相关,且脂肪含量的中位数小于 20%.故选 B.答案:B解析:由题图知去掉点 P 后相关性更强,拟合效果也更好,且还是正相关.故选 B.答案:B【题后反思】判定两个变量正、负相关的方法(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.(2)相关系数:r>0 时,两个变量正相关;r<0 时,两个变量负相关.售价 x/元 9 9.5 10 10.5 11销售量 y/件 11 10 8 6 5考点二 线性回归分析[例 1](1)(多选题)2025 年 3 月 15 日,某市物价部门对 5 家商场的某种商品一天的销售量及其价格进行调查,5 家商场的售价x(单位:元)和销售量 y(单位:件)之间的一组数据如表所示:答案:ABC(2)近年来,我国铁路事业取得历史性成就、发生历史性变革,铁路网规模质量大幅提升,我国已建成世界最大的高速铁路网.截至 2024 年底,我国铁路营业里程达 16.2 万千米,其中高铁营业里程 4.8 万千米,继续稳居世界第一.如图是我国 2016—2024 年高铁营业里程的发展情况(单位:104 km).①由散点图看出,可用线性回归模型拟合高铁营业里程 y 与年份代码 x 的关系,请用相关系数加以说明(结果精确到 0.001.当0.75<|r|≤1 时,认为线性相关性较强;当 0.3<|r|≤0.75 时,认为线性相关性一般;当|r|≤0.3 时,认为线性相关性较弱).②求 y 关于 x 的线性回归方程,并预测到哪一年我国高铁的营业里程将达到 7×104 km.参考公式:相关系数【题后反思】回归分析问题的类型及解题方法(1)求经验回归方程①根据散点图判断两变量是否线性相关,如不是,应通过换元构造线性相关.年份 x 2019 2020 2021 2022 2023储蓄存款 y/千亿元 5 6 7 8 10【变式训练】随着经济的发展,某地居民收入逐年增长.该地某银行连续五年的储蓄存款(年底余额)如下表:为了研究计算的方便,工作人员将上表的数据进行了处理,令 t=x-2 018,z=y-5,得到下表:t 1 2 3 4 5z 0 1 2 3 5考点三 独立性检验[例 2](2023 年全国甲卷文科)一项试验旨在研究臭氧效应,试验方案如下:选 40 只小白鼠,随机地将其中 20 只分配到试验组,另外 20 只分配到对照组,试验组的小白鼠饲养在高浓度臭氧环境,对照组的小白鼠饲养在正常环境,一段时间后统计每只小白鼠体重的增加量(单位:g).试验结果如下:对照组的小白鼠体重的增加量从小到大排序为15.2 18.8 20.2 21.3 22.5 23.2 25.8 26.5 27.5 30.1 32.6 34.3 34.8 35.6 35.6 35.836.2 37.3 40.5 43.2试验组的小白鼠体重的增加量从小到大排序为7.8 9.2 11.4 12.4 13.2 15.5 16.5 18.0 18.8 19.2 19.8 20.2 21.6 22.8 23.6 23.9 25.1 28.232.3 36.5组别 小于 m 不小于 m对照组试验组(1)计算试验组的样本平均数.(2)①求 40 只小白鼠体重的增加量的中位数 m,再分别统计两样本中小于 m 与不小于 m 的数据的个数,完成如下列联表.α 0.100 0.050 0.010xα 2.706 3.841 6.635②根据①中的列联表,能否有 95%的把握认为小白鼠在高浓度臭氧环境中与在正常环境中体重的增加量有差异?组别 小于 m 不小于 m对照组 6 14试验组 14 6(2)①由题意知,这 40只小白鼠体重增加量的中位数是将两组数据合在一起,从小到大排列后第 20 位与第 21 位数据的平均数.因为第 20 位数据为 23.2,第 21 位数据为 23.6,填写列联表如下:②零假设为 H0:小白鼠体重的增加量与是否饲养在高浓度臭氧环境中无关.根据列联表中数据,计算得到根据小概率值α=0.050 的独立性检验,我们推断 H0 不成立.所以有 95%的把握认为小白鼠在高浓度臭氧环境中与在正常环境中体重的增加量有差异.【题后反思】独立性检验的一般步骤(1)根据样本数据制成 2×2 列联表,提出零假设 H0.分数段/分 甲班人数/人 乙班人数/人[0,30) 3 6[30,60) 6 6[60,90) 9 12[90,120) 6 3[120,150] 6 3【变式训练】(2024 年四川泸州二模)某数学老师在其任教的甲、乙两个班级中各抽取 30 名学生进行测试,测试成绩的分布如下表所示.(1)若成绩在 120 分以上(含 120 分)为优秀,求从乙班参加测试的成绩在 90 分以上(含 90 分)的学生中,随机抽取 2 名学生,恰有1 名为优秀的概率.班级 优秀 不优秀 合计甲班乙班合计(2)根据以上数据完成下面的 2×2 列联表,并判断在犯错的概率不超过 0.1 的前提下,是否有足够的把握认为学生的数学成绩优秀与否和班级有关?xα 2.706 3.841 6.635 7.879 10.828α 0.1 0.05 0.01 0.005 0.001解:(1)乙班参加测试的成绩为 90 分及以上的学生有 6 人,其中成绩优秀的有 3 人,则从这 6 人中随机抽取 2 人,恰有 1 人为优秀的概率为班级 优秀 不优秀 合计甲班 6 24 30乙班 3 27 30合计 9 51 60(2)由题表可得 2×2 列联表如下:零假设为 H0:学生的数学成绩优秀与否和班级无关.根据列联表中数据计算得到根据小概率值α=0.1 的独立性检验,没有充分证据推断 H0不成立,因此可以认为 H0 成立,即认为学生的数学成绩优秀与否和班级无关.⊙非线性回归的应用问题[例 3](2024 年湖南邵阳三模)某市开展“安全随我行”活动,交警部门在某个交通路口增设监控摄像头,并记录了某月该路口连续 10 日骑电动自行车未佩戴头盔的人数 y 与天数 x 的情况,对统计得到的样本数据(xi,yi)(i=1,2,…,10)作了初步处理,得到下面的散点图及一些统计量的值.(1)依据散点图推断,y=bx+a与y=ebx+a哪一个更适合作为未佩戴头盔人数 y 与天数 x 的回归方程?(给出判断即可,不必说明理由)(2)依据(1)的结果和上表中的数据求出 y 关于 x 的回归方程.年龄 佩戴头盔情况 合计不佩戴 佩戴成年 8 12 20未成年 14 6 20合计 22 18 40(3)为了解佩戴头盔情况与年龄的关联性,交警对该路口骑电动自行车的市民进行调查,得到如下列联表:依据α=0.1 的独立性检验,能否认为市民骑电动自行车佩戴头盔情况与年龄有关联?α 0.1 0.05 0.01 0.005 0.001xα 2.706 3.841 6.635 7.879 10.828(3)零假设为 H0:市民骑电动自行车佩戴头盔情况与年龄无关联.根据列联表中的数据,经计算得到根据小概率值α=0.1 的独立性检验,我们推断 H0 不成立,即认为市民骑电动自行车佩戴头盔情况与年龄有关联,此推断犯错误的概率不超过 0.1.【反思感悟】有些非线性回归分析问题并不给出经验公式,这时我们可以画出已知数据的散点图,把它与学过的各种函数(幂函数、指数函数、对数函数等)的图象进行比较,结合题目给出的数据,挑选一种跟这些散点拟合得最好的函数,用适当的变量进行变换,把问题化为线性回归问题.【高分训练】分别用两种模型进行拟合:①y=bx+a,②y=bln x+a,得到相应的回归方程,并进行残差分析,得到如图 2 所示的残差图(残差值=观测值-预测值).图 1图 2(1)根据题中信息,通过残差图比较模型①和模型②的拟合效果,应选择哪一个模型进行拟合?请说明理由.(2)根据(1)中所选模型,回答下列问题.①求出 y 关于 x 的经验回归方程(系数精确到 0.1).②若该电商平台每年活动当天线上日销售额 y(单位:1010 元)与当日营销成本 u(单位:1010 元)及年份序号 x 存在线性关系 y=3u+2.6x,则在第几年活动当日营销成本的预测值最大?解:(1)由残差图可知模型①的残差值比较分散并远离横轴,所以模型①的残差平方和大于模型②的残差平方和,所以应选择模型②.(2)①令 t=ln x,可得 y=bt+a, 展开更多...... 收起↑ 资源预览