资源简介 统计案例一、 课堂目标1.能够利用相关系数判断两个变量之间的相关关系.2.熟练求解线性回归方程,并能够根据回归方程进行预测.3.掌握卡方计算公式,能够利用独立性检验判断两个变量是否相关.二、 知识讲解1. 一元线性回归模型知识精讲(1)如果由变量的成对数据、散点图或直观经验可知,变量 与变量 之间的关系可以近似地用一次函数来刻画,则称 与 线性相关;(2)如果一个变量增大,另一个变量大体上也增大,则称这两个变量正相关;如果一个变量增大,另一个变量大体上减少,则称这两个变量负相关.2. 回归直线方程知识精讲(1)用最小二乘法求线性回归方程对于一组具有线性相关关系的数据: , , , , ,我们知道其回归直线的斜率和截距的最小二乘法估计分别为:其中 , , 称为样本点的中心,位于回归直线上.(2)相关系数对于变量 与 随机抽到的 对数据 , , , , ,可以利用相关系数 来衡量两个变量之间线性相关关系,样本相关系数的计算公式为:1.具体评判结果如下:① 时,表示两个变量正相关;② 时,表示两个变量负相关;③ 越接近于 ,表明两个变量的线性相关程度越强;④ 越接近于 ,表明两个变量的线性相关程度越弱.(3)非线性回归①非线性相关关系研究两个变量的关系是,我们常常根据样本生成点坐标在平面直角坐标系中作出散点图,观察散点图中样本点的分布.从整体看,如果样本点并没有分布在某一条直线附近,我们就称这两个变量之间不具有线性相关关系,也就是非线性相关关系.②确定函数模型根据散点图的分布,若呈现出的是非线性相关关系,我们可以根据散点的分布形状选择其他函数模型),然后利用代数转化手段,将非线性函数转化为线性函数,再作出散点图或计算线性相关系数.(4)常见函数模型的转化①幂函数型移项: ;取对数: ;作变换: ,此时上式变为线性函数 .计算分析:先将原数据点 计算转化为 ,然后根据线性回归模型求解出 和 .②指数函数型移项: ;取对数: ;作变换: ,此时上式变为线性函数 .计算分析:先将原数据点 计算转化为 ,然后根据线性回归模型求解出 和 .经典例题1. 某产品的广告费用 与销售额 的统计数据如下表2广告费用 (万元)销售额 (万元)根据上表可得回归方程 中的 为 ,据此模型预报广告费用为 万元时销售额为( ).A. 万元 B. 万元 C. 万元 D. 万元巩固练习2. 登山族为了了解某山高 与气温 之间的关系,随机统计了 次山高与相应的气温,并制作了对照表:气温山高由表中数据得到线性回归方程 ,由此估计出山高为 处气温的度数为().A. B. C. D.经典例题3. 某电脑公司有 名产品推销员,其中 名推销员的工作年限与年推销金额数据如下表所示:推销员编号工作年限(年)年推销金额(万元)( 1 )求年推销金额 与工作年限 之间的相关系数(精确到小数点后两位);( 2 )求年推销金额 关于工作年限 的线性回归方程;( 3 )若第 名推销员的工作年限为 年,试估计他的年推销金额.巩固练习4. 在某小区随机抽取 名成年男子测量他们的体重, 表示第一年的体重, 表示第二年的体重,数据如下:( 1 )对变量 与 进行相关性检验;( 2 )如果 与 具有线性相关关系,求回归直线方程.经典例题5.3近年来,随着汽车消费的普及,二手车流通行业得到迅猛发展.某汽车交易市场对 年成交的二手车的交易前的使用时间(以下简称“使用时间”)进行统计,得到如图 所示的频率分布直方图.在图 对使用时间的分组中,将使用时间落入各组的频率视为概率.频率组距图 使用时间 年( 1 )若在该交易市场随机选取 辆 年成交的二手车,求恰有 辆使用年限在 的概率.( 2 )根据该汽车交易市场往年的数据,得到图 所示的散点图,其中 (单位:年)表示二手车的使用时间, (单位:万元)表示相应的二手车的平均交易价格.平均交易价格万元图 使用时间 年1 由散点图判断,可采用 作为该交易市场二手车平均交易价格 关于其使用年限的回归方程,相关数据如下表(表 , ):试选用表中数据,求出 关于 的回归方程.2 该汽车交易市场拟定两个收取佣金的方案供选择.甲:对每辆二手车统一收取成交价格的 的佣金;乙:对使用 年以内(含 年)的二手车收取成交价格的 的佣金,对使用时间 年以上(不含 年)的二手车收取成交价格的 的佣金.4假设采用何种收取佣金的方案不影响该交易市场的成交量,根据回归方程和图表 ,并用各时间组的区间中点值代表该组的各个值.判断该汽车交易市场应选择哪个方案能获得更多佣金.附注:.对于一组数据 , , , ,其回归直线 的斜率和截距的最小二乘估计分别为 , ;.参考数据: , , , ,.巩固练习6. 一只药用昆虫的产卵数 与一定范围内的温度 有关,现收集了该种药用昆虫的 组观测数据如下表:温度产卵数 个经计算得: , , ,, ,线性回归模型的残差平方和, ,其中 , 分别为观测数据中的温度和产卵数, ,, , , , .( 1 )若用线性回归模型,求 关于 的回归方程 (精确到 ).( 2 )若用非线性回归模型求得 关于 的回归方程 ,且相关指数 .1 试与( )中的回归模型相比,用 说明哪种模型的拟合效果更好.2 用拟合效果好的模型预测温度为 时该种药用昆虫的产卵数(结果取整数).3. 随机误差与残差知识精讲(1)随机误差①概念:线性回归模型 ①来表示,其中 和 为模型的未知参数, 称为随机误差.②产生随机误差的原因主要有以下几种:(ⅰ)所用的确定性函数不恰当引起的误差;(ⅱ)忽略了某些因素的影响;5(ⅲ)存在观测误差.(2)残差①残差的定义在实际应用中,我们用回归方程 中的估计①中的 .由于随机误差 ( ),所以 是 的估计量.对于样本点 而言,它们的随机误差为其估计值为称为相应于点 的残差.②残差图下表列出了女大学生身高和体重的原始数据以及相应的残差的数据.编号 1 2 3 4 5 6 7 8身高/ 165 165 157 170 175 165 155 170体重/ 48 57 50 54 64 61 43 59残差 -6.373 2.627 2.419 -4.618 1.137 6.627 -2.883 0.382我们可以利用图形来分析残差特性.作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重估计值等,这样作出的图形称为残差图.如下图:③ 的计算常用来刻画回归的效果,其计算公式是: .知识点睛6残差分析的一般方法:①作残差图.如果残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适.这样的带状区域的宽度越窄,说明模型拟合精度越高,线性回归方程的预报精度越高;如果残差点分布不均匀,应首先确认采集的样本点是否有误,如果数据采集有错误,就予以纠正,然后再重新利用线性回归模型来拟合数据;如果数据的采集没有错误,那么需要寻找其他的原因.②计算相关指数 .根据 来刻画回归的效果.对于已经获取的样本数据,表达式中的 为确定的数.因此:越大,残差平方和 越小,即模型的拟合效果越好;越小,残差平方和 越大,即模型的拟合效果越差.经典例题7. 已知方程 是根据女大学生的身高预报她的体重的回归方程,其中 的单位是 ,的单位是 ,那么针对某个体 的残差是 .8. 甲、乙、丙、丁四位同学各自对 , 两个变量的线性相关性做试验,并用回归分析方法分别求得相关系数 与残差平方和 ,如下表:甲 乙 丙 丁则哪位同学的试验结果体现 , 两变量有更强的线性相关性( ).A. 甲 B. 乙 C. 丙 D. 丁巩固练习9. 在两个变量 与 的回归模型中,分别选择了四个不同的模型,它们的相关指数 如下,其中拟合效果最好的为( ).A. 模型①的相关指数为 B. 模型②的相关指数为C. 模型③的相关指数为 D. 模型④的相关指数为10. 在下列说法中,真命题的个数是( ).7①随机误差是引起预报值与真实值之间误差的原因之一;②残差平方和越小,预报精度越高;③用相关指数来刻画回归的效果, 的值越接近 ,说明模型的拟合效果越好;④因为由任何一组观测值都可以求得一个回归直线方程,所以没有必要进行相关性检验.A. B. C. D.4. 建立回归模型的基本步骤知识精讲一般地,建立回归模型的基本步骤为:(1)确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量 .(2)画出解释变量和预报变量的散点图,观察它们之间的关系(如是否存在线性关系等).(3)由经验确定回归方程的类型(如我们观察到数据呈线性关系,则选用线性回归方程).(4)按一定规则(如最小二乘法)估计回归方程中的参数.(5)得出结果后分析残差图是否有异常(如个别数据对应残差过大,残差呈现不随机的规律性等).若存在异常,则检查数据是否有误,或模型是否合适等.经典例题11. 运动员训练次数与运动成绩之间的数据关系如下:次数( )成绩( )( 1 )做出散点图.( 2 )求出线性回归方程.( 3 )做出残差图.( 4 )计算 .( 5 )预试测该运动员训练 次及 次的成绩.5. 独立性检验知识精讲(1)分类变量对于性别变量,其取值为男和女两种.这种变量的不同“值”表示个体所属的不同类别,像这样的变量称为“分类变量”.在现实生活中,分类变量是大量存在的,例如吸烟变量有吸烟和不吸烟两个“值”,月份变量有十二个“值”.8在日常生活中,我们常常关心两个分类变量之间是否有关系.例如,吸烟与患肺癌是否有关系?性别是否对喜欢数学课程有影响?等等.下面我们借助一个实例来体验一下:为研究吸烟是否对患肺癌有影响,某肿瘤研究所随机地调查了 人,得到如下结果:不患肺癌 患肺癌 总计不吸烟吸烟总计像上表这样列出的两个分类变量的频数表,称为列联表.由上表可以粗略估计出:在不吸烟样本中,有 患肺癌;在吸烟样本中,有 患肺癌,因此直观上可以得出结论:吸烟和患肺癌有关.(2)独立性检验利用统计分析的手段作研究:先假设 :吸烟与患肺癌没有关系.用 表示不吸烟, 表示不患肺癌,则“吸烟与患肺癌没有关系”等价于“吸烟与患肺癌独立”,即.把上表中的数字用字母代替,得到如下用字母表示的列联表:不患肺癌 患肺癌 总计不吸烟吸烟总计在上表中, 恰好为事件 发生的频数; 和 恰好分别为事件 和事件 发生的频数.因为频率接近于概率.所以在 成立的条件下应该有:(其中 为样本容量).将上式化简得到 .因此, 越小,说明吸烟与患肺癌之间关系越弱; 越大,说明吸烟与患肺癌之间关系越强.9为了使不同样本容量的数据有统一的评判标准,构造一个随机变量(其中 为样本容量).若假设 成立,即“吸烟与患肺癌没有关系”,则 应该很小.根据数字列联表中的数据,计算得到 的观测值约为 .这个值到底能告诉我们什么呢?统计学家经过研究后发现,在 成立的情况下, .即在 成立的情况下, 的观测值超过 的概率非常小,近似为 ,是一个小概率事件.而现在 的观测值约为 ,远远大于阀值 .所以我们有理由断定 不成立,即认为“吸烟与患肺癌有关系”.但这种判断需要承担不超过 的风险(即这种判断犯错误的概率不超过 ).知识点睛独立性检验的具体步骤:(1)准确作出列联表;(2)统计假设 成立;(3)计算 ;(4)将上一步计算得到的观测值与临界值 比较,从而接收或拒绝假设 .经典例题12. 通过随机询问 名性别不同的大学生是否爱好某项运动,得到如下的列联表:男 女 总计爱好不爱好总计由 算得, .参照附表,得到的正确结论是( ).A. 在犯错误的概率不超过 的前提下,认为“爱好该项运动与性别有关”B. 在犯错误的概率不超过 的前提下,认为“爱好该项运动与性别无关”C. 有 以上的把握认为“爱好该项运动与性别有关”D. 有 以上的把握认为“爱好该项运动与性别无关”10巩固练习13. 为了增强环保意识,某校从男生中随机制取了 人,从女生中随机制取了 人参加环保知识测试,统计数据如表所示,经计算 ,则环保知识是否优秀与性别有关的把握为( ).优秀 非优秀 总计男生女生总计附: .A. B. C. D.14. 某疾病研究所想知道吸烟与患肺病是否有关,于是随机抽取 名成年人调查是否吸烟是否患有肺病,得到 列联表,经计算的 .已知在假设吸烟与患肺病无关的前提条件下,, ,则该研究所可以( ).A. 有 以上的把握认为“吸烟与患肺病有关”B. 有 以上的把握认为“吸烟与患肺病无关”C. 有 以上的把握认为“吸烟与患肺病有关”D. 有 以上的把握认为“吸烟与患肺病无关”经典例题15. 某企业为了更好地了解设备改造与生产合格品的关系,随机抽取了 件产品进行分析,其中设备改造前生产的合格品有 件,不合格品有 件;设备改造后生产的合格品有 件,不合格品有件,根据上面的数据,计算 的值约为 (精确到 ).巩固练习16. 在独立性检验中,统计量 有两个临界值: 和 .当 时,有 的把握说明两个事件相关;当 时,有 的把握说明两个事件相关;当 时,认为两个事件无关;在一项调查某种药是否对心脏病有治疗作用时,共调查了 人,经计算 ,根据这一数据分析,认为此药物与心脏病之间( ).A. 有 的把握认为两者相关11B. 约有 的心脏病患者使用药物有作用C. 有 的把握认为两者相关D. 约有 的心脏病患者使用药物有作用经典例题17. 年底,湖北省武汉市等多个地区陆续出现感染新型冠状病毒肺炎的患者.为及时有效地对疫情数据进行流行病学统计分析,某地研究机构针对该地实际情况,根据该地患者是否有武汉旅行史与是否有确诊病例接触史,将新冠肺炎患者分为四类;有武汉旅行史(无接触史),无武汉旅行史(无接触史),有武汉旅行史(有接触史)和无武汉旅行史(有接触史),统计得到以下相关数据.( 1 )请将列联表填写完整:有接触史 无接触史 总计有武汉旅行史无武汉旅行史总计( 2 )能否在犯错误的概率不超过 的前提下认为有武汉旅行史与有确诊病例接触史有关系?附: , ,巩固练习18. 为了调查某大学学生在某天上网的时间,随机对 名男生和 名女生进行了不记名的问卷调查.得到了如下的统计结果:表 :男生上网时间与频数分布表上网时间(分钟) , , , , ,人数表 :女生上网时间与频数分布表上网时间(分钟) , , , , ,人数( 1 )完成下面的 列联表:上网时间少于 分钟 上网时间不少于 分钟 合计男生12女生合计( 2 )能否有 的把握认为“大学生上网时间与性别有关”?经典例题19. 年,在《我是演说家》第四季这档节目中,英国华威大学留学生游斯彬的“数学之美”的演讲视频在微信朋友圈不断被转发,他的视角独特,语言幽默,给观众留下了深刻的印象.某机构为了了解观众对该演讲的喜爱程度,随机调查了观看了该演讲的 名观众,得到如下的列联表:(单位:名)男 女 总计喜爱不喜爱总计( 1 )根据以上列联表,问能否在犯错误的概率不超过 的前提下认为观众性别与喜爱该演讲有关.(精确到 )( 2 )从这 名男观众中按对该演讲是否喜爱采取分层抽样,抽取一个容量为 的样本,然后随机选取两名作跟踪调查,求选到的两名观众都喜爱该演讲的概率.附:临界值表参考公式: , .巩固练习20. 海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了 个网箱,测量各箱水产品的产量(单位: ),其频率分布直方图如下:13频率 组距箱产量旧养殖法频率 组距箱产量新养殖法( 1 )记事件 表示事件“旧养殖法的箱产量低于 ”,求事件 的概率.( 2 )填写下面列联表,并根据列联表判断是否有 的把握认为箱产量与养殖方法有关:箱产量 箱产量旧养殖法新养殖法( 3 )根据箱产量的频率分布直方图,对两种养殖方法的优劣进行比较.附:14三、 思维导图你学会了吗?画出思维导图总结本课所学吧!四、 出门测21. 在 年 月 日,某物价部门对本市 家商场某商品一天的销售额及其价格进行调查, 家商场的价格 与销售额 之间的一组数据如下表所示:价格(单位:元)销售额(单位:千元)由散点图可知,销售额 与价格 之间有较好的线性相关关系,且回归直线方程是 .则( ).A. B. C. D.22. 随着我国经济的发展,居民的储蓄存款逐年增长.设某地区城乡居民人民币储蓄存款(年底余额)如下表:年份储蓄存款 (千亿元)注:, .( 1 )求 关于 的回归方程 .( 2 )用所求的回归方程预测该地区 年的人民币储蓄存款.23. “微信运动”是一个类似计步数据库的公众帐号.用户只需以运动手环或手机协处理器的运动数据为介,然后关注该公众号,就能看见自己与好友每日行走的步数,并在同一排行榜上得以体现.现随机选取朋友圈中的 人,记录了他们某一天的走路步数,并将数据整理如下:步数/步 以上男性人数/人女性人数/人规定:人一天行走的步数超过 步时被系统速定为“积极性”,否则为“懈怠性”.15( 1 )填写下面列联表(单位:人),根据列联表判断是否有 的把握认为 “评定类型与性别有关”:积极性 懈怠性 总计男女总计附.( 2 )为了进一步了解“懈息性”人群中每个人的生活习惯,从步行数在 的人群中再随机抽取 人,求选中的人中男性人数超过女性人数的概率.16统计案例一、 课堂目标1.能够利用相关系数判断两个变量之间的相关关系.2.熟练求解线性回归方程,并能够根据回归方程进行预测.3.掌握卡方计算公式,能够利用独立性检验判断两个变量是否相关.【备注】【教师指导】1.统计案例属于高考必考内容,在文科中常与统计与概率一起考查,以一道解答题出现在高考试卷中,在期中期末考试中也属于重点考查对象.本讲的重点是掌握相关系数,能够利用相关系数判断两个变量间的相关关系;能够根据题意熟练求解线性回归方程,并能够根据回归方程对变量进行预测;掌握卡方计算公式,能够利用独立性检验判断两个变量是否相关;重点题型是统计案例与统计、概率的综合.2.本讲的关联知识是统计、概率二、 知识讲解1. 一元线性回归模型知识精讲(1)如果由变量的成对数据、散点图或直观经验可知,变量 与变量 之间的关系可以近似地用一次函数来刻画,则称 与 线性相关;(2)如果一个变量增大,另一个变量大体上也增大,则称这两个变量正相关;如果一个变量增大,另一个变量大体上减少,则称这两个变量负相关.2. 回归直线方程知识精讲(1)用最小二乘法求线性回归方程对于一组具有线性相关关系的数据: , , , , ,我们知道其回归直线的斜率和截距的最小二乘法估计分别为:1其中 , , 称为样本点的中心,位于回归直线上.(2)相关系数对于变量 与 随机抽到的 对数据 , , , , ,可以利用相关系数 来衡量两个变量之间线性相关关系,样本相关系数的计算公式为:.具体评判结果如下:① 时,表示两个变量正相关;② 时,表示两个变量负相关;③ 越接近于 ,表明两个变量的线性相关程度越强;④ 越接近于 ,表明两个变量的线性相关程度越弱.(3)非线性回归①非线性相关关系研究两个变量的关系是,我们常常根据样本生成点坐标在平面直角坐标系中作出散点图,观察散点图中样本点的分布.从整体看,如果样本点并没有分布在某一条直线附近,我们就称这两个变量之间不具有线性相关关系,也就是非线性相关关系.②确定函数模型根据散点图的分布,若呈现出的是非线性相关关系,我们可以根据散点的分布形状选择其他函数模型),然后利用代数转化手段,将非线性函数转化为线性函数,再作出散点图或计算线性相关系数.(4)常见函数模型的转化①幂函数型移项: ;取对数: ;作变换: ,此时上式变为线性函数 .计算分析:先将原数据点 计算转化为 ,然后根据线性回归模型求解出 和 .②指数函数型2移项: ;取对数: ;作变换: ,此时上式变为线性函数 .计算分析:先将原数据点 计算转化为 ,然后根据线性回归模型求解出 和 .经典例题1. 某产品的广告费用 与销售额 的统计数据如下表广告费用 (万元)销售额 (万元)根据上表可得回归方程 中的 为 ,据此模型预报广告费用为 万元时销售额为( ).A. 万元 B. 万元 C. 万元 D. 万元【备注】【教师指导】熟练掌握线性回归方程中斜率和截距的公式,进而熟练求解线性回归方程.【答案】B【解析】计算得 , ,所以回归方程为 .当广告费用为 万元时,销售额约为 万元.故选 .【标注】【知识点】线性回归方程过平均数点;线性回归方程的其他应用;残差分析巩固练习2. 登山族为了了解某山高 与气温 之间的关系,随机统计了 次山高与相应的气温,并制作了对照表:气温山高由表中数据得到线性回归方程 ,由此估计出山高为 处气温的度数为().A. B. C. D.【答案】D3【解析】 , ,∵ ,∴ ,∴ ,令 ,得 .故选 .【标注】【知识点】线性回归方程的其他应用;线性回归方程过平均数点经典例题3. 某电脑公司有 名产品推销员,其中 名推销员的工作年限与年推销金额数据如下表所示:推销员编号工作年限(年)年推销金额(万元)( 1 )求年推销金额 与工作年限 之间的相关系数(精确到小数点后两位);( 2 )求年推销金额 关于工作年限 的线性回归方程;( 3 )若第 名推销员的工作年限为 年,试估计他的年推销金额.【备注】【教师指导】熟练掌握相关系数的公式、线性回归方程,并能够根据回归方程进行预测.【答案】( 1 )( 2 )( 3 ) 万元【解析】( 1 )由 ,, ,可得 .∴年推销金额 与工作年限 之间的相关系数约为 .( 2 )由( )知, .∴可认为年推销金额 关于工作年限 之间具有较强的的线性相关关系.设所求的线性回归方程为 ,则 , .∴年推销金额 关于工作年限 的线性回归方程为 .( 3 )由( )可知,当 时,4(万元).∴可以估计第 名推销员的年推销金额为 万元.【标注】【知识点】变量间的相关关系;残差分析巩固练习4. 在某小区随机抽取 名成年男子测量他们的体重, 表示第一年的体重, 表示第二年的体重,数据如下:( 1 )对变量 与 进行相关性检验;( 2 )如果 与 具有线性相关关系,求回归直线方程.【答案】( 1 ) 与 具有线性相关关系.( 2 )【解析】( 1 ) , , , , ,, ..又查表得,相应于显著水平 和自由度 的相关系数临界值,由 ,知 与 具有线性相关关系.( 2 )设回归直线方程为 ,则 ,,所以回归直线方程为.【标注】【知识点】残差分析;线性回归方程的其他应用经典例题55. 近年来,随着汽车消费的普及,二手车流通行业得到迅猛发展.某汽车交易市场对 年成交的二手车的交易前的使用时间(以下简称“使用时间”)进行统计,得到如图 所示的频率分布直方图.在图 对使用时间的分组中,将使用时间落入各组的频率视为概率.频率组距图 使用时间 年( 1 )若在该交易市场随机选取 辆 年成交的二手车,求恰有 辆使用年限在 的概率.( 2 )根据该汽车交易市场往年的数据,得到图 所示的散点图,其中 (单位:年)表示二手车的使用时间, (单位:万元)表示相应的二手车的平均交易价格.平均交易价格万元图 使用时间 年1 由散点图判断,可采用 作为该交易市场二手车平均交易价格 关于其使用年限的回归方程,相关数据如下表(表 , ):试选用表中数据,求出 关于 的回归方程.2 该汽车交易市场拟定两个收取佣金的方案供选择.甲:对每辆二手车统一收取成交价格的 的佣金;乙:对使用 年以内(含 年)的二手车收取成交价格的 的佣金,对使用时间 年以上(不含 年)的二手车收取成交价格的 的佣金.6假设采用何种收取佣金的方案不影响该交易市场的成交量,根据回归方程和图表 ,并用各时间组的区间中点值代表该组的各个值.判断该汽车交易市场应选择哪个方案能获得更多佣金.附注:.对于一组数据 , , , ,其回归直线 的斜率和截距的最小二乘估计分别为 , ;.参考数据: , , , ,.【备注】【教师指导】对于非线性函数要先转化成线性函数,然后再利用最小二乘法求线性回归方程.【答案】( 1 ) .( 2 )1 .2 甲方案.【解析】( 1 )由频率分布直方图知,该汽车交易市场 年成交的二手车使用时间在 的频率为 ,使用时间在 的频率为 .所以在该汽车交易市场 年成交的二手车随机选取 辆,其使用时间在 的概率为 ,所以所求的概率为 .( 2 )1 由 得 ,则 关于 的线性回归方程为 ,由于,,则 关于 的线性回归方程为 ,所以 关于 的回归方程为 .72 根据频率分布直方图和①中的回归方程,对成交的二手汽车可预测:使用时间在 的频率为 ,对应的成交价格的预测值为 ;使用时间在 的频率为 ,对应的成交价格预测值为 ;使用时间在 的频率为 ,对应的成交价格的预测值为 ;使用时间在 的频率为 ,对应的成交价格的预测值为 ;使用时间在 的频率为 ,对应的成交价格的预测值为 ;若采用甲方案,预计该汽车交易市场对于成交的每辆车可获得的平均佣金为万元;若采用乙方案,预计该汽车交易市场对于成交的每辆车可获得的平均佣金为万元;因为 ,所以采用甲方案能获得更多佣金.【标注】【知识点】频率分布直方图;残差分析;最小二乘法;线性回归方程过平均数点巩固练习6. 一只药用昆虫的产卵数 与一定范围内的温度 有关,现收集了该种药用昆虫的 组观测数据如下表:温度产卵数 个经计算得: , , ,, ,线性回归模型的残差平方和, ,其中 , 分别为观测数据中的温度和产卵数, ,, , , , .( 1 )若用线性回归模型,求 关于 的回归方程 (精确到 ).( 2 )若用非线性回归模型求得 关于 的回归方程 ,且相关指数 .1 试与( )中的回归模型相比,用 说明哪种模型的拟合效果更好.82 用拟合效果好的模型预测温度为 时该种药用昆虫的产卵数(结果取整数).【答案】( 1 ) .( 2 )1 回归方程 拟合效果更好.2 个.【解析】( 1 )由题意得, ,∴ ,∴ 关于 的线性回归方程为 .( 2 )1 由所给数据求得的线性回归方程为 ,相关指数为 ,因为 ,所以回归方程 比线性回归方程 拟合效果更好.2 由( )得当温度 时,.又∵ ,∴ (个).【标注】【知识点】相关系数问题;线性回归方程的其他应用;最小二乘法;残差分析3. 随机误差与残差知识精讲(1)随机误差①概念:线性回归模型 ①来表示,其中 和 为模型的未知参数, 称为随机误差.②产生随机误差的原因主要有以下几种:(ⅰ)所用的确定性函数不恰当引起的误差;(ⅱ)忽略了某些因素的影响;(ⅲ)存在观测误差.9(2)残差①残差的定义在实际应用中,我们用回归方程 中的估计①中的 .由于随机误差 ( ),所以 是 的估计量.对于样本点 而言,它们的随机误差为其估计值为称为相应于点 的残差.②残差图下表列出了女大学生身高和体重的原始数据以及相应的残差的数据.编号 1 2 3 4 5 6 7 8身高/ 165 165 157 170 175 165 155 170体重/ 48 57 50 54 64 61 43 59残差 -6.373 2.627 2.419 -4.618 1.137 6.627 -2.883 0.382我们可以利用图形来分析残差特性.作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重估计值等,这样作出的图形称为残差图.如下图:【备注】【教师指导】从图中可以看出,第1个样本点和第6个样本点的残差比较大,需要确认在采集这两个样本点的过程中是否有人为的错误.如果数据采集有错误,就予以纠正,然后再重新利用线性回归模型拟合数据;如果数据采集没有错误,则需要寻找其他的原因.另外,残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适.这样的带状区域的宽度越窄,说明模型拟合精度越高,回归方程的预报精度越高 .③ 的计算10常用来刻画回归的效果,其计算公式是: .知识点睛残差分析的一般方法:①作残差图.如果残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适.这样的带状区域的宽度越窄,说明模型拟合精度越高,线性回归方程的预报精度越高;如果残差点分布不均匀,应首先确认采集的样本点是否有误,如果数据采集有错误,就予以纠正,然后再重新利用线性回归模型来拟合数据;如果数据的采集没有错误,那么需要寻找其他的原因.②计算相关指数 .根据 来刻画回归的效果.对于已经获取的样本数据,表达式中的 为确定的数.因此:越大,残差平方和 越小,即模型的拟合效果越好;越小,残差平方和 越大,即模型的拟合效果越差.经典例题7. 已知方程 是根据女大学生的身高预报她的体重的回归方程,其中 的单位是 ,的单位是 ,那么针对某个体 的残差是 .【备注】【教师指导】掌握残差的概念,会计算残差.【答案】【解析】因为回归方程为 ,所以当 时,, 所以针对某个体 的残差是, 故答案为: .【标注】【知识点】残差分析;线性回归方程的其他应用118. 甲、乙、丙、丁四位同学各自对 , 两个变量的线性相关性做试验,并用回归分析方法分别求得相关系数 与残差平方和 ,如下表:甲 乙 丙 丁则哪位同学的试验结果体现 , 两变量有更强的线性相关性( ).A. 甲 B. 乙 C. 丙 D. 丁【备注】【教师指导】①相关系数的绝对值越接近于1,相关性越强;②残差平方和越小,相关性越强.【答案】D【解析】在验证两个变量之间的线性相关关系中,相关系数的绝对值越接近于 ,相关性越强,在四个选项中只有丁的相关系数最大,残差平方和越小,相关性越强,只有丁的残差平方和最小,综上可知丁的试验结果体现 、 两变量有更强的线性相关性,故选: .【标注】【知识点】变量间的相关关系巩固练习9. 在两个变量 与 的回归模型中,分别选择了四个不同的模型,它们的相关指数 如下,其中拟合效果最好的为( ).A. 模型①的相关指数为 B. 模型②的相关指数为C. 模型③的相关指数为 D. 模型④的相关指数为【答案】A【解析】根据相关指数 的值越大,模型拟合的效果越好,比较 、 、 、 选项, 的相关指数最大,∴模型①拟合的效果最好.故选 .【标注】【知识点】残差分析1210. 在下列说法中,真命题的个数是( ).①随机误差是引起预报值与真实值之间误差的原因之一;②残差平方和越小,预报精度越高;③用相关指数来刻画回归的效果, 的值越接近 ,说明模型的拟合效果越好;④因为由任何一组观测值都可以求得一个回归直线方程,所以没有必要进行相关性检验.A. B. C. D.【答案】C【解析】随机误差是引起预报值与真实值之间存在误差的原因之一,故①正确;残差平方和越小,预报精度越高,故②正确;相关指数 用来刻画回归效果, 越接近于 ,则残差平方的和越小,模型的拟合效果越好,故③正确;因为由任何一组观测值都可以求得一个回归直线方程,检验有意义,必须进行相关性检验,故④错误.故选 .【标注】【知识点】相关系数问题;变量间的相关关系;残差分析4. 建立回归模型的基本步骤知识精讲一般地,建立回归模型的基本步骤为:(1)确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量 .(2)画出解释变量和预报变量的散点图,观察它们之间的关系(如是否存在线性关系等).(3)由经验确定回归方程的类型(如我们观察到数据呈线性关系,则选用线性回归方程).(4)按一定规则(如最小二乘法)估计回归方程中的参数.(5)得出结果后分析残差图是否有异常(如个别数据对应残差过大,残差呈现不随机的规律性等).若存在异常,则检查数据是否有误,或模型是否合适等.经典例题11. 运动员训练次数与运动成绩之间的数据关系如下:次数( )成绩( )13( 1 )做出散点图.( 2 )求出线性回归方程.( 3 )做出残差图.( 4 )计算 .( 5 )预试测该运动员训练 次及 次的成绩.【备注】【教师指导】进一步加深学生对建立回归模型基本步骤的掌握.【答案】( 1 )见解析.( 2 ) $.( 3 )见解析.( 4 ) .( 5 ) 和 .【解析】( 1 )做出运动员训练次数 和与成绩 的散点图,如图所示,由散点图可知,它们之间具有相关关系.( 2 ) , , , , ,∴ , ,14∴回归直线方程 .( 3 )残差分析:下面的表格列出了运动员训练次数和成绩的原始数据以及相应的残差数据.作残差图,如图所示,由图可知,残差点比较均匀地分布在水平带状区域内,说明选择的模型比较合适.( 4 )计算相关指数 ,说明了该运动员的成绩的差异有 是由训练次数引起的.( 5 )做出预报:由上述分析可知,回归直线方程 可以作为该运动员训练成绩的预报值.将 和 分别代入该方程可得 、 ,故预测该运动员训练 次和 次的成绩分别为 和 .【标注】【知识点】残差分析;线性回归方程的其他应用;变量间的相关关系;散点图5. 独立性检验知识精讲(1)分类变量对于性别变量,其取值为男和女两种.这种变量的不同“值”表示个体所属的不同类别,像这样的变量称为“分类变量”.在现实生活中,分类变量是大量存在的,例如吸烟变量有吸烟和不吸烟两个“值”,月份变量有十二个“值”.【备注】【教师指导】分类变量中所谓的“变量”和“值”都应该作广义的理解,它们并不是指具体的数值.例如对于性别变量,“变量”指的是性别,而“值”指的是男和女.在日常生活中,我们常常关心两个分类变量之间是否有关系.例如,吸烟与患肺癌是否有关系?性别是否对喜欢数学课程有影响?等等.下面我们借助一个实例来体验一下:为研究吸烟是否对患肺癌有影响,某肿瘤研究所随机地调查了 人,得到如下结果:15不患肺癌 患肺癌 总计不吸烟吸烟总计像上表这样列出的两个分类变量的频数表,称为列联表.由上表可以粗略估计出:在不吸烟样本中,有 患肺癌;在吸烟样本中,有 患肺癌,因此直观上可以得出结论:吸烟和患肺癌有关.(2)独立性检验利用统计分析的手段作研究:先假设 :吸烟与患肺癌没有关系.用 表示不吸烟, 表示不患肺癌,则“吸烟与患肺癌没有关系”等价于“吸烟与患肺癌独立”,即.把上表中的数字用字母代替,得到如下用字母表示的列联表:不患肺癌 患肺癌 总计不吸烟吸烟总计在上表中, 恰好为事件 发生的频数; 和 恰好分别为事件 和事件 发生的频数.因为频率接近于概率.所以在 成立的条件下应该有:(其中 为样本容量).将上式化简得到 .因此, 越小,说明吸烟与患肺癌之间关系越弱; 越大,说明吸烟与患肺癌之间关系越强.为了使不同样本容量的数据有统一的评判标准,构造一个随机变量(其中 为样本容量).若假设 成立,即“吸烟与患肺癌没有关系”,则 应该很小.根据数字列联表中的数据,计算得到 的观测值约为 .16这个值到底能告诉我们什么呢?统计学家经过研究后发现,在 成立的情况下, .即在 成立的情况下, 的观测值超过 的概率非常小,近似为 ,是一个小概率事件.而现在 的观测值约为 ,远远大于阀值 .所以我们有理由断定 不成立,即认为“吸烟与患肺癌有关系”.但这种判断需要承担不超过 的风险(即这种判断犯错误的概率不超过 ).知识点睛独立性检验的具体步骤:(1)准确作出列联表;(2)统计假设 成立;(3)计算 ;(4)将上一步计算得到的观测值与临界值 比较,从而接收或拒绝假设 .经典例题12. 通过随机询问 名性别不同的大学生是否爱好某项运动,得到如下的列联表:男 女 总计爱好不爱好总计由 算得, .参照附表,得到的正确结论是( ).A. 在犯错误的概率不超过 的前提下,认为“爱好该项运动与性别有关”B. 在犯错误的概率不超过 的前提下,认为“爱好该项运动与性别无关”C. 有 以上的把握认为“爱好该项运动与性别有关”D. 有 以上的把握认为“爱好该项运动与性别无关”【备注】【教师指导】本题主要通过独立性检验判断两个变量是否相关.【答案】C17【解析】 .即在犯错误的概率不超过 或有 以上的把握认为“爱好该项运动与性别有关”.【标注】【知识点】列联表、卡方计算;独立性检验巩固练习13. 为了增强环保意识,某校从男生中随机制取了 人,从女生中随机制取了 人参加环保知识测试,统计数据如表所示,经计算 ,则环保知识是否优秀与性别有关的把握为( ).优秀 非优秀 总计男生女生总计附: .A. B. C. D.【答案】C【解析】由题意, ,所以,在犯错误不超过 的情况下认为环保知识是否优秀与性别有关,即有 的把握认为环保知识是否优秀与性别有关.故选: .【标注】【知识点】独立性检验;列联表、卡方计算14. 某疾病研究所想知道吸烟与患肺病是否有关,于是随机抽取 名成年人调查是否吸烟是否患有肺病,得到 列联表,经计算的 .已知在假设吸烟与患肺病无关的前提条件下,, ,则该研究所可以( ).A. 有 以上的把握认为“吸烟与患肺病有关”B. 有 以上的把握认为“吸烟与患肺病无关”C. 有 以上的把握认为“吸烟与患肺病有关”D. 有 以上的把握认为“吸烟与患肺病无关”【答案】A18【解析】∵计算得 ,经查对临界值表知 ,∴有 的把握说患肺病与吸烟有关故选 .【标注】【知识点】列联表、卡方计算;独立性检验经典例题15. 某企业为了更好地了解设备改造与生产合格品的关系,随机抽取了 件产品进行分析,其中设备改造前生产的合格品有 件,不合格品有 件;设备改造后生产的合格品有 件,不合格品有件,根据上面的数据,计算 的值约为 (精确到 ).【备注】【教师指导】要求学生熟练掌握卡方计算公式.【答案】【解析】由已知数据得到下表:合格品 不合格品 合计设备改造后设备改造前合计根据公式 .【标注】【知识点】独立性检验;列联表、卡方计算巩固练习16. 在独立性检验中,统计量 有两个临界值: 和 .当 时,有 的把握说明两个事件相关;当 时,有 的把握说明两个事件相关;当 时,认为两个事件无关;在一项调查某种药是否对心脏病有治疗作用时,共调查了 人,经计算 ,根据这一数据分析,认为此药物与心脏病之间( ).A. 有 的把握认为两者相关B. 约有 的心脏病患者使用药物有作用19C. 有 的把握认为两者相关D. 约有 的心脏病患者使用药物有作用【答案】A【解析】∵ ,∴有 的把握认为“两者有关系”.故选 .【标注】【知识点】列联表、卡方计算;独立性检验经典例题17. 年底,湖北省武汉市等多个地区陆续出现感染新型冠状病毒肺炎的患者.为及时有效地对疫情数据进行流行病学统计分析,某地研究机构针对该地实际情况,根据该地患者是否有武汉旅行史与是否有确诊病例接触史,将新冠肺炎患者分为四类;有武汉旅行史(无接触史),无武汉旅行史(无接触史),有武汉旅行史(有接触史)和无武汉旅行史(有接触史),统计得到以下相关数据.( 1 )请将列联表填写完整:有接触史 无接触史 总计有武汉旅行史无武汉旅行史总计( 2 )能否在犯错误的概率不超过 的前提下认为有武汉旅行史与有确诊病例接触史有关系?附: , ,【备注】【教师指导】第一步,要求学生会填列联表;第二步,要求学生掌握通过独立性检验判断两个变量是否相关.【答案】( 1 ) 有接触史 无接触史 总计有武汉旅行史无武汉旅行史总计20( 2 )在犯错误的概率不超过 的前提下,认为有武汉旅行史与有确诊病例接触史有关系.【解析】( 1 )请将该列联表填写完整:有接触史 无接触史 总计有武汉旅行史无武汉旅行史总计( 2 )根据列联表中的数据,由于,因此,在犯错误的概率不超过 的前提下,认为有武汉旅行史与有确诊病例接触史有关系.【标注】【知识点】总体、样本、样本容量;列联表、卡方计算;独立性检验巩固练习18. 为了调查某大学学生在某天上网的时间,随机对 名男生和 名女生进行了不记名的问卷调查.得到了如下的统计结果:表 :男生上网时间与频数分布表上网时间(分钟) , , , , ,人数表 :女生上网时间与频数分布表上网时间(分钟) , , , , ,人数( 1 )完成下面的 列联表:上网时间少于 分钟 上网时间不少于 分钟 合计男生女生21合计( 2 )能否有 的把握认为“大学生上网时间与性别有关”?【答案】( 1 )解: 列联表如下:上网时间少于 分钟 上网时间不少于 分钟 合计男生女生合计( 2 )没有.【解析】( 1 )男生上网时间少于 分钟人数: ,女生上网时间少于 分钟人数: ,男生上网时间不少于 分钟人数: ,女生上网时间不少于 分钟人数: .可得表格为:上网时间少于 分钟 上网时间不少于 分钟 合计男生女生合计( 2 ) ,∵ .∴没有 的把握认为“大学生上网时间与性别有关”.【标注】【知识点】独立性检验经典例题19. 年,在《我是演说家》第四季这档节目中,英国华威大学留学生游斯彬的“数学之美”的演讲视频在微信朋友圈不断被转发,他的视角独特,语言幽默,给观众留下了深刻的印象.某机构为了了解观众对该演讲的喜爱程度,随机调查了观看了该演讲的 名观众,得到如下的列联表:(单位:名)男 女 总计喜爱不喜爱22总计( 1 )根据以上列联表,问能否在犯错误的概率不超过 的前提下认为观众性别与喜爱该演讲有关.(精确到 )( 2 )从这 名男观众中按对该演讲是否喜爱采取分层抽样,抽取一个容量为 的样本,然后随机选取两名作跟踪调查,求选到的两名观众都喜爱该演讲的概率.附:临界值表参考公式: , .【备注】【教师指导】本题属于综合题,统计案例与统计、概率的综合,属于期中、期末、高考常考题型.【答案】( 1 )不能在犯错误的概率不超过 的前提下认为观众性别与喜爱该演讲有关.( 2 )概率为 .【解析】( 1 )假设:观众性别与喜爱该演讲无关,由已知数据可求得,,∴不能在犯错误的概率不超过 的前提下认为观众性别与喜爱该演讲有关.( 2 )抽样比为 ,样本中喜爱的观众有 名,不喜爱的观众有名.记喜爱该演讲的 名男性观众为 , , , ,不喜爱该演讲的 名男性观众为 ,,则基本事件分别为: , , , , , , ,, , , , , , , .其中选到的两名观众都喜爱该演讲的事件有 个,故其概率为 .【标注】【知识点】独立性检验巩固练习20. 海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了 个网箱,测量各箱水产品的产量(单位: ),其频率分布直方图如下:23频率 组距箱产量旧养殖法频率 组距箱产量新养殖法( 1 )记事件 表示事件“旧养殖法的箱产量低于 ”,求事件 的概率.( 2 )填写下面列联表,并根据列联表判断是否有 的把握认为箱产量与养殖方法有关:箱产量 箱产量旧养殖法新养殖法( 3 )根据箱产量的频率分布直方图,对两种养殖方法的优劣进行比较.附:24【答案】( 1 )( 2 )是.( 3 )新养殖法的箱产量高.【解析】( 1 )由频率分布直方图可知,旧养殖法的箱产量低于 的概率为:.( 2 )列表如下:箱产量 箱产量旧养殖法新养殖法.所以有 的把握认为箱产量与养殖方法有关.( 3 )由箱产量的频率分布直方图可知,旧养殖法的箱产量均值约在 ,新养殖法的箱产量均值约在 ,可知新养殖法的箱产量高.【标注】【知识点】频率分布直方图;用样本的数字特征估计总体的数字特征问题;众数、中位数、平均数;列联表、卡方计算;独立性检验三、 思维导图你学会了吗?画出思维导图总结本课所学吧!【备注】25四、 出门测21. 在 年 月 日,某物价部门对本市 家商场某商品一天的销售额及其价格进行调查, 家商场的价格 与销售额 之间的一组数据如下表所示:价格(单位:元)销售额(单位:千元)由散点图可知,销售额 与价格 之间有较好的线性相关关系,且回归直线方程是 .则( ).A. B. C. D.【答案】C【解析】由题可知 ,,,.故选 .【标注】【知识点】线性回归方程的其他应用;线性回归方程过平均数点;众数、中位数、平均数22. 随着我国经济的发展,居民的储蓄存款逐年增长.设某地区城乡居民人民币储蓄存款(年底余额)如下表:年份储蓄存款 (千亿元)注:, .( 1 )求 关于 的回归方程 .( 2 )用所求的回归方程预测该地区 年的人民币储蓄存款.【答案】( 1 ) .26( 2 ) 千亿元.【解析】( 1 )设时间代号 ,则 分别为 , , , , .根据题意, ,, , ,∴ , ,∴ 关于 的回归方程为 ,∴ 关于 的回归方程为 ,即 .( 2 )当 ,即 时, .故预测该地区 年的人民币储蓄存款为 千亿元.【标注】【知识点】线性回归方程的其他应用;残差分析23. “微信运动”是一个类似计步数据库的公众帐号.用户只需以运动手环或手机协处理器的运动数据为介,然后关注该公众号,就能看见自己与好友每日行走的步数,并在同一排行榜上得以体现.现随机选取朋友圈中的 人,记录了他们某一天的走路步数,并将数据整理如下:步数/步 以上男性人数/人女性人数/人规定:人一天行走的步数超过 步时被系统速定为“积极性”,否则为“懈怠性”.( 1 )填写下面列联表(单位:人),根据列联表判断是否有 的把握认为 “评定类型与性别有关”:积极性 懈怠性 总计男女总计附.( 2 )为了进一步了解“懈息性”人群中每个人的生活习惯,从步行数在 的人群中再随机抽取 人,求选中的人中男性人数超过女性人数的概率.【答案】( 1 )没有.( 2 ) .27【解析】( 1 )根据题意完成下面的列联表:积极性 懈怠性 总计男女总计根据上表数据可得 ,∴没有 的把握认为 “评定类型与性别有关”.( 2 )设步行数在 的男性编号为 ,女性编号为 ,选取三位情形有共计 种情形:,符合条件的情形有: 共计 种,∴概率为 .【标注】【知识点】古典概型28 展开更多...... 收起↑ 资源列表 统计案例-讲义(学生版).pdf 统计案例-讲义(教师版).pdf