资源简介 第八章 成对数据的统计分析(知识归纳+题型突破)1.通过具体案例,引导学生理解两个随机变量的相关性可以通过成对样本数据进行分析,了解样本相关系数的统计含义.2.理解利用一元线性回归模型可以研究变量之间的相关关系,并进行预测.3.了解 列联表,理解利用列联表可以检验两个随机变量的独立性.4.运用散点图、相关系数、最小二乘思想、小概率原理、频率估计概率、假设检验基本原理等解决简单的实际问题,会利用统计软件进行数据分析.知识点1:相关关系的强弱(1)样本相关系数现实生活中的数据,由于度量对象和单位的不同等,数值会有大有小,为了去除这些因素的影响,统计学里一般用来衡量与的线性相关性强弱,我们称为变量和变量的样本相关系数.(2)相关系数的性质①当时,称成对样本数据正相关;当时,成对样本数据负相关;当时,成对样本数据间没有线性相关关系.②样本相关系数的取值范围为当越接近1时,成对样本数据的线性相关程度越强;当越接近0时,成对样本数据的线性相关程度越弱.知识点2:经验回归方程的求解法:最小二乘法回归直线方程过样本点的中心,是回归直线方程最常用的一个特征;我们将称为关于的线性回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线。这种求经验回归方程的方法叫做最小二乘法,求得的,叫做,的最小二乘估计,其中称为回归系数,它实际上也就是经验回归直线的斜率,为截距.其中知识点3:残差(1)残差对于响应变量,通过观测得到的数据称为观测值,通过经验回归方程得到的称为预测值,观测值减去预测值称为残差.(2)残差图作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重估计值等,这样作出的图形称为残差图.若残差点比较均匀地落在水平的带状区域内,带状区域越窄,则说明拟合效果越好.(3)残差分析残差是随机误差的估计结果,通过残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.其步骤为:计算残差化残差图在残差图中分析残差特性.知识点4:决定系数(1)残差平方和残差平方和,残差平方和越小,模型拟合效果越好,残差平方和越大,模型拟合效果越差.(2)决定系数决定系数是度量模型拟合效果的一种指标,在线性模型中,它代表解释变量客户预报变量的能力.,越大,即拟合效果越好,越小,模型拟合效果越差.(3)决定系数与相关系数的联系与区别①相关系数反映两个变量的相关关系的强弱及正相关或负相关,决定系数反映回归模型的拟合效果.②在含有一个解释变量的线性模型中,决定系数的数值是相关系数的平方,其变化范围为,而相关系数的变化范围为.③当相关系数接近于1时,说明两变量的相关性较强,当接近于0时,说明两变量的相关性较弱;而当接近于1时,说明经验回归方程的拟合效果较好.知识点5:分类变量与列联表(1)分类变量为了方便,会使用一种特殊的随机变量,区别不同的现象或性质,这随机变量称为分类变量.(2)列联表①2×2列联表给出了两个分类变量数据的交叉分类频数.②定义一对分类变量和,我们整理数据如下表所示:合计合计知识点6:独立性检验(1)独立性检验定义:利用的取值推断分类变量和是否独立的方法称为独立性检验,读作“卡方独立性检验”.简称独立性检验.(2)独立性检验公式:其中(注意使用公式时分子的平方不要忽略了)题型一:相关系数的意义及辨析【例1】.(2022下·河南南阳·高二校联考专题练习)在一组样本数据为,,,(,,,,,不全相等)的散点图中,若所有样本点都在直线上,则这组样本数据的相关系数为( )A. B. C.1 D.-1【例2】(2024上·江西吉安·高一江西省新干中学期末)对于样本相关系数,下列说法错误的是( )A.可以用来判断成对样本数据相关的正负性B.可以是正的,也可以是负的C.样本相关系数越大,成对样本数据的线性相关程度也越高D.取值范围是巩固训练1.(2023·四川乐山·统考一模)对四组数据进行统计,获得如下散点图,关于其相关系数的比较,说法正确的是( ) A. B.C. D.2.(2022下·辽宁大连·高二大连八中校考阶段练习)设两个变量和之间具有线性相关关系,它们的相关系数为关于的回归直线方程为,则( )A.与的符号相反 B.与的符号相同C.与的符号相同 D.与的符号相反题型二:相关系数计算【例1】(2024上·天津·高三校联考期末)学习于才干信仰,犹如运动于健康体魄,持之已久、行之愈远愈受益.为实现中华民族伟大复兴,全国各行各业掀起了“学习强国”的高潮.某老师很喜欢“学习强国”中“挑战答题”模块,他记录了自己连续七天每天一次最多答对的题数如下表:天数x 1 2 3 4 5 6 7一次最多答对题数y 12 15 16 18 21 24 27参考数据:,,,,,相关系数由表中数据可知该老师每天一次最多答对题数y与天数x之间是 相关(填“正”或“负”),其相关系数 (结果保留两位小数)【例2】(2023·河南·统考模拟预测)党的二十大以来,国家不断加大对科技创新的支持力度,极大鼓舞了企业持续投入研发的信心.某科技企业在国家一系列优惠政策的大力扶持下,通过不断的研发和技术革新,提升了企业收益水平.下表是对2023 年1 ~5月份该企业的利润y(单位:百万)的统计.月份 1 月 2 月 3 月 4 月 5 月月份编号x 1 2 3 4 5利润y(百万) 7 12 13 19 24(1)根据统计表,求该企业的利润y与月份编号x的样本相关系数(精确到0.01),并判断它们是否具有线性相关关系(,则认为y与x的线性相关性较强,,则认为y与x的线性相关性较弱.);(2)该企业现有甲、乙两条流水线生产同一种产品.为对产品质量进行监控,质检人员先用简单随机抽样的方法从甲、乙两条流水线上分别抽取了5件、3件产品进行初检,再从中随机选取3件做进一步的质检,记抽到“甲流水线产品”的件数为,试求的分布列与期望.附:相关系数【例3】(2023·全国·高二课堂例题)某研究者搜集了某种花的一些数据(见下表),试分别计算花瓣长与花枝长之间、花瓣长与花萼长之间的相关关系(结果保留三位小数).花瓣长x 49 44 32 42 32 53 36 39 37 45 41 48 45 39 40 34 37 35花枝长y 27 24 12 22 13 29 14 20 16 21 22 25 23 18 20 15 20 13花萼长z 19 16 12 17 10 19 15 14 15 21 14 22 22 15 14 15 15 16相关系数,巩固训练1.(2023上·高二课时练习)据说职工迟到的频率与其居住地离上班地点的远近有关.为验证这个说法,一位社会学家随机抽取10名职工进行了调查,其调查数据如下表所示.职工编号 年迟到次数/次 住地远近/km 职工编号 年迟到次数/次 住地远近/km1 8 1.1 6 3 10.12 5 2.9 7 5 12.03 8 4.0 8 2 14.34 7 5.9 9 4 14.15 6 8.2 10 2 7.8试计算职工年迟到次数与住地远近之间的相关系数.2.(2023下·河南郑州·高三郑州外国语学校校考阶段练习)某公司进行工资改革,将工作效率作为工资定档的一个重要标准,大大提高了员工的工作积极性,但也引起了一些老员工的不满.为了调查员工的工资与工龄的情况,人力资源部随机从公司的技术研发部门中抽取了16名员工了解情况,结果如下:工龄(年) 1 2 3 4 5 6 7 8年薪(万) 9.95 10.12 9.96 9.96 10.01 9.92 9.98 10.04工龄(年) 9 10 11 12 13 14 15 16年薪(万) 10.26 9.91 10.13 10.02 9.22 10.04 10.05 9.95经计算得,,,,其中表示工龄为i年的年薪,.(1)求年薪与工龄i()的相关系数r,并回答是否可以认为年薪与工龄具有线性相关关系(若,则可以认为年薪与工龄不具有线性相关关系).(2)在抽取的16名员工中,如果年薪都在之内,则继续推进工资改革,同时给每位老员工相应的补贴,如果有员工年薪在之外,该员工会被人力资源部约谈并进行岗位调整,且需要重新计算原抽取的16名员工中留下的员工年薪的均值和标准差,由于人力资源部需要安抚老员工的情绪,工作繁重,现请你帮忙计算留下的员工年薪的均值和标准差.(精确到0.01)附:样本的相关系数,,,, .3.(2023下·高二单元测试)暑期社会实践中,某数学兴趣小组调查了某地家庭人口数x与每天对生活必需品的消费y的情况,得到的数据如下表:x/人 2 4 5 6 8y/元 20 30 50 50 70(1)利用相关系数r判断y与x是否线性相关;(2)根据上表提供的数据,求出y关于x的线性回归方程.题型三:残差【例1】(2022下·北京通州·高二统考期末)已知变量x和变量y的一组随机观测数据.如果关于的经验回归方程是,那么当时,残差等于( )A. B.0 C.10 D.110【例2】(2022下·河南洛阳·高二统考期中)某种产品的广告支出费用x(单位:万元)与销售额y(单位:万元)之间有如下关系:x 2 4 5 6 8y 30 40 70 50 60已知y与x的线性回归方程为,则当广告支出费用为5万元时,残差为( )A.40 B.30 C.20 D.10【例3】(2023下·河北张家口·高二河北省尚义县第一中学校考阶段练习)已知回归方程,而试验中的一组数据是,,,则其残差平方和是 .巩固训练1.(2022下·四川成都·高二统考期中)某种产品的广告费支出x与销售额y(单位:万元)之间有下表关系1 3 4 5 730 40 60 50 70y与x的线性回归方程为,当广告支出5万元时,随机误差的效应(残差)为( )A.20 B.-10 C.10 D.-6.52.(2024·云南楚雄·云南省楚雄彝族自治州民族中学校考一模)对具有线性相关关系的变量有一组观测数据(),其经验回归方程为,且,,则相应于点的残差为 .3.(2023下·山西太原·高二统考期中)已知回归方程,而试验中的一组数据是,,,则其残差平方和是 .题型四:一元线性回归模型【例1】(2023·全国·高三校联考专题练习)某市政府为调查集贸蔬菜市场个体承包摊户年收入情况,随机抽取了6个摊户进行分析,得到样本数据,),其中和分别表示第个摊户和该摊户年收入(单位:万元),如下1 2 3 4 5 65 6 7 7 9 8(1)请用相关系数判断该组数据中与之间线性相关关系的强弱(若,相关性较强;若,相关性一般;若,相关性较弱);(2)求关于的线性回归方程;(3)若该集贸蔬菜市场个体承包摊户有300个,根据题设估计该集贸蔬菜市场个体承包摊户年收入总值.参考公式:相关系数,对于一组具有线性相关关系的数据,其回归直线的斜率和截距的最小二乘估计分别为,,.【例2】(2024·陕西咸阳·统考模拟预测)能源和环境问题是目前全球性急需解决的问题,虽然近百年人类文明有了前所未有的发展,但对于能源的使用和环境的破坏也造成了严重的后果,发展新能源是时代的要求,是未来生存的要求.新能源汽车不仅对环境保护具有重大的意义而且还能够减少对不可再生资源的开发,是全球汽车发展的重要方向.“保护环境,人人有责”,在政府和有关企业的努力下,某市近几年新能源汽车的购买情况如下表所示:年份x 2019 2020 2021 2022 2023汽车购买y(万辆) 0.30 0.60 1.00 1.40 1.70(1)根据上表数据,计算与的相关系数,并说明与的线性相关性强弱(若,则认为与线性相关性很强;若,则认为与线性相关性一般;若,则认为与线性相关性较弱);(2)求关于的线性回归方程,并预测该市2024年新能源汽车购买辆数(精确到个位).参考公式:,,参考数值:.【例3】(2024上·江西九江·高二统考期末)2023年9月23日—10月8日,亚运会在杭州举行,“碳中和”是本届亚运会一大亮点.为了打造碳中和亚运会,杭州亚运会上线了“亚运碳中和-减污降碳协同”数字化管理平台.该平台将数字化技术运用到碳排放采集 核算 减排 注销 评价管理全流程,探索建立了一套科学完整的碳排放管理体系.值此机会,某家公司重点推出新型品牌新能源汽车,以下是其中五个月的销售单:2023月份 5 6 7 8 9月份代码 1 2 3 4 5新能源车销售(万辆) 1.6 2.1 2.7 3.7 4.6(1)根据表中数据,求出关于的线性回归方程;(2)随着亚运会的火热,新能源汽车也会一直持续下去,试估计2023年12月份该公司出售多少辆新能源汽车?参考公式:对于一组具有线性相关关系的数据,其回归直线的斜率和截距的最小二乘估计公式分别为.巩固训练1.(2024·陕西咸阳·统考模拟预测)为庆祝元旦,某商场回馈消费者,准备举办一次有奖促销活动,如果顾客一次消费达到500元,可参加抽奖活动,规则如下;抽奖盒子中初始装有白球和红球各一个,每次有放回的任取一个,连续取两次,将以上过程记为一轮.如果每一轮取到的两个球都是白球,则记该轮为成功,活动结束.否则记为失败,随即获得纪念品1份,当然,如果顾客愿意可在盒子中再放入一个红球,然后接着进行下一轮抽奖,如此不断继续下去,直至成功.(1)某顾客进行该抽奖试验时,最多进行三轮,即使第三轮不成功,也停止抽奖,记其进行抽奖试验的轮次数为随机变量X,求X的分布列和数学期望;(2)为验证抽奖试验成功的概率不超过,有1000名数学爱好者独立的进行该抽球试验,记t表示成功时抽奖试验的轮次数,y表示对应的人数,部分统计数据如下表:t 1 2 3 4 5y 232 98 60 40 20求y关于t的回归方程:,并预测成功的总人数(四舍五入精确到1).附:经验回归方程系数:,.参考数据:,,(其中).2.(2023下·陕西咸阳·高二咸阳市实验中学校考阶段练习)如图是某机构统计的某地区2016年至2022年生活垃圾无害化处理量y(单位:万吨)的折线图. 注:年份代码1-7分别对应年份2016-2022.(1)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明;(2)建立y关于t的回归方程(系数精确到0.01),预测2024年该地区生活垃圾无害化处理量.参考数据:,,,,.参考公式:相关系数,当时认为两个变量有很强的线性相关关系;回归方程中斜率和截距的最小乘估计公式分别为,.3.(2024上·山东日照·高二统考期末)发展新能源汽车是我国从汽车大国迈向汽车强国的必由之路,是应对气候变化推动绿色发展的战略举措.随着国务院《新能源汽车产业发展规划(2021—2035)》的发布,我国自主品牌汽车越来越具备竞争力.国产某品牌汽车对市场进行调研,统计了该品牌新能源汽车在某城市年前几个月的销售量(单位:辆),用表示第月份该市汽车的销售量,得到如下统计表格:1 2 3 4 5 6 728 32 37 45 47 52 60(1)经研究,、满足线性相关关系,求关于的线性回归方程,并根据此方程预测该店月份的成交量(、按四舍五入精确到整数);(2)该市某店为感谢客户,决定针对该品牌的汽车成交客户开展抽奖活动,设“一等奖”、“二等奖”和“祝您平安”三种奖项,“一等奖”奖励千元;“二等奖”奖励千元;“祝您平安”奖励纪念品一份.在一次抽奖活动中获得“二等奖”的概率为,获得一份纪念品的概率为,现有甲、乙两个客户参与抽奖活动,假设他们是否中奖相互独立,求此二人所获奖金总额(千元)的分布列及数学期望.参考数据及公式:,,.题型五:相关指数【例1】(2022上·贵州贵阳·高二统考期末)【阅读材料1】我们在研究两个变量之间的相关关系时,往往先选取若干个样本点(),(),……,(),将样本点画在平面直角坐标系内,就得到样本的散点图.观察散点图,如果所有样本点都落在某一条直线附近,变量之间就具有线性相关关系,如果所有的样本点都落在某一非线性函数图象附近,变量之间就有非线性相关关系.在统计学中经常选择线性或非线性(函数)回归模型来刻画相关关系,并且可以用适当的方法求出回归模型的方程,还常用相关指数R2来刻画回归的效果,相关指数R2的计算公式为:当R2越大时,回归方程的拟合效果越好;当R2越小时,回归方程的拟合效果越差,R2是常用的选择模型的指标之一,在实际应用中应该尽量选择R2较大的回归模型.【阅读材料2】2021年6月17日9时22分,我国酒泉卫星发射中心用长征二号F遥十二运载火箭,成功将神舟十二号载人飞船送入预定轨道,顺利将聂海胜、刘伯明、汤洪胺3名航天员送入太空,发射取得圆满成功,这标志着中国人首次进入自己的空间站.某公司负责生产的A型材料是神舟十二号的重要零件,该材料应用前景十分广泛,该公司为了将A型材料更好地投入商用,拟对A型材料进行应用改造,根据市场调研与模拟,得到应用改造投入x(亿元)与产品的直接收益y(亿元)的数据统计如下:序号 1 2 3 4 5 6 7 8 9 10 11 12x 2 3 4 6 8 10 13 21 22 23 24 25y 15 22 27 40 48 54 60 68.5 68 67.5 66 65当0模型①:;模型②:;当x>13时,确定y与x满足的线性回归直线方程为.根据以上阅读材料,解答以下问题:(1)根据下列表格中的数据,比较当0回归模型 模型① 模型②回归方程79.13 20.2(2)当应用改造的投入为20亿元时,以回归直线方程为预测依据,计算公司的收益约为多少.附:①若最小二乘法求得回归直线方程为,则;②③,当时,.【例2】(2021下·黑龙江哈尔滨·高二哈九中校考期末)全球化时代,中国企业靠什么在激烈的竞争中成为世界一流企业呢?由人民日报社指导,《中国经济周刊》主办的第十八届中国经济论坛在人民日报社举行,就中国企业如何提升全球行业竞争力进行了研讨.数据显示,某企业近年加大了科技研发资金的投入,其科技投入(百万元)与收益(百万元)的数据统计如下:科技投入 1 2 3 4 5 6 7收益 19 20 22 31 40 50 70根据数据特点,甲认为样本点分布在指数型曲线的周围,据此他对数据进行了一些初步处理.如下表:5 140 1239 149 2134 130其中,.(1)请根据表中数据,建立关于的回归方程(系数精确到0.1,用的近似值算);(2)①乙认为样本点分布在直线的周围,并计算得回归方程为,以及该回归模型的决定系数(即相关指数),试计算,比较甲乙两人所建立的模型,谁的拟合效果更好?(精确到0.001)②由①所得的结论,计算该企业欲使收益达到1亿元,科技投入的费用至少要多少百万元?(精确到0.1)附:对于一组数据,,…,,其回归直线方程的斜率和截距的最小二乘法估计分别为,,决定系数:.参考数据:.巩固训练1.(2020·黑龙江哈尔滨·哈尔滨市第六中学校校考三模)“海水稻”就是耐盐碱水稻,是一种介于野生稻和栽培稻之间的普遍生长在海边滩涂地区,具有耐盐碱的水稻,它比其它普通的水稻均有更强的生存竞争能力,具有抗涝,抗病虫害,抗倒伏等特点,还具有预防和治疗多种疾病的功效,防癌效果尤为显著.海水稻的灌溉是将海水稀释后进行灌溉.某试验基地为了研究海水浓度(‰)对亩产量(吨)的影响,通过在试验田的种植实验,测得了某种海水稻的亩产量与海水浓度的数据如表.绘制散点图发现,可用线性回归模型拟合亩产量与海水浓度之间的相关关系,用最小二乘法计算得与之间的线性回归方程为.海水浓度(‰) 3 4 5 6 7亩产量(吨) 0.62 0.58 0.49 0.4 0.31残差(1)请你估计:当浇灌海水浓度为8‰时,该品种的亩产量.(2)①完成上述残差表:②统计学中,常用相关指数来刻画回归效果,越大,模型拟合效果越好,并用它来说明预报变量与解释变量的相关性.你能否利用以上表格中的数据,利用统计学的相关知识,说明浇灌海水浓度对亩产量的贡献率?(计算中数据精确到)(附:残差公式,相关指数)2.(2018·广东茂名·统考一模)一只药用昆虫的产卵数y与一定范围内的温度x有关,现收集了该种药用昆虫的6组观测数据如下表:温度x/℃ 21 23 24 27 29 32产卵数y/个 6 11 20 27 57 77经计算得:,,线性回归模型的残差平方和,,其中分别为观测数据中的温度和产卵数,(1)若用线性回归模型,求y关于x的回归方程(精确到0.1);(2)若用非线性回归模型求得y关于x的回归方程为,且相关指数.①试与1中的回归模型相比,用说明哪种模型的拟合效果更好.②用拟合效果好的模型预测温度为35℃时该用哪种药用昆虫的产卵数(结果取整数)附:一组数据其回归直线的斜率和截距的最小二乘估计为,;相关指数.题型六:非线性拟合【例1】(2023下·山西·高二统考期中)某生产制造企业统计了近10年的年利润(千万元)与每年投入的某种材料费用(十万元)的相关数据,作出如下散点图:选取函数作为每年该材料费用和年利润的回归模型.若令,则,得到相关数据如表所示:31.5 15 15 49.5(1)求出与的回归方程;(2)计划明年年利润额突破1亿,则该种材料应至少投入多少费用?(结果保留到万元)参考数据:.【例2】(2023·贵州贵阳·校联考模拟预测)为了研究某种细菌随天数x变化的繁殖个数y,收集数据如下:天数x 1 2 3 4 5 6繁殖个数y 6 12 25 49 95 190(1)在图中作出繁殖个数y关于天数x变化的散点图,并由散点图判断(a,b为常数)与(,为常数,且,)哪一个适宜作为繁殖个数y关于天数x变化的回归方程类型?(给出判断即可,不必说明理由)(2)对于非线性回归方程(,为常数,且,),令,可以得到繁殖个数的对数z关于天数x具有线性关系及一些统计量的值.3.50 62.83 3.53 17.50 596.57 12.09①证明:“对于非线性回归方程,令,可以得到繁殖个数的对数z关于天数x具有线性关系(即,β,α为常数)”;②根据(1)的判断结果及表中数据,建立y关于x的回归方程(系数保留2位小数).附:对于一组数据,,…,,其回归直线方程的斜率和截距的最小二乘估计分别为,.【例3】(2022上·重庆沙坪坝·高三重庆八中校考阶段练习)多年来,清华大学电子工程系黄翔东教授团队致力于光谱成像芯片的研究,2022年6月研制出国际首款实时超光谱成像芯片,相比已有光谱检测技术,实现了从单点光谱仪到超光谱成像芯片的跨越,为制定下一年的研发投入计划,该研发团队为需要了解年研发资金投入量x(单位:亿元)对年销售额(单位:亿元)的影响,结合近12年的年研发资金投入量x,和年销售额,的数据(,2,,12),该团队建立了两个函数模型:①②,其中均为常数,e为自然对数的底数,经对历史数据的初步处理,得到散点图如图,令,计算得如下数据:20 66 770 200 14460 3125000 21500(1)设和的相关系数为和的相关系数为,请从相关系数的角度,选择一个拟合程度更好的模型;(2)(i)根据(1)的选择及表中数据,建立关于的回归方程(系数精确到0.01);(ii)若下一年销售额需达到80亿元,预测下一年的研发资金投入量是多少亿元?附:①相关系数,回归直线中斜率和截距的最小二乘估计公式分别为:,;②参考数据:.巩固训练1.(2022下·福建三明·高二统考期末)在国家大力发展新能源汽车产业的政策下,我国新能源汽车的产销量高速增长. 已知某地区2014年底到2021年底新能源汽车保有量的数据统计表如下:年份(年) 2014 2015 2016 2017 2018 2019 2020 2021年份代码x 1 2 3 4 5 6 7 8保有量y/千辆 1.95 2.92 4.38 6.58 9.87 15.00 22.50 33.70参考数据:,,其中(1)根据统计表中的数据画出散点图(如图),请判断与哪一个更适合作为y关于x的经验回归方程(给出判断即可,不必说明理由),并根据你的判断结果建立y关于x的经验回归方程:(2)假设每年新能源汽车保有量按(1)中求得的函数模型增长,且传统能源汽车保有量每年下降的百分比相同.若2021年底该地区传统能源汽车保有量为500千辆,预计到2026年底传统能源汽车保有量将下降10%.试估计到哪一年底新能源汽车保有量将超过传统能源汽车保有量.参考公式:对于一组数据,v1),),…,,其经验回归直线的斜率和截距的最小二乘估计公式分别为,;2.(2022·山东聊城·统考三模)为迎接年北京冬奥会,践行“更快更高更强”的奥林匹克格言,落实全民健身国家战略.某校高二年级发起了“发扬奥林匹克精神,锻炼健康体魄”的年度主题活动,经过一段时间后,学生的身体素质明显提高.(1)为了解活动效果,该年级对开展活动以来近个月体重超重的人数进行了调查,调查结果统计如上图,根据上面的散点图可以认为散点集中在曲线的附近,请根据下表中的数据求出该年级体重超重人数与月份之间的经验回归方程(系数和的最终结果精确到),并预测从开展活动以来第几个月份开始该年级体重超标的人数降至人以下?月份体重超标人数(2)在某次足球训练课上,球首先由队员控制,此后足球仅在、、三名队员之间传递,假设每名队员控球时传给其他队员的概率如下表所示:控球队员接球队员概率若传球次,记队员控球次数为,求的分布列及均值.附:经验回归方程:中,,;参考数据:,,,.3.(2022下·山西太原·高二校考期中)某公司对某产品作市场调查,获得了该产品的定价(单位:万元/吨)和一天的销量(吨)的一组数据,根据这组数据制作了如下统计表和散点图.0.33 10 3 0.164 100 68 350表中.(1)根据散点图判断,与哪一个更适合作为关于的经验回归方程;(给出判断即可,不必说明理由)(2)根据(1)的判断结果,建立关于的经验回归方程;题型七:独立性检验(选填)【例1】(2023上·全国·高三专题练习)千百年来,我国劳动人民在生产实践中根据云的形状、走向、速度、厚度、颜色等的变化,总结了丰富的“看云识天气”的经验,并将这些经验编成谚语,如“天上钩钩云,地上雨淋淋”“日落云里走,雨在半夜后”……小波同学为了验证“日落云里走,雨在半夜后”,观察了地区A的100天日落和夜晚天气,得到如下2×2列联表(单位:天),并计算得到,下列小波对地区A天气的判断不正确的是( )日落云里走 夜晚天气 下雨 未下雨出现 25 5未出现 25 45参考公式:临界值参照表:0.1 0.05 0.01 0.005 0.0012.706 3.841 6.635 7.879 10.828A.夜晚下雨的概率约为B.未出现“日落云里走”,夜晚下雨的概率约为C.据小概率值的独立性检验,认为“日落云里走”是否出现与夜晚天气有关D.出现“日落云里走”, 据小概率值的独立性检验,可以认为夜晚会下雨【例2】(2023上·高二课时练习)手机给人们的生活带来便捷,但同时也对中学生的生活和学习造成了一定的影响.某校几个学生成立研究性学习小组,就使用手机对学习成绩的影响随机抽取了该校100名学生的期末考试成绩并制成如下的表,则下列说法正确的是( )手机使 用情况 成绩成绩优秀 成绩不优秀 总计不用手机 40 10 50使用手机 5 45 50总计 45 55 100(参考公式:,其中)A.在犯错误的概率不超过0.01的前提下认为使用手机与学习成绩无关B.在犯错误的概率不超过0.1的前提下认为使用手机与学习成绩无关C.有99%的把握认为使用手机对学习成绩有影响D.无99%的把握认为使用手机对学习成绩有影响【例3】(2023上·高二单元测试)某部门通过随机调查89名工作人员的休闲方式是读书还是健身,得到的数据如下表:性别 休闲方式读书 健身 总计女 24 31 55男 8 26 34总计 32 57 89在犯错误的概率不超过 的前提下性别与休闲方式有关系.参考公式:.【例4】(2023下·高二单元测试)若两个分类变量与的列联表为:y1 y2 合计x1 10 15 25x2 40 16 56合计 50 31 81则有 的把握认为“与之间有关系”.附:,其中0.050 0.010 0.001k 3.841 6.635 10.828巩固训练1.(2023上·高二单元测试)某校团委对“喜欢吃水果和学生性别是否有关”进行了一次调查,其中被调查的女生人数是男生人数的,男生喜欢吃水果的人数占被调查的男生人数的,女生喜欢吃水果的人数占被调查的女生人数的,若有99%的把握认为喜欢吃水果和学生性别有关,则被调查的男生至少有( )0.10 0.05 0.010 0.005 0.001k 2.706 3.841 6.635 7.879 10.828A.12人 B.18人C.24人 D.30人2.(2023上·高二单元测试)冶炼某种金属可以用旧设备和改造后的新设备,为了检验用这两种设备生产的产品中所含杂质的关系,调查结果如表所示:设备 杂质情况杂质高 杂质低旧设备 37 121新设备 22 202参考公式:,根据以上数据,则下列说法正确的是( )A.含杂质的高低与设备改造有关B.含杂质的高低与设备改造无关C.设备是否改造决定含杂质的高低D.以上答案都不对3.(2022下·福建福州·高二福州三中校考期末)为了考察某种药物预防疾病的效果,进行动物试验,得到如下列联表:药物 疾病 合计未患病 患病服用 a 50未服用 50合计 80 20 100若在本次考察中得出“在犯错误的概率不超过0.01的前提下认为药物有效”的结论,则a的最小值为 .(其中且)(参考数据:,)附:,α 0.1 0.05 0.01 0.005 0.001xα 2.706 3.841 6.635 7.879 10.8284.(2023上·高二课时练习)为了考查某流感疫苗的效果,某实验室随机抽取100只健康小鼠进行试验,得到如下列联表:疫苗使 用情况 感染情况感染 未感染 总计注射 10 40 50未注射 20 30 50总计 30 70 100参照附表,在犯错误的概率最多不超过 的前提下,可认为“注射疫苗”与“感染某流感”有关系.参考公式:.题型八:独立性检验(解答)【例1】(2024·江苏南京·金陵中学校考模拟预测)某高中为了了解高中学生暑假期间阅读古典名著的时间(小时/每周)和他们的语文成绩(分)的关系,某实验小组做了调查,得到一些数据(表一).表一编号 1 2 3 4 5学习时间 2 4 7 7 10语文成绩 82 93 95 108 122(1)请根据所给数据求出语文成绩的平均数和方差;(2)基于上述调查,学校为了确认学生喜欢阅读古典名著与语文成绩的关系,抽样调查了200位学生.按照是否喜欢阅读古典名著与语文成绩是否优秀统计,得到下列数据,请依据表中数据及小概率值的独立性检验,分析“喜欢阅读古典名著与语文成绩优秀”是否有关.表二语文成绩优秀 语文成绩不优秀 合计喜欢阅读 75 25 100不喜欢阅读 55 45 100合计 130 70 2000.10 0.05 0.0102.706 3.841 6.635【例2】(2024·陕西·校联考一模)我国老龄化时代已经到来,老龄人口比例越来越大,出现很多社会问题.2015年10月,中国共产党第十八届中央委员会第五次全体会议公报指出:坚持计划生育基本国策,积极开展应对人口老龄化行动,实施全面二孩政策.随着国家二孩政策的全面放开,为了调查一线城市和非一线城市的二孩生育意愿,某机构用简单随机抽样方法从不同地区调查了100位育龄妇女,结果如下表.非一线 一线 总计愿生 40 y 60不愿生 x 22 40总计 58 42 100(1)求x和y的值.(2)分析调查数据,是否有以上的把握认为“生育意愿与城市级别有关”?(3)在以上二孩生育意愿中按分层抽样的方法,抽取6名育龄妇女,再选取两名参加育儿知识讲座,求至少有一名来自一线城市的概率.参考公式:,0.050 0.010 0.001k 3.841 6.635 10.828【例3】(2024下·全国·高三开学考试)2023年11月,世界首届人工智能峰会在英国举行,我国因为在该领域取得的巨大成就受邀进行大会发言.为了研究不同性别的学生对人工智能的了解情况,我市某著名高中进行了一次抽样调查,分别抽取男 女生各50人作为样本.设事件“了解人工智能”,“学生为男生”,据统计.(1)根据已知条件,填写下列列联表,是否有把握推断该校学生对人工智能的了解情况与性别有关?了解人工智能 不了解人工智能 合计男生女生合计(2)①现从所抽取的女生中利用分层抽样的方法抽取20人,再从这20人中随机选取3人赠送科普材料,求选取的3人中至少有2人了解人工智能的概率;②将频率视为概率,从我市所有参与调查的学生中随机抽取20人科普材料,记其中了解人工智能的人数为X,求随机变量的数学期望和方差.参考公式:.常用的小概率值和对应的临界值如下表:0.150 0.100 0.050 0.025 0.010 0.005 0.0012.072 2.706 3.841 5.024 6.635 7.879 10.828巩固训练1.(2024上·河北张家口·高三统考期末)某公司男女职工人数相等,该公司为了解职工是否接受去外地长时间出差,进行了如下调查:在男女职工中各随机抽取了100人,经调查,男职工和女职工接受去外地长时间出差的人数分别为40和20.(1)根据所给数据,完成下面列联表,并依据小概率值的独立性检验,能否认为是否接受去外地长时间出差与性别有关联?单位:人性别 接受 不接受 合计男女合计(2)若将频率视为概率,用样本估计总体,从该公司中随机抽取5人,记其中接受去外地长时间出差的人数为X,求X的数学期望,附表:0.1 0.05 0.01 0.005 0.0012.706 3.841 6.635 7.879 10.828附:,其中.2.(2024上·山东德州·高二统考期末)为了解某一地区电动汽车销售情况,某部门根据统计数据,用最小二乘法得到电动汽车销量y(单位:万台)关于x(年份)的线性回归方程为,且销量y的方差,年份x的方差.(1)求y与x的相关系数r,并据此判断电动汽车销量y与年份x的相关性强弱;(2)该部门还调查了该地区90位购车车主的性别与购车种类情况,得到的数据如下表:性别 购买非电动汽车 购买电动汽车 总计男性 39 45女性 15总计根据调查数据回答:是否有的把握认为购买电动汽车与车主性别有关?参考公式:(i)线性回归方程:,其中;(ii)相关系数:,若,则可判断y与x线性相关较强.(iii),其中.附表:0.10 0.05 0.010 0.0012.706 3.841 6.635 10.8283.(2024下·甘肃·高三武威第六中学校联考开学考试)2022年日本17岁男性的平均身高为,同样的数据1994年是,近30年日本的平均身高不仅没有增长,反而降低了.反观中国近30年,男性平均身高增长了约.某课题组从中国随机抽取了400名成年男性,记录他们的身高,将数据分成八组:,;同时从日本随机抽取了200名成年男性,记录他们的身高,将数据分成五组:,整理得到如下频率分布直方图: (1)由频率分布直方图估计样本中日本成年男性身高的分位数;(2)为了了解身高与蛋白质摄入量之间是否有关联,课题组调查样本中的600人得到如下列联表:身高 蛋白质摄入量 合计丰富 不丰富低于 108不低于 100合计 600结合频率分布直方图补充上面的列联表,并依据小概率值的独立性检验,推断成年男性身高与蛋白质摄入量之间是否有关联?附:.0.1 0.05 0.01 0.005 0.0012.706 3.841 6.635 7.879 10.828第八章 成对数据的统计分析(知识归纳+题型突破)1.通过具体案例,引导学生理解两个随机变量的相关性可以通过成对样本数据进行分析,了解样本相关系数的统计含义.2.理解利用一元线性回归模型可以研究变量之间的相关关系,并进行预测.3.了解 列联表,理解利用列联表可以检验两个随机变量的独立性.4.运用散点图、相关系数、最小二乘思想、小概率原理、频率估计概率、假设检验基本原理等解决简单的实际问题,会利用统计软件进行数据分析.知识点1:相关关系的强弱(1)样本相关系数现实生活中的数据,由于度量对象和单位的不同等,数值会有大有小,为了去除这些因素的影响,统计学里一般用来衡量与的线性相关性强弱,我们称为变量和变量的样本相关系数.(2)相关系数的性质①当时,称成对样本数据正相关;当时,成对样本数据负相关;当时,成对样本数据间没有线性相关关系.②样本相关系数的取值范围为当越接近1时,成对样本数据的线性相关程度越强;当越接近0时,成对样本数据的线性相关程度越弱.知识点2:经验回归方程的求解法:最小二乘法回归直线方程过样本点的中心,是回归直线方程最常用的一个特征;我们将称为关于的线性回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线。这种求经验回归方程的方法叫做最小二乘法,求得的,叫做,的最小二乘估计,其中称为回归系数,它实际上也就是经验回归直线的斜率,为截距.其中知识点3:残差(1)残差对于响应变量,通过观测得到的数据称为观测值,通过经验回归方程得到的称为预测值,观测值减去预测值称为残差.(2)残差图作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重估计值等,这样作出的图形称为残差图.若残差点比较均匀地落在水平的带状区域内,带状区域越窄,则说明拟合效果越好.(3)残差分析残差是随机误差的估计结果,通过残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.其步骤为:计算残差化残差图在残差图中分析残差特性.知识点4:决定系数(1)残差平方和残差平方和,残差平方和越小,模型拟合效果越好,残差平方和越大,模型拟合效果越差.(2)决定系数决定系数是度量模型拟合效果的一种指标,在线性模型中,它代表解释变量客户预报变量的能力.,越大,即拟合效果越好,越小,模型拟合效果越差.(3)决定系数与相关系数的联系与区别①相关系数反映两个变量的相关关系的强弱及正相关或负相关,决定系数反映回归模型的拟合效果.②在含有一个解释变量的线性模型中,决定系数的数值是相关系数的平方,其变化范围为,而相关系数的变化范围为.③当相关系数接近于1时,说明两变量的相关性较强,当接近于0时,说明两变量的相关性较弱;而当接近于1时,说明经验回归方程的拟合效果较好.知识点5:分类变量与列联表(1)分类变量为了方便,会使用一种特殊的随机变量,区别不同的现象或性质,这随机变量称为分类变量.(2)列联表①2×2列联表给出了两个分类变量数据的交叉分类频数.②定义一对分类变量和,我们整理数据如下表所示:合计合计知识点6:独立性检验(1)独立性检验定义:利用的取值推断分类变量和是否独立的方法称为独立性检验,读作“卡方独立性检验”.简称独立性检验.(2)独立性检验公式:其中(注意使用公式时分子的平方不要忽略了)题型一:相关系数的意义及辨析【例1】.(2022下·河南南阳·高二校联考专题练习)在一组样本数据为,,,(,,,,,不全相等)的散点图中,若所有样本点都在直线上,则这组样本数据的相关系数为( )A. B. C.1 D.-1【答案】C【分析】根据回归直线方程为,可知相关系数为正数,又所有样本点都在直线上,即可求出答案.【详解】所有样本点都在直线上,所以这组样本数据的相关系数为1.故选:C.【例2】(2024上·江西吉安·高一江西省新干中学期末)对于样本相关系数,下列说法错误的是( )A.可以用来判断成对样本数据相关的正负性B.可以是正的,也可以是负的C.样本相关系数越大,成对样本数据的线性相关程度也越高D.取值范围是【答案】C【分析】利用相关系数的概念,结合选项可以判断.【详解】对于相关系数的定义:当相关性越强,相关系数就越接近于;当相关系数的绝对值越小,相关性越弱;当系数为正数时,为正相关,系数为负数时,为负相关.故选:C.巩固训练1.(2023·四川乐山·统考一模)对四组数据进行统计,获得如下散点图,关于其相关系数的比较,说法正确的是( ) A. B.C. D.【答案】B【分析】根据散点图的分布判断相关系数的符号和绝对值大小,即可得结果.【详解】由图中散点的分布趋势知:,,由图散点的分布状态知:,,所以.故选:B2.(2022下·辽宁大连·高二大连八中校考阶段练习)设两个变量和之间具有线性相关关系,它们的相关系数为关于的回归直线方程为,则( )A.与的符号相反 B.与的符号相同C.与的符号相同 D.与的符号相反【答案】C【分析】根据相关系数的性质分析判断.【详解】由线性相关关系可知:若,等价于两个变量正相关,等价于;若,等价于两个变量负相关,等价于;所以与的符号相同,故A错误,C正确;又因为与的符号没有关系,故B、D错误;故选:C.题型二:相关系数计算【例1】(2024上·天津·高三校联考期末)学习于才干信仰,犹如运动于健康体魄,持之已久、行之愈远愈受益.为实现中华民族伟大复兴,全国各行各业掀起了“学习强国”的高潮.某老师很喜欢“学习强国”中“挑战答题”模块,他记录了自己连续七天每天一次最多答对的题数如下表:天数x 1 2 3 4 5 6 7一次最多答对题数y 12 15 16 18 21 24 27参考数据:,,,,,相关系数由表中数据可知该老师每天一次最多答对题数y与天数x之间是 相关(填“正”或“负”),其相关系数 (结果保留两位小数)【答案】 正 0.99【分析】根据正相关和负相关的定义即可得出结论;根据相关系数公式求相关系数即可.【详解】由表中数据得随的增大而增大,所以该老师每天一次最多答对题数y与天数x之间是正相关,.故答案为:正;.【例2】(2023·河南·统考模拟预测)党的二十大以来,国家不断加大对科技创新的支持力度,极大鼓舞了企业持续投入研发的信心.某科技企业在国家一系列优惠政策的大力扶持下,通过不断的研发和技术革新,提升了企业收益水平.下表是对2023 年1 ~5月份该企业的利润y(单位:百万)的统计.月份 1 月 2 月 3 月 4 月 5 月月份编号x 1 2 3 4 5利润y(百万) 7 12 13 19 24(1)根据统计表,求该企业的利润y与月份编号x的样本相关系数(精确到0.01),并判断它们是否具有线性相关关系(,则认为y与x的线性相关性较强,,则认为y与x的线性相关性较弱.);(2)该企业现有甲、乙两条流水线生产同一种产品.为对产品质量进行监控,质检人员先用简单随机抽样的方法从甲、乙两条流水线上分别抽取了5件、3件产品进行初检,再从中随机选取3件做进一步的质检,记抽到“甲流水线产品”的件数为,试求的分布列与期望.附:相关系数【答案】(1);具有很强的线性相关性(2)分布列见解析;【分析】(1)根据公式求出相关系数的值,即可判断;(2)根据题意可知可取的为,然后计算列出分布列,求出期望即可求解.【详解】(1)由统计表数据可得: 所以 所以相关系数 ,因此,两个变量具有很强的线性相关性.(2)由题意知,的可能取值为 因为 ,,所以 的分布列为:所以【例3】(2023·全国·高二课堂例题)某研究者搜集了某种花的一些数据(见下表),试分别计算花瓣长与花枝长之间、花瓣长与花萼长之间的相关关系(结果保留三位小数).花瓣长x 49 44 32 42 32 53 36 39 37 45 41 48 45 39 40 34 37 35花枝长y 27 24 12 22 13 29 14 20 16 21 22 25 23 18 20 15 20 13花萼长z 19 16 12 17 10 19 15 14 15 21 14 22 22 15 14 15 15 16相关系数,【答案】答案见解析【分析】利用方差、相关系数公式求、,进而说明因素间的相关性.【详解】由题意,,,,,,,,所以,.上述结果表明花瓣长与花枝长之间正相关程度高,花瓣长与花萼长之间呈正相关关系.巩固训练1.(2023上·高二课时练习)据说职工迟到的频率与其居住地离上班地点的远近有关.为验证这个说法,一位社会学家随机抽取10名职工进行了调查,其调查数据如下表所示.职工编号 年迟到次数/次 住地远近/km 职工编号 年迟到次数/次 住地远近/km1 8 1.1 6 3 10.12 5 2.9 7 5 12.03 8 4.0 8 2 14.34 7 5.9 9 4 14.15 6 8.2 10 2 7.8试计算职工年迟到次数与住地远近之间的相关系数.【答案】【分析】由相关系数的计算公式计算即可.【详解】由表格可知职工迟到次数与住地远近对应数据,分别为 ,则,,,,,则,,故.2.(2023下·河南郑州·高三郑州外国语学校校考阶段练习)某公司进行工资改革,将工作效率作为工资定档的一个重要标准,大大提高了员工的工作积极性,但也引起了一些老员工的不满.为了调查员工的工资与工龄的情况,人力资源部随机从公司的技术研发部门中抽取了16名员工了解情况,结果如下:工龄(年) 1 2 3 4 5 6 7 8年薪(万) 9.95 10.12 9.96 9.96 10.01 9.92 9.98 10.04工龄(年) 9 10 11 12 13 14 15 16年薪(万) 10.26 9.91 10.13 10.02 9.22 10.04 10.05 9.95经计算得,,,,其中表示工龄为i年的年薪,.(1)求年薪与工龄i()的相关系数r,并回答是否可以认为年薪与工龄具有线性相关关系(若,则可以认为年薪与工龄不具有线性相关关系).(2)在抽取的16名员工中,如果年薪都在之内,则继续推进工资改革,同时给每位老员工相应的补贴,如果有员工年薪在之外,该员工会被人力资源部约谈并进行岗位调整,且需要重新计算原抽取的16名员工中留下的员工年薪的均值和标准差,由于人力资源部需要安抚老员工的情绪,工作繁重,现请你帮忙计算留下的员工年薪的均值和标准差.(精确到0.01)附:样本的相关系数,,,, .【答案】(1),可认为年薪与工龄不具有线性相关关系(2)均值为,标准差为【分析】(1)计算出相关系数,进而与0.25比较后得到结论;(2)计算出的范围,得到第13号员工不在此范围之内,计算出剔除离群值后,剩下的数据平均值和样本方差,进而计算出剔除离群值后样本标准差.【详解】(1)计算相关系数,因为,所以可认为年薪与工龄不具有线性相关关系.(2)因为,,所以在之内的范围是,显然第13号员工不在此范围之内,所以需要对余下的员工进行计算,剔除离群值后,剩下的数据平均值为,因为,所以,所以剔除离群值后样本方差为,故剔除离群值后样本标准差为.3.(2023下·高二单元测试)暑期社会实践中,某数学兴趣小组调查了某地家庭人口数x与每天对生活必需品的消费y的情况,得到的数据如下表:x/人 2 4 5 6 8y/元 20 30 50 50 70(1)利用相关系数r判断y与x是否线性相关;(2)根据上表提供的数据,求出y关于x的线性回归方程.【答案】(1),y与x之间具有较强的线性相关关系(2)【分析】(1)根据相关系数公式进行求解判断即可;(2)根据表中数据,运用代入法进行求解即可.【详解】(1)由表中数据,得:,,,,,则相关系数,因为,所以y与x之间具有较强的线性相关关系;(2)由表中数据,得:,所以,所以线性回归方程为.题型三:残差【例1】(2022下·北京通州·高二统考期末)已知变量x和变量y的一组随机观测数据.如果关于的经验回归方程是,那么当时,残差等于( )A. B.0 C.10 D.110【答案】C【分析】将代入回归方程得到预测值,再根据残差公式计算可得;【详解】解:因为关于的经验回归方程是,所以时,此时残差为;故选:C【例2】(2022下·河南洛阳·高二统考期中)某种产品的广告支出费用x(单位:万元)与销售额y(单位:万元)之间有如下关系:x 2 4 5 6 8y 30 40 70 50 60已知y与x的线性回归方程为,则当广告支出费用为5万元时,残差为( )A.40 B.30 C.20 D.10【答案】C【分析】根据回归方程求出时的值,即可求出残差.【详解】当时,,所以残差为.故选:C.【例3】(2023下·河北张家口·高二河北省尚义县第一中学校考阶段练习)已知回归方程,而试验中的一组数据是,,,则其残差平方和是 .【答案】/0.38【分析】根据数据计算残差,即可求解平方和.【详解】∵残差,当时,,当时,,当时,,∴残差平方和为.故答案为:0.38巩固训练1.(2022下·四川成都·高二统考期中)某种产品的广告费支出x与销售额y(单位:万元)之间有下表关系1 3 4 5 730 40 60 50 70y与x的线性回归方程为,当广告支出5万元时,随机误差的效应(残差)为( )A.20 B.-10 C.10 D.-6.5【答案】D【分析】利用线性回归方程,令,求得,再求残差即可.【详解】解:因为y与x的线性回归方程为,当时,,则,所以当广告支出5万元时,随机误差的效应(残差)为-6.5,故选:D2.(2024·云南楚雄·云南省楚雄彝族自治州民族中学校考一模)对具有线性相关关系的变量有一组观测数据(),其经验回归方程为,且,,则相应于点的残差为 .【答案】/【分析】利用样本中心在其经验回归方程为上,求出,再计算当时的残差即可.【详解】经验回归直线过样本点的中心,,,经验回归方程为.当时,,残差为.故答案为:.3.(2023下·山西太原·高二统考期中)已知回归方程,而试验中的一组数据是,,,则其残差平方和是 .【答案】0.03【分析】利用残差的定义求解,求得的残差平方后求和即可.【详解】残差,当时,,当时,,当时,,残差平方和为故答案为:0.03.题型四:一元线性回归模型【例1】(2023·全国·高三校联考专题练习)某市政府为调查集贸蔬菜市场个体承包摊户年收入情况,随机抽取了6个摊户进行分析,得到样本数据,),其中和分别表示第个摊户和该摊户年收入(单位:万元),如下1 2 3 4 5 65 6 7 7 9 8(1)请用相关系数判断该组数据中与之间线性相关关系的强弱(若,相关性较强;若,相关性一般;若,相关性较弱);(2)求关于的线性回归方程;(3)若该集贸蔬菜市场个体承包摊户有300个,根据题设估计该集贸蔬菜市场个体承包摊户年收入总值.参考公式:相关系数,对于一组具有线性相关关系的数据,其回归直线的斜率和截距的最小二乘估计分别为,,.【答案】(1)与之间具有较强的线性相关关系(2)(3)210万元【分析】(1)根据所给数据求出、、、、,从而求出相关系数,即可判断;(2)求出、,即可求出回归直线方程;(3)由计算可得.【详解】(1)题意计算得,则,,则,所以,,,所以相关系数,因为与的相关系数满足,所以与之间具有较强的线性相关关系.(2)由(1)可得,,所以(3)由题设得,可估计该集贸蔬菜市场个体承包摊户年收入总值约为(万元).【例2】(2024·陕西咸阳·统考模拟预测)能源和环境问题是目前全球性急需解决的问题,虽然近百年人类文明有了前所未有的发展,但对于能源的使用和环境的破坏也造成了严重的后果,发展新能源是时代的要求,是未来生存的要求.新能源汽车不仅对环境保护具有重大的意义而且还能够减少对不可再生资源的开发,是全球汽车发展的重要方向.“保护环境,人人有责”,在政府和有关企业的努力下,某市近几年新能源汽车的购买情况如下表所示:年份x 2019 2020 2021 2022 2023汽车购买y(万辆) 0.30 0.60 1.00 1.40 1.70(1)根据上表数据,计算与的相关系数,并说明与的线性相关性强弱(若,则认为与线性相关性很强;若,则认为与线性相关性一般;若,则认为与线性相关性较弱);(2)求关于的线性回归方程,并预测该市2024年新能源汽车购买辆数(精确到个位).参考公式:,,参考数值:.【答案】(1),与线性相关性很强;(2),约为2.08万辆.【分析】(1)根据给定的数表求出,及相关系数公式中的量,代入公式计算并比较得解.(2)利用最小二乘法公式求出线性回归方程,再作出预测即可.【详解】(1),,,,,所以与线性相关性很强.(2)由(1)知,,,所以关于的线性回归方程是,当时,(万辆)该市2024年新能源汽车购买辆数约为2.08万辆.【例3】(2024上·江西九江·高二统考期末)2023年9月23日—10月8日,亚运会在杭州举行,“碳中和”是本届亚运会一大亮点.为了打造碳中和亚运会,杭州亚运会上线了“亚运碳中和-减污降碳协同”数字化管理平台.该平台将数字化技术运用到碳排放采集 核算 减排 注销 评价管理全流程,探索建立了一套科学完整的碳排放管理体系.值此机会,某家公司重点推出新型品牌新能源汽车,以下是其中五个月的销售单:2023月份 5 6 7 8 9月份代码 1 2 3 4 5新能源车销售(万辆) 1.6 2.1 2.7 3.7 4.6(1)根据表中数据,求出关于的线性回归方程;(2)随着亚运会的火热,新能源汽车也会一直持续下去,试估计2023年12月份该公司出售多少辆新能源汽车?参考公式:对于一组具有线性相关关系的数据,其回归直线的斜率和截距的最小二乘估计公式分别为.【答案】(1)(2)6.74万辆【分析】(1)先分别计算,,,再利用公式求即可求解.(2)先求2023年12月份月份代码,再利用回归方程即可求解.【详解】(1),,关于的线性回归方程为.(2)根据表中数据可知,12月份月份代码为8(万辆),估计2023年12月份该公司出售6.74万辆新能源汽车.巩固训练1.(2024·陕西咸阳·统考模拟预测)为庆祝元旦,某商场回馈消费者,准备举办一次有奖促销活动,如果顾客一次消费达到500元,可参加抽奖活动,规则如下;抽奖盒子中初始装有白球和红球各一个,每次有放回的任取一个,连续取两次,将以上过程记为一轮.如果每一轮取到的两个球都是白球,则记该轮为成功,活动结束.否则记为失败,随即获得纪念品1份,当然,如果顾客愿意可在盒子中再放入一个红球,然后接着进行下一轮抽奖,如此不断继续下去,直至成功.(1)某顾客进行该抽奖试验时,最多进行三轮,即使第三轮不成功,也停止抽奖,记其进行抽奖试验的轮次数为随机变量X,求X的分布列和数学期望;(2)为验证抽奖试验成功的概率不超过,有1000名数学爱好者独立的进行该抽球试验,记t表示成功时抽奖试验的轮次数,y表示对应的人数,部分统计数据如下表:t 1 2 3 4 5y 232 98 60 40 20求y关于t的回归方程:,并预测成功的总人数(四舍五入精确到1).附:经验回归方程系数:,.参考数据:,,(其中).【答案】(1)分布列见解析,(2),465【分析】(1) 的取值可能为,分别求得随机变量取每一值的概率,得出分布列,由此可得数学期望;(2) 令,则,由公式求得和回归方程并可得预测成功的人的总人数.【详解】(1)的取值可能为1,2,3,;;;所以的分布列为:1 2 3所以数学期望为:.(2)令,则,由题意可知,,所以.所以,.故所求的回归方程为所以估计时,;估计时,;估计时,;预测成功的人的总数为.2.(2023下·陕西咸阳·高二咸阳市实验中学校考阶段练习)如图是某机构统计的某地区2016年至2022年生活垃圾无害化处理量y(单位:万吨)的折线图. 注:年份代码1-7分别对应年份2016-2022.(1)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明;(2)建立y关于t的回归方程(系数精确到0.01),预测2024年该地区生活垃圾无害化处理量.参考数据:,,,,.参考公式:相关系数,当时认为两个变量有很强的线性相关关系;回归方程中斜率和截距的最小乘估计公式分别为,.【答案】(1)答案见解析(2),1.82万吨.【分析】(1)将数据代入公式,计算出,得到结论;(2)计算出,求出线性回归方程,代入计算预测2024年该地区生活垃圾无害化处理量.【详解】(1),,,,,,又,,y与t有很强的线性相关关系,可以用线性回归模型拟合y与t的关系.(2)由(1)得,又,,y关于t的回归方程为.,将2024对应的代入回归方程得:,预测2024年该地区生活垃圾无害化处理量将约万吨.3.(2024上·山东日照·高二统考期末)发展新能源汽车是我国从汽车大国迈向汽车强国的必由之路,是应对气候变化推动绿色发展的战略举措.随着国务院《新能源汽车产业发展规划(2021—2035)》的发布,我国自主品牌汽车越来越具备竞争力.国产某品牌汽车对市场进行调研,统计了该品牌新能源汽车在某城市年前几个月的销售量(单位:辆),用表示第月份该市汽车的销售量,得到如下统计表格:1 2 3 4 5 6 728 32 37 45 47 52 60(1)经研究,、满足线性相关关系,求关于的线性回归方程,并根据此方程预测该店月份的成交量(、按四舍五入精确到整数);(2)该市某店为感谢客户,决定针对该品牌的汽车成交客户开展抽奖活动,设“一等奖”、“二等奖”和“祝您平安”三种奖项,“一等奖”奖励千元;“二等奖”奖励千元;“祝您平安”奖励纪念品一份.在一次抽奖活动中获得“二等奖”的概率为,获得一份纪念品的概率为,现有甲、乙两个客户参与抽奖活动,假设他们是否中奖相互独立,求此二人所获奖金总额(千元)的分布列及数学期望.参考数据及公式:,,.【答案】(1),预测该店月份的成交量为辆(2)分布列见解析,【分析】(1)计算出、的值,可求出,利用最小二乘法求出、的值,可得出回归直线方程,再将代入回归方程即可得出店月份的成交量的预测值;(2)由题意可知,随机变量的可能取值有、、、、、,计算出随机变量在不同取值下的概率,可得出随机变量的分布列,进而可求得的值.【详解】(1)解:由题意可得,,,,,故线性回归方程为,当时,,故预计月份的成交量为辆.(2)解:由题意可得,获得“一等奖”的概率为,的所有可能取值为、、、、、,,,,,,,故的分布列为:故.题型五:相关指数【例1】(2022上·贵州贵阳·高二统考期末)【阅读材料1】我们在研究两个变量之间的相关关系时,往往先选取若干个样本点(),(),……,(),将样本点画在平面直角坐标系内,就得到样本的散点图.观察散点图,如果所有样本点都落在某一条直线附近,变量之间就具有线性相关关系,如果所有的样本点都落在某一非线性函数图象附近,变量之间就有非线性相关关系.在统计学中经常选择线性或非线性(函数)回归模型来刻画相关关系,并且可以用适当的方法求出回归模型的方程,还常用相关指数R2来刻画回归的效果,相关指数R2的计算公式为:当R2越大时,回归方程的拟合效果越好;当R2越小时,回归方程的拟合效果越差,R2是常用的选择模型的指标之一,在实际应用中应该尽量选择R2较大的回归模型.【阅读材料2】2021年6月17日9时22分,我国酒泉卫星发射中心用长征二号F遥十二运载火箭,成功将神舟十二号载人飞船送入预定轨道,顺利将聂海胜、刘伯明、汤洪胺3名航天员送入太空,发射取得圆满成功,这标志着中国人首次进入自己的空间站.某公司负责生产的A型材料是神舟十二号的重要零件,该材料应用前景十分广泛,该公司为了将A型材料更好地投入商用,拟对A型材料进行应用改造,根据市场调研与模拟,得到应用改造投入x(亿元)与产品的直接收益y(亿元)的数据统计如下:序号 1 2 3 4 5 6 7 8 9 10 11 12x 2 3 4 6 8 10 13 21 22 23 24 25y 15 22 27 40 48 54 60 68.5 68 67.5 66 65当0模型①:;模型②:;当x>13时,确定y与x满足的线性回归直线方程为.根据以上阅读材料,解答以下问题:(1)根据下列表格中的数据,比较当0回归模型 模型① 模型②回归方程79.13 20.2(2)当应用改造的投入为20亿元时,以回归直线方程为预测依据,计算公司的收益约为多少.附:①若最小二乘法求得回归直线方程为,则;②③,当时,.【答案】(1)模型②拟合效果更好(2)69.1(亿元)【分析】(1)分别求出两个模型的相关指数,在进行比较即可,(2)利用最小二乘法求出回归方程,再求收益即可.【详解】(1)对于模型①,因为,故对应的,故对应的相关指数,对于模型②,同理对应的相关指数,故模型②拟合效果更好.(2)当时,后五组的,由最小二乘法可得,所以当时,确定y与x满足的线性回归直线方程为故当投入20亿元时,预测公司的收益约为:(亿元).【例2】(2021下·黑龙江哈尔滨·高二哈九中校考期末)全球化时代,中国企业靠什么在激烈的竞争中成为世界一流企业呢?由人民日报社指导,《中国经济周刊》主办的第十八届中国经济论坛在人民日报社举行,就中国企业如何提升全球行业竞争力进行了研讨.数据显示,某企业近年加大了科技研发资金的投入,其科技投入(百万元)与收益(百万元)的数据统计如下:科技投入 1 2 3 4 5 6 7收益 19 20 22 31 40 50 70根据数据特点,甲认为样本点分布在指数型曲线的周围,据此他对数据进行了一些初步处理.如下表:5 140 1239 149 2134 130其中,.(1)请根据表中数据,建立关于的回归方程(系数精确到0.1,用的近似值算);(2)①乙认为样本点分布在直线的周围,并计算得回归方程为,以及该回归模型的决定系数(即相关指数),试计算,比较甲乙两人所建立的模型,谁的拟合效果更好?(精确到0.001)②由①所得的结论,计算该企业欲使收益达到1亿元,科技投入的费用至少要多少百万元?(精确到0.1)附:对于一组数据,,…,,其回归直线方程的斜率和截距的最小二乘法估计分别为,,决定系数:.参考数据:.【答案】(1);(2)①;甲建立的回归模型拟合效果更好;②科技投入的费用至少要9.3百万元.【分析】(1)两边取对数得,令,利用最小二乘法可求得,由此可得回归方程;(2)①根据公式计算可得相关指数,由此可得结论;②由,解不等式可求得范围,由此可得结果.【详解】(1)将两边取对数得:,令,则,∵,∴根据最小二乘估计可知:,∴,∴回归方程为,即.(2)①甲建立的回归模型的.∴甲建立的回归模型拟合效果更好.②由①知,甲建立的回归模型拟合效果更好.设,解得:,解得:.∴科技投入的费用至少要9.3百万元,下一年的收益才能达到1亿.巩固训练1.(2020·黑龙江哈尔滨·哈尔滨市第六中学校校考三模)“海水稻”就是耐盐碱水稻,是一种介于野生稻和栽培稻之间的普遍生长在海边滩涂地区,具有耐盐碱的水稻,它比其它普通的水稻均有更强的生存竞争能力,具有抗涝,抗病虫害,抗倒伏等特点,还具有预防和治疗多种疾病的功效,防癌效果尤为显著.海水稻的灌溉是将海水稀释后进行灌溉.某试验基地为了研究海水浓度(‰)对亩产量(吨)的影响,通过在试验田的种植实验,测得了某种海水稻的亩产量与海水浓度的数据如表.绘制散点图发现,可用线性回归模型拟合亩产量与海水浓度之间的相关关系,用最小二乘法计算得与之间的线性回归方程为.海水浓度(‰) 3 4 5 6 7亩产量(吨) 0.62 0.58 0.49 0.4 0.31残差(1)请你估计:当浇灌海水浓度为8‰时,该品种的亩产量.(2)①完成上述残差表:②统计学中,常用相关指数来刻画回归效果,越大,模型拟合效果越好,并用它来说明预报变量与解释变量的相关性.你能否利用以上表格中的数据,利用统计学的相关知识,说明浇灌海水浓度对亩产量的贡献率?(计算中数据精确到)(附:残差公式,相关指数)【答案】(1)当海水浓度为8‰时,该品种的亩产量为0.24吨(2)①填表见解析;②所以浇灌海水浓度对亩产量的贡献率是,详解见解析.【分析】(1)根据题意,算出,将样本中心点代入线性回归方程为,求出,从而可估计当浇灌海水浓度为8‰时,该品种的亩产量.(2)根据线性回归方程和残差公式,即可求出个海水浓度时对应的残差,即可完成残差表;根据相关指数的公式,求出,根据的意义,即可得出浇灌海水浓度对亩产量的贡献率.【详解】(1)根据题意,可得,,而与之间的线性回归方程为,则,解得:,当时,,所以当海水浓度为8‰时,该品种的亩产量为0.24吨.(2)①由(1)知,根据残差公式,得残差表如下:海水浓度(‰) 3 4 5 6 7亩产量(吨) 0.62 0.58 0.49 0.4 0.31残差 -0.02 0.02 0.01 0 -0.01②根据题意,可得:,所以浇灌海水浓度对亩产量的贡献率是.【点睛】本题考查线性回归方程和残差的计算,以及相关指数的求法和根据的意义对实际问题进行分析,考查运算能力.2.(2018·广东茂名·统考一模)一只药用昆虫的产卵数y与一定范围内的温度x有关,现收集了该种药用昆虫的6组观测数据如下表:温度x/℃ 21 23 24 27 29 32产卵数y/个 6 11 20 27 57 77经计算得:,,线性回归模型的残差平方和,,其中分别为观测数据中的温度和产卵数,(1)若用线性回归模型,求y关于x的回归方程(精确到0.1);(2)若用非线性回归模型求得y关于x的回归方程为,且相关指数.①试与1中的回归模型相比,用说明哪种模型的拟合效果更好.②用拟合效果好的模型预测温度为35℃时该用哪种药用昆虫的产卵数(结果取整数)附:一组数据其回归直线的斜率和截距的最小二乘估计为,;相关指数.【答案】(1) (2)①用非线性回归模型拟合效果更好;②190个【分析】(1)求出、后代入公式直接计算得、,即可得解;(2)求出线性回归模型的相关指数,与比较即可得解;(3)直接把代入,计算即可得解.【详解】(1)由题意,则,,,,y关于x的线性回归方程为.(2)①对于线性回归模型,,,相关指数为因为,所以用非线性回归模型拟合效果更好.②当,时(个)所以温度为时,该种药用昆虫的产卵数估计为190个.【点睛】本题考查了线性回归方程的求解、相关指数的应用以及非线性回归方程的应用,考查了计算能力,属于中档题.题型六:非线性拟合【例1】(2023下·山西·高二统考期中)某生产制造企业统计了近10年的年利润(千万元)与每年投入的某种材料费用(十万元)的相关数据,作出如下散点图:选取函数作为每年该材料费用和年利润的回归模型.若令,则,得到相关数据如表所示:31.5 15 15 49.5(1)求出与的回归方程;(2)计划明年年利润额突破1亿,则该种材料应至少投入多少费用?(结果保留到万元)参考数据:.【答案】(1)(2)498万元【分析】(1)由表中数据代入最小二乘法公式计算即可;(2)按照(1)中所求回归方程,结合参考数据,代入计算即可.【详解】(1)因为由表中数据得,所以,所以,所以年该材料费用和年利润额的回归方程为;(2)令,得,所以(十万),故下一年应至少投入498万元该材料费用.【例2】(2023·贵州贵阳·校联考模拟预测)为了研究某种细菌随天数x变化的繁殖个数y,收集数据如下:天数x 1 2 3 4 5 6繁殖个数y 6 12 25 49 95 190(1)在图中作出繁殖个数y关于天数x变化的散点图,并由散点图判断(a,b为常数)与(,为常数,且,)哪一个适宜作为繁殖个数y关于天数x变化的回归方程类型?(给出判断即可,不必说明理由)(2)对于非线性回归方程(,为常数,且,),令,可以得到繁殖个数的对数z关于天数x具有线性关系及一些统计量的值.3.50 62.83 3.53 17.50 596.57 12.09①证明:“对于非线性回归方程,令,可以得到繁殖个数的对数z关于天数x具有线性关系(即,β,α为常数)”;②根据(1)的判断结果及表中数据,建立y关于x的回归方程(系数保留2位小数).附:对于一组数据,,…,,其回归直线方程的斜率和截距的最小二乘估计分别为,.【答案】(1)作图见解析,选择为回归方程较适宜(2)① 证明见解析;②【分析】(1)根据散点图,结合一次函数和指数型函数图象的特征进行判断即可;(2)①根据对数与指数的互化公式进行求解即可;②利用题中所给的数据和公式进行求解即可.【详解】(1)作出散点图如图所示.由散点图看出样本点分布在一条指数型曲线的周围,故选择为回归方程较适宜;(2)①由已知,,则,则,,即.所以繁殖个数的对数z关于天数x具有线性关系.②由①知繁殖个数的对数z关于天数x可以用线性回归方程来拟合.由表中数据可得,,则z关于x的线性回归方程为.又,因此细菌的繁殖个数y关于天数x的非线性回归方程为.【例3】(2022上·重庆沙坪坝·高三重庆八中校考阶段练习)多年来,清华大学电子工程系黄翔东教授团队致力于光谱成像芯片的研究,2022年6月研制出国际首款实时超光谱成像芯片,相比已有光谱检测技术,实现了从单点光谱仪到超光谱成像芯片的跨越,为制定下一年的研发投入计划,该研发团队为需要了解年研发资金投入量x(单位:亿元)对年销售额(单位:亿元)的影响,结合近12年的年研发资金投入量x,和年销售额,的数据(,2,,12),该团队建立了两个函数模型:①②,其中均为常数,e为自然对数的底数,经对历史数据的初步处理,得到散点图如图,令,计算得如下数据:20 66 770 200 14460 3125000 21500(1)设和的相关系数为和的相关系数为,请从相关系数的角度,选择一个拟合程度更好的模型;(2)(i)根据(1)的选择及表中数据,建立关于的回归方程(系数精确到0.01);(ii)若下一年销售额需达到80亿元,预测下一年的研发资金投入量是多少亿元?附:①相关系数,回归直线中斜率和截距的最小二乘估计公式分别为:,;②参考数据:.【答案】(1)模型的拟合程度更好(2)(i)(ii)预测下一年的研发资金投入量是亿元【分析】(1)由题意计算相关系数,比较它们的大小即可判断;(2)(i)先建立关于的的线性回归方程,再转化为y关于的回归方程;(2)利用回归方程计算时x的值即可.【详解】(1)由题意进行数据分析:则,因此从相关系数的角度,模型的拟合程度更好(2)(i)先建立关于的线性回归方程.由,得,即.由于所以关于的线性回归方程为,所以,则.(ii)下一年销售额需达到80亿元,即,代入得,,又所以,解得,所以预测下一年的研发资金投入量是亿元巩固训练1.(2022下·福建三明·高二统考期末)在国家大力发展新能源汽车产业的政策下,我国新能源汽车的产销量高速增长. 已知某地区2014年底到2021年底新能源汽车保有量的数据统计表如下:年份(年) 2014 2015 2016 2017 2018 2019 2020 2021年份代码x 1 2 3 4 5 6 7 8保有量y/千辆 1.95 2.92 4.38 6.58 9.87 15.00 22.50 33.70参考数据:,,其中(1)根据统计表中的数据画出散点图(如图),请判断与哪一个更适合作为y关于x的经验回归方程(给出判断即可,不必说明理由),并根据你的判断结果建立y关于x的经验回归方程:(2)假设每年新能源汽车保有量按(1)中求得的函数模型增长,且传统能源汽车保有量每年下降的百分比相同.若2021年底该地区传统能源汽车保有量为500千辆,预计到2026年底传统能源汽车保有量将下降10%.试估计到哪一年底新能源汽车保有量将超过传统能源汽车保有量.参考公式:对于一组数据,v1),),…,,其经验回归直线的斜率和截距的最小二乘估计公式分别为,;【答案】(1)作图见解析,选择的函数模型是,;(2)2028年.【分析】(1)根据题中所给公式,结合对数函数的性质进行求解即可;(2)根据指数函数的性质,结合对数运算性质进行求解即可.【详解】(1)根据该地区新能源汽车保有量的增长趋势知,应选择的函数模型是,令,则因为,所以,,,所以;(2)设传统能源汽车保有量每年下降的百分比为r,依题意得,),解得,设从2021年底起经过x年后的传统能源汽车保有量为y千辆,则有x,设从2021年底起经过x年后新能源汽车的数量将超过传统能源汽车,则有,所以,解得,故从2021年底起经过7年后,即2028年底新能源汽车的数量将超过传统能源汽车.2.(2022·山东聊城·统考三模)为迎接年北京冬奥会,践行“更快更高更强”的奥林匹克格言,落实全民健身国家战略.某校高二年级发起了“发扬奥林匹克精神,锻炼健康体魄”的年度主题活动,经过一段时间后,学生的身体素质明显提高.(1)为了解活动效果,该年级对开展活动以来近个月体重超重的人数进行了调查,调查结果统计如上图,根据上面的散点图可以认为散点集中在曲线的附近,请根据下表中的数据求出该年级体重超重人数与月份之间的经验回归方程(系数和的最终结果精确到),并预测从开展活动以来第几个月份开始该年级体重超标的人数降至人以下?月份体重超标人数(2)在某次足球训练课上,球首先由队员控制,此后足球仅在、、三名队员之间传递,假设每名队员控球时传给其他队员的概率如下表所示:控球队员接球队员概率若传球次,记队员控球次数为,求的分布列及均值.附:经验回归方程:中,,;参考数据:,,,.【答案】(1),第十个月(2)分布列见解析,【分析】(1)令,求出、的值,将参考数据代入最小二乘法公式,求出、的值,即可得出关于的经验回归方程,然后解不等式,即可得解;(2)分析可知随机变量的可能取值有、、,可得出随机变量的分布列,进而可求得.【详解】(1)解:由得.由题意得,,所以,.所以,即关于的经验回归方程为.令,所以,解得.由于,所以,所以从第十个月开始,该年级体重超标的人数降至人以下.(2)解:由题意得的可能取值为、、,,,,所以的分布列为所以,.3.(2022下·山西太原·高二校考期中)某公司对某产品作市场调查,获得了该产品的定价(单位:万元/吨)和一天的销量(吨)的一组数据,根据这组数据制作了如下统计表和散点图.0.33 10 3 0.164 100 68 350表中.(1)根据散点图判断,与哪一个更适合作为关于的经验回归方程;(给出判断即可,不必说明理由)(2)根据(1)的判断结果,建立关于的经验回归方程;【答案】(1)(2)【分析】(1)由散点图可知这些点分布在一条曲线附近,从而可作出判断,(2)令,则,然后根据表中的数据和线性回归方程公式求解即可【详解】(1)根据散点图可知,更适合作为关于的经验回归方程;(2)令,则,所以,所以,所以,故关于的经验回归方程为,题型七:独立性检验(选填)【例1】(2023上·全国·高三专题练习)千百年来,我国劳动人民在生产实践中根据云的形状、走向、速度、厚度、颜色等的变化,总结了丰富的“看云识天气”的经验,并将这些经验编成谚语,如“天上钩钩云,地上雨淋淋”“日落云里走,雨在半夜后”……小波同学为了验证“日落云里走,雨在半夜后”,观察了地区A的100天日落和夜晚天气,得到如下2×2列联表(单位:天),并计算得到,下列小波对地区A天气的判断不正确的是( )日落云里走 夜晚天气 下雨 未下雨出现 25 5未出现 25 45参考公式:临界值参照表:0.1 0.05 0.01 0.005 0.0012.706 3.841 6.635 7.879 10.828A.夜晚下雨的概率约为B.未出现“日落云里走”,夜晚下雨的概率约为C.据小概率值的独立性检验,认为“日落云里走”是否出现与夜晚天气有关D.出现“日落云里走”, 据小概率值的独立性检验,可以认为夜晚会下雨【答案】D【分析】应用古典概型的概率求法求概率判断A、B,应用卡方计算公式求卡方值,与临界值比较,应用独立检验的基本思想得到结论,判断C、D.【详解】由列联表知:100天中有50天下雨,50天未下雨,因此夜晚下雨的概率约为,A正确;未出现“日落云里走”,夜晚下雨的概率约为,B正确;,因此据小概率值的独立性检验,认为“日落云里走”是否出现与夜晚天气有关,C正确,D错误.故选:D【例2】(2023上·高二课时练习)手机给人们的生活带来便捷,但同时也对中学生的生活和学习造成了一定的影响.某校几个学生成立研究性学习小组,就使用手机对学习成绩的影响随机抽取了该校100名学生的期末考试成绩并制成如下的表,则下列说法正确的是( )手机使 用情况 成绩成绩优秀 成绩不优秀 总计不用手机 40 10 50使用手机 5 45 50总计 45 55 100(参考公式:,其中)A.在犯错误的概率不超过0.01的前提下认为使用手机与学习成绩无关B.在犯错误的概率不超过0.1的前提下认为使用手机与学习成绩无关C.有99%的把握认为使用手机对学习成绩有影响D.无99%的把握认为使用手机对学习成绩有影响【答案】C【分析】根据给定的数表,求出的观测值,再与临界值表比对判断作答.【详解】由列联表中的数据,计算,所以在犯错误的概率不超过0.01的前提下认为使用手机与学习成绩有关,AB错误;有99%的把握认为使用手机对学习成绩有影响,C正确,D错误.故选:C【例3】(2023上·高二单元测试)某部门通过随机调查89名工作人员的休闲方式是读书还是健身,得到的数据如下表:性别 休闲方式读书 健身 总计女 24 31 55男 8 26 34总计 32 57 89在犯错误的概率不超过 的前提下性别与休闲方式有关系.参考公式:.【答案】0.1/【分析】直接利用分式计算,再用临界值表判断即可.【详解】由列联表中的数据算得因此,在犯错误的概率不超过0.10的前提下认为性别与休闲方式有关联.故答案为:0.1【例4】(2023下·高二单元测试)若两个分类变量与的列联表为:y1 y2 合计x1 10 15 25x2 40 16 56合计 50 31 81则有 的把握认为“与之间有关系”.附:,其中0.050 0.010 0.001k 3.841 6.635 10.828【答案】【分析】先求,然后与临界值比较即可得出答案.【详解】由列联表数据,可求得,所以有的把握认为“X与Y之间有关系”.故答案为:.巩固训练1.(2023上·高二单元测试)某校团委对“喜欢吃水果和学生性别是否有关”进行了一次调查,其中被调查的女生人数是男生人数的,男生喜欢吃水果的人数占被调查的男生人数的,女生喜欢吃水果的人数占被调查的女生人数的,若有99%的把握认为喜欢吃水果和学生性别有关,则被调查的男生至少有( )0.10 0.05 0.010 0.005 0.001k 2.706 3.841 6.635 7.879 10.828A.12人 B.18人C.24人 D.30人【答案】B【分析】设被调查的男生人数为x,根据题意可得列联表,进而可得,运算求解即可.【详解】设被调查的男生人数为x,被调查的女生人数为,则得到2×2列联表如下:喜欢吃水果情况 总计喜欢 不喜欢学生 性别 男生女生总计则,解得,又因为男、女人数为整数,所以被调查的男生至少有18人.故选:B.2.(2023上·高二单元测试)冶炼某种金属可以用旧设备和改造后的新设备,为了检验用这两种设备生产的产品中所含杂质的关系,调查结果如表所示:设备 杂质情况杂质高 杂质低旧设备 37 121新设备 22 202参考公式:,根据以上数据,则下列说法正确的是( )A.含杂质的高低与设备改造有关B.含杂质的高低与设备改造无关C.设备是否改造决定含杂质的高低D.以上答案都不对【答案】A【分析】先完成列联表,然后计算卡方,再根据临界值表判断即可【详解】由已知数据得到如下2×2列联表:杂质高 杂质低 总计旧设备 37 121 158新设备 22 202 224总计 59 323 382则由于13.11>6.635,故在犯错误的概率不超过0.01的前提下认为含杂质的高低与设备改造是有关的.故选:A3.(2022下·福建福州·高二福州三中校考期末)为了考察某种药物预防疾病的效果,进行动物试验,得到如下列联表:药物 疾病 合计未患病 患病服用 a 50未服用 50合计 80 20 100若在本次考察中得出“在犯错误的概率不超过0.01的前提下认为药物有效”的结论,则a的最小值为 .(其中且)(参考数据:,)附:,α 0.1 0.05 0.01 0.005 0.001xα 2.706 3.841 6.635 7.879 10.828【答案】46【分析】根据公式列不等式求解.【详解】由题意可得,整理得,所以或,解得或,又因为且,所以,所以a的最小值为46.故答案为:46.4.(2023上·高二课时练习)为了考查某流感疫苗的效果,某实验室随机抽取100只健康小鼠进行试验,得到如下列联表:疫苗使 用情况 感染情况感染 未感染 总计注射 10 40 50未注射 20 30 50总计 30 70 100参照附表,在犯错误的概率最多不超过 的前提下,可认为“注射疫苗”与“感染某流感”有关系.参考公式:.【答案】0.05【分析】根据给定的数表,求出的观测值,再与临界值表比对作答.【详解】由列联表中数据,计算得,所以在犯错误的概率最多不超过0.05的前提下,认为“注射疫苗”与“感染某流感”有关系.故答案为:0.05题型八:独立性检验(解答)【例1】(2024·江苏南京·金陵中学校考模拟预测)某高中为了了解高中学生暑假期间阅读古典名著的时间(小时/每周)和他们的语文成绩(分)的关系,某实验小组做了调查,得到一些数据(表一).表一编号 1 2 3 4 5学习时间 2 4 7 7 10语文成绩 82 93 95 108 122(1)请根据所给数据求出语文成绩的平均数和方差;(2)基于上述调查,学校为了确认学生喜欢阅读古典名著与语文成绩的关系,抽样调查了200位学生.按照是否喜欢阅读古典名著与语文成绩是否优秀统计,得到下列数据,请依据表中数据及小概率值的独立性检验,分析“喜欢阅读古典名著与语文成绩优秀”是否有关.表二语文成绩优秀 语文成绩不优秀 合计喜欢阅读 75 25 100不喜欢阅读 55 45 100合计 130 70 2000.10 0.05 0.0102.706 3.841 6.635【答案】(1)平均数为100,方差为189.2(2)可以认为“喜欢阅读古典名著与语文成绩优秀”有关【分析】(1)由平均数以及方差的计算公式,即可求得答案;(2)根据已知数据计算的值,与临界值表比较,根据独立性检验的原则,即可得结论.【详解】(1)由题意得,,所以语文成绩的平均数为100,方差为189.2.(2)零假设为:喜欢阅读古典名著与语文成绩优秀无关.根据表中数据,可得,所以依据的独立性检验,不成立,故可以认为“喜欢阅读古典名著与语文成绩优秀”有关.【例2】(2024·陕西·校联考一模)我国老龄化时代已经到来,老龄人口比例越来越大,出现很多社会问题.2015年10月,中国共产党第十八届中央委员会第五次全体会议公报指出:坚持计划生育基本国策,积极开展应对人口老龄化行动,实施全面二孩政策.随着国家二孩政策的全面放开,为了调查一线城市和非一线城市的二孩生育意愿,某机构用简单随机抽样方法从不同地区调查了100位育龄妇女,结果如下表.非一线 一线 总计愿生 40 y 60不愿生 x 22 40总计 58 42 100(1)求x和y的值.(2)分析调查数据,是否有以上的把握认为“生育意愿与城市级别有关”?(3)在以上二孩生育意愿中按分层抽样的方法,抽取6名育龄妇女,再选取两名参加育儿知识讲座,求至少有一名来自一线城市的概率.参考公式:,0.050 0.010 0.001k 3.841 6.635 10.828【答案】(1)(2)有以上的把握认为“生育意愿与城市级别有关”(3)【分析】(1)根据列联表中数据分析得到答案;(2)计算出卡方,与比较后得到结论;(3)利用列举法求出古典概型的概率.【详解】(1)由题意得,;(2)由,得,∴有以上的把握认为“生育意愿与城市级别有关”.(3)抽取6名育龄妇女,来自一线城市的人数为,记为1,2,来自非一线城市的人数为,记为a,b,c,d,选设事件A为“取两名参加育儿知识讲座,求至少有一名来自一线城市”,基本事件为:,,事件共有9个,或【例3】(2024下·全国·高三开学考试)2023年11月,世界首届人工智能峰会在英国举行,我国因为在该领域取得的巨大成就受邀进行大会发言.为了研究不同性别的学生对人工智能的了解情况,我市某著名高中进行了一次抽样调查,分别抽取男 女生各50人作为样本.设事件“了解人工智能”,“学生为男生”,据统计.(1)根据已知条件,填写下列列联表,是否有把握推断该校学生对人工智能的了解情况与性别有关?了解人工智能 不了解人工智能 合计男生女生合计(2)①现从所抽取的女生中利用分层抽样的方法抽取20人,再从这20人中随机选取3人赠送科普材料,求选取的3人中至少有2人了解人工智能的概率;②将频率视为概率,从我市所有参与调查的学生中随机抽取20人科普材料,记其中了解人工智能的人数为X,求随机变量的数学期望和方差.参考公式:.常用的小概率值和对应的临界值如下表:0.150 0.100 0.050 0.025 0.010 0.005 0.0012.072 2.706 3.841 5.024 6.635 7.879 10.828【答案】(1)列联表见解析;没有(2)①;②,.【分析】(1)根据两个条件概率值求出列联表中的数据,利用卡方公式计算的值,再与对应的小概率值比较即得结论;(2)①先利用分层抽样确定所抽取的名女市民中了解和不了解人工智能的人数,再利用古典概率模型概率公式计算即得;②根据列联表推理得到从我市高中生中任意抽取一人,恰好抽到了解人工智能学生的概率为,每次抽的结果仅有“了解”与“不了解”两种,随机抽取20人,相当于完成20次伯努利试验,故利用二项分布期望与方差公式即可求得.【详解】(1)因为,所以了解人工智能的女生为,了解人工智能的总人数为,则了解人工智能的男生有人,结合男生和女生各有人,填写列联表为:了解人工智能 不了解人工智能 合计男生 40 10 50女生 30 20 50合计 70 30 100因,故没有把握推断该校学生对人工智能的了解情况与性别有关.(2)①由题意可知,所抽取的名女市民中,了解人工智能的有人,不了解人工智能的有人,所以,选取的人中至少有人了解人工智能的概率为;②由列联表可知,抽到了解人工智能的学生的频率为,将频率视为概率,所以,从我市高中生中任意抽取一人,恰好抽到了解人工智能学生的概率为,由题意可知,,所以,,.巩固训练1.(2024上·河北张家口·高三统考期末)某公司男女职工人数相等,该公司为了解职工是否接受去外地长时间出差,进行了如下调查:在男女职工中各随机抽取了100人,经调查,男职工和女职工接受去外地长时间出差的人数分别为40和20.(1)根据所给数据,完成下面列联表,并依据小概率值的独立性检验,能否认为是否接受去外地长时间出差与性别有关联?单位:人性别 接受 不接受 合计男女合计(2)若将频率视为概率,用样本估计总体,从该公司中随机抽取5人,记其中接受去外地长时间出差的人数为X,求X的数学期望,附表:0.1 0.05 0.01 0.005 0.0012.706 3.841 6.635 7.879 10.828附:,其中.【答案】(1)填表见解析;认为是否接受去外地长时间出差与性别有关联(2)【分析】(1)数据分析填写列联表,计算出卡方,与比较后得到答案;(2)得到,利用期望公式求出答案.【详解】(1)依题意,列出列联表如下:单位:人性别 接受 不接受 合计男 40 60 100女 20 80 100合计 60 140 200零假设为:是否接受去外地长时间出差与性别相互独立,即是否接受去外地长时间出差与性别无关,所以.根据小概率值的独立性检验,我们推断不成立,即认为是否接受去外地长时间出差与性别有关联,此推断犯错误的概率不大于0.005.(2)由题意,接受去外地长时间出差的频率为,所以接受去外地长时间出差的概率为.随机变量的可能取值为0,1,2,3,4,5,由题意,得,所以的数学期望.2.(2024上·山东德州·高二统考期末)为了解某一地区电动汽车销售情况,某部门根据统计数据,用最小二乘法得到电动汽车销量y(单位:万台)关于x(年份)的线性回归方程为,且销量y的方差,年份x的方差.(1)求y与x的相关系数r,并据此判断电动汽车销量y与年份x的相关性强弱;(2)该部门还调查了该地区90位购车车主的性别与购车种类情况,得到的数据如下表:性别 购买非电动汽车 购买电动汽车 总计男性 39 45女性 15总计根据调查数据回答:是否有的把握认为购买电动汽车与车主性别有关?参考公式:(i)线性回归方程:,其中;(ii)相关系数:,若,则可判断y与x线性相关较强.(iii),其中.附表:0.10 0.05 0.010 0.0012.706 3.841 6.635 10.828【答案】(1)0.9375,y与x线性相关较强(2)有的把握认为购买电动汽车与车主性别有关【分析】(1)将相关系数公式适当变形成,代入相关值计算即可判断;(2)根据题意完成列联表,计算的值,并与对应的小概率值比较即得.【详解】(1)相关系数为,(由y关于x的线性回归方程为可知:,且,)故y与x线性相关较强.(2)由题意:性别 购买非电动汽车 购买电动汽车 总计男性 39 6 45女性 30 15 45总计 69 21 90.由表可得,所以有的把握认为购买电动汽车与车主性别有关.3.(2024下·甘肃·高三武威第六中学校联考开学考试)2022年日本17岁男性的平均身高为,同样的数据1994年是,近30年日本的平均身高不仅没有增长,反而降低了.反观中国近30年,男性平均身高增长了约.某课题组从中国随机抽取了400名成年男性,记录他们的身高,将数据分成八组:,;同时从日本随机抽取了200名成年男性,记录他们的身高,将数据分成五组:,整理得到如下频率分布直方图: (1)由频率分布直方图估计样本中日本成年男性身高的分位数;(2)为了了解身高与蛋白质摄入量之间是否有关联,课题组调查样本中的600人得到如下列联表:身高 蛋白质摄入量 合计丰富 不丰富低于 108不低于 100合计 600结合频率分布直方图补充上面的列联表,并依据小概率值的独立性检验,推断成年男性身高与蛋白质摄入量之间是否有关联?附:.0.1 0.05 0.01 0.005 0.0012.706 3.841 6.635 7.879 10.828【答案】(1)(2)列联表见解析,有关联【分析】(1)由频率和为1解得,利用分位数位定义可得答案;(2)由频率分布直方图计算出样本中身高低于的中国成年男性人数、日本成年男性人数可完成表格,零假设:成年男性身高与蛋白质摄入量之间无关联,则由列联表数据可得,依据的独立性检验,可得答案.【详解】(1)由频率分布直方图可知,解得.因为,所以分位数位于,设为,则有,解得,故日本成年男性身高的分位数为;(2)由频率分布直方图知,样本中身高低于的中国成年男性人数是(人),样本中身高低于的日本成年男性人数是(人),故样本中身高低于的共有348人,可得下表:身高 蛋白质摄入量 合计丰富 不丰富低于 108 240 348不低于 152 100 252合计 260 340 600零假设:成年男性身高与蛋白质摄入量之间无关联,则由列联表数据可得:,依据的独立性检验,我们推断不成立,即认为成年男性身高与蛋白质摄入量之间有关联. 展开更多...... 收起↑ 资源列表 第八章 成对数据的统计分析 (原卷版).docx 第八章 成对数据的统计分析 (解析版).docx