第八章 成对数据的统计分析总结 第一课(学案+练习)(含答案) 高中数学人教A版(2019)选择性必修第三册

资源下载
  1. 二一教育资源

第八章 成对数据的统计分析总结 第一课(学案+练习)(含答案) 高中数学人教A版(2019)选择性必修第三册

资源简介

第八章 成对数据的统计分析
第一课 归纳本章考点
[课标要求]
1.了解样本相关系数的统计含义.
2.了解一元线性回归模型和2×2列联表,会运用这些方法解决简单的实际问题.
[明确任务]
1.了解样本相关系数的统计含义.【数学抽象,数学运算】
2.了解一元线性回归模型和2×2列联表,会运用这些方法解决简单的实际问题.【数学建模,数学运算】
考点1:变量间相关关系的判断
例1(22-23高二·全国·课后作业)下列说法正确的是( )
A.中的x,y是具有相关关系的两个变量
B.正四面体的体积与棱长具有相关关系
C.电脑的销售量与电脑的价格之间是一种确定性的关系
D.传染病医院感染传染病的医务人员数与医院收治的传染病人数是具有相关关系的两个变量
【答案】D
【分析】根据相关关系的定义、函数的定义即可判断
【详解】A,B均为函数关系,故A、B错误;C,D为相关关系,故C错,D对.
故选:D
归纳总结 两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系.
【举一反三】(22-23高二·全国·课后作业)
1.下列两个变量间的关系,是相关关系的是( )
A.任意实数和它的平方 B.圆半径和圆的周长
C.正多边形的边数和内角度数之和 D.天空中的云量和下雨
考点2:样本相关系数
例2(2024·湖南·模拟预测)某骑行爱好者在专业人士指导下对近段时间骑行锻炼情况进行统计分析,统计每次骑行期间的身体综合指标评分与骑行用时(单位:小时)如下表:
身体综合指标评分 1 2 3 4 5
用时小时) 9.5 8.8 7.8 7 6.1
由上表数据得到的正确结论是( )
参考数据:
参考公式:相关系数.
A.身体综合指标评分与骑行用时正相关
B.身体综合指标评分与骑行用时的相关程度较弱
C.身体综合指标评分与骑行用时的相关程度较强
D.身体综合指标评分与骑行用时的关系不适合用线性回归模型拟合
【答案】C
【分析】求出相关系数,根据相关系数的大小确定答案即可.
【详解】因为相关系数.
即相关系数近似为与负相关,且相关程度相当高,从而可用线性回归模型拟合与的关系.
所以选项ABD错误,C正确.
故选:C.
归纳总结 一般用来衡量y与x的线性相关性强弱,我们称r为变量x和变量y的样本相关系数.
【举一反三】(23-24高二下·陕西·阶段练习)
2.设变量和变量的样本相关系数为,变量和变量的样本相关系数为,且,,则( )
A.和之间呈正线性相关关系,且和的线性相关程度强于和的线性相关程度
B.和之间呈负线性相关关系,且和的线性相关程度强于和的线性相关程度
C.和之间呈负线性相关关系,且和的线性相关程度弱于和的线性相关程度
D.和之间呈正线性相关关系,且和的线性相关程度弱于和的线性相关程度
【举一反三】(2024高三·全国·专题练习)
3.学习于才干信仰,犹如运动于健康体魄,持之已久、行之愈远愈受益.为实现中华民族伟大复兴,全国各行各业掀起了“学习强国”的高潮.某老师很喜欢“学习强国”中“挑战答题”模块,他记录了自己连续七天每天一次最多答对的题数如下表:
天数x 1 2 3 4 5 6 7
一次最多答对题数y 12 15 16 18 21 24 27
参考数据:,,,,,
相关系数
由表中数据可知该老师每天一次最多答对题数y与天数x之间是正相关,其相关系数 (结果保留两位小数).
考点3:经验回归模型
例3(23-24高二下·江苏·课前预习)假设关于某种设备的使用年限(年)与所支出的维修费用(万元)有如下统计资料:
2 3 4 5 6
2.2 3.8 5.5 6.5 7.0
已知,,,,.
(1)求,;
(2)对,进行线性相关性检验.
【答案】(1),
(2)具有很强的正线性相关关系
【分析】(1)根据表格数据直接求解即可;
(2)根据题意,结合参考数据和相关系数的计算公式,求出,即可判断与之间是否具有线性相关关系.
【详解】(1)依题意可得,

(2)又,


所以.
所以有把握认为与之间具有很强的正线性相关关系.
归纳总结 求经验回归方程的步骤
(1)作出散点图,判断两变量是否具有线性相关关系,若具有线性相关关系,则可求其经验回归方程;
(2)列表求出,的值;
(3)利用公式先计算,再根据经验回归直线过样本点的中心计算;
(4)写出经验回归方程.
求经验回归方程,关键在于正确求出,,由于计算量较大,所以计算时要仔细谨慎、分层进行,避免因计算产生错误.要特别注意,只有两个变量呈线性相关关系时,求出的经验回归方程才有意义.
【举一反三】(23-24高二下·河南·期中)
4.已知变量y关于x的回归方程为,若对两边取自然对数,可以发现与x线性相关,现有一组数据如下表所示:
x 1 2 3 4 5
y
则当时,预测y的值为 .
【举一反三】(23-24高二下·吉林长春·阶段练习)
5.在一元线性回归模型中,设变量和变量的样本相关系数为,决定系数为,变量和变量的样本相关系数为,决定系数为,且,,则( )
A.和之间呈正线性相关关系,且
B.和之间呈负线性相关关系,且
C.和之间呈负线性相关关系,且
D.和之间呈正线性相关关系,且
【举一反三】(22-23高二下·江西萍乡·期中)
6.某研发小组为了解年研发资金投入量(单位:亿元)对年销售额(单位:亿元)的影响,结合近10年的年研发资金投入量和年销售额的数据(),建立了两个函数模型:①,②,其中,,,均为常数,为自然对数的底数.设,,经过计算得如下数据.
20 66 770 200 14
460 4.20 3125000 0.308 21500
(1)设和的相关系数为,和的相关系数为,请从相关系数的角度,选择一个拟合程度更好的模型.
(2)根据(1)中选择的模型及表中数据,建立关于的线性回归方程(系数精确到0.01),根据线性回归方程,若当年的销售额大致为亿元,则估计当年的研发资金投入量为多少亿元.
参考公式:相关系数,
线性回归直线中斜率和截距的最小二乘法估计参数分别为,.
考点4:独立性检验的应用
例4(23-24高三下·甘肃·阶段练习)某公司人力资源部为了解员工的工作积极性和对待公司改革态度的关系,调查了75名员工,得到以下列联表:
支持改革情况 工作态度 合计
积极 欠积极
支持 40 20 60
不支持 5 10 15
合计 45 30 75
根据统计结果,认为“平时工作态度积极和支持公司改革有关”犯错误的概率不超过 .
附:,其中.
0.10 0.05 0.005 0.001
2.706 3.841 7.879 10.828
【答案】
【分析】借助列联表计算出卡方后,借助附表即可得.
【详解】设零假设:平时工作态度积极和支持公司改革无关,

故认为“平时工作态度积极和支持公司改革有关”犯错误的概率不超过.
故答案为:.
归纳总结 独立性检验的一般步骤
(1)根据样本数据制成2×2列联表.
(2)根据公式χ2=计算.
(3)比较χ2与临界值的大小关系,作统计推断.
【举一反三】(23-24高二下·河南南阳·阶段练习)
7.某高校团委对学生性别和喜欢短视频是否有关联进行了一次调查,其中被调查的男生、女生人数均为,男生中喜欢短视频的人数占男生人数的,女生中喜欢短视频的人数占女生人数的.若有的把握认为喜欢短视频和性别相关联,则的最小值为( )(附
A.18 B.20 C.22 D.24
【举一反三】(2024·河南南阳·一模)
8.通常人们认为语文作文成绩与课外阅读习惯(阅读习惯分为良好和不够良好两类)有很大关联,为了研究这个看法是否可信,某课外研究小组从学校一次期中测试语文作文成绩优秀的学生中随机调查了200人,同时在语文作文成绩不够优秀的学生中也随机调查了200人,得到如下数据:
语文作文成绩 课外阅读习惯 合计
不够良好 良好
优秀 60 140 200
不够优秀 180 20 200
合计 240 160 400
(1)在这400名学生中按照课外阅读习惯良好与否进行分层随机抽样,抽取20名学生了解学生的行为习惯形成的原因,再从这20名学生中任选3人进行面对面访谈,求这3名学生中至少有1人课外阅读习惯良好的概率;
(2)根据小概率值的独立性检验,能否认为语文作文成绩与课外阅读习惯有关联?
附:.
0.1 0.05 0.01 0.005 0.001
2.706 3.841 6.635 7.879 10.828
【举一反三】(23-24高三下·四川绵阳·阶段练习)
9.乒乓球,被称为中国的“国球”.某中学对学生参加乒乓球运动的情况进行调查,将每周参加乒乓球运动超过2小时的学生称为“乒乓球爱好者”,否则称为“非乒乓球爱好者”,从调查结果中随机抽取100份进行分析,得到数据如表所示:
乒乓球爱好者 非乒乓球爱好者 总计
男 40 56
女 24
总计 100
(1)补全列联表,并判断我们能否有的把握认为是否为“乒乓球爱好者”与性别有关?
(2)为了解学生的乒乓球运动水平,现从抽取的“乒乓球爱好者”学生中按性别采用分层抽样的方法抽取3人,与体育老师进行乒乓球比赛,其中男乒乓球爱好者获胜的概率为,女乒乓球爱好者获胜的概率为,每次比赛结果相互独立,记这3人获胜的人数为,求的分布列和数学期望.
0.05 0.010 0.005 0.001
3.841 6.635 7.879 10.828
参考公式:.
(23-24高二下·河南驻马店·阶段练习)
10.开始吸烟年龄与得肺癌的相对危险度相对应的一组数据为,;每天吸烟的支数与其得肺癌的相对危险度相对应的一组数据为,.用表示变量与之间的线性相关系数,用表示变量与之间的线性相关系数,则下列说法正确的是( )
A. B. C. D.
(23-24高二下·河南南阳·阶段练习)
11.某学习小组对一组数据进行回归分析,甲同学首先求出回归直线方程,样本点的中心为.乙同学对甲的计算过程进行检查,发现甲将数据误输成,将这两个数据修正后得到回归直线方程,则实数( )
A. B. C. D.
(21-22高二下·全国·期末)
12.色差和色度是衡量毛绒玩具质量优劣的重要指标,现抽检一批产品测得数据如下表:已知该产品的色度y和色差x之间满足线性相关关系,且,现有一组测量数据为,则该数据的残差为( )
色差x 22 24 26 28
色度y 16 19 20 21
A. B. C. D.
(2024·黑龙江哈尔滨·二模)
13.针对2025年第九届亚冬会在哈尔滨举办,校团委对“是否喜欢冰雪运动与学生性别的关系”进行了一次调查,其中被调查的男、女生人数相同,男生中喜欢冰雪运动的人数占男生人数的,女生中喜欢冰雪运动的人数占女生人数的,若依据的独立性检验,认为是否喜欢冰雪运动与学生性别有关,则被调查的学生中男生的人数不可能是( )
附:.
0.1 0.05 0.01 0.005 0.001
2.706 3.841 6.635 7.879 10.828
A.48 B.54 C.60 D.66
(2024·山西晋中·模拟预测)
14.伴随着网络购物的深入普及,购物形式日渐多样化,打破了传统购物的局限性.有研究表明,网络购物与人的年龄存在一定的关系.某调研机构随机抽取50人近三天的网络购物情况,得到了如下统计表:
年龄/岁
人数 10 10 10 10 5 5
使用网购人数 8 10 7 7 2 1
(1)若以“年龄55岁为分界点”,由以上统计数据完成网络购物列联表,并判断是否有的把握认为“使用网络购物”与人的年龄有关;
年龄不低于55岁 年龄低于55岁 合计
使用
不使用
合计
(2)若从年龄在,内的被调查人中各随机选取2人进行追踪调查,记选中的4人中“使用网络购物”的人数为.
①求随机变量的分布列;
②求随机变量的数学期望.
参考数据:
0.05 0.01 0.001
3.841 6.635 10.828
参考公式:,其中.
(23-24高二下·全国·课前预习)
15.为帮助乡村脱贫,某勘探队计划了解当地矿脉某金属的分布情况,测得了平均金属含量(单位:)与样本对原点的距离(单位:)的数据,并作了初步处理,得到了下面的一些统计量的值.(表中)
6 60
(1)利用样本相关系数的知识,判断与哪一个更适宜作为平均金属含量关于样本对原点的距离的回归方程类型?
(2)根据(1)的结果回答下列问题:
(i)建立关于的回归方程;
(ii)样本对原点的距离时,金属含量的预报值是多少?
试卷第1页,共3页
试卷第1页,共3页
参考答案:
1.D
【分析】根据各选项中两个变量是确定还是非确定性关系可得结论.
【详解】对于ABC,两个变量之间为确定性关系,即两个变量之间均为函数关系,ABC错误;
对于D,根据生活经验,天空中的云量和下雨之间不是确定性关系,虽然有云不一定下雨,但是如果没有云一定不下雨,说明它们之间是相关关系,D正确.
故选:D.
2.D
【分析】根据对变量间的相关系数的意义和辨析即可得出结果.
【详解】由线性相关系数,可知变量与之间呈负线性相关关系,
由线性相关系数,可知变量与之间呈正线性相关关系,
又,
所以变量与的线性相关程度比变量与的线性相关程度强.
故选:D.
3.0.99
【分析】根据题意,由相关系数的计算公式代入计算,即可得到结果.
【详解】由题意
.
故答案为:.
4.
【分析】取对数后分别计算,代入线性回归方程,求出,最后计算时的结果即可.
【详解】对两边取对数,得,令,则.
x 1 2 3 4 5
y
z 1 3 4 6 7
,,
代入得故.
故,.
当时,.
故答案为:.
5.A
【分析】根据相关系数的正负判断正负相关关系,根据相关系数绝对值的大小判断决定系数的大小.
【详解】因为,,故和之间呈正线性相关关系,和之间呈负线性相关关系,
故BD错误,
而,故,故A正确,C错误,
故选:A.
6.(1)模型的拟合程度更好
(2),8亿元
【分析】(1)根据题干所给数据求出相关系数为、即可判断;
(2)由(1)可得两边取对数可得,即,再由所给数据求出、,即可得到回归方程,再代入求出即可.
【详解】(1)由题意可知,
因为,所以从相关系数的角度,模型的拟合程度更好.
(2)因为,所以,即.
由题中数据可得,
则,从而关于的线性回归方程为,
故,即.
将年销售额亿元,代入,得,解得,
故估计当年的研发资金投入量为亿元.
7.B
【分析】由已知数据计算,根据独立性检验的结论,列不等式求的m取值范围得最小值.
【详解】根据题意,写出列联表如下:
喜欢 不喜欢 合计
男 3m 3m 6m
女 4m 2m 6m
合计 7m 5m 12m
则.
因为有的把握认为喜欢短视频和性别相关联,
所以,解得,所以的最小值为20
故选:B
8.(1)
(2)根据小概率值的独立性检验,认为语文成绩与课外阅读习惯有关联
【分析】(1)由分层抽样及对立事件概率性质求解即可.
(2)计算的值,并与临界值比较即可.
【详解】(1)由题意知,抽取的20人中课外阅读良好的人有人,课外阅读不够良好的人有人,
则从20人中抽取3人,3人课外阅读习惯都不够良好的概率为,
所以从20人中抽取3人,3名学生中至少有1人课外阅读习惯良好的概率为.
(2)零假设:语文作文成绩与课外阅读习惯无关联,

根据小概率值的独立性检验,我们推断不成立,
故根据小概率值的独立性检验,认为语文成绩与课外阅读习惯有关联.
9.(1)列联表见解析;有
(2)分布列见解析;期望为
【分析】(1)列出列联表,求出并与比较即可;
(2)分别求抽取的3人中男生和女生的人数,写出的可能取值,求出概率,求出期望.
【详解】(1)依题意可得列联表如下:
乒乓球爱好者 非乒乓球爱好者 总计
男 40 16 56
女 20 24 44
总计 60 40 100

我们有的把握认为是否为“乒乓球爱好者”与性别有关;
(2)由(1)得抽取的3人中人为男生,人为女生,
则的可能取值为、、、,
所以,,
,,
所以的分布列为:
0 1 2 3
所以.
10.D
【分析】借助线性相关系数的定义判断即可得.
【详解】由与相对应的数据可得,随的增大而减小,呈负相关,故,
由与相对应的数据可得,随的增大而增大,呈正相关,故,
故.
故选:D.
11.D
【分析】根据题意,甲输入的为,即可求得以及,然后将正确数据代入,即可求得样本中心点,代入回归直线即可得到结果.
【详解】由题意可得,假设甲输入的为,
则,则,
且,则,
则改为正确数据时,,即,
,即,所以样本中心点为,
将点代入回归直线方程,得.
故选:D
12.D
【分析】根据题意,由回归直线方程过样本中心点,即可得到,然后代入计算,即可得到结果.
【详解】由题意可知,,,
将代入,即,解得,
所以,当时,,
所以该数据的残差为.
故选:D.
13.A
【分析】根据已知条件设男生人数为,结合独立性检验公式得出不等式,根据的取值,即可求解.
【详解】设男生人数为,因为被调查的男、女生人数相同,
所以女生人数也为,根据题意列出列联表:
男生 女生 合计
喜欢冰雪运动
不喜欢冰雪运动
合计
则,
因为依据的独立性检验,认为是否喜欢冰雪运动与学生性别有关,
所以,即,解得,又,
所以B、C、D正确,A错误.
故选:A
14.(1)列联表见解析;有的把握认为“使用网络购物”与人的年龄有关
(2)①分布列见解析;②
【分析】(1)根据表格中数据可完成列联表,利用卡方公式求得 ,从而得解;
(2)①依题意得到的可能取值为再利用组合知识,结合古典概型概率公式公式求得各取值对应的概率,从而可得分布列;②由①利用数学期望公式即可得解.
【详解】(1)列联表如下:
年龄不低于55岁的人数 年龄低于55岁的人数 合计
使用 3 32 35
不使用 7 8 15
合计 10 40 50
零假设“使用网络购物”与人的年龄无关

所以有的把握认为“使用手机支付”与人的年龄有关.
(2)①由题意,年龄在内的被调查人有5人,“使用网络购物”的人数为2人,
年龄在内的被调查人有5人,“使用网络购物”的人数为1人,
可知所有可能取值有0,1,2,3,
,,
,,
所以的分布列是
0 1 2 3
②.
15.(1)
(2)(i);(ii)
【分析】(1)根据题意,分别求得相关系数的值,结合和,结合,即可得到结论;
(2)(i)根据最小二乘法,求得回归系数,进而求得回归方程;(ii)当时,结合回归方程,即可求得预报值.
【详解】(1)解:因为的线性相关系数,
的线性相关系数,
因为,
所以更适宜作为平均金属含量关于样本对原点的距离的回归方程类型.
(2)解:(i)依题意,可得,
则,
所以,所以关于的回归方程为.
(ii)当时,金属含量的预报值为.
答案第1页,共2页
答案第1页,共2页第八章 成对数据的统计分析
第一练 考点强化训练
【试题来源】来自人教A,人教B,苏教版,北师大版的课本试题,进行整理和组合;
【试题难度】本次训练试题基础,适合学完新知识后的训练,起到巩固和理解新知识的目的.
【目标分析】
1.会判断两个变量的相关关系,培养数学抽象,如第1题.
2.会求相关系数,决定系数,锻炼数学建模能力,如第8题.
3.会求经验回归方程,并能应用,培养建模能力,运算求解能力,如第4,10,11题.
4.会进行独立性检验,培养建模能力,运算求解能力,如第12题.
一、选择题
1.对于任意给定的两个变量的统计数据,下列说法正确的是( )
A.一定可以分析出两个变量之间的关系
B.一定可以用一条直线近似地表示两者之间的关系
C.一定可以画出散点图
D.一定可以用确定的表达式表示两者之间的关系
(23-24高二下·河南南阳·阶段练习)
2.对甲、乙两组数据进行统计,获得以下散点图(左图为甲,右图为乙),下列结论不正确的是( )

A.甲、乙两组数据都呈线性相关 B.乙组数据的相关程度比甲强
C.乙组数据的相关系数r比甲大 D.乙组数据的相关系数r的绝对值更接近1
(2023·江苏苏州·模拟预测)
3.为研究某地区疫情结束后一段时间内的复工率,用模型(1)和模型(2)模拟复工率y(%)与复工时间x(x的取值为5,10,15,20,25,30天)的回归关系:模型(1),模型(2),设两模型的决定系数依次为和.若两模型的残差图分别如下,则( )
A.< B.=
C.> D.、关系不能确定
(23-24高二下·河南南阳·阶段练习)
4.某中学课外活动小组为了研究经济走势,根据该市1999-2021年的GDP(国内生产总值)数据绘制出下面的散点图,该小组选择了如下2个模型来拟合GDP值随年份的变化情况,模型一:;模型二:,下列说法正确的是( )
A.变量与负相关
B.根据散点图的特征,模型一能更好地拟合GDP值随年份的变化情况
C.变量与有较强的线性相关性
D.若选择模型二,的图象不一定经过点
(23-24高三下·山东·开学考试)
5.为研究某池塘中水生植物的覆盖水塘面积(单位:)与水生植物的株数(单位:株)之间的相关关系,收集了4组数据,用模型去拟合与的关系,设与的数据如表格所示:得到与的线性回归方程,则( )
3 4 6 7
2 2.5 4.5 7
A.-2 B.-1 C. D.
二.多选题
(22-23高二·全国·课后作业)
6.下列关系中,属于相关关系的是( ).
A.正方形的边长与面积之间的关系
B.农作物的产量与施肥量之间的关系
C.出租车车费与行驶的里程之间的关系
D.降雪量与交通事故的发生率之间的关系
(2024·河南·模拟预测)
7.某研究机构为了探究过量饮酒与患疾病真否有关,调查了400人,得到如图所示的列联表,其中,则( )
患疾病 不患疾病 合计
过量饮酒
不过量饮酒
合计 400
参考公式与临界值表:
0.100 0.050 0.010 0.001
2.706 3.841 6.635 10.828
A.任意一人不患疾病的概率为0.9
B.任意一人不过量饮酒的概率为
C.任意一人在不过量饮酒的条件下不患疾病的概率为
D.依据小概率值的独立性检验,认为过量饮酒与患疾病有关
(2024高二下·全国·专题练习)
8.某骑行爱好者在专业人士指导下对近段时间骑行锻炼情况进行统计分析,统计每次骑行期间的身体综合指标评分与骑行用时(单位:小时)如下表:
身体综合指标评分 1 2 3 4 5
用时小时) 9.5 8.8 7.8 7 6.1
由上表数据得到的错误结论是( )
参考数据:,
参考公式:相关系数.
A.身体综合指标评分与骑行用时正相关
B.身体综合指标评分与骑行用时的相关程度较弱
C.身体综合指标评分与骑行用时的相关程度较强
D.身体综合指标评分与骑行用时的关系不适合用线性回归模型拟合
三.填空题
(2024·云南楚雄·一模)
9.对具有线性相关关系的变量有一组观测数据(),其经验回归方程为,且,,则相应于点的残差为 .
(23-24高二下·吉林长春·阶段练习)
10.随着我国对新冠肺炎疫情的控制,全国消费市场逐渐回暖,2023年7月28日长春市民翘首以盼的大型商城华润万象城正式营业,商场统计的客流盘x(单位:万人)与销售额y(单位:百万元)的数据表有部分污损,如下所示:
x 10 8 6 4 2
y 68 41 31 15
已知x与y有线性相关关系,且经验回归方程为,则表中污损数据应为 .
(23-24高二下·内蒙古呼和浩特·阶段练习)
11.恩格尔系数是食品支出总额占个人消费支出总额的比值,恩格尔系数越小,消费结构越完善,生活水平越高.某学校社会调查小组通过调查得到如下数据:
年个人消费总额万元 1 1.5 2 2.5 3
恩格尔系数 0.9 0.8 0.5 0.2 0.1
若与之间具有线性相关系,老张年个人消费支出总额为2.8万元,据此估计其恩格尔系数为( )
(参考数据:;参考公式:对于一组数据,其回归直线的斜率和截距的最小二乘法估计分别为)
A.0.148 B.0.138 C.0.248 D.0.238
四.解答题
(2024·河北沧州·一模)
12.流感病毒是一种病毒,大致分为甲型、乙型、丙型三种,其中甲流病毒传染性最强,致死率最高,危害也最大.某药品科技研发团队针对甲流病毒的特点,研发出预防甲流药品和治疗甲流药品,根据研发前期对动物试验所获得的相关有效数据作出统计,随机选取其中的100个样本数据,得到如下2×2列联表:
预防药品 甲流病毒 合计
感染 未感染
未使用 24 21 45
使用 16 39 55
合计 40 60 100
(1)根据的独立性检验,分析预防药品对预防甲流的有效性;
(2)用频率估计概率,从已经感染的动物中,采用随机抽样方式每次选出1只,用治疗药品对该动物进行治疗,已知治疗药品的治愈数据如下:对未使用过预防药品的动物的治愈率为0.5,对使用过预防药品的动物的治愈率为0.75,若共选取3只已感染动物,每次选取的结果相互独立,记选取的3只已感染动物中被治愈的动物只数为,求的分布列与数学期望.
附:.
0.050 0.010 0.001
3.841 6.635 10.828
(2024·浙江台州·二模)
13.台州是全国三大电动车生产基地之一,拥有完整的产业链和突出的设计优势.某电动车公司为了抢占更多的市场份额,计划加大广告投入、该公司近5年的年广告费(单位:百万元)和年销售量(单位:百万辆)关系如图所示:令,数据经过初步处理得:

44 4.8 10 40.3 1.612 19.5 8.06
现有①和②两种方案作为年销售量y关于年广告费x的回归分析模型,其中a,b,m,n均为常数.
(1)请从相关系数的角度,分析哪一个模型拟合程度更好
(2)根据(1)的分析选取拟合程度更好的回归分析模型及表中数据,求出y关于x的回归方程,并预测年广告费为6(百万元)时,产品的年销售量是多少
(3)该公司生产的电动车毛利润为每辆200元(不含广告费、研发经费).该公司在加大广告投入的同时也加大研发经费的投入,年研发经费为年广告费的199倍.电动车的年净利润受年广告费和年研发经费影响外还受随机变量影响,设随机变量服从正态分布,且满足.在(2)的条件下,求该公司年净利润的最大值大于1000(百万元)的概率.(年净利润=毛利润×年销售量-年广告费-年研发经费-随机变量).
附:①相关系数,
回归直线中公式分别为,;
②参考数据:,,,.
【易错题目】第题
【复盘要点】混淆,,
【复盘训练】
(22-23高二下·福建泉州·期末)
14.某同学将收集到的六组数据制作成散点图如图所示,并得到其回归直线的方程为,计算其相关系数为,相关指数为.经过分析确定点为“离群点”,把它去掉后,再利用剩下的5组数据计算得到回归直线的方程为,相关系数为,相关指数为.以下结论中,不正确的是
A. B.
C. D.
(2024·浙江·模拟预测)
15.假设变量与变量的对观测数据为,两个变量满足一元线性回归模型.要利用成对样本数据求参数的最小二乘估计,即求使取最小值时的的值,则( )
A. B.
C. D.
(22-23高二下·河北石家庄·期末)
16.某同学用收集到的6组数据对制作成如图所示的散点图(点旁的数据为该点坐标),并由最小二乘法计算得到回归直线的方程:,相关系数为,相关指数为;经过残差分析确定点为“离群点”(对应残差过大的点),把它去掉后,再用剩下的5组数据计算得到回归直线的方程:,相关系数为,相关指数为.则以下结论中,不正确的是
A., B.,
C. D.
(16-17高二下·河南商丘·期末)
17.对两个变量和进行回归分析,得到一组样本数据: ,…,则下列说法中不正确的是( )
A.由样本数据得到的回归方程必过样本中心
B.残差平方和越小的模型,拟合的效果越好
C.若变量和之间的相关系数为,则变量和之间具有线性相关关系
D.用相关指数来刻画回归效果, 越小,说明模型的拟合效果越好
(22-23高二·全国·课后作业)
18.某种机械设备随着使用年限的增加,它的使用功能逐渐减退,使用价值逐年减少,通常把它使用价值逐年减少的“量”换算成费用,称之为“失效费”.某种机械设备的使用年限x(单位:年)与失效费y(单位:万元)的统计数据如下表所示:
使用年限x(单位:年) 1 2 3 4 5 6 7
失效费y(单位:万元) 2.90 3.30 3.60 4.40 4.80 5.20 5.90
由上表数据可知,y与x的相关系数为 .
(精确到0.01,参考公式和数据:,,,)
(23-24高二上·上海·课后作业)
19.在研究硝酸钠的可溶性程度时,观测它在不同温度(单位:)的水中的溶解度(单位:),得到如下观测结果:
温度
溶解度
由此得到回归直线的斜率是 .
试卷第1页,共3页
试卷第1页,共3页
参考答案:
1.C
【分析】利用成对数据的统计相关性进行分析即可.
【详解】给出两个变量的统计数据,总可以画出相应的散点图,故C中说法正确;
但不一定能分析出两个变量之间的关系,更不一定符合线性相关,
即不一定能用一条直线近似地表示两者之间的关系,故A、B中说法不正确;
两个变量之间不一定具有函数关系,故D中说法不正确.
故选:C.
2.C
【分析】利用线性相关的定义进行求解即可.
【详解】由散点图可以看出,甲、乙两组数据都呈线性相关,所以A正确;
乙图的点相对更加集中,所以其相关性较强,更接近1,所以B,D正确;
甲图是正相关,其相关系数大于0,乙图是负相关,其相关系数小于0,所以C错误.
故选:C.
3.A
【分析】根据残差点图分析拟合效果,从而得到答案.
【详解】根据残差点图,模型(2)残差点比较均匀地落在水平的带状区域中,带状区域宽度窄,拟合精度较高,所以<,
故选:A.
4.D
【分析】对于ABC,由散点图的变化趋势分析判断;对于D,由线性回归方程的性判断.
【详解】对于 A,由散点图可知 随年份 的增大而增大,所以变量 与 正相关,所以 A 错误;
对于 BC,由散点图可知变量 与 的变化趋向于一条曲线,所以模型二能更好地 拟合 GDP 值随年份的变化情况,所以 B 错误,C错误;
对于 D,若选择模型二:,令,则的图像一定过点,不一定过点,故D正确.
故选:D.
5.C
【分析】根据已知条件,求得,进而代入回归方程可求得,从而得出,联立,即可求得本题答案.
【详解】由已知可得,,,
所以,有,解得,
所以,,
由,得,
所以,,则.
故选:C.
6.BD
【分析】根据相关关系的概念逐项分析可得答案.
【详解】A中,正方形的边长与面积之间的关系是函数关系;
B中,农作物的产量与施肥量之间不具有严格的函数关系,但具有相关关系;
C中,出租车车费与行驶的里程之间的关系为确定的函数关系;
D中,降雪量与交通事故的发生率之间具有相关关系.
故选:BD.
7.ACD
【分析】先求出,利用古典概型概率公式求解判断AB,利用条件概率概念求解判断C,求出的观测值,即可判断D.
【详解】由已知得,又,所以.
任意一人不患疾病的概率为,所以A正确;
任意一人不过量饮酒的概率为,所以B错误;
任意一人在不过量饮酒的条件下不患疾病的概率为,所以C正确;
对于D,列联表如下:
患疾病 不患疾病 合计
过量饮酒 30 120 150
不过量饮酒 10 240 250
合计 40 360 400
则的观测值,由于,
依据小概率值的独立性检验,认为过量饮酒与患疾病有关,所以D正确.
故选:ACD
8.ABD
【分析】利用公式求出相关系数值,根据相关系数的正负值判断与正负相关性;利用相关系数值判断相关程度强与弱.
【详解】由题意,

,,

因为相关系数.
即相关系数近似为,且相关程度强,
并且与负相关,从而可用线性回归模型拟合与的关系.
所以选项ABD错误,C正确.
故选:ABD.
9.##
【分析】利用样本中心在其经验回归方程为上,求出,再计算当时的残差即可.
【详解】经验回归直线过样本点的中心,,,
经验回归方程为.当时,,残差为.
故答案为:.
10.50
【分析】根据回归方程必经过点计算可得.
【详解】设污损数据为,则,,
由.
故答案为:50.
11.A
【分析】结合题意求出,然后进行求解即可.
【详解】,,
故,
则,所以老张的恩格尔系数为.
故选:A.
12.(1)答案见解析
(2)答案见解析
【分析】(1)根据列联表数据代入计算即可;
(2)根据全概率公式计算药品的治愈概率,再根据变量服从二项分布可得分布列和期望.
【详解】(1)假设:使用预防药品与对预防甲流无效果,
由列联表可知,
根据小概率值的独立性检验,推断不成立,
即认为使用预防药品与对预防甲流有效果,此推断犯错误的概率不大于0.05.
(2)设事件表示使用治疗药品并且治愈,事件表示未使用过预防药品,事件表示使用过预防药品,
由题意可得,
且,
则,
治疗药品的治愈概率,
则,
所以,,
,,
所以,随机变量的分布列为
0 1 2 3
.
13.(1)模型②的拟合程度更好
(2),当年广告费为6(百万元)时,产品的销售量大概是13(百万辆)
(3)0.3
【分析】(1)分别求得模型①和②的相关系数,,然后比较得出结论;
(2)利用最小二乘法求解;
(3)由净利润为,求解.
【详解】(1)解:设模型①和②的相关系数分别为,.
由题意可得:,
.
所以,由相关系数的相关性质可得,模型②的拟合程度更好.
(2)因为,
又由,,
得,
所以,即回归方程为.
当时,,
因此当年广告费为6(百万元)时,产品的销售量大概是13(百万辆).
(3)净利润为,,
令,
所以.
可得在上为增函数,在上为减函数.
所以,
由题意得:,即,

即该公司年净利润大于1000(百万元)的概率为0.3.
14.B
【分析】根据相关性的正负判断和的正负,根据两个模型中回归直线的拟合效果得出和的大小关系,将第一个模型中的样本数据中心点代入直线的方程得出的值,由两回归直线的倾斜程度得出两回归直线的斜率大小关系.
【详解】由图可知两变量呈现正相关,故,且,故,
故正确,不正确.
又回归直线必经过样本中心点,所以,正确.
回归直线必经过样本中心点,所以,
所以,也可直接根据图象判断(比较两直线的倾斜程度),故正确.故选B.
【点睛】本题考查回归分析,考查回归直线的性质、相关系数、相关指数的特点,意在考查学生对这些知识点的理解,属于中等题.
15.A
【分析】化简为二次函数形式,根据二次函数性质得到最值.
【详解】因为

上式是关于的二次函数,
因此要使取得最小值,当且仅当的取值为.
故选:A.
【点睛】关键点点睛:本题的关键是化简为二次函数形式,利用其性质得到最值时的.
16.D
【详解】分析:利用回归方程的性质,利用相关系数和相关指数分析解答.
详解:从图形中可以看出,两个变量是正相关,所以选项A是正确的;从图形中可以看出,回归直线的纵截距是正数,所以选项B和C是正确的;因为其中=真实值-预报值=残差,值越大,说明残差的平方和越小,也就是说模型的拟合效果越好.所以选项D是错误的.故答案为D.
点睛:(1)本题主要考查回归方程的性质,考查相关系数和相关指数,意在考查学生对这些基础知识的掌握水平和分析推理能力.(2) 相关系数: ,表示两个变量正相关;,表示两个变量负相关;的绝对值越接近1,表明两个变量的线性相关性越强.的绝对值越接近0,表明两个变量之间几乎不存在线性相关关系.通常,的绝对值大于0.75时,表明两个变量的线性相关性很强.
17.D
【分析】根据回归直线方程的性质,与残差平方和、相关系数与相关指数的定义与性质逐个选项辨析即可.
【详解】逐一分析所给的各个选项:
A. 由样本数据得到的回归方程必过样本中心
B. 残差平方和越小的模型,拟合的效果越好
C. 若变量和之间的相关系数为,则变量和之间具有线性相关关系
D. 用相关指数来刻画回归效果,越大,说明模型的拟合效果越好,该说法错误.
故选:D
18.0.99
【分析】分别求出,,,再利用参考公式和数据计算即可.
【详解】由题意,知,

.
所以.
所以y与x的相关系数近似为0.99.
故答案为:0.99.
19.
【分析】求出、的值,将表格中的数据代入最小二乘法公式,可求得回归直线的斜率.
【详解】由表格中的数据可得,



所以,回归直线的斜率为.
故答案为:.
答案第1页,共2页
答案第1页,共2页

展开更多......

收起↑

资源列表