2025届高中数学三轮冲刺练习:专题五 概率与统计 微专题35 统计与成对数据的统计分析(课件+练习,共2份)

资源下载
  1. 二一教育资源

2025届高中数学三轮冲刺练习:专题五 概率与统计 微专题35 统计与成对数据的统计分析(课件+练习,共2份)

资源简介

微专题35 统计与成对数据的统计分析
[考情分析] 高考对本讲内容的考查往往以实际问题为背景,考查随机抽样与用样本估计总体、经验回归方程的求解与运用、独立性检验问题,常与概率综合考查,中等难度.
微点一 统计图表与样本的数字特征
1.(2024·西安模拟)某教育机构为调查中小学生每日完成作业的时间,收集了某位学生100天每天完成作业的时间,并绘制了如图所示的频率分布直方图(每个区间均为左闭右开),根据此直方图得出了下列结论,其中正确的是(  )
A.估计该学生每日完成作业时间在2小时至2.5小时的有50天
B.估计该学生每日完成作业时间超过3小时的概率为0.3
C.估计该学生每日完成作业时间的平均数为2.75小时
D.估计该学生每日完成作业时间的中位数与平均数相等
2.(2024·新课标全国Ⅱ)某农业研究部门在面积相等的100块稻田上种植一种新型水稻,得到各块稻田的亩产量(单位:kg)并整理得下表:
亩产量 [900,950) [950,1 000) [1 000,1 050) [1 050,1 100) [1 100,1 150) [1 150,1 200)
频数 6 12 18 30 24 10
根据表中数据,下列结论中正确的是(  )
A.100块稻田亩产量的中位数小于1 050 kg
B.100块稻田中亩产量低于1 100 kg的稻田所占比例超过80%
C.100块稻田亩产量的极差介于200 kg至300 kg之间
D.100块稻田亩产量的平均值介于900 kg至1 000 kg之间
3.有一组互不相等的样本数据x1,x2,…,x6,平均数为.若随机剔除其中一个数据,得到一组新数据,记为y1,y2,…,y5,平均数为则下列说法错误的是(  )
A.新数据的极差可能等于原数据的极差
B.新数据的中位数不可能等于原数据的中位数
C.若=则新数据的方差一定大于原数据的方差
D.若=则新数据的40%分位数一定大于原数据的40%分位数
微点二 回归分析
4.(2023·天津)鸢是鹰科的一种鸟,《诗经·大雅·旱麓》曰“鸢飞戾天,鱼跃于渊”.鸢尾花因花瓣形如鸢尾而得名(图1),寓意鹏程万里、前途无量.通过随机抽样,收集了若干朵某品种鸢尾花的花萼长度和花瓣长度(单位:cm),绘制对应散点图(图2)如图所示:
计算得样本相关系数为0.864 2,利用最小二乘法求得相应的经验回归方程为=0.750 1x+0.610 5.根据以上信息,下列选项判断正确的为(  )
A.花萼长度与花瓣长度不存在相关关系
B.花萼长度与花瓣长度负相关
C.花萼长度为7 cm的鸢尾花的花瓣长度的平均值约为5.861 2 cm
D.若选取其他品种的鸢尾花进行抽样,所得花萼长度与花瓣长度的样本相关系数一定为0.864 2
5.(15分)(2024·西安模拟)某公司对其产品研发的年投资额x(单位:百万元)与其年销售量y(单位:千件)的数据进行统计,整理后得到如下统计表:
x 1 2 3 4 5
y 1.5 2 3.5 8 15
(1)求变量x和y的样本相关系数r(精确到0.01),并推断变量x和y的线性相关程度;(若|r|≥0.75,则线性相关性程度很强;若0.30≤|r|<0.75,则线性相关性程度一般;若|r|≤0.25,则线性相关性程度很弱.)(8分)
(2)求年销售量y关于年投资额x的经验回归方程.并预测投资额为700万元时的销售量.(7分)(参考数据:≈7.14)
微点三 独立性检验
6.(15分)(2024·镇江调研)某芯片制造企业使用新技术对某款芯片进行生产.生产该款芯片有三道工序,这三道工序互不影响.已知批次甲芯片的三道工序次品率分别为.
(1)求批次甲芯片的次品率;(5分)
(2)该企业改进生产工艺后,生产了批次乙的芯片.某手机厂商获得批次甲与批次乙的芯片,并在某款手机上使用.现对使用这款手机的100名用户回访,对开机速度进行调查.据统计,使用安装批次甲芯片手机的用户有40名.其中对开机速度满意的有30名;使用安装批次乙芯片手机的用户有60名,其中对开机速度满意的有55名.试整理出2×2列联表(单位:名),并依据小概率值α=0.05的独立性检验,分析芯片批次是否与用户对开机速度满意有关.(10分)
批次 是否满意 合计
满意 不满意


合计
α 0.05 0.01 0.005 0.001
xα 3.841 6.635 7.879 10.828
[总结提升]
1.对于回归分析主要考查求经验回归方程(非线性经验回归方程)和对变量值预测,用最小二乘法来求解经验回归方程,对非线性经验回归方程选择恰当的拟合函数,作恰当的变换,将其转化为线性函数.
2.对变量的预测,若已知经验回归方程(方程中无参数),可以直接将数值代入求得特定要求下的预测值;若经验回归方程中有参数,则根据经验回归直线一定经过点(),求出参数值,得到经验回归方程,进而完成预测.
1.下列说法错误的是(  )
A.样本相关系数r>0时,两变量正相关
B.在经验回归方程=0.2x+0.8中,当解释变量x每增加1个单位时,响应变量平均增加0.2个单位
C.两个随机变量的线性相关性越强,则样本相关系数r的值就越接近于1
D.对分类变量X与Y,随机变量χ2的值越大,则判断“X与Y有关系”的把握程度越大
2.(多选)某市为了解全市12 000名高一学生的体能素质情况,在全市高一学生中随机抽取1 000名学生进行体能测试,并将这1 000名学生的体能测试成绩整理成如下频率分布直方图.根据此频率分布直方图,下列结论中正确的是(  )
A.图中a的值为0.010
B.同一组中的数据用该组区间的中点值作代表,则这1 000名学生的平均成绩约为80.5
C.估计样本数据的75%分位数为88
D.由样本数据可估计全市高一学生体能测试成绩优异(80分及以上)的人数约为7 200
3.(多选)(2024·深圳模拟)为丰富优质旅游资源,释放旅游消费潜力,推动旅游业高质量发展,某地政府从2023年国庆期间到该地旅游的游客中,随机抽取部分游客进行调查,得到各年龄段游客的人数和对景区服务是否满意的数据,并绘制统计图如图所示,利用数据统计图估计,得到的结论正确的是(  )
A.游客中,青年人是老年人的2倍多
B.老年人的满意人数是青年人的满意人数的2倍
C.到该地旅游的游客中满意的中年人占总游客人数的24.5%
D.到该地旅游的游客满意的人数超过一半
4.(多选)(2024·南宁模拟)下列说法中,正确的是(  )
A.一组数据10,11,11,12,13,14,16,18,20,22的第40百分位数为12
B.若样本数据2x1+1,2x2+1,…,2x10+1的方差为8,则数据x1,x2,…,x10的方差为2
C.已知随机变量X服从正态分布N(μ,σ2),若P(X≥-2)+P(X≥6)=1,则μ=2
D.在独立性检验中,零假设为H0:分类变量X和Y独立.基于小概率值α的独立性检验规则是:当χ2≤xα时,我们就推断H0不成立,即认为X和Y不独立,该推断犯错误的概率不超过α;当χ2>xα时,我们没有充分证据推断H0不成立,可以认为X和Y独立
5.(5分)对具有线性相关关系的变量x,y有一组成对观测数据(xi,yi)(i=1,2,…,10)=5=-4,其经验回归方程为=-3.2x+则在样本点处的残差为        .
6.(5分)某学校有高中学生500人,其中男生320人,女生180人.为了获得全体高中生身高的信息,按照比例分配的分层随机抽样原则抽取样本,男生样本量为32,女生样本量为18,通过计算得男生身高样本平均数为173.5 cm,方差为17,女生身高样本平均数为163.83 cm,方差为30.03,则所有数据的样本平均数为     cm,方差为    .(结果保留两位小数)
7.(15分)(2024·周口模拟)中国茶文化博大精深,饮茶深受大众喜爱,茶水的口感与茶叶类型以及水的温度有关,某数学建模小组为了获得茶水温度y(单位:℃)关于时间x(单位:min)的回归方程模型,通过实验收集在25 ℃室温,用同一温度的水冲泡的条件下,茶水温度随时间变化的7组数据,并对数据做初步处理得到如图所示的散点图以及如表所示的数据.
(xi-)(yi-) (xi-)(wi-)
73.5 3.85 -95 -2.24
表中:wi=ln(yi-25)=wi.
(1)根据散点图判断,①y=a+bx与②y=d·cx+25哪一个更适宜作为该茶水温度y关于时间x的回归方程类型?(给出判断即可,不必说明理由)请根据你的判断结果及表中数据建立该茶水温度y关于时间x的回归方程;(8分)
(2)已知该茶水温度降至60 ℃口感最佳,根据(1)中的回归方程,求在相同条件下冲泡的茶水,大约需要放置多长时间才能达到最佳饮用口感?(7分)
参考数据:e-0.08≈0.92,e4.09≈60,ln 7≈1.9,ln 3≈1.1,ln 2≈0.7.
8.(15分)(2024·石家庄模拟)为了研究学生每天整理数学错题情况,某课题组在某市中学生中随机抽取了100名学生调查了他们期中考试的数学成绩和平时整理数学错题情况,并绘制了下列两个统计图表,图①为学生期中考试数学成绩的频率分布直方图,图②为学生一个星期内整理数学错题天数的扇形图.若本次数学成绩在110分及以上视为优秀,将一个星期有4天及以上整理数学错题视为“经常整理”,少于4天视为“不经常整理”.已知数学成绩优秀的学生中,经常整理错题的学生占70%.
(1)根据图①、图②中的数据,画出2×2列联表,并根据小概率值α=0.05的独立性检验,分析数学成绩优秀与经常整理数学错题是否有关?(6分)
(2)用频率估计概率,在全市中学生中按经常整理错题与不经常整理错题进行按比例分配的分层随机抽样,随机抽取5名学生,再从这5名学生中随机抽取2人进行座谈,求这2名同学中经常整理错题且数学成绩优秀的人数X的分布列和数学期望.(9分)
附:
α 0.10 0.05 0.025 0.010 0.005 0.001
xα 2.706 3.841 5.024 6.635 7.879 10.828
答案精析
高频考点练
1.C [对于A,估计该学生每日完成作业的时间在2小时至2.5小时的有100×0.5×0.5=25(天),A错误;
对于B,估计该学生每日完成作业时间超过3小时的概率为(0.3+0.2+0.1+0.1)×0.5=0.35,B错误;
对于C,(1.25×0.1+1.75×0.3+2.25×0.5+2.75×0.4+3.25×0.3+3.75×0.2+4.25×0.1+4.75×0.1)×0.5=2.75,C正确;
对于D,估计该学生每日完成作业时间的中位数为x,则(0.1+0.3+0.5)×0.5+0.4×(x-2.5)=0.5,解得x=2.625,D错误.]
2.C [对于A, 根据频数分布表可知,
6+12+18=36<50,
所以亩产量的中位数不小于1 050 kg, 故A错误;
对于B,亩产量不低于1 100 kg的频数为24+10=34,
所以低于1 100 kg的稻田占比为×100%=66%,故B错误;
对于C,因为1 200-900=300,
1 150-950=200,故C正确;
对于D,由频数分布表可得,
平均值为×(6×925+12×975+18×1 025+30×1 075+24×1 125+10×1 175)=1 067,故D错误.]
3.D [不妨设原数据x1对于A,例如原数据为1,2,3,4,5,6,新数据为1,2,3,4,6,此时极差均为6-1=5,故A正确;
对于B,原数据的中位数为,新数据的中位数为y3,可知y3=x3或y3=x4,
若y3=x3,可得>x3=y3;若y3=x4,可得综上所述,新数据的中位数不可能等于原数据的中位数,故B正确;
对于C,若=,可知去掉的数据为,则=,
可得<,所以新数据的方差一定大于原数据的方差,故C正确;
对于D,若=,可知去掉的数据为,因为6×40%=2.4,可知原数据的40%分位数为x3,5×40%=2,可知新数据的40%分位数为,
例如原数据为-2,2,3,4,5,6,新数据为-2,2,4,5,6,此时新数据的40%分位数、原数据的40%分位数均为3,故D错误.]
4.C [由散点图可知,花萼长度与花瓣长度正相关,故A错误,B错误;
由经验回归方程=0.750 1x+0.610 5可得,当花萼长度为7 cm时,
花瓣长度为=0.750 1×7+0.610 5=5.861 2,故C正确;
若选取其他品种的鸢尾花进行抽样,所得花萼长度与花瓣长度的样本相关系数不一定为0.864 2,故D错误.]
5.解 (1)由题意,=×(1+2+3+4+5)=3,=×(1.5+2+3.5+8+15)=6,
(xi-)(yi-)=(-2)×(-4.5)+(-1)×(-4)+0×(-2.5)+1×2+2×9=33,
(xi-)2=(-2)2+(-1)2+02+12+22=10,(yi-)2=(-4.5)2+(-4)2+(-2.5)2+22+92
=127.5,
∴r===≈0.92,
∵|r|≥0.75,
∴变量x和y的线性相关程度很强.
(2)===3.3,=6-3.3×3=-3.9,
∴年销售量y关于年投资额x的经验回归方程为=3.3x-3.9.
当x=7时,=3.3×7-3.9=19.2,
∴当研发的年投资额为700万元时,产品的年销售量约为19.2千件.
6.解 (1)依题意,批次甲芯片的次品率为1-××=1-××=.
(2)零假设为H0:芯片批次与用户对开机速度满意无关.
2×2列联表如下:
批次 是否满意 合计
满意 不满意
甲 30 10 40
乙 55 5 60
合计 85 15 100
所以χ2=≈5.229>3.841=x0.05,
所以依据小概率值α=0.05的独立性检验,我们推断H0不成立,
所以认为芯片批次与用户对开机速度满意有关,此推断犯错误的概率不超过0.05.
补偿强化练
1.C [对于A,样本相关系数为正时,变量为正相关关系,故A正确;
对于B,在经验回归方程=0.2x+0.8中,当Δx=1时,Δ=0.2,故B正确;
对于C,两个随机变量的线性相关性越强,样本相关系数r的绝对值就越接近于1,故C错误;
对于D,随机变量χ2的值越大,变量间有关系的把握程度越大,故D正确.]
2.BD [由频率分布直方图可知,10×(0.005+a+0.02+0.04+0.02)=1,得a=0.015,故A错误;
(55×0.005+65×0.015+75×0.02+85×0.04+95×0.02)×10=80.5,故B正确;
设75%分位数为x,则10×0.005+10×0.015+10×0.02=0.4<0.75,
而10×0.005+10×0.015+10×0.02+10×0.04=0.8>0.75,
所以x∈[80,90),
则10×0.005+10×0.015+10×0.02+(x-80)×0.04=0.75,
解得x=88.75,故C错误;
体能测试成绩在[80,100]的频率为10×0.04+10×0.02=0.6,
估计全市高一学生体能测试成绩优异(80分及以上)的人数约为12 000×0.6=7 200,故D正确.]
3.ACD [由扇形统计图可知青年人占比45%,是老年人占比20%的2倍多,故A正确;
其中满意的青年人占总人数的0.45×0.4×100%=18%,
满意的中年人占总人数的(1-20%-45%)×0.7×100%=24.5%,
满意的老年人占总人数的0.2×0.8×100%=16%,故B错误,C正确;
总满意率为18%+24.5%+16%=58.5%>50%,故D正确.]
4.BC [对于A,由于10,11,11,12,13,14,16,18,20,22共10个数据,且10×0.4=4,
故第40百分位数为第4,5个数据的平均数,为=12.5,故A错误;
对于B,设数据x1,x2,…,x10的平均数为=,
方差为s2=[(x1-)2+(x2-)2+…+(x10-)2],
则数据2x1+1,2x2+1,…,2x10+1的平均数为'===2+1,
方差为=[(2x1+1-')2+(2x2+1-')2+…+(2x10+1-')2]
=[(2x1-2)2+(2x2-2)2+…+(2x10-2)2]=[(x1-)2+(x2-)2+…+(x10-)2]=4s2=8,所以s2=2,故B正确;
对于C,P(X≥-2)+P(X≥6)=1
则P(X≥6)=1-P(X≥-2)=P(X≤-2),
由正态分布N(μ,σ2)的性质可得μ==2,故C正确;
对于D,在独立性检验中,零假设为H0:分类变量X和Y独立.基于小概率值α的独立性检验规则是:当χ2≥xα时,我们就推断H0不成立,即认为X和Y不独立,该推断犯错误的概率不超过α;当χ25.0.5
解析 将=5,=-4代入=-3.2x+,得-4=-3.2×5+,
解得=12,
所以=-3.2x+12,
故当x=3时,=-3.2×3+12=2.4,
所以残差为2.9-2.4=0.5.
6.170.02 43.24
解析 由题意得=×173.5+×163.83≈170.02(cm),
s2=×{[32×17+32×(173.5-170.02)2]+[18×30.03+18×(163.83-170.02)2]}≈43.24.
7.解 (1)由散点图知,更适宜的回归方程为②,
即y=d·cx+25.
由y=d·cx+25,得y-25=d·cx,两边取自然对数,
得ln(y-25)=ln d+xln c,
令w=ln(y-25),
则w=ln d+xln c,
=xi==3,
(xi-)2=(-3)2+(-2)2+(-1)2+02+12+22+32=28,
结合表中数据,得ln c===-0.08,
结合参考数据可得c=e-0.08≈0.92,由ln d=-ln c=3.85-3×(-0.08)=4.09,得d=e4.09≈60,
所以茶水温度y关于时间x的回归方程为y=60×0.92x+25.
(2)依题意,茶水温度降至60 ℃口感最佳,即60=60×0.92x+25,
整理得xln 0.92=ln ,
于是xln 0.92=ln 7-2ln 2-ln 3≈1.9-2×0.7-1.1=-0.6,
解得x≈=7.5,
所以大约需要放置7.5 min才能达到最佳饮用口感.
8.解 (1)由题意可得(0.002 5+0.005+0.017 5+m+0.01)×20=1,
解得m=0.015.
所以数学成绩优秀的有100×(0.015+0.01)×20=50(人),
则成绩不优秀的有100-50=50(人),
经常整理错题的有100×(40%+20%)=60(人),则不经常整理错题的有100-60=40(人),
所以经常整理错题且成绩优秀的有50×70%=35(人),
则2×2列联表如下:
是否经常整理错题 数学成绩是否优秀 合计
数学成绩优秀 数学成绩不优秀
经常整理 35 25 60
不经常整理 15 25 40
合计 50 50 100
零假设为H0:数学成绩优秀与经常整理数学错题无关,
根据列联表中的数据,可得χ2==≈4.167>3.841=x0.05,
根据小概率值α=0.05的独立性检验,我们推断H0不成立,
即认为数学成绩优秀与经常整理数学错题有关联,此推断犯错误的概率不大于0.05.
(2)由按比例分配的分层随机抽样知随机抽取的5名学生中,
则经常整理错题的有5×(20%+40%)=3(人),不经常整理错题的有5-3=2(人),
所以X的可能取值为0,1,2,
“经常整理错题的3名学生中,恰抽到k人”记为事件Ak(k=0,1,2),
则P(Ak)=(k=0,1,2).
由(1)知经常整理数学错题的学生中数学成绩优秀的学生占=,数学成绩不优秀的学生占=,
“参与座谈的2名学生中,经常整理错题且数学成绩优秀的恰好抽到m人”记为事件Bm(m=0,1,2),
则P(B0|A0)=1,P(B0|A1)=,
P(B0|A2)==,
P(B1|A1)=,
P(B1|A2)=××=,
P(B2|A2)==.
所以P(X=0)=P(A0)P(B0|A0)+P(A1)P(B0|A1)+P(A2)P(B0|A2)
=×1+×+×=,
P(X=1)=P(A1)P(B1|A1)+P(A2)P(B1|A2)=×+×=,
P(X=2)=P(A2)P(B2|A2)=×=,
故X的分布列为
X 0 1 2
P
则数学期望E(X)=0×+1×+2×=.(共53张PPT)
专题五 概率与统计
微专题35
统计与成对数据的统计分析
高考对本讲内容的考查往往以实际问题为背景,考查随机抽样与用样本估计总体、经验回归方程的求解与运用、独立性检验问题,常与概率综合考查,中等难度.
考情分析
思维导图
高频考点练
补偿强化练
内容索引
高频考点练
PART ONE
微点一 统计图表与样本的数字特征
1.(2024·西安模拟)某教育机构为调查中小学生每日完成作业的时间,收集了某位学生100天每天完成作业的时间,并绘制了如图所示的频率分布直方图(每个区间均为左闭右开),根据此直方图得出了下列结论,其中正确的是
A.估计该学生每日完成作业时间在2小时至
2.5小时的有50天
B.估计该学生每日完成作业时间超过3小时
的概率为0.3
C.估计该学生每日完成作业时间的平均数为2.75小时
D.估计该学生每日完成作业时间的中位数与平均数相等

1
2
3
4
5
6
对于A,估计该学生每日完成作业的
时间在2小时至2.5小时的有100×0.5
×0.5=25(天),A错误;
对于B,估计该学生每日完成作业时间
超过3小时的概率为(0.3+0.2+0.1+0.1)×0.5=0.35,B错误;
对于C,(1.25×0.1+1.75×0.3+2.25×0.5+2.75×0.4+3.25×0.3+3.75× 0.2+4.25×0.1+4.75×0.1)×0.5=2.75,C正确;
对于D,估计该学生每日完成作业时间的中位数为x,则(0.1+0.3+0.5)×0.5+0.4×(x-2.5)=0.5,解得x=2.625,D错误.
1
2
3
4
5
6
2.(2024·新课标全国Ⅱ)某农业研究部门在面积相等的100块稻田上种植一种新型水稻,得到各块稻田的亩产量(单位:kg)并整理得下表:
亩产量 [900,950) [950,1 000) [1 000,1 050) [1 050, 1 100) [1 100, 1 150) [1 150,
1 200)
频数 6 12 18 30 24 10
根据表中数据,下列结论中正确的是
A.100块稻田亩产量的中位数小于1 050 kg
B.100块稻田中亩产量低于1 100 kg的稻田所占比例超过80%
C.100块稻田亩产量的极差介于200 kg至300 kg之间
D.100块稻田亩产量的平均值介于900 kg至1 000 kg之间
1
2
3
4
5
6

对于A, 根据频数分布表可知, 6+12+18=36<50,
所以亩产量的中位数不小于1 050 kg, 故A错误;
对于B,亩产量不低于1 100 kg的频数为24+10=34,
所以低于1 100 kg的稻田占比为×100%=66%,故B错误;
1
2
3
4
5
6
亩产量 [900,950) [950,1 000) [1 000,1 050) [1 050, 1 100) [1 100, 1 150) [1 150,
1 200)
频数 6 12 18 30 24 10
对于C,因为1 200-900=300,1 150-950=200,故C正确;
对于D,由频数分布表可得,
平均值为×(6×925+12×975+18×1 025+30×1 075+24×1 125+10
×1 175)=1 067,故D错误.
1
2
3
4
5
6
亩产量 [900,950) [950,1 000) [1 000,1 050) [1 050, 1 100) [1 100, 1 150) [1 150,
1 200)
频数 6 12 18 30 24 10
3.有一组互不相等的样本数据x1,x2,…,x6,平均数为.若随机剔除其中一个数据,得到一组新数据,记为y1,y2,…,y5,平均数为则下列说法错误的是
A.新数据的极差可能等于原数据的极差
B.新数据的中位数不可能等于原数据的中位数
C.若=则新数据的方差一定大于原数据的方差
D.若=则新数据的40%分位数一定大于原数据的40%分位数

1
2
3
4
5
6
不妨设原数据x1对于A,例如原数据为1,2,3,4,5,6,新数据为1,2,3,4,6,此时极差均为6-1=5,故A正确;
对于B,原数据的中位数为新数据的中位数为y3,可知y3=x3或y3=x4,
若y3=x3,可得>x3=y3;若y3=x4,可得综上所述,新数据的中位数不可能等于原数据的中位数,故B正确;
1
2
3
4
5
6
对于C,若=可知去掉的数据为则=
可得<所以新数据的方差一定大于原数据的方差,故C正确;
对于D,若=可知去掉的数据为因为6×40%=2.4,可知原数据的40%分位数为x3,5×40%=2,可知新数据的40%分位数为
例如原数据为-2,2,3,4,5,6,新数据为-2,2,4,5,6,此时新数据的40%分位数、原数据的40%分位数均为3,故D错误.
1
2
3
4
5
6
微点二 回归分析
4.(2023·天津)鸢是鹰科的一种鸟,《诗经·大雅·旱麓》曰“鸢飞戾天,鱼跃于渊”.鸢尾花因花瓣形如鸢尾而得名(图1),寓意鹏程万里、前途无量.通过随机抽样,收集了若干朵某品种鸢尾花的花萼长度和花瓣长度(单位:cm),绘制对应散点图(图2)如图所示:
1
2
3
4
5
6
计算得样本相关系数为0.864 2,利用最小二乘法求得相应的经验回归方程为=0.750 1x+0.610 5.根据以上信息,下列选项判断正确的为
A.花萼长度与花瓣长度不存在相关关系
B.花萼长度与花瓣长度负相关
C.花萼长度为7 cm的鸢尾花的花瓣长
度的平均值约为5.861 2 cm
D.若选取其他品种的鸢尾花进行抽样,
所得花萼长度与花瓣长度的样本相关系数一定为0.864 2

1
2
3
4
5
6
由散点图可知,花萼长度与花瓣长度正相关,
故A错误,B错误;
由经验回归方程=0.750 1x+0.610 5可得,
当花萼长度为7 cm时,
花瓣长度为=0.750 1×7+0.610 5=5.861 2,故C正确;
若选取其他品种的鸢尾花进行抽样,所得花萼长度与花瓣长度的样本相关系数不一定为0.864 2,故D错误.
1
2
3
4
5
6
5.(2024·西安模拟)某公司对其产品研发的年投资额x(单位:百万元)与其年销售量y(单位:千件)的数据进行统计,整理后得到如下统计表:
1
2
3
4
5
6
x 1 2 3 4 5
y 1.5 2 3.5 8 15
(1)求变量x和y的样本相关系数r(精确到0.01),并推断变量x和y的线性相关程度;(若|r|≥0.75,则线性相关性程度很强;若0.30≤|r|<0.75,则线性相关性程度一般;若|r|≤0.25,则线性相关性程度很弱.)(参考数据:≈7.14)
1
2
3
4
5
6
由题意,=×(1+2+3+4+5)=3,=×(1.5+2+3.5+8+15)=6,
(xi-)(yi-)=(-2)×(-4.5)+(-1)×(-4)+0×(-2.5)+1×2+2×9=33,
(xi-)2=(-2)2+(-1)2+02+12+22=10,
(yi-)2=(-4.5)2+(-4)2+(-2.5)2+22+92=127.5,
1
2
3
4
5
6
∴r===≈0.92,
∵|r|≥0.75,
∴变量x和y的线性相关程度很强.
1
2
3
4
5
6
x 1 2 3 4 5
y 1.5 2 3.5 8 15
(2)求年销售量y关于年投资额x的经验回归方程.并预测投资额为700万元时的销售量.
1
2
3
4
5
6
===3.3,=6-3.3×3=-3.9,
∴年销售量y关于年投资额x的经验回归方程为=3.3x-3.9.
当x=7时=3.3×7-3.9=19.2,
∴当研发的年投资额为700万元时,预测产品的年销售量约为19.2千件.
微点三 独立性检验
6.(2024·镇江调研)某芯片制造企业使用新技术对某款芯片进行生产.生产该款芯片有三道工序,这三道工序互不影响.已知批次甲芯片的三道工序次品率分别为.
(1)求批次甲芯片的次品率;
6
1
2
3
4
5
依题意,批次甲芯片的次品率为
1-××=1-××=.
(2)该企业改进生产工艺后,生产了批次乙的芯片.某手机厂商获得批次甲与批次乙的芯片,并在某款手机上使用.现对使用这款手机的100名用户回访,对开机速度进行调查.据统计,使用安装批次甲芯片手机的用户有40名.其中对开机速度满意的有30名;使用安装批次乙芯片手机的用户有60名,其中对开机速度满意的有55名.试整理出2×2列联表(单位:名),并依据小概率值α=0.05的独立性检验,分析芯片批次是否与用户对开机速度满意有关.
6
1
2
3
4
5
批次 是否满意 合计
满意 不满意


合计
α 0.05 0.01 0.005 0.001
xα 3.841 6.635 7.879 10.828
6
1
2
3
4
5
零假设为H0:芯片批次与用户对开机速度满意无关.
2×2列联表如下:
所以χ2=≈5.229>3.841=x0.05,
所以依据小概率值α=0.05的独立性检验,我们推断H0不成立,
所以认为芯片批次与用户对开机速度满意有关,此推断犯错误的概率不超过0.05.
批次 是否满意 合计
满意 不满意
甲 30 10 40
乙 55 5 60
合计 85 15 100
总结提升
1.对于回归分析主要考查求经验回归方程(非线性经验回归方程)和对变量值预测,用最小二乘法来求解经验回归方程,对非线性经验回归方程选择恰当的拟合函数,作恰当的变换,将其转化为线性函数.
2.对变量的预测,若已知经验回归方程(方程中无参数),可以直接将数值代入求得特定要求下的预测值;若经验回归方程中有参数,则根据经验回归直线一定经过点(),求出参数值,得到经验回归方程,进而完成预测.
补偿强化练
PART TWO
1.下列说法错误的是
A.样本相关系数r>0时,两变量正相关
B.在经验回归方程=0.2x+0.8中,当解释变量x每增加1个单位时,响应变量
平均增加0.2个单位
C.两个随机变量的线性相关性越强,则样本相关系数r的值就越接近于1
D.对分类变量X与Y,随机变量χ2的值越大,则判断“X与Y有关系”的把握
程度越大

1
2
3
4
5
6
7
8
对于A,样本相关系数为正时,变量为正相关关系,故A正确;
对于B,在经验回归方程=0.2x+0.8中,当Δx=1时,Δ=0.2,故B正确;
对于C,两个随机变量的线性相关性越强,样本相关系数r的绝对值就越接近于1,故C错误;
对于D,随机变量χ2的值越大,变量间有关系的把握程度越大,故D正确.
1
2
3
4
5
6
7
8
2.(多选)某市为了解全市12 000名高一学生的体能素质情况,在全市高一学生中随机抽取1 000名学生进行体能测试,并将这1 000名学生的体能测试成绩整理成如下频率分布直方图.根据此频率分布直方图,下列结论中正确的是
A.图中a的值为0.010
B.同一组中的数据用该组区间的中点值作代表,
则这1 000名学生的平均成绩约为80.5
C.估计样本数据的75%分位数为88
D.由样本数据可估计全市高一学生体能测试成绩优异(80分及以上)的人
数约为7 200

1
2
3
4
5
6
7
8

由频率分布直方图可知,10×(0.005+a+
0.02+0.04+0.02)=1,得a=0.015,故A错误;
(55×0.005+65×0.015+75×0.02+85×
0.04+95×0.02)×10=80.5,故B正确;
设75%分位数为x,则10×0.005+10×0.015
+10×0.02=0.4<0.75,
而10×0.005+10×0.015+10×0.02+10×0.04=0.8>0.75,所以x∈[80,90),
则10×0.005+10×0.015+10×0.02+(x-80)×0.04=0.75,解得x=88.75,故C错误;
1
2
3
4
5
6
7
8
体能测试成绩在[80,100]的频率为10×0.04+10×0.02=0.6,
估计全市高一学生体能测试成绩优异(80分及以上)的人数约为12 000×0.6=
7 200,故D正确.
1
2
3
4
5
6
7
8
3.(多选)(2024·深圳模拟)为丰富优质旅游资源,释放旅游消费潜力,推动旅游业高质量发展,某地政府从2023年国庆期间到该地旅游的游客中,随机抽取部分游客进行调查,得到各年龄段游客的人数和对景区服务是否满意的数据,并绘制统计图如图所示,利用数据统计图估计,得到的结论正确的是
A.游客中,青年人是老年人的2倍多
B.老年人的满意人数是青年人的满
意人数的2倍
C.到该地旅游的游客中满意的中年
人占总游客人数的24.5%
D.到该地旅游的游客满意的人数超过一半



1
2
3
4
5
6
7
8
由扇形统计图可知青年人占
比45%,是老年人占比20%的
2倍多,故A正确;
其中满意的青年人占总人数
的0.45×0.4×100%=18%,
满意的中年人占总人数的(1-20%-45%)×0.7×100%=24.5%,
满意的老年人占总人数的0.2×0.8×100%=16%,故B错误,C正确;
总满意率为18%+24.5%+16%=58.5%>50%,故D正确.
1
2
3
4
5
6
7
8
4.(多选)(2024·南宁模拟)下列说法中,正确的是
A.一组数据10,11,11,12,13,14,16,18,20,22的第40百分位数为12
B.若样本数据2x1+1,2x2+1,…,2x10+1的方差为8,则数据x1,x2,…,x10的方差为2
C.已知随机变量X服从正态分布N(μ,σ2),若P(X≥-2)+P(X≥6)=1,则μ=2
D.在独立性检验中,零假设为H0:分类变量X和Y独立.基于小概率值α的独
立性检验规则是:当χ2≤xα时,我们就推断H0不成立,即认为X和Y不独立,
该推断犯错误的概率不超过α;当χ2>xα时,我们没有充分证据推断H0不
成立,可以认为X和Y独立

1
2
3
4
5
6
7
8

对于A,由于10,11,11,12,13,14,16,18,20,22共10个数据,且10×0.4=4,
故第40百分位数为第4,5个数据的平均数,为=12.5,故A错误;
对于B,设数据x1,x2,…,x10的平均数为=,
方差为s2=
则数据2x1+1,2x2+1,…,2x10+1的平均数为'===2+1,
1
2
3
4
5
6
7
8
方差为=[(2x1+1-')2+(2x2+1-')2+…+(2x10+1-')2]
=[(2x1-2)2+(2x2-2)2+…+(2x10-2)2]
=[(x1-)2+(x2-)2+…+(x10-)2]=4s2=8,
所以s2=2,故B正确;
对于C,P(X≥-2)+P(X≥6)=1
则P(X≥6)=1-P(X≥-2)=P(X≤-2),
由正态分布N(μ,σ2)的性质可得μ==2,故C正确;
1
2
3
4
5
6
7
8
对于D,在独立性检验中,零假设为H0:分类变量X和Y独立.
基于小概率值α的独立性检验规则是:当χ2≥xα时,我们就推断H0不成立,即认为X和Y不独立,该推断犯错误的概率不超过α;
当χ2故D错误.
1
2
3
4
5
6
7
8
5.对具有线性相关关系的变量x,y有一组成对观测数据(xi,yi)(i=1,2,…,10),=5=-4,其经验回归方程为=-3.2x+则在样本点处的残差为  .
1
2
3
4
5
6
7
8
0.5
将=5=-4代入=-3.2x+得-4=-3.2×5+解得=12,
所以=-3.2x+12,
故当x=3时=-3.2×3+12=2.4,
所以残差为2.9-2.4=0.5.
6.某学校有高中学生500人,其中男生320人,女生180人.为了获得全体高中生身高的信息,按照比例分配的分层随机抽样原则抽取样本,男生样本量为32,女生样本量为18,通过计算得男生身高样本平均数为173.5 cm,方差为17,女生身高样本平均数为163.83 cm,方差为30.03,则所有数据的样本平均数为     cm,方差为    .(结果保留两位小数)
1
2
3
4
5
6
7
8
170.02
43.24
由题意得=×173.5+×163.83≈170.02(cm),
s2=×
≈43.24.
1
2
3
4
5
6
7
8
7.(2024·周口模拟)中国茶文化博大精深,饮茶深受大众喜爱,茶水的口感与茶叶类型以及水的温度有关,某数学建模小组为了获得茶水温度y(单位:℃)关于时间x(单位:min)的回归方程模型,通过实验收集在25 ℃室温,用同一温度的水冲泡的条件下,茶水温度随时间变化的7组数据,并对数据做初步处理得到如图所示的散点图以及如表所示的数据.
(xi-)(yi-) (xi-)(wi-)
73.5 3.85 -95 -2.24
表中:wi=ln(yi-25)=wi.
1
2
3
4
5
6
7
8
(1)根据散点图判断,①y=a+bx与②y=d·cx+25哪一个更适宜作为该茶水温度y关于时间x的回归方程类型?(给出判断即可,不必说明理由)请根据你的判断结果及表中数据建立该茶水温度y关于时间x的回归方程;
参考数据:e-0.08≈0.92,e4.09≈60,ln 7≈1.9,ln 3≈1.1,ln 2≈0.7.
(xi-)(yi-) (xi-)(wi-)
73.5 3.85 -95 -2.24
1
2
3
4
5
6
7
8
1
2
3
4
5
6
7
8
由散点图知,更适宜的回归方程为②,
即y=d·cx+25.
由y=d·cx+25,得y-25=d·cx,
两边取自然对数,得ln(y-25)=ln d+xln c,
令w=ln(y-25),则w=ln d+xln c,
=xi==3,
(xi-)2=(-3)2+(-2)2+(-1)2+02+12+22+32=28,
结合表中数据,得ln c===-0.08,
结合参考数据可得c=e-0.08≈0.92,由ln d=-ln c=3.85-3×(-0.08)=4.09,得d=e4.09≈60,
所以茶水温度y关于时间x的回归方程为y=60×0.92x+25.
(xi-)(yi-) (xi-)(wi-)
73.5 3.85 -95 -2.24
1
2
3
4
5
6
7
8
(2)已知该茶水温度降至60 ℃口感最佳,根据(1)中的回归方程,求在相同条件下冲泡的茶水,大约需要放置多长时间才能达到最佳饮用口感?
(xi-)(yi-) (xi-)(wi-)
73.5 3.85 -95 -2.24
1
2
3
4
5
6
7
8
依题意,茶水温度降至60 ℃口感最佳,
即60=60×0.92x+25,
整理得xln 0.92=ln
于是xln 0.92=ln 7-2ln 2-ln 3
≈1.9-2×0.7-1.1=-0.6,
解得x≈=7.5,
所以大约需要放置7.5 min才能达到最佳饮用口感.
1
2
3
4
5
6
7
8
8.(2024·石家庄模拟)为了研究学生每天整理数学错题情况,某课题组在某市中学生中随机抽取了100名学生调查了他们期中考试的数学成绩和平时整理数学错题情况,并绘制了下列两个统计图表,图①为学生期中考试数学成绩的频率分布直方图,图②为学生一个星期内整理数学错题天数的扇形图.若本次数学成绩在110分及以上视
为优秀,将一个星期有4天及以上整理
数学错题视为“经常整理”,少于4天
视为“不经常整理”.已知数学成绩优
秀的学生中,经常整理错题的学生占70%.
1
2
3
4
5
6
7
8
(1)根据图①、图②中的数据,画出2×2列联表,并根据小概率值α=0.05的独立性检验,分析数学成绩优秀与经常整理数学错题是否有关?
1
2
3
4
5
6
7
8
附:
α 0.10 0.05 0.025 0.010 0.005 0.001
xα 2.706 3.841 5.024 6.635 7.879 10.828
1
2
3
4
5
6
7
8
由题意可得(0.002 5+0.005+0.017 5+m+0.01)×20=1,
解得m=0.015.
所以数学成绩优秀的有100×(0.015+0.01)×20
=50(人),
则成绩不优秀的有100-50=50(人),
经常整理错题的有100×(40%+20%)=60(人),
则不经常整理错题的有100-60=40(人),
所以经常整理错题且成绩优秀的有50×70%=35(人),
1
2
3
4
5
6
7
8
则2×2列联表如下:
零假设为H0:数学成绩优秀与经常整理数学错题无关,
根据列联表中的数据,可得χ2==≈4.167>3.841=x0.05,
根据小概率值α=0.05的独立性检验,我们推断H0不成立,
即认为数学成绩优秀与经常整理数学错题有关联,此推断犯错误的概率不大于0.05.
是否经常整理错题 数学成绩是否优秀 合计
数学成绩优秀 数学成绩不优秀
经常整理 35 25 60
不经常整理 15 25 40
合计 50 50 100
(2)用频率估计概率,在全市中学生中按经常整理错题与不经常整理错题进行按比例分配的分层随机抽样,随机抽取5名学生,再从这5名学生中随机抽取2人进行座谈,求这2名同学中经常整理错题且数学成绩优秀的人数X的分布列和数学期望.
1
2
3
4
5
6
7
8
1
2
3
4
5
6
7
8
由按比例分配的分层随机抽样知随机抽取的5名学生中,
则经常整理错题的有5×(20%+40%)=3(人),不经常整理错题的有5-3=2(人),
所以X的可能取值为0,1,2,
“经常整理错题的3名学生中,恰抽到k人”记为事件Ak(k=0,1,2),
则P(Ak)=(k=0,1,2).
1
2
3
4
5
6
7
8
由(1)知经常整理数学错题的学生中数学成绩优秀的学生占=数学成绩不优秀的学生占=
“参与座谈的2名学生中,经常整理错题且数学成绩优秀的恰好抽到m人”记为事件Bm(m=0,1,2),
则P(B0|A0)=1,P(B0|A1)=P(B0|A2)==
P(B1|A1)=P(B1|A2)=××=P(B2|A2)==.
1
2
3
4
5
6
7
8
所以P(X=0)
=P(A0)P(B0|A0)+P(A1)P(B0|A1)+P(A2)P(B0|A2)
=×1+×+×=
P(X=1)=P(A1)P(B1|A1)+P(A2)P(B1|A2)
=×+×=
P(X=2)=P(A2)P(B2|A2)=×=
1
2
3
4
5
6
7
8
故X的分布列为
则数学期望E(X)=0×+1×+2×=.
X 0 1 2
P

展开更多......

收起↑

资源列表