第2部分 专题4 第1讲 统计与统计案例 讲义

资源下载
  1. 二一教育资源

第2部分 专题4 第1讲 统计与统计案例 讲义

资源简介

 统计与统计案例
考点1 统计图表和样本数字特征
1.(2020·新高考卷Ⅱ改编)我国新冠肺炎疫情防控进入常态化,各地有序推进复工复产,下面是某地连续11天复工复产指数折线图,下列说法正确的是(  )
①这11天复工指数和复产指数均逐日增加;
②这11天期间,复产指数增量大于复工指数的增量;
③第3天至第11天复工复产指数均超过80%;
④第9天至第11天复产指数增量大于复工指数的增量.
A.①② B.②③
C.③④ D.②④
C [由图可知,第1天到第2天复工指数减少,第7天到第8天复工指数减少,第10天到第11天复工指数减少,第8天到第9天复产指数减少,故①错误;由图可知,第1天的复产指数与复工指数的差大于第11天的复产指数与复工指数的差,所以这11天期间,复产指数增量小于复工指数的增量,故②错误;由图可知,第3天至第11天复工复产指数均超过80%,故③正确;由图可知,第9天至第11天复产指数增量大于复工指数的增量,故④正确,故选C.]
2.(2019·全国卷Ⅱ)演讲比赛共有9位评委分别给出某选手的原始评分,评定该选手的成绩时,从9个原始评分中去掉1个最高分、1个最低分,得到7个有效评分.7个有效评分与9个原始评分相比,不变的数字特征是(  )
A.中位数 B.平均数
C.方差 D.极差
A [记9个原始评分分别为a,b,c,d,e,f,g,h,i(按从小到大的顺序排列),易知e为7个有效评分与9个原始评分的中位数,故不变的数字特征是中位数,故选A.]
3.(2021·全国卷乙)某厂研制了一种生产高精产品的设备,为检验新设备生产产品的某项指标有无提高,用一台旧设备和一台新设备各生产了10件产品,得到各件产品该项指标数据如下:
旧设备 9.8 10.3 10.0 10.2 9.9 9.8 10.0 10.1 10.2 9.7
新设备 10.1 10.4 10.1 10.0 10.1 10.3 10.6 10.5 10.4 10.5
旧设备和新设备生产产品的该项指标的样本平均数分别记为和,样本方差分别记为s和s.
(1)求,,s,s;
(2)判断新设备生产产品的该项指标的均值较旧设备是否有显著提高(如果-≥2,则认为新设备生产产品的该项指标的均值较旧设备有显著提高,否则不认为有显著提高).
[解] (1)由表格中的数据易得:
=+10.0=10.0,
=+10.0=10.3,
s=×[(9.7-10.0)2+2×(9.8-10.0)2+(9.9-10.0)2+2×(10.0-10.0)2+(10.1-10.0)2+2×(10.2-10.0)2+(10.3-10.0)2]=0.036,
s=×[(10.0-10.3)2+3×(10.1-10.3)2+(10.3-10.3)2+2×(10.4-10.3)2+2×(10.5-10.3)2+(10.6-10.3)2]=0.04.
(2)由(1)中数据可得-=10.3-10.0=0.3,而2==,显然有->2成立,所以认为新设备生产产品的该项指标的均值较旧设备有显著提高.
命题规律:样本的数字特征、统计图表主要以选择题、填空题形式出现,难度较小.
通性通法:总体估计的方法
(1)统计量法:①若数据已知,常借助,s2等量对样本总体做出估计,其中=,s2= (xi-)2.
②若数据未知,如以频率分布直方图形式给出,则应明确直方图中各统计量的求法.
(2)图表分析法:若根据图表比较样本数据的大小,可根据数据分布情况直观分析,大致判断平均数的范围,并依据数据的波动情况比较方差(标准差)的大小.
1.[数字特征的计算](2021·广东模拟)已知数据x1,x2,x3,x4,x5,x6的平均数是5,方差是9,则x+x+x+x+x+x=(  )
A.159 B.204
C.231 D.636
B [根据题意,数据x1,x2,x3,x4,x5,x6的平均数=5,方差s2=9,
则s2=(x+x+x+x+x+x)-2=9,
变形可得:x+x+x+x+x+x=204,故选B.]
2.[以频率分布直方图为载体](2021·辽宁模拟)某公司为提高职工政治素养,对全体职工进行了一次时事政治测试,随机抽取了100名职工的成绩,并将其制成如图所示的频率分布直方图,以样本估计总体,则下列结论中正确的是(  )
A.该公司职工的测试成绩不低于60分的人数约占总人数的80%
B.该公司职工测试成绩的中位数约为75分
C.该公司职工测试成绩的平均值约为68分
D.该公司职工测试成绩的众数约为60分
C [由频率分布直方图,得:
对于A,该公司职工的测试成绩不低于60分的频率为:(0.02+0.015)×20=0.70,∴该公司职工的测试成绩不低于60分的人数约占总人数的70%,故A错误;对于B,测试成绩在[20,60)的频率为(0.005+0.01)×20=0.3,测试成绩在[60,80)的频率为0.02×20=0.4,∴该公司职工测试成绩的中位数约为:60+×20=70分,故B错误;对于C,该公司职工测试成绩的平均值约为:=30×0.005×20+50×0.01×20+70×0.02×20+90×0.015×20=68分,故C正确;对于D,该公司职工测试成绩的众数约为:=70分,故D错误.故选C.]
3.[以饼形图为载体]据了解,到本世纪中叶中国人口老龄化问题将日趋严重,如图是专家预测中国2050年人口比例图,若从2050年开始退休年龄将延迟到65岁,则下列叙述正确的是(  )
人口比例图
A.到2050年已经退休的人数将超过40%
B.2050年中国46~55岁的人数比16~25岁的人数多30%
C.2050年中国25岁以上未退休的人口数大约是已退休人口数的2倍
D.按照分层抽样的方法从16~55岁之间的人群中抽取一个容量为n的样本,若样本中46~55岁比26~35岁多6人,则n=104
D [由饼形图知2050年中国将有约32%的人已经退休,所以选项A错误;
设46~55岁的人数为16x人,16~25岁的人数为13x人,则46~55岁的人数比16~25岁的人数多=≈23%,所以选项B错误;
25岁以上未退休的人口数占48%,已退休人口数占32%,所以25岁以上未退休的人口数大约是已退休人口数的1.5倍,所以选项C错误;
由题意知-=6,解得n=104,所以选项D正确,故选D.]
考点2 回归分析
1.(2020·全国卷Ⅰ)某校一个课外学习小组为研究某作物种子的发芽率y和温度x(单位:℃)的关系,在20个不同的温度条件下进行种子发芽实验,由实验数据(xi,yi)(i=1,2,…,20)得到下面的散点图:
由此散点图,在10 ℃至40 ℃之间,下面四个回归方程类型中最适宜作为发芽率y和温度x的回归方程类型的是(  )
A.y=a+bx B.y=a+bx2
C.y=a+bex D.y=a+bln x
D [根据散点图,用光滑的曲线把图中各点依次连起来(图略),由图并结合选项可排除A,B,C,故选D.]
2.(2020·全国卷Ⅱ)某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据(xi,yi)(i=1,2,…,20),其中xi和yi分别表示第i个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得xi=60,yi=1 200, (xi-)2=80, (yi-)2=9 000, (xi-)(yi-)=800.
(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘以地块数);
(2)求样本(xi,yi)(i=1,2,…,20)的相关系数(精确到0.01);
(3)根据现有统计资料,各地块间植物覆盖面积差异很大,为提高样本的代表性以获得该地区这种野生动物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由.
附:相关系数r=eq \f(\o() xi-\x\to(x) yi-\x\to(y) ,\r(\o() xi-\x\to(x) 2\o() yi-\x\to(y) 2)),≈1.414.
[解] (1)由已知得样本平均数=i=60,从而该地区这种野生动物数量的估计值为60×200=12 000.
(2)样本(xi,yi)(i=1,2,…,20)的相关系数
r===≈0.94.
(3)分层抽样:根据植物覆盖面积的大小对地块分层,再对200个地块进行分层抽样.
理由如下:由(2)知各样区的这种野生动物数量与植物覆盖面积有很强的正相关.由于各地块间植物覆盖面积差异很大,从而各地块间这种野生动物数量差异也很大,采用分层抽样的方法较好地保持了样本结构与总体结构的一致性,提高了样本的代表性,从而可以获得该地区这种野生动物数量更准确的估计.
命题规律:高考对该点的考查主要立足两点:一是考查学生的数据提取,数据分析能力;二是考查学生的数学建模能力,难度适中.
通性通法:进行回归分析的一般思路
(1)定关系:依据样本数据散点图或相关系数r,确定两个变量是否具有较强的相关关系.
(2)算各值:分别计算,,x,xiyi的值.
(3)求系数:求出回归系数,.
其中==eq \f(\o(∑,\s\up7(n),\s\do8(i=1))xiyi-n\o(\x\to(x))\o(\x\to(y)),\o(∑,\s\up7(n),\s\do8(i=1))x\o\al(2,i)-n\x\to(x)).
(4)写方程:=x+.
(5)作预测:依据回归方程给出预测值.
提醒:非线性回归分析可借助代数变换转化为线性回归分析.
1.[回归方程的性质]蟋蟀鸣叫可以说是大自然优美、和谐的音乐,殊不知蟋蟀鸣叫的频率x(每分钟鸣叫的次数)与气温y(单位:℃)存在着较强的线性相关关系.某地观测人员根据如表的观测数据,建立了y关于x的线性回归方程=0.25x+k,则下列说法不正确的是(  )
x(次数/分钟) 20 30 40 50 60
y(℃) 25 27.5 29 32.5 36
A.k的值是20
B.变量x,y呈正相关关系 
C.若x的值增加1,则y的值约增加0.25
D.当蟋蟀52次/分鸣叫时,该地当时的气温预报值为33.5 ℃
D [由题意,得=(20+30+40+50+60)=40,
=(25+27.5+29+32.5+36)=30,
则k=-0.25=30-0.25×40=20,故A正确;
由线性回归方程可知,=0.25>0,变量x,y呈正相关关系,故B正确;
若x的值增加1,则y的值约增加0.25,故C正确;
当x=52时,=0.25×52+20=33,故D错误.故选D.]
2.[回归分析]近年来,明代著名医药学家李时珍故乡黄冈市蕲春县大力发展大健康产业,蕲艾产业化种植已经成为该县脱贫攻坚的主要产业之一,已知蕲艾的株高y(单位:cm)与一定范围内的温度x(单位:℃)有关,现收集了蕲艾的13组观测数据,得到如图的散点图:
现根据散点图利用y=a+b或y=c+建立y关于x的回归方程,令s=,t=得到如下数据:
10.15 109.94 3.04 0.16
siyi-13 tiyi-13 s-132 t-132 y-132
13.94 -2.1 11.67 0.21 21.22
且(si,yi)与(ti,yi)(i=1,2,3,…,13)的相关系数分别为r1,r2且r2=-0.995 3.
(1)用相关系数说明哪种模型建立y与x的回归方程更合适;
(2)根据(1)的结果及表中数据,建立关于x的回归方程;
(3)已知蕲艾的利润z与x,y的关系为z=20y-x,当x为何值时,z的预报值最大.
附:参考数据和公式:0.21×21.22=4.456 2,11.67×21.22=247.637 4,=15.736 5,对于一组数据(ui,vi)(i=1,2,3,…,n),其回归直线方程=+u的斜率和截距的最小二乘法估计分别为
=eq \f(\o(∑,\s\up7(n),\s\do8(i=1))uivi-n\o(u,\s\up7(-))\o(v,\s\up7(-)),\o(∑,\s\up7(n),\s\do8(i=1))u\o\al(2,i)-n\o(u,\s\up7(-))),=-,
相关系数r=eq \f(\o(∑,\s\up7(n),\s\do8(i=1))uivi-n\o(u,\s\up7(-))\o(v,\s\up7(-)),\r(\o(∑,\s\up7(n),\s\do8(i=1))u\o\al(2,i)-n\o(u,\s\up7(-)))\r(\o(∑,\s\up7(n),\s\do8(i=1))v\o\al(2,i)-n\o(v,\s\up7(-)))).
[解] (1)相关系数r2=-0.995 3,
r1=eq \f(\o(∑,\s\up7(13),\s\do8(i=1))siyi-13\o(s,\s\up7(-))\o(y,\s\up7(-)),\r(\o(∑,\s\up7(13),\s\do8(i=1))s\o\al(2,i)-13\o(s,\s\up7(-)))\r(\o(∑,\s\up7(13),\s\do8(i=1))y\o\al(2,i)-13\o(y,\s\up7(-))))=≈0.885 8,
∵|r1|<|r2|<1,
∴用模型y=c+建立y与x的回归方程更合适.
(2)根据(1)知,=eq \f(\o(∑,\s\up7(13),\s\do8(i=1))tiyi-13\o(t,\s\up7(-))\o(y,\s\up7(-)),\o(∑,\s\up7(13),\s\do8(i=1))t\o\al(2,i)-13\x\to(t))==-10,
=-=109.94+10×0.16=111.54.
∴关于x的回归方程为=111.54-.
(3)由题意知利润函数
z=20y-x=20×-x=2 230.8-,
由基本不等式+≥2=20,
当且仅当x=20时“=”成立,
∴当气温x=20 ℃时,利润z的预报值最大.
考点3 独立性检验
(2020·新高考卷Ⅰ)为加强环境保护,治理空气污染,环境监测部门对某市空气质量进行调研,随机抽查了100天空气中的PM2.5和SO2浓度(单位:μg/m3),得下表:
SO2PM2.5   [0,50] (50,150] (150,475]
[0,35] 32 18 4
(35,75] 6 8 12
(75,115] 3 7 10
(1)估计事件“该市一天空气中PM2.5浓度不超过75,且SO2浓度不超过150”的概率;
(2)根据所给数据,完成下面的2×2列联表:
SO2PM2.5   [0,150] (150,475]
[0,75]
(75,115]
(3)根据(2)中的列联表,判断是否有99%的把握认为该市一天空气中PM2.5浓度与SO2浓度有关?
附:K2=,
[解] (1)根据抽查数据,该市100天的空气中PM2.5浓度不超过75,且SO2浓度不超过150的天数为32+18+6+8=64,因此,该市一天空气中PM2.5浓度不超过75,且SO2浓度不超过150的概率的估计值为=0.64.
(2)根据抽查数据,可得2×2列联表:
SO2PM2.5   [0,150] (150,475]
[0,75] 64 16
(75,115] 10 10
(3)根据(2)的列联表得K2的观测值k=≈7.484.
由于7.484>6.635,故有99%的把握认为该市一天空气中PM2.5浓度与SO2浓度有关.
命题规律:该类问题常以统计图、表为载体,以生活题材为背景,借助独立性检验中的K2公式对两类分类变量的相关性作出判断.
通性通法:独立性检验的一般步骤
(1)根据样本数据列成2×2列联表;
(2)根据公式K2=,计算K2的值;
(3)查表比较K2与临界值的大小关系,作统计判断.
1.[以“五育”为载体](2021·济南二模)第24届冬季奥林匹克运动会将于2022年在北京举办.为了解某城市居民对冰雪运动的关注情况,随机抽取了该市100人进行调查统计,得到如下2×2列联表.
男 女 总计
关注冰雪运动 35 25 60
不关注冰雪运动 15 25 40
总计 50 50 100
根据列联表可知(  )
参考公式:K2=,其中n=a+b+c+d.
附表:
P(K2≥k0) 0.100 0.050 0.010 0.001
k0 2.706 3.841 6.635 10.828
A.该市女性居民中大约有5%的人关注冰雪运动
B.该市男性居民中大约有95%的人关注冰雪运动
C.有95%的把握认为该市居民是否关注冰雪运动与性别有关
D.有99%的把握认为该市居民是否关注冰雪运动与性别有关
C [由2×2列联表中的数据可得
K2=≈4.167>3.841,
因此,有95%的把握认为该市居民是否关注冰雪运动与性别有关.故选C.]
2.[与实际生活相联系]调查某种新型作物A在某地的耕种状况与农民收入的关系,现在当地农户中随机选取了300户农民进行了统计,发现当年收入水平提高的农户占,而当年选择耕种A作物的农户占,既选择A作物又收入提高的农户为180户.
完成下面2×2列联表,并分析是否有97.5%的把握认为种植A作物与收入提高有关;
种植A作物的数量 未种植A作物的数量 总计
收入提高的数量
收入未提高的数量
总计
附:K2=,n=a+b+c+d.
P(K2≥k0) 0.10 0.05 0.025 0.010 0.005 0.001
k0 2.706 3.841 5.024 6.635 7.879 10.828
[解] 由题意知:收入提高的有300×=260户,未种植A作物的有300×=100户,得2×2列联表如下:
种植A作物的数量 未种植A作物的数量 总计
收入提高的数量 180 80 260
收入未提高的数量 20 20 40
总计 200 100 300
经计算得:
K2=≈5.769>5.024,
∴有97.5%的把握认为收入提高与种植A作物有关.
9/13

展开更多......

收起↑

资源预览