2026届高考数学一轮总复习第9章统计与成对数据的统计分析课件(2份)

资源下载
  1. 二一教育资源

2026届高考数学一轮总复习第9章统计与成对数据的统计分析课件(2份)

资源简介

(共85张PPT)
第九章
统计与成对数据的统计分析
第二讲 成对数据的统计分析
知识梳理·双基自测
名师讲坛·素养提升
考点突破·互动探究
知识梳理 · 双基自测
知 识 梳 理
知识点一 变量的相关关系
1.相关关系
两个变量有关系,但又没有确切到可由其中的一个____________另一个的程度,这种关系称为相关关系.
2.散点图
每一个序号下的成对样本数据都可用直角坐标系中的____表示出来,由这些点组成的统计图称为散点图.
去精确地决定

3.正相关、负相关
如果从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现______的趋势,我们就称这两个变量正相关;如果当一个变量的值增加时,另一个变量的相应值呈现______的趋势,则称这两个变量负相关.
4.变量的线性相关
如果两个变量的取值呈现_______________,而且散点落在_______
___附近,我们就称这两个变量线性相关.一般地,如果两个变量具有相关性,但不是线性相关,那么我们就称这两个变量________________
_____.
增加
减小
正相关或负相关
一条直
线
非线性相关或曲线
相关
5.样本相关系数
称r=___________________________为变量x和变量y的相关系数.
r∈[-1,1],当r>0时,则成对样本数据________;
当r<0时,则成对样本数据________;
当|r|接近1时,成对样本数据的线性相关程度______;
当|r|接近0时,成对样本数据的线性相关程度______.
正相关
负相关
越强
越弱
bx+a+e
0
σ2
因变量或响应变量
自变量或解释变量
经验回归直线
最小二乘法
最小二乘估计
(2)残差的散点图
残差比较均匀地集中分布在以横轴为对称轴的水平带状区域内,则满足一元线性回归模型对随机误差的假设.
观测值
预测值
残差
残差分析




知识点三 列联表与独立性检验
1.分类变量:用以区别不同的现象或性质的随机变量.
2.2×2列联表
设X,Y为两个分类变量,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(2×2列联表)如下:
y1 y2 总计
x1 a b __________
x2 c d c+d
总计 a+c __________ __________________
a+b
b+d
a+b+c+d
3.独立性检验
(1)零假设(或原假设)
以Ω为样本空间的古典概型.设X和Y为定义在Ω上,取值于{0,1}的成对分类变量.
H0:____________________________称为零假设.
P(Y=1|X=0)=P(Y=1|X=1)
(2)临界值
?2=_______________________.
对于任何小概率值α,可以找到相应的正实数xα,使得下面关系成立:P(?2≥xα)=α.称xα为α的________,这个临界值就可作为判断?2大小的标准.概率值α越小,临界值xα越大.
临界值
(3)独立性检验
基于小概率值α的检验规则是:
当?2≥xα时,我们就推断H0不成立,即认为X和Y________,该推断犯错误的概率不________;
当?2这种利用?2的取值推断分类变量X和Y是否独立的方法称为?2独立性检验,读作“卡方独立性检验”,简称独立性检验.
不独立
超过α
独立
4.独立性检验解决实际问题的一般步骤
(1)提出零假设H0:X与Y相互独立,并给出在问题中的解释.
(2)根据抽样数据整理出2×2列联表,计算?2值,并与临界值xα比较.
(3)根据检验规则得出推断结论.
(4)在X和Y不独立的情况下,根据需要,通过比较相应的频率,分析X和Y间的影响规律.
归 纳 拓 展
1.回归分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图大致呈线性分布时,求出的经验回归方程才有实际意义,否则,求出的经验回归方程毫无意义.根据经验回归方程进行预报,仅是一个预报值,而不是真实发生的值.
3.独立性检验是对两个变量的关系的可信程度的判断,而不是对其是否有关系的判断.根据?2的值可以判断两个分类变量有关的可信程度,并用来指导科研和实际生活.
双 基 自 测
题组一 走出误区
1.判断下列结论是否正确(请在括号中打“√”或“×”)
(1)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系.(  )
(2)两个随机变量的线性相关性越强,相关系数的绝对值越接近于0.(  )
(3)只有两个变量有相关关系,所得到的回归模型才有预测价值.
(  )
(5)事件x,y关系越密切,则由观测数据计算得到的?2的观测值越大.(  )
(6)由独立性检验可知,在犯错误的概率不超过1%的前提下认为物理成绩优秀与数学成绩有关,某人数学成绩优秀,则他有99%的可能物理优秀.(  )
[答案] (1)√ (2)× (3)√ (4)× (5)√ (6)×
题组二 走进教材
2.(多选题)(选择性必修3P113T5)对变量y和x的一组样本数据(x1,y1),(x2,y2),…,(xn,yn)进行回归分析,建立回归模型,则下列说法正确的有(  )
A.残差平方和越大,模型的拟合效果越好
C.用决定系数R2来刻画回归效果,R2越小,说明模型的拟合效果越好
D.若y和x的样本相关系数r=-0.95,则y和x之间具有很强的负线性相关关系
[答案] BD
3.(选择性必修3P132例3)某儿童医院用甲、乙两种疗法治疗小儿消化不良.采用有放回简单随机抽样的方法对治疗情况进行检查,得到了如下数据:抽到接受甲种疗法的患儿67名,其中未治愈15名、治愈52名;抽到接受乙种疗法的患儿69名,其中未治愈6名,治愈63名.试根据小概率值α=0.005的独立性检验,分析甲、乙两种疗法的效果,结论为________.
附:
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
[答案] 两种疗法效果没有差异
[解析] 由题意得两种疗法数据的列联表
疗法 疗效 合计
未治愈 治愈 甲 15 52 67
乙 6 63 69
合计 21 115 136
题组三 走向高考
4.(2023·天津卷)调查某种群花萼长度和花瓣长度,所得数据如图所示,其中相关系数r=0.824 5,下列说法正确的是(  )
A.花瓣长度和花萼长度没有相关性
B.花瓣长度和花萼长度呈现负相关
C.花瓣长度和花萼长度呈现正相关
D.若从样本中抽取一部分,则这部
分的相关系数一定是0.824 5
[答案] C
[解析] 根据散点的集中程度可知,花瓣长度和花萼长度有相关性,A选项错误;散点的分布是从左下到右上,从而花瓣长度和花萼长度呈现正相关性,B选项错误,C选项正确;由于r=0.824 5是全部数据的相关系数,取出来一部分数据,相关性可能变强,可能变弱,即取出的数据的相关系数不一定是0.824 5,D选项错误.故选C.
5.(2022·全国甲卷(节选))甲、乙两城之间的长途客车均由A和B两家公司运营,为了解这两家公司长途客车的运行情况,随机调查了甲、乙两城之间的500个班次,得到下面列联表:
准点班次数 未准点班次数
A 240 20
B 210 30
能否有90%的把握认为甲、乙两城之间的长途客车是否准点与客车所属公司有关?
P(?2≥xα) 0.100 0.050 0.010
xα 2.706 3.841 6.635
[解析] 根据已知数据得到列联表如下:
公司 准点班次数 未准点班次数 合计
A 240 20 260
B 210 30 240
合计 450 50 500
所以有90%的把握认为甲、乙两城之间的长途客车是否准点与客车所属公司有关.
考点突破 · 互动探究
相关关系的判断——自主练透
1.(2024·湖南名校联考联合体联考)某校数学兴趣小组在某座山测得海拔高度x(单位:千米)与气压y(单位:千帕)的六组数据(xi,yi)(i=1,2,…,6)绘制成如下散点图,分析研究发现B点相关数据不符合实际,删除B点后重新进行回归分析,则下列说法正确的是(  )
A.删除点B后,样本数据的两变量x,y正相关
B.删除点B后,相关系数r的绝对值更接近于1
C.删除点B后,新样本的残差平方和变大
D.删除点B后,解释变量x与响应变量y相关性变弱
[答案] B
[解析] 从散点图中可知,删除点B后,样本数据的两变量x,y负相关,所以A错误;由于B点较其他点偏离程度大,故去掉B点后,回归效果更好,从而相关系数r的绝对值更接近于1,所以B正确;同理决定系数R2越接近于1,所以新样本的残差平方和变小,所以C错误;从而解释变量x与响应变量y相关性增强,所以D错误.故选B.
2.(2025·上海实验学校月考)对四组数据进行统计,获得如下散点图,关于其相关系数的比较,说法正确的是(  )
A.r4C.r2[答案] B
[解析] 由图中散点的分布趋势知:r1,r3>0,r2,r4<0,由图散点的分布状态知:|r1|>|r3|,|r2|>|r4|,所以r1>r3>0>r4>r2.故选B.
名师点拨:判断两个变量正、负相关性的方法
1.画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.
2.相关系数:r>0时,正相关;r<0时,负相关.
【变式训练】
(2023·上海卷)根据所示的散点图,下列说法正确的是(  )
A.身高越大,体重越大
B.身高越大,体重越小
C.身高和体重成正相关
D.身高和体重成负相关
[答案] C
[解析] 根据散点图的分布可得:身高和体重成正相关.故选C.
回归分析——多维探究
角度1 一元线性回归模型
1.(多选题)(2025·甘肃陇南部分学校模拟)某厂近几年陆续购买了几台A型机床,该型机床已投入生产的时间x(单位:年)与当年所需要支出的维修费用y(单位:万元)有如下统计资料:
x 2 3 4 5 6
y 2.2 3.8 5.5 6.5 7
B.y与x的样本相关系数r>0
C.表中维修费用的第60百分位数为6
D.该型机床已投入生产的时间为10年时,当年所需要支出的维修费用一定是12.38万元
[答案] ABC
2.(2025·黑龙江部分学校模拟)2023年是全面贯彻落实党的二十大精神的开局之年,也是实施“十四五”规划承上启下的关键之年,经济增长呈现稳中有进的可喜现象.某省为做好刺梨产业的高质量发展,项目组统计了全省近5年刺梨产业综合产值如下:
年份代码x,综合产值y(单位:亿元)
年份 2019 2020 2021 2022 2023
年份代码x 1 2 3 4 5
综合产值y 1.5 2 3.5 8 15
(1)请通过样本相关系数,推断y与x之间的相关程度;(若|r|≥0.75,则线性相关性程度很强;若0.25<|r|<0.75,则线性相关性程度一般,若|r|≤0.25,则线性相关性程度很弱)
(2)求出y关于x的经验回归方程,并预测2024年该省刺梨产业的综合产值.
所以y关于x的经验回归方程为y=3.3x-3.9,
当x=6时,y=3.3×6-3.9=15.9.
故预测2024年该省刺梨产业的综合产值为15.9亿元.
名师点拨:一元回归模型问题的解法
1.求经验回归方程
(2)待定系数法:利用经验直线过样本点中心求系数.
2.利用经验回归方程进行预测
把经验回归直线方程看作一次函数,求函数值.
3.利用经验回归直线判断正、负相关
A.变量x和变量y呈正相关
B.变量x和变量y的相关系数r<0
C.a=21.3
D.样本数据(5,12)比(7,5)的残差绝对值大
[答案] BC
2.(2025·云南名校联考)中华人民共和国体育代表团参加夏季奥运会以来,中国健儿们不断取得好成绩,到今天成长为体育大国,从2000年以来,金牌情况统计如下(不含中国香港、中国台湾):
中国体育代表团夏季奥运会获得金牌数
届数 第27届 第28届 第29届 第30届 第31届 第32届
届数代码t 1 2 3 4 5 6
地点 2000年 悉尼 2004年 雅典 2008年 北京 2012年 伦敦 2016年里约热内卢 2021年
东京
金牌数(y) 28 32 48 38 26 38
根据以上数据,建立y关于t的线性回归方程,若不考虑其他因素,根据回归方程预测第33届(2024年巴黎奥运会)中国体育代表团金牌总数为(  )
A.29 B.33
C.37 D.45
[答案] C
角度2 一元非线性回归模型
(2025·辽宁丹东四中模拟)当前,人工智能技术以前所未有的速度迅猛发展,并逐步影响我们的方方面面,人工智能被认为是推动未来社会发展和解决人类面临的全球性问题的重要手段.某公司在这个领域逐年加大投入,以下是近年来该公司对产品研发年投入额x(单位:百万元)与其年销售量y(单位:千件)的数据统计表.
x 1 2 3 4 5 6
y 0.5 1 1.5 3 6 12
z=ln y -0.7 0 0.4 1.1 1.8 2.5
(1)公司拟分别用①y=bx+a和②y=enx+m两种方案作为年销售量y关于年投入额x的回归分析模型,请根据已知数据,确定方案①和②的经验回归方程;(a,b,m,n计算过程保留到小数点后两位,最后结果保留到小数点后一位)
(2)根据下表数据,用决定系数R2(只需比较出大小)比较两种模型的拟合效果哪种更好,并选择拟合精度更高的模型,预测年投入额为7百万元时,产品的销售量是多少?
[答案] -0.3 0.98
独立性检验——师生共研
1.(多选题)(2024·河南商丘模拟)2023年10月全国多地医院出现较多的支原体肺炎感染患者,患者多以儿童为主.某研究所在某小学随机抽取了46名儿童,得到他们是否接种流感疫苗和是否感染支原体肺炎的情况的相关数据,如下表所示,则(  )
     感染情况 接种情况      感染支 原体肺炎 未感染支 原体肺炎 合计
接种流感疫苗 a=12 b a+b
未接种流感疫苗 c d=13 c+d
合计 a+c b+d=28 46
C.认为是否接种流感疫苗与是否感染支原体肺炎有关联,此推断犯错的概率不大于0.1
D.没有充分的证据推断是否接种流感疫苗与是否感染支原体肺炎有关联
[答案] AD
2.(2024·全国甲卷)某工厂进行生产线智能化升级改造,升级改造后,从该工厂甲、乙两个车间的产品中随机抽取150件进行检验,数据如下:
优级品 合格品 不合格品 总计
甲车间 26 24 0 50
乙车间 70 28 2 100
总计 96 52 2 150
(1)填写如下列联表:
优级品 非优级品
甲车间
乙车间
能否有95%的把握认为甲、乙两车间产品的优级品率存在差异?能否有99%的把握认为甲,乙两车间产品的优级品率存在差异?
α 0.050 0.010 0.001
xα 3.841 6.635 10.828
[解析] (1)根据题意可得列联表:
优级品 非优级品
甲车间 26 24
乙车间 70 30
因为3.841<4.687 5<6.635,
所以有95%的把握认为甲、乙两车间产品的优级品率存在差异,没有99%的把握认为甲,乙两车间产品的优级品率存在差异.
【变式训练】
(2024·河南TOP二十名校质检)近年来,短视频作为以视频为载体的聚合平台,社交属性愈发突出,在用户生活中覆盖面越来越广泛,针对短视频的碎片化缺陷,将短视频剪接成长视频势必成为一种新的技能.某机构在网上随机对1 000人进行了一次市场调研,以决策是否开发将短视频剪接成长视频的APP,得到如下数据:
青年人 中年人 老年人
对短视频剪接成长视频的APP有需求 2a+4b 200 a
对短视频剪接成长视频的APP无需求 a+b 150 4b
其中的数据为统计的人数,已知被调研的青年人数为400.
(1)求a,b的值;
(2)根据小概率值α=0.001的独立性检验,分析对短视频剪接成长视频的APP的需求,青年人与中老年人是否有差异?
临界值表:
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
(2)零假设为H0:对短视频剪接成长视频APP的需求,青年人与中老年人没有差异.
由已知得,如下2×2列联表:
青年人 中老年人 合计
对短视频剪接成长视频的APP有需求 300 250 550
对短视频剪接成长视频的APP无需求 100 350 450
合计 400 600 1 000
根据小概率值α=0.001的独立性检验,我们推断H0不成立,
所以对短视频剪接成长视频的APP有需求,青年人与中老年人有差异.
名师讲坛 · 素养提升
统计分析的综合问题
(2024·广东珠海金砖四校联考)某学校现有1 000名学生,为调查该校学生一周使用手机上网时间的情况,收集了n名学生某周使用手机上网时间的样本数据(单位:小时).将数据分为6组:[0,2],(2,4],(4,6],(6,8],(8,10],(10,12],并整理得到如下的频率分布直方图:
(1)估计该校学生一周平均使用手机上网时间(每组数据以该组中点值为代表);
(2)将一周使用手机上网时间在(4,12]内定义为“长时间使用手机上网”;一周使用手机上网时间在[0,4]内定义为“不长时间使用手机上网”,在样本数据中,有0.25n名学生不近视,请补充完成该周使用手机上网时间与近视程度的列联表.若n为100,那么在犯错误概率不超过0.001的前提下是否能认为该校学生一周使用手机上网时间与近视程度有关?
近视 不近视 合计
长时间使用手机
不长时间使用手机 0.15n
合计 0.25n
[解析] (1)根据频率分布直方图可估计该校学生一周平均使用手机上网时间为
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
(2)由频率分布直方图可得上网时间在(0,4]和[4,12]之间的比例为0.25∶0.75=1∶3,
故可得列联表:
近视 不近视 合计
长时间使用手机 0.65n 0.10n 0.75n
不长时间使用手机 0.10n 0.15n 0.25n
合计 0.75n 0.25n n
【变式训练】
(2024·云南红河州统测)某网络购物平台专营店统计了某年2月15日至19日这5天在该店购物的人数y(单位:人)的数据如下表:
日期 2月15日 2月16日 2月17日 2月18日 2月19日
日期代号x 1 2 3 4 5
购物人数y 77 84 93 96 100
(1)根据表中数据,建立y关于x的一元线性回归模型,并根据该回归模型预测当年2月21日在该店购物的人数(人数用四舍五入法取整数);
(2)为了解参加网购人群的年龄分布,该店随机抽取了200人进行问卷调查.得到如下所示不完整的2×2列联表:
年龄 不低于40岁 低于40岁 合计
参与过网上购物 30 150
未参与过网上购物 30
合计 200
将列联表补充完整,并依据表中数据及小概率值α=0.005的独立性检验,能否认为“参与网上购物”与“年龄”有关.
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
(2)列联表如下:
年龄 不低于40岁 低于40岁 合计
参与过网上购物 30 120 150
未参与过网上购物 20 30 50
合计 50 150 200
零假设为H0:参与网上购物和年龄无关.
因为8>7.879,
所以根据小概率α=0.005的独立性检验,我们推断H0不成立,即认为参与网上购物和年龄有关,此推断犯错误的概率不大于0.005.(共83张PPT)
第九章
统计与成对数据的统计分析
考题 考点 考向 关键能力 考查要求 核心素养
2024新课标Ⅱ,4 总体分布的估计 样本数字特征 运算求解 应用性 数据分析
数学运算
2023新课标Ⅰ,9; 2023新课标Ⅱ,19 抽样方法与总体分布的估计 样本的数字特征、频率分布直方图及其应用 运算求解 逻辑思维 应用性 数学运算
考题 考点 考向 关键能力 考查要求 核心素养
2021新高考Ⅰ,9 抽样方法与总体分布的估计 中位数、平均数、极差、标准差的理解与判断 运算求解 基础性 数据分析
数学运算
2024全国甲卷,17 独立性检验 独立性检验的应用 运算求解 应用性 数据分析
数学运算
【命题规律与备考策略】
本章内容主要在选择题、填空题中考查抽样方法、统计图表、样本的数字特征(如众数、中位数、百分位数等)、线性回归方程及独立性检验.解答题常考线性回归分析或将独立性检验与随机变量分布列综合的问题.
命题的兴趣点在社会生产生活中实际问题情境下的统计图表的识别、数据的抽取与应用,高科技、五育以及社会热点问题情境下的一元回归分析模型与独立性检验,考查数据分析、数学运算、逻辑推理等核心素养.
备考要注意材料的阅读理解,学会准确识别各种统计图表,特别是样本频率分布直方图,要注意其纵轴的单位,掌握数据的统计方式;要掌握样本数据数字特征的求解及其应用,学会用样本估计总体,建立样本与总体数据之间的对应.灵活利用相关公式求解以社会实际生产生活问题为情境的一元线性回归模型及独立性检验.上述两个方面多与概率问题相结合,综合进行考查.
第一讲 随机抽样与用样本估计总体
知识梳理·双基自测
名师讲坛·素养提升
考点突破·互动探究
知识梳理 · 双基自测
知 识 梳 理
普查——对每一个调查对象都进行调查的方法.
抽样调查——根据一定目的,从总体中__________________进行调查,并以此为依据对总体的情况作出估计和推断的调查方法.
调查对象的______称为总体,组成总体的_______________称为个体.从总体中抽取的那部分个体称为样本,___________________称为样本容量,简称样本量.
抽取一部分个体
全体
每一个调查对象
样本中包含的个体数
知识点一 简单随机抽样
1.定义:一般地,设一个总体含有N(N为正整数)个个体,从中___
____抽取n(1≤n2.常用方法:________和__________.
注:本章所称的简单随机抽样指不放回简单随机抽样.


放回
都相等
不放回的
都相等
简单随机抽样
抽签法
随机数法
知识点二 分层随机抽样
1.定义:一般地,按一个或多个变量把总体划分成若干个子总体,每个个体属于且仅属于一个子总体,在每个子总体中独立地进行简单随机抽样,再把所有子总体中抽取的样本合在一起作为总样本,这样的抽样方法称为______________,每一个子总体称为____.在分层随机抽样中,如果每层样本量都与层的大小成比例,那么称这种样本量的分配方式为__________.
2.分层随机抽样的应用范围:当总体是由差异明显的几个部分组成时,往往选用分层随机抽样.
分层随机抽样

比例分配
知识点三 总体取值规律的估计
频率分布表与频率分布直方图
频率分布表和频率分布直方图,是从各个小组数据在样本容量中所占比例大小的角度,来表示数据分布规律,从中可以看到整个样本数据的频率分布情况.
绘制频率分布直方图的步骤为:
1.________——求一组数据中________与________的差.
求极差
最大值
最小值
3.____________——通常对组内数据取左闭右开区间,最后一组数据取闭区间.
决定组距与组数
组数
组数
将数据分组
4.________________——计算各小组的频率,绘制成表格.
列频率分布表
画频率分布直方图
知识点四 总体百分位数的估计
1.一般地,一组数据的第p百分位数是这样一个值,它使得这组数据中至少有____的数据小于或等于这个值,且至少有____________的数据大于或等于这个值.
2.计算一组n个数据的第p百分位数的步骤:
第1步,按从____到____的顺序排列原始数据;
第2步,计算i=n×p%;
第3步,若i不是整数,而大于i的比邻整数为j,则第p百分位数为___
____数据;若i是整数,则第p百分位数为第i项与第(i+1)项数据的_____
___.
p%
(100-p)%



j项
平均

知识点五 总体集中趋势与离散程度的估计
1.众数:一组数据中出现次数最多的数.
2.中位数:将数据从小到大排列,若有奇数个数,则最中间的数是中位数;若有偶数个数,则中间两数的平均数是中位数.
注:(1)平均数表示“平均水平”,中位数表示“中等水平”,众数表示“多数水平”,它们都有各自的使用范围,在实际应用中要注意选择.
(2)一组数据的平均数、中位数都是唯一的.众数不唯一,也可以有多个.
(3)众数一定是原数据中的数,平均数和中位数都不一定是原始数据中的数.
方差、标准差刻画了数据的离散程度或波动幅度,方差、标准差越大,数据的离散程度越大;方差、标准差越小,数据的离散程度越小.
归 纳 拓 展
1.两种抽样方法的区别与联系
类别 共同点 各自特点 联系 适用范围
简单 随机 抽样 ①抽样过程中每个个体被抽到的可能性相等; ②每次抽出个体后不再将它放回,即不放回抽样. 从总体中直接随机抽取,是一种等可能抽样. 最基本的抽样方法.常用方法抽签法和随机数法. 总体个数不多,且希望被抽取的个体带有随机性,无固定间隔.

分层 抽样 将总体分成互不重叠的层,分层进行抽取,是一种等比例抽样. 各层抽样时,采用简单随机抽样.  总体由差异明显的几部分组成.
双 基 自 测
题组一 走出误区
1.判断下列结论是否正确(请在括号中打“√”或“×”)
(1)抽签法中,先抽的人抽中的可能性大.(  )
(2)分层抽样中,每个个体被抽到的可能性与层数及分层有关.(  )
(3)从频率分布直方图得不出原始的数据内容,把数据表示成直方图后,原有的具体数据信息就被抹掉了.(  )
(4)在频率分布直方图中,最高的小长方形底边中点的横坐标是众数.(  )
(5)1,2,2,3,5的80%分位数是3.(  )
(6)对单峰频率直方图,和中位数相比,平均数总是在“长尾巴”那边.(  )
[答案] (1)× (2)× (3)√ (4)√ (5)× (6)√
题组二 走进教材
2.(必修2P184T3改编)高二年级有男生490人,女生510人,男生、女生进行分层,通过分层随机抽样的方法,得到男生、女生的平均身高分别为170.2 cm和160.8 cm.各层中按比例分配样本,总样本量为100,那么在男生中应抽取了________名,在这种情况下,估计高二年级全体学生的平均身高为________cm.
[答案] 49 165.4
3.(必修2P197T1改编)从某小区抽取100户居民用户进行用电量调查,发现他们的用电量都在50~350 kW·h之间,进行适当分组后(每组为左闭右开的区间),画出频率分布直方图如图所示,则直方图中x=___,在被调查的用户中,用电量的平均值为________kW·h,用电量落在区间[100,250)内的户数为________.
[答案] 0.004 4 186 70
[解析] (0.002 4+0.003 6+0.006 0+x+0.002 4+0.001 2)×50=1,计算得x=0.004 4.
50×(75×0.002 4+125×0.003 6+175×0.006+225×0.004 4+275×0.002 4+325×0.001 2)=186.
(0.003 6+0.006 0+0.004 4)×50×100=70.
题组三 走向高考
4.(2021·全国甲卷)为了解某地农村经济情况,对该地农户家庭年收入进行抽样调查,将农户家庭年收入的调查数据整理得到频率分布直方图:
根据此频率分布直方图,下面结论中不正确的是(  )
A.该地农户家庭年收入低于4.5万元的农户比率估计为6%
B.该地农户家庭年收入不低于10.5万元的农户比率估计为10%
C.估计该地农户家庭年收入的平均值不超过6.5万元
D.估计该地有一半以上的农户,其家庭年收入介于4.5万元至8.5万元之间
[答案] C
[解析] 因为频率直方图中的组距为1,所以各组的直方图的高度等于频率.样本频率直方图中的频率即可作为总体的相应比率的估计值.该地农户家庭年收入低于4.5万元的农户的比率估计值为0.02+0.04=0.06=6%,故A正确;该地农户家庭年收入不低于10.5万元的农户比率估计值为0.04+0.02×3=0.10=10%,故B正确;该地农户家庭年收入介于4.5万元至8.5万元之间的比率估计值为0.10+0.14+0.20×2=0.64=64%>50%,故D正确;该地农户家庭年收入的平均值的估计值为3×0.02+4×0.04+5×0.10+6×0.14+7×0.20+8×0.20+9×0.10+10×0.10+11×0.04+12×0.02+13×0.02+14×0.02=7.68(万元),超过6.5万元,故C错误.故选C.
据表中数据,结论中正确的是(  )
A.100块稻田亩产量的中位数小于1 050 kg
B.100块稻田中亩产量低于1 100 kg的稻田所占比例超过80%
C.100块稻田亩产量的极差介于200 kg至300 kg之间
D.100块稻田亩产量的平均值介于900 kg至1 000 kg之间
5.(2024·新课标全国Ⅱ卷改编)某农业研究部门在面积相等的100块稻田上种植一种新型水稻,得到各块稻田的亩产量(单位:kg)并部分整理下表
亩产量 [900,950) [950,1 000) [1 000,1 050) [1 100,1 150) [1 150,1 200)
频数 6 12 18 24 10
[答案] C
[解析] 根据频数分布表可知,6+12+18=36<50,所以亩产量的中位数不小于1 050 kg,故A错误;
考点突破 · 互动探究
抽样方法——自主练透
1.(多选题)某班级有男生20人,女生30人,从中抽取10人作为样本,其中一次抽样结果是:抽到了4名男生、6名女生,则下列命题正确的是(  )
A.这次抽样可能采用的是简单随机抽样
B.这次抽样可能是分层抽样
C.这次抽样中每个女生被抽到的概率大于每个男生被抽到的概率
D.这次抽样中每个女生被抽到的概率小于每个男生被抽到的概率
[答案] AB
[解析] 本题看似一道分层抽样的题,实际上每种抽样方法都可能出现这个结果,故A,B正确;根据抽样的等概率性知C,D不正确.
2.(2024·云南、广西、贵州诊断性联考)本次月考分答题卡的任务由高三16班完成,现从全班55位学生中利用下面的随机数表抽取10位同学参加,将这55位学生按01、02、…、55进行编号,假设从随机数表第1行第2个数字开始由左向右依次选取两个数字,重复的跳过,读到行末则从下一行行首继续,则选出来的第6个号码所对应的学生编号为(  )
0627 4313 2432 5327 0941 2512 6317 6323 2616 8045 6011
1410 9577 7424 6762 4281 1457 2042 5332 3732 2707 3607
0140 0523 2617 3726 3890 5124 5179 3014 2310 2118 2191
A.51 B.25
C.32 D.12
[答案] A
[解析] 根据随机数表读取,分别抽到的编号为31,32,43,25,12,51,26,
04,01,11,所以选出来的第6个号码所对应的学生编号为51,故选A.
3.(多选题)(2024·山西忻州名校联考)航海模型项目在我国已开展四十余年,深受青少年的喜爱,该项目融合国防、科技、工程、艺术、物理、数学等知识,主要通过让参赛选手制作、遥控各类船只、舰艇等模型航行,普及船艇知识,探究海洋奥秘,助力培养未来海洋强国的建设者.某学校为了解学生对航海模型项目的喜爱程度,用分层随机抽样法从某校高一、高二、高三年级所有学生中抽取部分学生做抽样调查,已知该学校高一、高二、高三年级学生人数的比例如图所示,若抽取的样本中高三年级学生有32人,则下列说法正确的是(  )
A.该校高一学生人数是2 000
B.样本中高二学生人数是28
C.样本中高三学生人数比高一学生人数多12
D.该校学生总人数是8 000
[答案] BC
[解析] 由图可知高三年级学生人数占总人数的40%,抽取的样本中高三年级学生人数有32人,则抽取的学生总人数为32÷40%=80,则样本中高一学生人数为80×(1-40%-35%)=20.样本中高二学生人数为80×35%=28,从而样本中高三学生人数比高一学生人数多32-20=12.因为从该校所有学生中抽取的学生总人数是80,但抽取的比例不知道,所以该校高一学生人数和该校学生总人数求不出来,故选BC.
名师点拨:
1.简单随机抽样、分层抽样中,总体中每个个体入样的概率相同.
2.抽签法适用于总体中个体数较少的情况,随机数表法适用于总体中个体数较多的情况.
3.分层抽样是按比抽样
(2)总体中某两层的个体数之比等于样本中这两层抽取的个体数之比;
(3)分层抽样样本的平均值的计算
【变式训练】
1.(2024·山西临汾模拟)现从某学校450名同学中用随机数表法随机抽取30人参加一项活动.将这450名同学编号为001,002,…,449,450,要求从下表第2行第5列的数字开始向右读,则第5个被抽到的编号为________.
16 22 77 94 39 49 54 43 54 82 17 37 93 23 78 87 35 20 96 43 84 26 34 91 64
84 42 17 53 31 57 24 55 06 88 77 04 74 47 67 21 76 33 50 25 83 92 12 06 76
63 01 63 78 59 16 95 55 67 19 98 10 50 71 75 12 86 73 58 07 44 39 52 38 79
[答案] 447
[解析] 根据随机数表的读取方法,依次抽取到的编号分别为:175,331,068,047,447,…,故第5个被抽到的编号为447.
2.(2025·重庆调研)某池塘中饲养了A、B两种不同品种的观赏鱼,假设鱼群在池塘里是均匀分布的.在池塘的东、南、西三个采样点捕捞得到如下数据(单位:尾),若在采样点北捕捞到20尾鱼,则品种A约有(  )
A.6尾 B.10尾
C.13尾 D.17尾
采样点 品种A 品种B
东 20 9
南 7 3
西 17 8
[答案] C
频率分布直方图——师生共研
(多选题)(2025·广西南宁摸底改编)某校组织50名学生参加庆祝中华人民共和国成立75周年知识竞赛,经统计这50名学生的成绩都在[50,100]内,按分数分成5组:[50,60),[60,70),[70,80),[80,90),[90,100],得到如图所示的频率分布直方图(不完整),根据图中数据,下列结论正确的是(  )
A.成绩在[80,90)上的人数最多
B.成绩不低于70分的学生所占比例为70%
C.50名学生成绩的平均分小于中位数
D.50名学生成绩的极差为50
[答案] ABC
[解析] 设[70,80)组的频率为a,则由各组频率之和为1可得10×(0.01+0.02+0.03+0.02)+a=0.8+a=1,解得a=0.2;[50,60),[60,70),[70,80),[80,90),[90,100]各组频率依次为:0.1,0.2,0.2,0.3,0.2,[80,90)组频率最大,即成绩在[80,90)上的人数最多,故A正确;
成绩低于70分的学生频率为0.1+0.2=0.3,即不低于70分的学生频率为1-0.3=0.7,所以成绩不低于70分的学生所占比例为70%,故B正确;
根据频率分布直方图,可得50名学生成绩的平均数是55×0.1+65×0.2+75×0.2+85×0.3+95×0.2=78,由0.1+0.2+0.2=0.5,故50名学生成绩的中位数为80,所以50名学生成绩的平均分小于中位数,故C正确;
极差为数据中最大值与最小值的差,已知50名学生的成绩都在区间[50,100]内,但成绩的最大值不一定是100,最小值也不一定是50,故极差不一定等于50,故D错误.故选ABC.
[引申]成绩在90分以上的有______人,学生成绩方差估计为______.
[答案] 10 161
[解析] 0.1×(78-55)2+0.2×(78-65)2+0.2×(78-75)2+0.3×(78-85)2+0.2×(78-95)2=161.
名师点拨:应用频率分布直方图时的注意事项
(1)纵轴表示频率/组距;
(2)频率分布直方图中各长方形高的比也就是其频率之比;
(3)频率分布直方图中每一个矩形的面积是样本数据落在这个区间上的频率,所有的小矩形的面积之和等于1,即频率之和为1;
【变式训练】
(2025·广东部分学校质检)某大学共有15 000名学生,为了了解学生书籍阅读量情况,该校从全校学生中随机抽取1 000名,统计他们2022年阅读的书籍数量,由此来估计该校学生当年阅读书籍数量的情况,下列估计中正确的是(注:同一组数据用该组区间的中点值作为代表)(  )
A.众数约为10
B.中位数约为6.5
C.平均数约为6.76
D.该校学生2022年阅读的书籍数量的第60百
分位数约为7.6
[答案] D
总体集中趋势、离散程度的估计——多维探究
角度1 样本数据的总体集中趋势、离散程度的估计
(多选题)(2024·广西南宁、玉林摸底)为深入学习宣传党的二十大精神,某校开展了“奋进新征程,强国伴我行”二十大主题知识竞赛,其中高一年级选派了10名同学参赛,且该10名同学的成绩依次是:70,85,86,88,90,90,92,94,95,100.则下列说法正确的有(  )
A.中位数为90,平均数为89
B.70%分位数为93
C.极差为30,标准差为58
D.去掉一个最低分和一个最高分,平均数变大,方差变小
[答案] ABD
角度2 两组样本数据总体集中趋势、离散程度间的比较
[答案] ABD
角度3 样本数据总体集中趋势、离散程度估计的应用
(多选题)(2024·江苏南京外国语学校阶段测试)某大型公司规定:若任意连续7天,每天不超过5人体温高于37.3 ℃,则称没有发生群体性发热.下列连续7天体温高于37.3 ℃人数的统计特征数中,能判定该公司没有发生群体性发热的为(  )
A.中位数为3,众数为2
B.均值小于1,中位数为1
C.均值为3,众数为4
[答案] BD
名师点拨:
1.平均数与方差都是重要的数字特征,是对总体的一种简明的描述,它们所反映的情况有着重要的实际意义,平均数、中位数、众数描述其集中趋势,方差和标准差描述其波动大小.
【变式训练】
1.(角度1)(多选题)(2025·广东大湾区调研)已知样本数据7,3,5,3,10,8,则这组数据的(  )
A.众数为3 B.平均数为6.5
[答案] ACD
2.(角度2)(多选题)(2024·山东新高考联合质量测评)已知一组数据x1,x2,…,x2 023是公差不为0的等差数列,若去掉数据x1 012,则所剩下的数据的(  )
A.平均数不变 B.中位数不变
C.标准差不变 D.极差不变
[答案] ABD
3.(角度3)(2025·江苏南通调研)四名同学各掷骰子5次,分别记录每次骰子出现的点数.根据四名同学的统计结果,可以判断出一定没有出现点数6的是(  )
A.平均数为3,中位数为2
B.平均数为2,方差为2.4
C.中位数为3,众数为2
D.中位数为3,方差为2.8
[答案] B
[解析] 对于A,当投掷骰子出现结果为1,1,2,5,6时,满足平均数为3,中位数为2,可以出现点数6,故A错误;
对于C,当投掷骰子出现结果为2,2,3,4,6时,满足中位数为3,众数为2,可以出现点数6,故C错误;
名师讲坛 · 素养提升
几种常见的统计图形
一、扇形图(饼状图)——用一个圆表示总体,圆中各扇形分别代表总体中的不同部分,每个扇形的大小反映所表示的那部分占总体的百分比的大小,这样的一种表示和分析数据的统计图称为扇形图.
(多选题)(2024·南京师大附中阶段测试)某中学为了解学生数学史知识的积累情况,随机抽取150名同学参加数学史知识测试,测试题共5道,每答对一题得20分,答错得0分,得分不少于60分记为及格,不少于80分记为优秀,测试成绩百分比分布图如图所示,则(  )
A.该次数学史知识测试及格率超过90%
B.该次数学史知识测试得满分的同学有15名
C.该次测试成绩的中位数大于测试成绩的平均数
D.若该校共有1 500名学生,则数学史知识测试
成绩能得优秀的同学大约有720名
[答案] AC
[解析] 由图知,及格率为1-8%=92%>90%,故A正确;该测试满分同学的百分比为1-8%-32%-48%=12%,即有12%×150=18名,故B错误;由图知,中位数为80分,平均数为40×8%+60×32%+80×48%+100×12%=72.8分,故C正确;由题意,1 500名学生成绩能得优秀的同学有1 500×(48%+12%)=900,故D错误.故选AC.
二、条形图(柱状图)——建立直角坐标系,用横轴(横轴上的数字)表示样本数据类型,用纵轴上的单位长度表示一定的数量,根据每个样本(或某个范围内的样本)的数量多少画出长短不同的等宽矩形,然后把这些矩形按照一定的顺序排列起来,这样一种表达和分析数据的统计图称为条形图.
(2025·山西大同调研)我市教育局对全市高三年级的学生身高进行抽样调查,随机抽取了100名学生,他们的身高都处在A,B,C,D,E五个层次内,根据抽样结果得到如图的统计图表,则样本中人数最多的是________层,样本中E层的男生人数为________人.
[答案] B 6
[解析] 由图可知女生人数为60,则男生人数为40,样本中A层的人数为9+40×10%=13;样本中B层的人数为24+40×30%=36;样本中C层的人数为15+40×25%=25;样本中D层的人数为9+40×20%=17;样本中E层的人数为3+40×15%=9.故样本中B层的人数最多,样本中E层的男生人数为40×15%=6.
三、折线图——建立直角坐标系,用横轴上的数字表示样本值,用纵轴上的单位长度表示一定的数量,根据样本值和数量的多少描出相应各点,然后把各点用线段顺次连接,得到一条折线,用这种折线表示出样本数据的情况,这样的一种表示和分析数据的统计图称为折线图.折线图主要用于描述数据随时间的变化趋势.
(多选题)(2024·湖湘名校联合体联考)某学校校医对生病的甲、乙两名同学一周的体温进行了统计,其结果如图所示,则下列说法正确的有(  )
A.甲同学的体温的平均值为36.4 ℃
B.甲同学的体温的方差为0.2
C.乙同学的体温的众数、中位数都为36.4 ℃
D.乙同学的体温的极差为0.3 ℃
[答案] AC
四、雷达图(网络图、蜘蛛图)——一种能够直观地展示多维度的类目数据对比情况的统计图.
1.(2024·广东实验中学阶段测试)2025年某省将实行“3+1+2”模式的新高考,其中“3”表示语文、数学和英语这三门必考科目,“1”表示必须从物理和历史中选考一门科目,“2”表示要从化学、生物、政治和地理中选考两门科目.为帮助甲、乙两名高一学生应对新高考,合理选择选考科目,将其高一年级的成绩综合指标值(指标值满分为5分,分值越高成绩越优)整理得到如下的雷达图,则下列选择最合理的是(  )
A.选考科目甲应选物理、化学、历史
B.选考科目甲应选化学、历史、地理
C.选考科目乙应选物理、政治、历史
D.选考科目乙应选政治、历史、地理
[答案] D
[解析] 根据雷达图,甲同学按照科目综合指标值从高到低顺序为:物理、历史(化学)、地理、生物、政治,乙同学按照科目综合指标值从高到低顺序为:历史、物理(政治)、地理、生物、化学,根据新高考选科模式规则,选考科目甲应选物理、化学、地理;选考科目乙应选历史、政治、地理.故选D.
2.(多选题)(2024·湖南名校联合体联考)如图所示是世界人口变化情况的三幅统计图:
则下列结论正确的是(  )
A.从折线图能看出世界人口的总量随着年份的增加而增加
B.2050年亚洲人口将比其他各洲人口的总和还要多
C.2050年南美洲及大洋洲人口之和将与欧洲人口基本持平
D.1957年到2050年各洲中北美洲人口增长速度最慢
[答案] ABC
[解析] 从折线图能看出世界人口的总量随着年份的增加而增加,故A正确;从扇形图中能够明显地看出2050年亚洲人口将比其他各洲人口的总和还要多,故B正确;从条形图中能够明显地看出2050年南美洲及大洋洲人口之和将与欧洲人口基本持平,故C正确;由题中三幅统计图并不能得出从1957年到2050年中哪个洲人口增长速度最慢,故D错误.故选ABC.

展开更多......

收起↑

资源列表