第十章 统计与成对数据的统计分析 学案(含答案)2026年高考数学一轮专题复习(人教A版)

资源下载
  1. 二一教育资源

第十章 统计与成对数据的统计分析 学案(含答案)2026年高考数学一轮专题复习(人教A版)

资源简介

第十章 统计与成对数据的统计分析
第1讲 随机抽样、统计图表
课标要求 考情分析
1.了解简单随机抽样的含义及解决问题的过程,掌握两种简单随机抽样方法——抽签法和随机数法. 2.了解分层随机抽样的特点和适用范围,了解分层随机抽样的必要性,掌握各层样本量比例分配的方法. 3.能根据实际问题的特点,选择恰当的统计图表对数据进行可视化描述,体会合理使用统计图表的重要性. 命题形式 常以选择题或填空题的形式出现,难度中等. 常考内容 分层随机抽样、统计图表中的数据.
必备知识 自主排查
理一理
1.随机抽样
(1) 简单随机抽样
①简单随机抽样:分为放回简单随机抽样和不放回简单随机抽样.
②简单随机样本:通过简单随机抽样获得的样本称为简单随机样本.
③简单随机抽样的常用方法:①_ _ _ _ _ _ 和随机数法是比较常用的两种方法.
(2) 分层随机抽样
一般地,按一个或多个变量把总体划分成若干个子总体,每个个体属于且仅属于一个子总体,在每个子总体中独立地进行简单随机抽样,再把所有子总体中抽取的样本合在一起作为总样本,这样的抽样方法称为分层随机抽样,每一个子总体称为② .
【答案】(1) 抽签法
(2) 层
提醒 (1)简单随机抽样时,总体中的每个个体入样的概率相同.
(2)分层随机抽样是按比例抽样,每一层入样的个体数为该层的个体数乘以抽样比.
2.总体平均数与样本平均数
名称 定义
总体均值(总体平均数) 一般地,总体中有个个体,它们的变量值分别为,,,,则称为总体均值,又称总体平均数
如果总体的个变量值中,不同的值共有个,不妨记为,,,,其中出现的频数为,则总体均值还可以写成加权平均数的形式
样本均值(样本平均数) 如果从总体中抽取一个容量为的样本,它们的变量值分别为,,,,则称为样本均值,又称样本平均数
3.常用统计图表
(1)频率分布直方图
①纵轴表示③_ _ _ _ _ _ _ _ _ _ _ _ ,即小长方形的高;
②小长方形的面积组距频率;
③各小长方形的面积的总和等于1.
(2)条形图、折线图及扇形图
①条形图:建立直角坐标系,用横轴(横轴上的数字)表示样本数据类型,用纵轴上的单位长度表示一定的数量,根据每个样本(或某个范围内的样本)数量的多少画出长短不同的等宽矩形,然后把这些矩形按照一定的顺序排列起来,这样一种表示和分析数据的统计图称为条形图;
②折线图:建立直角坐标系,用横轴上的数字表示样本值,用纵轴上的单位长度表示一定的数量,根据样本值和数量的多少描出相应各点,然后把各点用线段顺次连接,得到一条折线,这样一种表示和分析数据的统计图称为折线图;
③扇形图:用一个圆表示总体,圆中各扇形分别代表总体中的不同部分,每个扇形的大小反映所表示的那部分占总体的百分比的大小,这样一种表示和分析数据的统计图称为扇形图.
【答案】
练一练
1.判断正误(正确的打“√”,错误的打“×”)
(1) 简单随机抽样中,每个个体被抽到的机会不一样,与先后有关.( )
(2) 分层随机抽样中,每个个体被抽到的可能性与层数及分层有关.( )
(3) 频率分布直方图中,小矩形的面积越大,表示样本数据落在该区间的频率越大.( )
【答案】(1) ×
(2) ×
(3) √
2.为了解某市参加升学考试的学生的数学成绩,从参加考试的学生中随机抽取1 000名学生的数学成绩进行统计分析,在这个问题中,下列说法正确的是( )
A. 总体指的是该市参加升学考试的全体学生
B. 样本指的是抽取的1 000名学生的数学成绩
C. 样本量指的是抽取的1 000名学生
D. 个体指的是抽取的1 000名学生中的每一名学生
【答案】B
【解析】选.对于,总体指的是该市参加升学考试的全体学生的数学成绩,故 错误;对于,样本指的是抽取的1 000名学生的数学成绩,故 正确;对于,样本量是,故 错误;对于,个体指的是抽取的1 000名学生中每名学生的数学成绩,故 错误.
3.某校高一年级1 000名学生的血型情况如图所示.某课外兴趣小组采用分层随机抽样的方法从中抽取一个容量为50的样本,则从高一年级A型血的学生中应抽取的人数是( )
A. 11 B. 22 C. 110 D. 220
【答案】A
【解析】选.由题图可知高一年级 型血的学生占高一年级学生总体的,所以抽取一个容量为50的样本,从高一年级 型血的学生中应抽取的人数是.
4.(必修第二册P185T3改编)某班级有50名同学,一次数学测试的平均成绩是92分,如果30名男生的平均成绩为90分,那么20名女生的平均成绩为分.
【答案】95
【解析】设20名女生的平均成绩为,则,解得.
5.已知某一段公路限速70 km/h,现抽取400辆通过这一段公路的汽车的速度,其频率分布直方图如图所示,则这400辆汽车中在该路段超速的有________辆.
【答案】80
【解析】速度在 内的频率为,所以速度在 内的频数为.故这400辆汽车中在该路段超速的有80辆.
核心考点 师生共研
考点一 随机抽样
角度1 抽样方法
[例1]
(1) [2025·驻马店模拟]已知某社区共有居民480人,其中老年人200人,中年人200人,青少年80人,若按年龄进行分层随机抽样,共抽取36人作为代表,则中年人比青少年多( )
A. 6人 B. 9人 C. 12人 D. 18人
(2) 利用简单随机抽样的方法,从个个体中抽取13个个体,若第一次抽完后,余下的每个个体被抽到的概率为,则在整个抽样过程中,每个个体被抽到的概率为_ _ _ _ _ _ _ _ .
【答案】(1) B
(2)
【解析】
(1) 设中年人抽取 人,青少年抽取 人,由分层随机抽样可知,,解得,,故中年人比青少年多9人.
(2) 由题意得,,即,,所以在整个抽样过程中,每个个体被抽到的概率为.
[感悟进阶]
简单随机抽样的方法及概率特点
(1)简单随机抽样常用抽签法和随机数法,当总体中个体数较少时选用抽签法,当总体中个体数较多时选用随机数法.
(2)简单随机抽样中每个个体被抽中的可能性是相等的.
角度2 分层随机抽样的样本平均数
[例2] 某学校举办了党史知识竞赛(满分100分),其中高一、高二、高三年级参赛选手的人数分别为,900,900.现用按比例分配的分层随机抽样方法从三个年级中抽取样本,经计算可得高一、高二年级参赛选手成绩的样本平均数分别为85,90,全校参赛选手成绩的样本平均数为88,则高三年级参赛选手成绩的样本平均数为( )
A. 87 B. 89 C. 90 D. 91
【答案】C
【解析】由题意可知,样本中高一、高二、高三年级参赛选手的人数比为,设高三年级参赛选手成绩的样本平均数为,则,解得,所以高三年级参赛选手成绩的样本平均数为90.
[感悟进阶]
分层随机抽样中样本平均数的计算方法
在分层随机抽样中,如果第一层的样本量为,平均数为;第二层的样本量为,平均数为,则样本的平均数为.
[对点训练]
1.某校有男生3 000人,女生2 000人,学校通过按比例分配的分层随机抽样方法抽取100人的身高数据.按男生、女生进行分层,被抽取到的学生的平均身高为,其中被抽取的男生平均身高为,则被抽取的女生平均身高为( )
A. B. C. D.
【答案】A
【解析】选.由题意可知,被抽取到的男生为60人,女生为40人,设被抽取到的女生平均身高为,则,解得,所以被抽取到的女生平均身高为.
2.某机构要检测某品牌种子的发芽率,计划采用随机数法从该品牌800粒种子中抽取60粒进行检测,现将这800粒种子编号如下:001,002, ,800,若从随机数表第8行第7列的数开始向右读,则所抽取的第4粒种子的编号是_ _ .(随机数表第8行至第9行如下)
63 01 63 78 59 16 95 55 67 19 98 10 50 71 75 12 86 73 58 07 44 39 52 38 79
33 21 12 34 29 78 64 56 07 82 52 42 07 44 38 15 51 00 13 42 99 66 02 79 54
【答案】507
【解析】由题意,依次读取的种子的编号为:785,916(舍去),955(舍去),567,199,810(舍去),507.故所抽取的第4粒种子的编号为507.
考点二 统计图表
角度1 扇形图
[例3] [2025·贵阳模拟]已知市某高中全体教师于3月12日开展植树活动,购买柳树、银杏、梧桐、樟树四种树苗共计1 200棵,比例如图所示.青年教师、中年教师、老年教师报名参加植树活动的人数之比为,若每种树苗均按各年龄段报名人数的比例进行分配,则中年教师应分得梧桐的数量为( )
A. 60 B. 100 C. 144 D. 160
【答案】C
【解析】由题意得,中年教师应分得梧桐的数量为.
角度2 条形图与折线图
[例4] 我国共进行了七次人口普查,这七次人口普查的城乡人口数据如图:
根据该图数据,下列说法中不正确的是( )
A. 城镇人口总数逐次增加
B. 乡村人口数达到最高峰是第四次人口普查
C. 和前一次人口普查相比,城镇人口比重增量最大的是第七次人口普查
D. 城镇人口数均少于乡村人口数
【答案】D
【解析】对于,城镇人口总数逐次增加,故 正确;
对于,由题图易知,乡村人口数达到最高峰是第四次人口普查,故 正确;
对于,由题图易知,第七次人口普查与前一次相比,城镇人口比重增量为,其余城镇人口比重增量都小于,故 正确;
对于,2020年城镇人口比重为,而乡村人口比重为,此时城镇人口数多于乡村人口数,故 不正确.
角度3 频率分布直方图
[例5] [2025·北京模拟]某直播间从参与购物的人群中随机选出200人,并将这200人按年龄分组,得到的频率分布直方图如图所示,则在这200人中年龄在的人数,图中_ _ _ _ .
【答案】30; 0.035
【解析】由题图知,年龄在 的频率为,所以.
由于,所以.
角度4 雷达图
[例6] 为比较甲、乙两名学生数学学科素养的各项能力指标值(满分为5分,分值高者为优),绘制了如图所示的六维能力雷达图,例如图中甲的数学抽象能力指标值为4,乙的数学抽象能力指标值为5,则下面叙述错误的是( )
A. 甲的逻辑推理能力指标值优于乙的逻辑推理能力指标值
B. 乙的直观想象能力指标值优于甲的数学建模能力指标值
C. 乙的六维能力指标值整体水平优于甲的六维能力指标值整体水平
D. 甲的数学运算能力指标值优于甲的直观想象能力指标值
【答案】D
【解析】对于,甲的逻辑推理能力指标值为4,乙的逻辑推理能力指标值为3,所以甲的逻辑推理能力指标值优于乙的逻辑推理能力指标值,故 正确;对于,甲的数学建模能力指标值为3,乙的直观想象能力指标值为5,所以乙的直观想象能力指标值优于甲的数学建模能力指标值,故 正确;对于,甲的六维能力指标值的平均值为,乙的六维能力指标值的平均值为,所以乙的六维能力指标值整体水平优于甲的六维能力指标值整体水平,故 正确;对于,甲的数学运算能力指标值为4,甲的直观想象能力指标值为5,所以甲的数学运算能力指标值不优于甲的直观想象能力指标值,故 错误.
[感悟进阶]
常见统计图的特点
(1)通过扇形图可以很清楚地表示出各部分数量同总数之间的关系.
(2)折线图可以表示随时间而变化的连续数据,因此非常适用于显示在相等时间间隔下数据的变化趋势.
(3)频率分布直方图的数据特点:
①频率分布直方图中纵轴上的数据是各组的频率除以组距的结果,不要误以为纵轴上的数据是各组的频率,不要和条形图混淆;
②频率分布直方图中各小长方形的面积之和为1,这是解题的关键,常利用频率分布直方图估计总体分布.
[对点训练]
1.某银行为客户定制了,,,,共5个理财产品,并对5个理财产品的持有客户进行抽样调查,得到统计图如下,
用该样本估计总体,以下说法中错误的是( )
A. 周岁人群理财人数最多
B. 周岁人群的理财总费用最少
C. 理财产品更受理财人青睐
D. 年龄越大的年龄段的人均理财费用越高
【答案】B
【解析】选.对于,周岁人群理财人数所占比例是,是最多的,故 正确;对于,设总人数为,则 周岁人群的理财总费用约为(元),周岁人群的理财总费用约为(元),周岁人群的理财总费用约为(元),57周岁及以上人群的理财总费用约为(元),所以57周岁及以上人群的理财总费用最少,故 错误;对于,由题中条形图知,理财产品更受理财人青睐,故 正确;对于,由题中折线图知年龄越大的年龄段的人均理财费用越高,故 正确.
2.某企业招聘,一共有200名应聘者参加笔试,他们的笔试成绩都在内,按照,, ,分组,得到如图所示的频率分布直方图,
则_ _ _ _ ,该企业根据笔试成绩从高到低进行录取,若计划录取150人,估计应该把录取的分数线定为分.
【答案】0.020; 65
【解析】因为,解得.因为,所以,又,,所以录取的分数线应定在 内,设分数线定为 分,则,解得,所以应该把录取的分数线定为65分.
课后达标 分级演练
A 基础达标
1.下列情况中,适合用全面调查的是( )
A. 检查某人血液中的血脂含量
B. 调查某地区的空气质量状况
C. 乘客上飞机前的安检
D. 调查某市市民垃圾分类处理的意识
【答案】C
【解析】选.乘客上飞机前的安检适合用全面调查,只有确认每一名乘客所携带的物品都安全才能保证航班安全.
2.已知甲、乙、丙、丁四组的人数分布情况如图所示,根据扇形统计图的情况可以知道丙、丁两组的人数和为( )
A. 150 B. 250 C. 300 D. 400
【答案】B
【解析】选.因为甲组人数为120人,占总人数的,所以总人数为.因为丙、丁两组人数占总人数的百分比为.所以丙、丁两组的人数和为.
3.已知总体由编号为00,01, ,28,29的30个个体组成.利用下面的随机数表选取5个个体,选取方法是从随机数表第1行的第6列和第7列开始从左往右依次选取2个数字,则选出来的第5个个体的编号为( )
0842 2689 5319 6450 9303 2320 9025
6015 9901 9025 2909 0937 6707 1528
3113 1165 0280 7999 7080 1573
A. 19 B. 02 C. 11 D. 16
【答案】C
【解析】选.从随机数表的第1行的第6列和第7列开始从左往右依次选取2个数字,得到的在 范围之内的两位数依次是09,09,02,01,19,02,11, ,去掉重复的数字后,前5个编号依次是09,02,01,19,11,则选出来的第5个个体的编号为11.
4.从一个容量为100的总体中抽取容量为10的样本,选取简单随机抽样和分层随机抽样两种不同的方法抽取样本.在简单随机抽样中,总体中每个个体被抽中的概率为,某个体第一次被抽中的概率为;在分层随机抽样中,总体中每个个体被抽中的概率为,则( )
A. B. C. D.
【答案】C
【解析】选.根据抽样调查的原理可得简单随机抽样、分层随机抽样都必须满足每个个体被抽到的概率相等,即,.
5.某校为调查学生跑步锻炼的情况,从该校3 000名学生中随机抽取300名学生,并统计这300名学生平均每周的跑步量(简称“周跑量”,单位:),得到如图所示的频率分布直方图.称周跑量不少于的学生为“跑步达人”,用频率分布直方图估计这3 000名学生中跑步达人的人数为( )
A. 66 B. 132 C. 660 D. 720
【答案】C
【解析】选.由题可知,周跑量(单位:)在 的频率为,所以估计这3 000名学生中跑步达人的人数为.
6.(多选)某地区经过一年的新农村建设,农村的经济收入增加了一倍,实现翻番.为更好地了解该地区农村的经济收入变化情况,统计了该地区新农村建设前后农村的经济收入构成比例,得到如下统计图:
则下面结论中正确的是( )
A. 新农村建设后,种植收入减少
B. 新农村建设后,其他收入增加了—倍以上
C. 新农村建设后,养殖收入增加了一倍
D. 新农村建设后,养殖收入与第三产业收入的总和超过了经济收入的一半
【答案】BCD
【解析】选.设新农村建设前的收入为,则新农村建设后的收入为,新农村建设前种植收入为,新农村建设后的种植收入为,所以种植收入增加了,故 不正确;新农村建设前其他收入为,新农村建设后其他收入为,增加了一倍以上,故 正确;新农村建设前,养殖收入为,新农村建设后为,增加了一倍,故 正确;新农村建设后,养殖收入与第三产业收入的总和占经济收入的,所以超过了经济收入的一半,故 正确.
7.(多选)某学校为了调查学生在一周生活方面的支出情况,抽出了—个样本量为的样本,其频率分布直方图如图所示,其中支出在元的学生有60人,则下列说法正确的是( )
A. 样本中支出在元的频率为0.03
B. 样本中支出不少于40元的人数为132
C. 的值为200
D. 若该校有2 000名学生,则一定有600人的支出在元
【答案】BC
【解析】选.对于,样本中支出在 元的频率为,故 错误;对于,,,样本中支出不少于40元的人数为,故,正确;对于,若该校有2 000名学生,则可能有600人的支出在 元,故 错误.
8.为了解一个鱼塘中养殖鱼的生长情况,从这个鱼塘多个不同位置捕捞出100条鱼,分别做上记号,再放回鱼塘,几天后,再从鱼塘的多处不同位置捕捞出120条鱼,发现其中带有记号的鱼有6条,则估计鱼塘中的鱼有_ _ _ _ 条.
【答案】2 000
【解析】设鱼塘中的鱼有 条,由题意可得,解得,即估计鱼塘中的鱼有2 000条.
9.在样本频率分布直方图中,共有9个小长方形,若中间一个小长方形的面积等于其他8个小长方形面积和的,且样本容量为140,则中间一组的频数为.
【答案】40
【解析】设中间一个小长方形面积为,其他8个小长方形的面积和为,得,解得,即中间一组的频率为,所以中间一组的频数为.
10.为了解某中学三个年级的学生对食堂饭菜的满意程度,用分层随机抽样的方法抽取的学生进行调查.已知该中学学生人数和各年级学生的满意率分别如图1和图2所示,则样本容量是_ _ ;抽取的二年级学生中满意的人数是_ _ .
【答案】600; 108
【解析】由题中扇形图可知,三个年级的学生总人数为,
所以样本容量为.
因为抽取的二年级学生人数为,所以抽取的二年级学生中满意的人数为.
B 综合运用
11.(多选)十项全能是田径运动中全能项目的一种,是由跑、跳、投等10个田径项目组成的综合性男子比赛项目,比赛成绩是按照国际田径联合会制定的专门田径运动会全能评分表将各个单项成绩所得的评分加起来计算的,总分多者为优胜者.如图是某次十项全能比赛中甲、乙两名运动员的各个单项得分的雷达图,则下列说法正确的是( )
A. 在400米跑项目中,甲的得分比乙的得分低
B. 在跳高和标枪项目中,甲、乙水平相当
C. 甲的各项得分比乙的各项得分更均衡
D. 甲的各项得分的极差比乙的各项得分的极差大
【答案】BD
解析:选BD.对于A,由题图可知,在400 m跑项目中,甲的得分比乙的得分高,A错误;对于B,由题图可知,在跳高和标枪项目中,甲、乙水平相当,B正确;对于C,甲的各项得分的波动较大,乙的各项得分均在(600,800]内,波动较小,C错误;对于D,甲的各项得分的极差约为1 000-470=530,乙的各项得分的极差小于200,D正确.
12.(多选)某电商平台的直播间经营化妆品和服装两大类商品.2024年前三个月这两类商品的收入占比情况如图所示,已知直播间每个月的总收入都比上个月的总收入翻一番,则关于该直播间,下列说法正确的是( )
A. 三月的总收入是一月总收入的4倍
B. 三月的服装收入低于前两个月的服装收入之和
C. 一月的化妆品收入是三月化妆品收入的
D. 二月的化妆品收入是三月化妆品收入的
【答案】AD
【解析】选.设一月的总收入为,由题意可知,二月和三月的总收入分别为,,三月的总收入是一月总收入的4倍,所以 正确;三月的服装收入为,前两个月的服装收入之和为,所以 错误;一月、二月、三月的化妆品收入分别为,,,一月的化妆品收入是三月化妆品收入的,二月的化妆品收入是三月化妆品收入的,所以 错误,正确.
13.将一个总体分为,,三层,其个体数之比为2.若用比例分配的分层随机抽样方法抽取容量为100的样本,则应从中抽取个个体;若,,三层的样本的平均数分别为15,30,20,则样本的平均数为_ _ .
【答案】20; 20.5
【解析】因为,,三层个体数之比为,总体中每个个体被抽到的概率相等,所以应从 中抽取 个个体.样本的平均数为.
14.意大利数学家斐波那契以兔子繁殖数量为例,引入数列:1,1,2,3,5,8, ,该数列从第三项起,每一项都等于前两项之和,即,故此数列称为斐波那契数列,又称“兔子数列”.现在从该数列前21项中,按照奇数与偶数这两种类型进行分层随机抽样抽取6项,再从这6项中抽出2项,则至少含有一项是偶数的概率为_ _ _ _ _ _ .
【答案】
【解析】由题意得,斐波那契数列的前21项中偶数项的个数为,奇数项的个数为,奇数与偶数的个数之比为,所以采用分层随机抽样抽取的6项中奇数有4项,偶数有2项,从这6项中抽出2项,至少含有一项是偶数的概率.
第2讲 用样本估计总体
课标要求 考情分析
1.结合实例,能用样本估计总体的集中趋势参数(平均数、中位数、众数)、离散程度参数(标准差、方差、极差),理解集中趋势参数和离散程度参数的统计含义. 2.结合实例,能用样本估计百分位数,理解百分位数的统计含义. 3.结合实例,会用随机抽样的基本方法和样本估计总体的思想解决一些简单的实际问题. 命题形式 常以选择题或解答题的形式出现,难度中等. 常考内容 用样本的数字特征估计总体的数字特征.
必备知识 自主排查
理一理
1.百分位数
(1)定义:一般地,一组数据的第百分位数是这样一个值,它使得这组数据中至少有的数据①_ _ _ _ _ _ _ _ 这个值,且至少有的数据②_ _ _ _ _ _ _ _
这个值.
(2)四分位数:第25百分位数,第50百分位数,第75百分位数.
(3)意义:反映该组数中小于或等于该百分位数的分布特点.
【答案】小于或等于; 大于或等于
2.总体集中趋势的估计
名称 概念
平均数 如果有个数,, ,,那么就是这组数据的③_ _ _ _ _ _ ,用 表示,即④_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
中位数 将一组数据按从小到大或从大到小的顺序排列,处在⑤_ _ _ _ _ _ 的一个数据(当数据个数是奇数时)或最中间两个数据的⑥_ _ _ _ _ _ (当数据个数是偶数时)叫做这组数据的中位数
众数 一组数据中出现次数最多的数据(即频数最大值所对应的样本数据)叫做这组数据的众数
【答案】平均数; ; 最中间; 平均数
提醒 平均数反映了数据取值的平均水平.
3.总体离散程度的估计
假设一组数据是,, ,,用表示这组数据的平均数,那么这个数的
(1)标准差

(2)方差
.
提醒 方差和标准差反映了数据波动程度的大小.
常用结论
1.频率分布直方图中的常见结论
(1)众数的估计值为最高矩形底边中点对应的横坐标;(2)平均数的估计值等于频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标之和;(3)中位数的估计值的左边和右边的小矩形的面积之和是相等的.
2.平均数、方差的公式推广
若数据,,, ,的平均数为,方差为,那么,,, ,的平均数是,方差为.
练一练
1.判断正误(正确的打“√”,错误的打“×”)
(1) 平均数、众数与中位数从不同的角度描述了一组数据的集中趋势.( )
(2) 一组数据的第百分位数可以不唯一.( )
(3) 方差与标准差具有相同的单位.( )
(4) 如果数据的平均数越小,那么数据分布越集中.( )
【答案】(1) √
(2) √
(3) ×
(4) ×
2.数据7,3,6,5,10,14,9,8,12的第60百分位数为( )
A. 14 B. 9.5 C. 8 D. 9
【答案】D
【解析】选.数据从小到大依次排列为:3,5,6,7,8,9,10,12,14,共9个数据.
由于,所以第60百分位数为第6个数据,即为9.
3.(多选)给出一组数据:1,3,3,5,5,5,下列说法正确的是( )
A. 这组数据的极差为4 B. 这组数据的平均数为3
C. 这组数据的中位数为4 D. 这组数据的众数为3和5
【答案】AC
【解析】选.这组数据的极差为,正确;平均数为,错误;中位数为,正确;众数为5,错误.
4.根据某班学生在一次数学考试中的成绩绘制如图所示的频率分布直方图,记由该频率分布直方图得到的数学考试成绩的众数和中位数分别为,,则_ _ .
【答案】152
【解析】由题图可知,众数;
因为,,故中位数应在 内,则,解得.则.
5.(用结论)若数据,, ,的方差为18,则数据,, ,的方差为 _ _ _ _ .
【答案】2
【解析】设数据,, ,的方差为,则数据,, ,的方差为,由题可知,解得.
核心考点 师生共研
考点一 总体百分位数的估计
[例1]
(1) [2025·兰州模拟]某校为了提高学生的安全意识,组织高一年级全体学生进行安全知识竞赛答题活动,随机抽取8人的得分作为样本.分数从低到高依次为84,85,87,87,90,,,99,若这组数据的第75百分位数为94,则利用样本估计此竞赛的平均分为( )
A. 85 B. 86 C. 90 D. 95
(2) [2025·安庆模拟]在一次学科核心素养能力测试活动中,随机抽取了100名同学的成绩(评分满分为100分),将所有数据按,,,进行分组,整理得到频率分布直方图如图所示,则估计这次调查数据的第64百分位数为( )
A. 80 B. 78 C. 76 D. 74
【答案】(1) C
(2) B
【解析】
(1) 因为,所以这组数据的第75百分位数为,得,所以这组数据的平均数为.
(2) 因为,,所以这次调查数据的第64百分位数位于 内.设这次调查数据的第64百分位数为,则有,解得.
[感悟进阶]
(1)计算一组个数据第百分位数的步骤
(2)频率分布直方图中第百分位数的计算步骤
[对点训练]
1.[2025·大庆模拟]小明记录了近8次数学考试成绩,并绘制成如图所示的折线统计图,这8次成绩的第80百分位数是( )
A. 100 B. 105 C. 110 D. 120
【答案】C
【解析】选.因为,由题图可知8次成绩由小到大排序,第7个数是110,所以这8次成绩的第80百分位数是110.
2.某单位为了解该单位党员开展学习党史知识活动情况,随机抽取了部分党员,对他们一周的党史学习时间进行了统计,统计数据如下表所示:
党史学习时间/h 7 8 9 10 11
党员人数 6 10 9 8 7
则该单位党员一周的党史学习时间的上四分位数是.
【答案】10
【解析】党员人数一共有,,那么上四分位数是第30和第31个数的平均数,第30和第31个数都是10,所以上四分位数是.
考点二 总体集中趋势的估计
[例2] [2025·长沙模拟](多选)数字化构建社区服务新模式已成为一种时尚,某社区为优化数字化社区服务,通过问卷调查的方式调查居民对数字化社区服务的满意度,满意度采用计分制(满分为100分),统计结果绘制成频率分布直方图,如图所示,图中.则下列结论正确的是( )
A.
B. 满意度计分的众数为80
C. 满意度计分的第75百分位数是85
D. 满意度计分的平均数是76.5
【答案】ACD
【解析】由题图可知,即,又,所以,正确;
满意度计分的众数为75,错误;
前三组的频率之和为,前四组的频率之和为,则第75百分位数,故,满意度计分的第75百分位数为85,正确;
满意度计分的平均数,正确.
[感悟进阶]
(1)求平均数时要注意数据的个数,不要重计或漏计.
(2)求中位数时一定要先对数据按大小顺序排序,若最中间有两个数据,则中位数是这两个数据的平均数.
(3)若有两个或两个以上的数据出现得最多,且出现的次数一样,则这些数据都叫众数;若一组数据中每个数据出现的次数一样多,则没有众数.
注意 中位数、众数分别反映了一组数据的中等水平、多数水平,平均数反映了数据的平均水平,我们需要根据实际需求选择使用.
[对点训练]
1.[2025·保定模拟](多选)下图是某旅游城市5月1日至5月5日每天最高气温与最低气温(单位:)的折线图,则下列结论正确的是( )
A. 这5天的最高气温的平均数与最低气温的中位数的差为
B. 这5天的最低气温的极差为
C. 这5天的最高气温的众数是
D. 这5天的最低气温的第40百分位数是16
【答案】ACD
【解析】选.对于,这5天的最高气温的平均数为,最低气温的中位数为,它们的差为,正确;
对于,这5天的最低气温的极差为,错误;
对于,这5天的最高气温的众数为,正确;
对于,最低气温从小到大排列为,,,,,且,所以这5天的最低气温的第40百分位数是16,正确.
2.已知五名学生每人投篮15次,统计他们每人投中的次数,得到五个数据,若这五个数据的中位数是6,唯一的众数是7,则他们投中次数的总和最大是.
【答案】29
【解析】假设五个数据按照由小到大排列为,,,,,因为这五个数据的中位数是6,唯一的众数是7,所以,,所以最大的三个数的和为,因为两个较小的数一定是小于6的非负整数,且不相等,最大为4和5,,所以投中次数的总和最大是29.
考点三 总体离散程度的估计
[例3] [2023·全国乙卷]某厂为比较甲、乙两种工艺对橡胶产品伸缩率的处理效应,进行10次配对试验,每次配对试验选用材质相同的两个橡胶产品,随机地选其中一个用甲工艺处理,另一个用乙工艺处理,测量处理后的橡胶产品的伸缩率.甲、乙两种工艺处理后的橡胶产品的伸缩率分别记为,.试验结果如下:
试验序号 1 2 3 4 5 6 7 8 9 10
伸缩率 545 533 551 522 575 544 541 568 596 548
伸缩率 536 527 543 530 560 533 522 550 576 536
记zi=xi-yi,记z1,z2,…,z10的样本平均数为,样本方差为s2.
(1)求,s2;
(2)判断甲工艺处理后的橡胶产品的伸缩率较乙工艺处理后的橡胶产品的伸缩率是否有显著提高.(如果≥2,则认为甲工艺处理后的橡胶产品的伸缩率较乙工艺处理后的橡胶产品的伸缩率有显著提高,否则不认为有显著提高.)
【答案】
(1) 【解】由题意,求出 的值如表所示:
试验序号 1 2 3 4 5 6 7 8 9 10
9 6 8 15 11 19 18 20 12
则,
.
(2) 因为,,所以可认为甲工艺处理后的橡胶产品的伸缩率较乙工艺处理后的橡胶产品的伸缩率有显著提高.
[感悟进阶]
(1)标准差、方差描述了一组数据围绕平均数波动的大小.标准差、方差越大,数据的离散程度越大,越不稳定;标准差、方差越小,数据的离散程度越小,越稳定.
(2)用样本估计总体就是利用样本的数字特征来描述总体的数字特征.
[对点训练]
1.甲、乙两人进行射击比赛,每人射击5次,射击成绩如下表:
甲命中的环数 8 8 9 8 7
乙命中的环数 7 9 10 8 6
根据上述数据,下列判断正确的是( )
A. 甲、乙的平均成绩相同,甲的成绩更稳定
B. 甲、乙的平均成绩相同,乙的成绩更稳定
C. 甲、乙的平均成绩不同,甲的成绩更稳定
D. 甲、乙的平均成绩不同,乙的成绩更稳定
【答案】A
【解析】选,,
,
,,
所以甲的平均成绩和乙的平均成绩相同,甲的方差小于乙的方差,甲的成绩更稳定.
2.[2025·长沙模拟]已知一组数据,,,,的平均数为2,方差为,则另一组数据,,,,的平均数、标准差分别为( )
A. 2, B. 2,1 C. 4, D. 4,
【答案】C
【解析】选.由题可知,另一组数据,,,,的平均数为,方差为,即平均数、标准差分别为4,.
培优点 分层随机抽样的方差
在按比例分配的分层随机抽样中,以2层的抽样情况为例,如果第一层的样本量为 ,平均数为,方差为;第二层的样本量为 ,平均数为 ,方差为,则样本的平均数为,样本的方差为.
[典例] 某地为了了解学生每天的睡眠时间,根据初中和高中学生的人数比例采用分层随机抽样,抽取了40名初中生和20名高中生.调查发现初中生每天的平均睡眠时间为8 h,方差为2;高中生每天的平均睡眠时间为7 h,方差为1.根据调查数据,估计该地区中学生睡眠时间的总体方差为(结果保留一位小数)(  )
A. 1.3 B. 1.5 C. 1.7 D. 1.9
【答案】D
【解析】该地区中学生每天睡眠时间的平均数为(小时),
该地区中学生每天睡眠时间的方差为.
[对点训练].某班为了解学生每周购买零食的支出情况,利用分层随机抽样的方法抽取了一个15人的样本统计如下:
组别 学生数 平均支出/元 方差
男生 9 40 6
女生 6 35 4
据此估计该班学生每周购买零食支出的总体方差为( )
A. 10 B. 11.2 C. 23 D. 11.5
【答案】B
【解析】选.全班学生每周购买零食的平均费用,方差.
课后达标 分级演练
A 基础达标
1.(2025·全国二卷)样本数据2,8,14,16,20的平均数为(  )
A.8 B.9
C.12 D.18
解析:选C.平均数为×(2+8+14+16+20)=12.故选C.
2.已知样本中共有5个个体,其值分别为,0,1,2,3.若该样本的中位数为1,则的取值范围是( )
A. B. C. D.
【答案】B
【解析】选.因为样本,0,1,2,3的中位数为1,所以1排在第三位,所以.
3.[2025·江西模拟]从1984年第23届洛杉矶夏季奥运会到2024年第33届巴黎夏季奥运会,我国获得的夏季奥运会金牌数依次为15,5,16,16,28,32,48,38,26,38,40,这11个数据的分位数是( )
A. 16 B. 30 C. 32 D. 48
【答案】C
【解析】选.把11个数据按照从小到大排序得5,15,16,16,26,28,32,38,38,40,48,因为,所以 分位数是第7个数据,这11个数据按照从小到大排列第7个是32.
4.[2025·潍坊模拟](多选)某校举行演讲比赛,6位评委对甲、乙两位选手的评分如下:
甲:7.57.57.87.8 8.0 8.0
乙:7.5 7.8 7.8 7.8 8.0 8.0
则下列说法正确的是( )
A. 评委对甲评分的平均数低于对乙评分的平均数
B. 评委对甲评分的方差小于对乙评分的方差
C. 评委对甲评分的分位数为7.8
D. 评委对乙评分的众数为7.8
【答案】ACD
【解析】选.选项,评委对甲评分的平均数,评委对乙评分的平均数,所以,故 正确;
选项,两组数据平均数均约为,且纵向看,甲组数据与乙组数据仅一组数据,不同,其余数据相同.又甲组数据7.5与平均数的差的绝对值明显大于乙组数据7.8与平均数的差的绝对值,且差距较大,故与平均数比较,甲组数据波动程度明显大些,即评委对甲评分的方差大于对乙评分的方差,故 错误;
选项,由,知评委对甲评分的 分位数为从小到大排列的第3个数据,即,故 正确;
选项,评委对乙的评分中最多的数据即众数为,故 正确.
5.[2025· 开封质检](多选)为了解某地农村经济情况,对该地农户家庭年收入进行抽样调查,将农户家庭年收入的调查数据整理得到频率分布直方图,如图:
根据此频率分布直方图,下列结论中正确的是( )
A. 该地农户家庭年收入的极差为12
B. 估计该地农户家庭年收入的分位数为9
C. 估计该地有一半以上的农户,其家庭年收入介于4.5万元至8.5万元之间
D. 估计该地农户家庭年收入的平均值超过6.5万元
【答案】BCD
【解析】选.设极差为,由题图可知,,且不一定取等号,所以 不正确;
前6组频率之和为,前7组频率之和为,所以 分位数应位于 内,由,可以估计 分位数为9,所以 正确;
家庭年收入介于4.5万元至8.5万元之间的频率为,所以 正确;
估计该地农户家庭年收入的平均值为(万元),又,所以 正确.
6.若一组数据3,5,8,,11,15,18的平均数为10,则该组数据的中位数是.
【答案】10
【解析】因为3,5,8,,11,15,18的平均数为10,所以,解得.
这组数据按照从小到大的顺序排列为3,5,8,10,11,15,18,该组数据的中位数是10.
7.现有,两组数据,其中组有4个数据,平均数为2,方差为6,组有6个数据,平均数为7,方差为1.若将这两组数据混合成一组,则新的一组数据的方差为_ _ _ _ .
【答案】9
【解析】根据题意,两组数据混合后,新数据的平均数,则新数据的方差.
8.(13分)灵活就业的岗位主要集中在近些年兴起的主播、自媒体、配音,还有电竞、电商这些新兴产业上.只要有网络,有电脑,随时随地都可以办公.这些岗位的出现离不开互联网的加速发展和短视频时代的大背景.甲、乙两人同时竞聘某公司的主播岗位,其中10种表现得分如下表:
甲 8 9 7 9 7 6 10 10 8 6
乙 10 9 8 6 8 7 9 7 8
(1) 若甲和乙所得平均分相等,求的值;(6分)
(2) 在(1)的条件下,判断甲、乙两人谁的表现更稳定.(7分)
【答案】
(1) 解:根据题中所给数据,,
,解得.
(2) ,,因为,所以乙的表现更稳定.
B 综合运用
9.[2025·东北三省四市联合体模拟]为了迎接2025年第九届亚冬会的召开,某班组织全班学生开展有关亚冬会知识的竞赛活动.已知该班男生35人,女生25人.根据统计分析,男生组成绩和女生组成绩的方差分别为,,该班成绩的方差为,则下列结论中一定正确的是( )
A. B.
C. D.
【答案】D
【解析】选.设该班的男生组成绩的平均数为,女生组成绩的平均数为,该班成绩的平均数为.由题可得
.
10.[2025·济南模拟](多选)某次数学考试后,为分析学生的学习情况,某校从某年级中随机抽取了100名学生的成绩,整理得到如图所示的频率分布直方图.为进一步分析高分学生的成绩分布情况,计算得到这100名学生中,成绩位于[80,90)内的学生成绩方差为12,成绩位于内的学生成绩方差为10.则( )
A.
B. 估计该年级学生成绩的中位数为77.14
C. 估计该年级学生成绩在80分及以上的平均数为87.5
D. 估计该年级学生成绩在80分及以上的方差为30.25
【答案】BCD
【解析】选.对于,在题图中,所有小矩形的面积之和为1,则,解得,故 错误;对于,前两个小矩形的面积之和为.前三个小矩形的面积之和为.设该年级学生成绩的中位数为,则,根据中位数的定义可得,解得,所以估计该年级学生成绩的中位数为,故 正确;对于,估计该年级学生成绩在80分及以上的平均数为,故 正确;对于,估计该年级学生成绩在80分及以上的方差为,故 正确.
11.(13分)甲、乙两人在相同条件下各射击10次,每次中靶环数情况如图所示.
(1) 请填写下表(写出计算过程)(6分)
平均数 方差 命中9环及9环以上的次数
甲 _ _ _ _ _ _
乙 _ _ _ _ _ _
(2) 从下列三个不同的角度对这次测试结果进行分析:
① 从平均数和方差相结合看(分析谁的成绩更稳定);(2分)
② 从平均数和命中9环及9环以上的次数相结合看(分析谁的成绩更好些);(2分)
③ 从折线图上两人射击命中环数的走势看(分析谁更有潜力).(3分)
【答案】11.解:由题图可知,甲射击10次中靶环数分别为9,5,7,8,7,6,8,6,7,7,从小到大排列为5,6,6,7,7,7,7,8,8,9.乙射击10次中靶环数分别为2,4,6,8,7,7,8,9,9,10,从小到大排列为2,4,6,7,7,8,8,9,9,10.
(1) 7;1.2;1;7;5.4;3;(环), (环), .
.
(2) ① 因为平均数相同,,
所以甲的成绩更稳定.
② 因为平均数相同,甲命中9环及9环以上的次数比乙少,所以乙的成绩更好些.
③ 因为甲的成绩在平均数附近上下波动,而乙的成绩处于上升趋势,且从第四次射击开始就没有比甲成绩低的情况发生,所以乙更有潜力.
12.[2025·广东模拟](15分)某市为了解人们对火灾危害的认知程度,针对本市不同年龄和不同职业的人举办了一次消防知识竞赛,满分为100分(95分及以上为认知程度高),结果认知程度高的有人,将这人按年龄分成5组,其中第一组为,第二组为,第三组为,第四组为,第五组为,得到如图所示的频率分布直方图.
(1) 根据频率分布直方图,估计这人的平均年龄和这人年龄的第80百分位数.(7分)
(2) 现从以上各组中采用按比例分配的分层随机抽样方法抽取20人担任本市的消防安全宣传使者.
① 若第四组的宣传使者年龄的平均数与方差分别为37和,第五组的宣传使者年龄的平均数与方差分别为43和1,据此估计这人中岁的人的年龄的方差.(3分)
② 若甲(年龄为38岁)、乙(年龄为40岁)两人已确定为宣传使者,现计划从第四组和第五组被抽到的宣传使者中,再随机抽取2人作为组长,求甲、乙两人至少有一人被选上的概率.(5分)
【答案】
(1) 解:设这 人的平均年龄为,
则.
设第80百分位数为,因为,,所以,,解得.
(2) 由题可得5组的人数之比为,所以抽取的20人中,第4组有4人,第5组有2人.
(2) ① 设第四组、第五组的宣传使者年龄的平均数分别为,,方差分别为,,
则,,,.
设第四组和第五组所有宣传使者年龄的平均数为,方差为,则,,故第四组和第五组所有宣传使者年龄的方差为10,据此估计这 人中 岁的人的年龄的方差为10.
② 由题意得,第四组抽取4人,记为,,,甲,第五组抽取2人,记为,乙.
随机抽取2人作为组长,对应样本空间,,(,甲),(,乙),,,(,甲),(,乙),,(,甲),(,乙),,(甲,乙),甲,,乙,,共15个样本点.
设事件 为“甲、乙两人至少有一人被选上”,则(,甲),(,乙),(,甲),(,乙),(,甲),(,乙),(甲,乙),甲,,乙,,共9个样本点,
所以,即甲、乙两人至少有一人被选上的概率为.
第3讲 成对数据的统计分析
课标要求 考情分析
1.了解样本相关系数的统计含义. 2.了解一元线性回归模型和列联表,会运用这些方法解决简单的实际问题. 命题形式 三种题型都会出现,难度中等. 常考内容 样本相关系数、一元线性回归模型、独立性检验. 创新考法 结合新情境,突出与其他知识的交汇.
必备知识 自主排查
理一理
1.变量的相关关系
(1)相关关系:两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系.
(2)散点图:每一个成对样本数据都可用直角坐标系中的① 表示出来,由这些点组成了统计图.我们把这样的统计图叫做散点图.
(3)相关关系的分类:②_ _ _ _ _ _ 和③_ _ _ _ _ _ .
(4)线性相关:一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在④_ _ _ _ _ _ _ _ 附近,我们就称这两个变量线性相关.
【答案】点; 正相关; 负相关; 一条直线
提醒 相关关系与函数关系不同,函数关系中的两个变量间是一种确定性关系,而相关关系是一种非确定性关系,即相关关系是随机变量与随机变量之间的关系.
2.样本相关系数
(1).
(2)当时,称成对样本数据⑤ 相关;当时,称成对样本数据⑥ 相关.
(3).当越接近1时,成对样本数据的线性相关程度越⑦ ;当越接近0时,成对样本数据的线性相关程度越⑧ .
【答案】正; 负; 强; 弱
3.一元线性回归模型
(1)经验回归直线:从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这条直线叫做经验回归直线.
(2)经验回归方程为,
其中,
.
(3)通过求的最小值(即使得样本数据的点到经验回归直线的竖直距离的平方和最小)而得到经验回归直线的方法,叫做最小二乘法.
4.判断回归模型的拟合效果
由成对样本数据按照最小二乘法得到经验回归方程,其中叫做观测值,叫做预测值,残差.相应于样本点的随机误差.
(1)残差分析法
①作残差图:作图时纵坐标为⑨_ _ ,横坐标可以选为样本编号,或数据,或数据,这样作出的图形称为残差图;
②残差分析:残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,这样的带状区域的宽度越窄,说明模型拟合精度越高,经验回归方程的预测精度越高.
(2)决定系数法:其中.的值越趋近于1,模型的拟合效果越好.
【答案】残差
5.分类变量与列联表
(1)分类变量
在讨论问题时,为了表述方便,我们经常会使用一种特殊的随机变量,以区别不同的现象或性质,这类随机变量称为⑩_ _ _ _ _ _ _ _ .分类变量的取值可以用 _ _ 表示.
(2)人们经常按研究问题的需要,将数据分类统计,并做成表格加以保存.我们将如下表这种形式的数据统计表称为 _ _ _ _ _ _ _ _ _ _ _ _ .关于分类变量和的抽样数据的列联表如下:
合计
合计
【答案】分类变量; 实数; 列联表
6.独立性检验
(1)独立性检验的概念
利用的取值推断分类变量和是否独立的方法称为独立性检验,读作“卡方独立性检验”,简称 _ _ _ _ _ _ _ _ .
(2)独立性检验的计算公式
(其中.
(3)独立性检验基于小概率值 的检验规则
当 时,我们就推断不成立,即认为和不独立,该推断犯错误的概率不超过 ;
当 时,我们没有充分证据推断不成立,可以认为和独立.
(4)独立性检验中常用的小概率值和相应的临界值.
0.1 0.05 0.01 0.005 0.001
2.706 3.841 6.635 7.879 10.828
【答案】独立性检验
提醒 独立性检验是对两个分类变量有关系的可信程度的判断,而不是对其是否有关系的判断.
常用结论
1.经验回归直线必过样本点的中心.
2.根据的值可以判断两个分类变量有关的可信程度.若越大,则两个分类变量有关的可信程度越大.
练一练
1.判断正误(正确的打“√”,错误的打“×”)
(1) 散点图无法判断两个变量是否相关.( )
(2) 通过经验回归方程可以估计响应变量的取值和变化趋势.( )
(3) 只有两个变量有相关关系,所得到的回归模型才有预测价值.( )
(4) 事件,关系越密切,则由观测数据计算得到的的值越小.( )
【答案】(1) ×
(2) √
(3) √
(4) ×
2.(2024·天津卷)下列散点图中,样本数据的线性相关系数最大的是(  )
A. B.
C. D.
【答案】A
【解析】选.选项 中的散点有明显的从左下角到右上角沿直线分布的趋势,且散点集中在一条直线的附近,故选项 中的线性相关系数最大.
3.(多选)下列说法正确的是( )
A. 在经验回归方程中,当解释变量每增加1个单位时,响应变量平均减少2.3个单位
B. 在经验回归方程中,相对于样本点的残差为
C. 在残差图中,残差分布的水平带状区域的宽度越窄,其模型的拟合效果越好
D. 若两个变量的决定系数越大,表示残差平方和越小,即模型的拟合效果越好
【答案】BCD
【解析】选.对于,根据经验回归方程,当解释变量 每增加1个单位时,响应变量 平均减少0.85个单位,故 错误;对于,当解释变量 时,响应变量,则样本点 的残差为,故 正确;对于,在残差图中,残差分布的水平带状区域的宽度越窄,说明拟合精度越高,即拟合效果越好,故 正确;对于,由决定系数 的意义可知,越大,表示残差平方和越小,即模型的拟合效果越好,故 正确.
4.已知甲、乙两个班级进行数学考试,按学生考试及格与不及格统计成绩后的2×2列联表(数据有缺失)如下,则χ2的值约为__________.(保留两位小数)
单位:人
班级 成绩 合计
不及格 及格
甲班 12 45
乙班 36
合计 21
【答案】0.56
【解析】由题意,得到 列联表如下:
单位:人
班级 成绩 合计
不及格 及格
甲班 12 33 45
乙班 9 36 45
合计 21 69 90
则.
5.(用结论)对具有线性相关关系的变量,,有一组观测数据,其经验回归方程为,且,,则相应于点的残差为_ _ .
【答案】0.4
【解析】因为,,所以样本点的中心为,又因为经验回归直线 过样本点的中心,所以,所以,所以经验回归方程为.当 时,,所以残差为.
核心考点 师生共研
考点一 成对数据的相关性
[例1] 某滑雪场统计了其开业第天相应的滑雪人数(单位:百人)的数据,如表所示.
天数代码 1 2 3 4 5 6 7
滑雪人数百人 11 13 16 15 20 21 23
根据第1至7天的数据分析,可用线性回归模型来拟合与的关系,请用样本相关系数加以说明.(保留两位有效数字)
参考数据:,.
参考公式:
对于一组数据,, ,,其样本相关系数 .
【解】 因为,,
所以,
所以,因为样本相关系数 的绝对值接近于1,所以可以推断 和 这两个变量线性相关,且相关程度很强.
[感悟进阶]
判断两个变量线性相关性的方法
(1)画散点图:散点有明显的从左下角到右上角沿直线分布的趋势,两个变量正相关;散点有明显的从左上角到右下角沿直线分布的趋势,两个变量负相关.
(2)样本相关系数:根据成对样本数据,直接求出,当时,两个变量正相关;当时,两个变量负相关;越接近于1,两个变量线性相关程度越强.
注意 样本相关系数为判定两个变量是否线性相关的指标,且绝对值越大,线性相关程度越强,而不是越大,线性相关程度越强.
[对点训练]
1.(多选)在如图所示的散点图中,若去掉点,则下列说法错误的是( )
A. 样本相关系数变大
B. 变量与变量的相关程度变强
C. 变量与变量呈现正线性相关关系
D. 变量与变量的相关程度变弱
【答案】ACD
【解析】选.由题图知,变量 与变量 呈现负线性相关关系,即,故 错误;去掉点 后,变量 与变量 的线性相关程度变强,进一步接近1,所以 变小,故 错误,正确,错误.
2.对于,两个变量,有四组成对样本数据,分别算出它们的样本相关系数如下,则线性相关程度最强的是( )
A. B. 0.78 C. D. 0.87
【答案】D
【解析】选.由于 越接近1,变量间的线性相关程度越强,且各选项中 的绝对值最接近1,故 符合题意.
考点二 经验回归模型
角度1 一元线性回归模型
[例2] 某农业大学组织部分学生进行作物栽培试验,由于土壤相对贫瘠,前期作物生长较为缓慢,为了增加作物的生长速度,达到预期标准,小明对自己培育的一株作物使用了营养液,现统计了使用营养液十天之内该作物的高度变化.
天数 1 2 3 4 5 6 7 8 9 10
作物高度 9 10 10 11 12 13 13 14 14 14
(1) 观察表格数据可知,天数与作物高度之间具有线性相关关系,用最小二乘法求出作物高度关于天数的经验回归方程(其中,用分数表示);
(2) 小明测得使用营养液后第22天该作物的高度为,请根据(1)中的结果预测第22天该作物的高度的残差.
参考公式:,
参考数据:.
【答案】
(1) 【解】依题意,得



,
,
故所求经验回归方程为.
(2) 由(1)可知,当时,,故所求残差为.
[感悟进阶]
线性回归分析问题的解题策略
(1)利用最小二乘法估计公式,求出回归系数;
(2)利用经验回归直线过样本点的中心求系数;
(3)写出经验回归方程,并利用经验回归方程进行预测.
角度2 非线性回归模型
[例3] 魔方,又叫鲁比克方块,是由匈牙利布达佩斯建筑学院厄尔诺·鲁比克教授于1974年发明的.魔方与华容道、独立钻石棋并称为“智力游戏界的三大不可思议.通常意义下的魔方”,即指三阶魔方,为3×3×3的正方体结构,由26个色块组成.某魔方爱好者进行一段时间的魔方还原训练,每天魔方还原的平均时间y(单位:s)与训练天数x有关,经统计得到如下数据:
天 1 2 3 4 5 6 7
99 99 45 32 30 24 21
现用y=a+作为回归模型,请利用表中数据,求出该非线性经验回归方程,并预测该魔方爱好者经过长期训练最终每天魔方还原的平均时间约为多少.(结果精确到整数)
参考数据:,,.
参考公式:在经验回归方程中,,.
【解】 由题意可知,
则,
又,
所以
,
所以,因此关于的非线性经验回归方程为.当 时,,所以预测该魔方爱好者最终每天魔方还原的平均时间约为.
[感悟进阶]
非线性回归分析的解题步骤
[对点训练]
1.已知两个变量具有线性相关关系,现通过最小二乘法求经验回归方程,将已知数据代入公式计算后得到的代数式为,使上述代数式取值最小的,的值即为经验回归方程的系数,则经验回归方程为( )
A. B. C. D.
【答案】D
【解析】选.,当 即 时上式最小,故.
2.用模型拟合一组数据时,设,将其变换后得到回归方程为,则( )
A. B. 1 C. D. 2
【答案】D
【解析】选.因为,所以.
又,,所以
解得 所以.
考点三 独立性检验
[例4] (2025·全国一卷)为研究某疾病与超声波检查结果的关系,从做过超声波检查的人群中随机调查了1 000人,得到如下列联表:
组别        正常 不正常 合计
患该疾病 20 180 200
未患该疾病 780 20 800
合计 800 200 1 000
(1)记超声波检查结果不正常者患该疾病的概率为p,求p的估计值;
(2)根据小概率值α=0.001的独立性检验,分析超声波检查结果是否与患该疾病有关.
附:χ2=,
P(χ2≥k) 0.050 0.010 0.001
k 3.841 6.635 10.828

【解】 (1)根据题表数据可知,超声波检查结果不正常的有200人,其中患该疾病的有180人,因此估计超声波检查结果不正常者患该疾病的概率p==.
(2)零假设为H0:超声波检查结果与患该疾病无关.
χ2=
=765.625>10.828.
根据小概率值α=0.001的独立性检验,超声波检查结果与患该疾病有关,此推断犯错误的概率不大于0.001.
[感悟进阶]
独立性检验的一般步骤
[对点训练].[2025·吉林模拟](多选)为了解高二学生是否喜爱物理学科与性别的关联性,某学校随机抽取了200名学生进行统计,得到如图所示的表格,则下列说法正确的是( )
单位:名
性别 物理学科
喜爱 不喜爱
男 60 40
女 20 80
参考公式:,其中.
附表:
0.1 0.05 0.01 0.005 0.001
2.706 3.841 6.635 7.879 10.828
A. 喜爱物理学科的学生中,男生的频率为
B. 女生中喜爱物理学科的频率为
C. 依据小概率值的独立性检验,可以推断学生是否喜爱物理学科与性别有关
D. 在犯错误的概率不超过0.001的前提下,认为学生是否喜爱物理学科与性别无关
【答案】AC
【解析】选.对于,喜爱物理学科的学生共有(名),故喜爱物理学科的学生中,男生的频率为,正确;
对于,女生共有100名,喜爱物理学科的女生有20名,故女生中喜爱物理学科的频率为,错误;
对于,,,故依据小概率值 的独立性检
验,可以推断学生是否喜爱物理学科与性别有关,此推断犯错误的概率不超过,正确,错误.
课后达标 分级演练
A 基础达标
1.为了解某大学的学生喜欢体育锻炼的情况是否与性别有关,随机调查了120名学生,得到如下2×2列联表.
单位:名
是否喜欢 性别 合计
男 女
喜欢 73
不喜欢 25
合计 74
则( )
A. 7 B. 8 C. 9 D. 10
【答案】C
【解析】选.根据题意,可得,,,所以.
2.已知变量与变量线性相关,与的样本相关系数为,且由观测数据算得样本平均数,,则由该观测数据算得经验回归方程可能是( )
A. B.
C. D.
【答案】D
【解析】选.因为 与 的样本相关系数为,可知 与 为负相关,故,错误;又因为经验回归直线过样本点的中心,对于,则,故 错误;对于,则,故 正确.
3.根据分类变量与的成对样本数据,计算得到.已知,则根据小概率值的独立性检验,可以推断变量与( )
A. 独立,此推断犯错误的概率是0.01
B. 不独立,此推断犯错误的概率是0.01
C. 独立,此推断犯错误的概率不超过0.01
D. 不独立,此推断犯错误的概率不超过0.01
【答案】D
【解析】选.因为,所以根据小概率值 的独立性检验,可以推断变量 与 不独立,此推断犯错误的概率不超过0.01.
4.色差和色度是衡量毛绒玩具质量优劣的重要指标,现抽检一批产品并将测得的数据列于表中.已知该产品的色度和色差之间满足线性相关关系,且,现有一对测量数据为,若该数据的残差为,则( )
色差 21 23 25 27
色度 15 18 19 20
A. 23.4 B. 23.6 C. 23.8 D. 24.0
【答案】A
【解析】选.由题意可知,,,将 代入,即,解得,所以,当 时,,则.
5.[2025·山东模拟](多选)下列命题正确的是( )
A. 若样本数据,, ,的方差为2,则数据,, ,的方差为8
B. 已知互不相同的30个样本数据,若去掉其中最大和最小的数据,则剩下28个数据的分位数不等于原样本数据的分位数
C. 若,两组成对数据的样本相关系数分别为,,则组数据比组数据的线性相关程度更强
D. 若决定系数的值越接近于1,则表示回归模型的拟合效果越好
【答案】ABD
【解析】选.对于,根据题意得数据,, ,的方差为,正确;对于,设30个互不相同的样本数据为,, ,,由 得 分位数为,去掉30个数据中的最大和最小的数据,剩下的28个数据为,, ,,由 得 分位数为,正确;对于,因为,所以 组数据比 组数据的线性相关程度更强,错误;对于,越接近于1,回归模型的拟合效果越好,正确.
6.某学校为研究该校学生性别与体育锻炼的经常性之间的联系,随机抽取100名学生(其中男生60名,女生40名),统计他们体育锻炼的经常性并绘制成如图所示的等高堆积条形图,则这100名学生中经常进行体育锻炼的人数为.
【答案】68
【解析】由题图进行数据分析,可知这100名学生中经常进行体育锻炼的人数为.
7.[2025·江苏调研]已知变量,的统计数据如表,对表中数据进行分析,发现与之间具有线性相关关系,利用最小二乘法,计算得到经验回归方程为,据此模型预测当时的值为_ _ .
5 6 7 8 9
3.5 4 5 6 6.5
【答案】7.4
【解析】由题意得,,将 代入 得,解得,则.当 时,.
8.[2025· 八省联考](13分)为考察某种药物对预防疾病的效果,进行了动物(单位:只)试验,得到如下列联表:
药物 疾病 合计
未患病 患病
未服用 100 80
服用 150 70 220
合计 250 400
(1) 求,;(3分)
(2) 记未服用药物的动物患疾病的概率为,给出的估计值;(4分)
(3) 根据小概率值的独立性检验,能否认为药物对预防疾病有效 (6分)
附:.
0.050 0.010 0.001
3.841 6.635 10.828
【答案】(1) 解:由题表得,.
(2) .
(3) 零假设为 药物 对预防疾病 无效.根据列联表中的数据,
得.根据小概率值 的独立性检验,推断 不成立,因此,认为药物 对预防疾病 有效,此推断犯错误的概率不超过0.01.
B 综合运用
9.[2025·揭阳模拟]在研究变量与之间的关系时,进行试验后得到了一组样本数据,, ,,,.利用此样本数据求得的经验回归方程为,现发现数据和误差较大,剔除这两对数据后,求得的经验回归方程为,且,则( )
A. 8 B. 12 C. 16 D. 20
【答案】C
【解析】选.设剔除两对数据前的,的平均数分别为,,剔除两对数据后的,的平均数分别为,.因为,所以,则.因为剔除的两对数据为 和,所以,所以,所以,解得.
10.(多选)在对具有相关关系的两个变量进行回归分析时,若两个变量不呈线性相关关系,可以建立含两个待定参数的非线性模型,引入中间变量将其转化为线性关系,再利用最小二乘法进行线性回归分析.下列选项为四个同学根据自己所得数据的散点图建立的非线性模型,且散点图样本点均位于第一象限,则其中可以根据上述方法进行回归分析的模型有( )
A. B.
C. D.
【答案】ABD
【解析】选.对于,,可变形为,令,则有,故 符合题意;对于,,故,所以,令,则有,故 符合题意;对于,,则,令,则有,此时的斜率为常数1,与最小二乘法不符合,故 不符合题意;对于,,则,所以,故,令,则有,故 符合题意.
11.(13分)某加工厂加工产品,现根据市场调研收集到需加工量(单位:千件)与加工单价(单位:元/件)的四组数据如表所示,
x/千件 6 8 10 12
y/(元/件) 12 6 4
根据表中数据,得到关于的经验回归方程为,其中.
(1) 若某公司产品需加工量为1.1万件,估计该公司需要给该加工工厂的加工费用;(6分)
(2) 通过计算样本相关系数,判断与的线性相关程度.(7分)
参考公式:,当时,两个相关变量之间的线性相关程度很强.
【答案】
(1) 解:因为,

所以.
又因为,所以,,所以.
因为1.1万件 千件,所以当 时,
(元/件),
所以(元),则估计该公司需要给该加工工厂57 200元加工费.
(2) 由(1)知,,,.
所以,
,
,
所以
,所以,故 与 线性相关程度很强.
12.[2025·重庆开学考](15分)当前,人工智能技术以前所未有的速度迅猛发展,并被认为是推动未来社会发展和解决人类面临的全球性问题的重要手段.某公司在这个领域逐年加大投入,以下是近年来该公司对产品研发年投入额(单位:百万元)与其年销售量(单位:千件)的数据统计表.
x/百万元 1 2 3 4 5 6
y/千件 0.5 1 1.5 3 6 12
0 0.4 1.1 1.8 2.5
(1) 该公司拟分别用和两种方案作为年销售量关于年投入额的回归分析模型,请根据已知数据,确定方案①和②的经验回归方程(结果保留到小数点后一位);(7分)
(2) 根据下表数据,用决定系数(只需比较出大小)比较两种模型的拟合效果哪种更好,并选择拟合精度更高的模型,预测年投入额为7百万元时,产品的年销售量是多少?(8分)
经验回归方程
残差平方和 18.29 0.65
参考公式及数据:,,,,
,,,.
【答案】
(1) 解:,
方案①:,
所以,

所以.
方案②:由 两边取以 为底的对数得,
即,


所以,所以.
(2) ,
对于,;
对于,,
因为,所以②的拟合效果更好.当 时,(千件).所以预测年投入额为7百万元时,产品的年销售量为16.4千件.
培优课 统计与概率中的交汇创新问题
类型一 统计图表与概率的交汇
[例1] (2025·北京模拟)某甜品店为了解某款甜品的销售情况,进而改变制作工艺,根据以往的销售记录,绘制了日销售量的频率分布直方图(如下).假设每天的销售量相互独立,用频率估计概率.
(1) 估计某一天此款甜品销售量小于60个的概率;
(2) 用表示在未来3天里,此款甜品日销售量不少于60个的天数,求随机变量的分布列和均值;
(3)该店改变了制作工艺以后,抽取了连续30天的销售记录,发现其中有20天的销售量都不少于70个,根据抽查结果,能否认为改变工艺后,此款甜品的销售情况发生了变化?请说明理由.
【答案】(1) 【解】设事件 为“某一天此款甜品销售量小于60个”,所以.
(2) 根据题意,则,则



,
所以 的分布列为
X 0 1 2 3
P 0.064 0.288 0.432 0.216
所以.
(3) 可以认为此款甜品的销售情况发生了变化.
设事件 表示“改变制作工艺前此款产品日销售量不少于70个”,用 表示“改变制作工艺前此款产品30天内日销售量不少于70个的天数”,由题图可得,又,所以,所以可以认为此款甜品的销售情况发生了变化.
[感悟进阶]
统计图表与概率综合问题的求解策略
(1)正确识读统计图表,从图表中提取有效信息及样本数据;
(2)根据统计原理即用样本数字特征估计总体的思想,结合样本中各统计量之间的关系构造数学模型(函数模型、不等式模型、二项分布模型、超几何分布模型或正态分布模型等);
(3)正确进行运算,求出样本数据中能够说明问题的特征值,从而用此数据估计总体或作出科学的决策与判断.
[对点训练].[2025·安康模拟]交通拥堵指数是表征交通拥堵程度的客观指标,用表示,越大代表拥堵程度越高.某平台计算的公式为:,并按的大小将城市道路拥堵程度划分为如表所示的4个等级:
不低于4
拥堵等级 畅通 缓行 拥堵 严重拥堵
某市2025年元旦及其前后共7天与2024年同期的交通高峰期城市道路的统计数据如图:
(1) 从2025年元旦及其前后共7天中任取2天,求这2天中至少有1天交通高峰期城市道路为“拥堵”的概率;
(2) 从2025年元旦及其前后共7天中任取3天,将这3天中交通高峰期城市道路比2024年同日高的天数记为,求的分布列及均值.
【答案】(1) 解:由题意知从2025年元旦及其前后共7天中任取2天,有 种取法,交通高峰期城市道路 为“拥堵”的有3天,选取的这2天中至少有1天交通高峰期城市道路 为“拥堵”的选法有(种),故这2天中至少有1天交通高峰期城市道路 为“拥堵”的概率为.
(2) 由题图知2025年元旦及其前后共7天中交通高峰期城市道路 比2024年同日 高的有3天,故 的可能取值为0,1,2,3,则,
,
,
,
故 的分布列为
X 0 1 2 3
P
故.
类型二 统计分析与概率的交汇
[例2] [2025·南通模拟]某游戏是由某公司制作的动作角色扮演游戏,为了调查玩家喜欢该款游戏是否与性别有关,特选取了100名玩家进行了问卷调查,得到如下的列联表.
单位:名
该款游戏 性别 合计
男 女
喜欢 _ _ 20 _ _
不喜欢 8 _ _ _ _
合计 _ _ _ _ _ _
在100名玩家中随机抽取1人,若抽到不喜欢该游戏的概率为,且.
(1) 依据小概率值的独立性检验,分析男、女玩家对该款游戏的喜爱是否有差异.
(2) 从喜欢该游戏的玩家中按性别比例用分层随机抽样的方法抽取8名玩家,再在这8名玩家中抽取3人调查其喜欢的游戏,用表示3人中女生的人数,求的分布列及均值.
参考公式:,其中.
【答案】
(1) 60;80;8;12;20;68;32;100;零假设为 男、女玩家对该款游戏的喜爱没有差异,根据列联表中数据可得,
.
依据小概率值 的独立性检验,我们推断 不成立,即认为男、女玩家对该款游戏的喜爱有差异,此推断犯错误的概率不大于0.05.
(2) 由题意得,抽取的8名玩家中男性有6人,女性有2人,若从抽取的8名玩家中抽取3人调查,所抽取的女性玩家的人数为,则 的可能取值为0,1,2.
因为;;.
则 的分布列为
X 0 1 2
P
则.
【解析】
(1) 【解】由题意不喜欢该游戏的人数为,从而可得 列联表:单位:名
该款游戏 性别 合计
男 女
喜欢 60 20 80
不喜欢 8 12 20
合计 68 32 100
[感悟进阶]
统计分析与概率综合问题的解题思路
(1)此类问题的特点为同一生活实践情境下设计两类问题,即:①进行独立性分析或求经验回归方程(预测);②求某随机变量的概率(范围)、分布列、均值、方差等;
(2)解决独立性分析问题首先收集数据列出2×2列联表,并按照公式求得χ2的值后进行比较;求经验回归方程问题首先充分利用题目中提供的成对样本数据(散点图)作出判断,确定是线性问题还是非线性问题,求解时要充分利用已知数据,合理利用变形公式,以达到快速准确运算的目的;
(3)明确所求问题所属事件的类型,准确构建概率模型.
[对点训练] 为了给游客提供最好的旅游服务,某景点推出了预订优惠活动,该景点在某网络购票平台10天预订票的情况如下表:
日期 1 2 3 4 5
销售量万张 1.93 1.95 1.97 1.98 2.01
日期 6 7 8 9 10
销售量万张 2.02 2.02 2.05 2.07 0.5
经计算可得:,,.
(1)因为该景点今年预订票购买火爆程度远超预期,该购票平台在第10天时系统异常,现剔除第10天的数据,求y关于t的经验回归方程(结果中的数值用分数表示);
(2) 该景点推出团体票,每份团体票包含4张门票,其中有张为有奖门票(可凭票兑换景点纪念品),且的分布列如表,
X 2 3 4
P
今从某份团体票中随机抽取2张,恰有1张为有奖门票,求该份团体票中共有3张有奖门票的概率.
附:对于一组数据,, ,,其经验回归方程的斜率和截距的最小二乘估计分别为,.
【答案】
(1) 解:设 关于 的经验回归方程为,
则,
,
,
,
所以,
.
所以 关于 的经验回归方程是.
(2) 记“从某份团体票中随机抽取2张,恰有1张为有奖门票”为事件,“该份团体票中共有 张有奖门票”为事件,则,,,,
,,
所以
.
所以.
则所求概率是.
类型三 概率统计中的新定义问题
[例3] [2025·常州模拟]设是一个二维离散型随机变量,它们的一切可能取值为,其中,,令,称是二维离散型随机变量的联合分布列,与一维的情形相似,我们也习惯于把二维离散型随机变量的联合分布列写成下表形式.




… … … … …
现有个球等可能的放入编号为1,2,3的三个盒子中,记放入第1号盒子中的球的个数为,放入第2号盒子中的球的个数为.
(1) 当时,求的联合分布列,并写成分布表的形式;
(2) 设,且,求的值.
(参考公式:若,则)
【答案】
(1) 【解】若,的取值为0,1,2,的取值为0,1,2,
则,

,


,
,
故 的联合分布列为
0 1 2
0
1 0
2 0 0
(2) 当 时,,


所以,
由二项分布的均值公式可得.
[感悟进阶]
解决概率统计中的新定义问题的一般步骤
[对点训练].马尔科夫链因俄国数学家安德烈·马尔科夫得名,其过程具备“无记忆”的性质,即第次状态的概率分布只跟第次的状态有关,与第,,, 次的状态无关.马尔科夫链是概率统计中的一个重要模型,也是机器学习和人工智能的基石,在强化学习、自然语言处理、金融领域、天气预测等方面都有着极其广泛的应用.现有,两个盒子,各装有2个黑球和1个红球,现从,两个盒子中各任取一个球交换放入另一个盒子,重复进行次这样的操作后,记盒子中红球的个数为,恰有1个红球的概率为.
(1) 求,的值;
(2) 求的值(用表示).
【答案】
(1) 解:设第 次操作后 盒子中恰有2个红球的概率为,则没有红球的概率为.
由题意知,
,
.
(2) 因为.
所以.
又因为,
所以 是以 为首项,为公比的等比数列.
所以,
.
课后达标 分级演练
1.[2025·上海模拟](15分)2024年上海书展于8月14日至20日在上海展览中心举办.展会上随机抽取了500名观众,调查他们每个月用在阅读上的时长,得到如图所示的频率分布直方图.
(1) 求的值,并估计这500名观众每个月阅读时长的平均数和中位数;(7分)
(2) 用分层随机抽样的方法从这两组观众中随机抽取12名观众,若再从这12名观众中随机抽取4人参加抽奖活动,求所抽取的4人中两组均有的概率.(8分)
【答案】
(1) 解:由题图得,解得,阅读时长在区间,,,,内的频率分别为,,,,,所以估计阅读时长的平均数.
其中前两组的频率之和为,前三组的频率之和为,
所以阅读时长的中位数在 这组内,
设中位数为,则,解得,所以中位数约为65.
(2) 用分层随机抽样的方法从,这两组观众中随机抽取12名观众,由题中频率分布直方图,得数据在,两组内的频率之比为,则在 内抽取4人,在 内抽取8人,从这12名观众所抽取的4人中两组均有的概率为.
2.(15分)某病毒主要是在人与人之间进行传播,可以通过飞沫、粪便、接触等进行传染,感染人群主要是年龄在40岁以上的群体.该病毒进入人体后有潜伏期(潜伏期是指病原体侵入人体至最早出现临床症状的这段时期),潜伏期越长,感染到他人的可能性越高.现对200个病例的潜伏期(单位:天)进行调查,统计发现潜伏期的中位数为5,平均数为,方差为5.06.一般认为超过8天的潜伏期就属于“长潜伏期”,按照年龄统计样本病例人数,如表所示:
单位:天
年龄 长潜伏期 非长潜伏期
40岁以上 30 110
40岁及40岁以下 20 40
(1)依据小概率值α=0.05的独立性检验,能否认为长潜伏期与年龄有关?(7分)
(2) 假设潜伏期服从正态分布,其中 近似为样本平均数,近似为样本方差.为有效防止该病毒的传播,要求隔离14天,请用概率和统计的知识解释其合理性.(8分)
附:,其中.
0.1 0.05 0.01
2.706 3.841 6.635
若随机变量服从正态分布,则,,,.
【答案】
(1) 解:零假设为长潜伏期与年龄无关,由题表中的数据得,.
根据小概率值 的独立性检验,我们没有充分证据推断 不成立,即认为长潜伏期与年龄无关.
(2) 由题意知潜伏期服从正态分布,由,得潜伏期超过14天的概率很低,因此隔离14天是合理的.
3.[2025·哈尔滨模拟](17分)某城市通过创新营销展示了丰富的文化活动,成功提升了吸引力和知名度,为其他旅游城市提供了宝贵经验,从2025年1月1日至5日,该地国际机场接待外地游客数量如下,
日 1 2 3 4 5
万人 45 50 60 65 80
(1) 根据表中数据可知,具有线性相关关系,计算,的样本相关系数(计算结果精确到),并判断是否可以认为日期与游客人数的线性相关程度很强;(4分)
(2) 请根据表中提供的数据,用最小二乘法求出关于的经验回归方程;(5分)
(3) 为了吸引游客,某景区售票处针对各个旅游团进行了现场抽奖的活动,具体抽奖规则为从该旅游团中随机同时抽取两名游客,两名游客性别不同,则为中奖.已知某个旅游团中有5名男游客和名女游客,设重复进行三次抽奖中恰有一次中奖的概率为,当取多少时,最大?(8分)
参考公式:,,,参考数据:.
【答案】
(1) 解:因为,,
所以,,,,
所以,
所以,
由此可以认为日期与游客人数的线性相关程度很强.
(2) 由(1)知,,所以,
因为
所以经验回归方程为.
(3) 记中奖的概率为,
因为,
所以,即,
令,
则,
所以 在,上单调递增,
在,上单调递减,
所以当 时,取得最大值,
由,
解得 或(舍去),
所以当 时,恰有一次中奖的概率最大.
4.(17分)某工厂生产某种元件,其质量按测试指标划分为:指标大于或等于82为合格品,小于82为次品.现抽取这种元件100件进行检测,检测结果统计如表:
测试指标
元件数/件 12 18 36 30 4
(1) 现从这100件样品中随机抽取2件,若其中一件为合格品,求另一件也为合格品的概率;(4分)
(2) 关于随机变量,俄国数学家切比雪夫提出切比雪夫不等式:若随机变量具有均值 ,方差,则对任意正数,均有成立.
①若,,证明:;(6分)
②由该结论可得即使分布未知,随机变量的取值范围落在均值左右的一定范围内的概率是有界的.若该工厂声称本厂元件合格率为,那么根据所给样本数据,请结合切比雪夫不等式说明该工厂所提供的合格率是否可信?(注:当随机事件发生的概率小于0.05时,可称事件为小概率事件)(7分)
【答案】
(1) 解:记事件 为“抽到至少一件合格品”,事件 为“抽到两件合格品”,
,,
.
(2) ①证明:若,,
则,,
又,,1,2, ,100,
所以 或.
由切比雪夫不等式可知,,
所以.
②设随机抽取100件产品中合格品的件数为,
假设厂家关于产品合格率为 的说法成立,
则,
所以,,
由切比雪夫不等式知,,
即在假设下100件元件中合格品为70件的概率不超过,此概率极小,由小概率事件原理可知,一般来说在一次试验中是不会发生的,据此我们有理由推断该工厂所提供的合格率不可信.
典题溯源与重构 2024年新课标Ⅱ卷第18题
概率与统计在我们的生产、生活中处处可见,概率统计知识为我们的生活提供了方便与决策依据,在高中数学教学中占有很大的比例,涉及的知识面十分广泛,事件与概率形式多样,统计方法十分丰富.真题是从实际生产和生活情境中经过数学化而命制的,对概率统计试题溯源与重构,使得问题更加贴近实际,对相关的统计与决策和高考复习具有较好的指导意义.
[典题呈现].某投篮比赛分为两个阶段,每个参赛队由两名队员组成.比赛具体规则如下:第一阶段由参赛队中一名队员投篮3次,若3次都未投中,则该队被淘汰,比赛成绩为0分;若至少投中1次,则该队进入第二阶段.第二阶段由该队的另一名队员投篮3次,每次投篮投中得5分,未投中得0分,该队的比赛成绩为第二阶段的得分总和.某参赛队由甲、乙两名队员组成,设甲每次投中的概率为,乙每次投中的概率为,各次投中与否相互独立.
(1) 若,,甲参加第一阶段比赛,求甲、乙所在队的比赛成绩不少于5分的概率;
(2) 假设.
(ⅰ) 为使得甲、乙所在队的比赛成绩为15分的概率最大,应该由谁参加第一阶段比赛?
(ⅱ) 为使得甲、乙所在队的比赛成绩的数学期望最大,应该由谁参加第一阶段比赛?
[规范解答]
【答案】
(1) 解:设“甲、乙所在队进入第二阶段”,
则.
设“乙在第二阶段至少得5分”,
则.注解①
设“甲、乙所在队的比赛成绩不少于5分”,
则.注解②
(2) (ⅰ) 设甲参加第一阶段比赛时,甲、乙所在队得15分
的概率为,则.
设乙参加第一阶段比赛时,甲、乙所在队得15分的概率为,
则.注解③
则注解④
由,得,,
所以,即.
故应该由甲参加第一阶段比赛.
(ⅱ) 若甲参加第一阶段比赛,则甲、乙所在队的比赛成绩X的所有可能取值为0,5,10,15.注解⑤
注解⑥
所以.
若乙参加第一阶段比赛,则甲、乙所在队的比赛成绩 的所有可能取值为0,5,10,15.
同理,可得.
注解⑦
由,得,,
所以,即.
故应该由甲参加第一阶段比赛.
【解析】
(1) [关键步骤]①将进入第二阶段与至少得5分转化为对应的事件②独立事件的概率问题
(2) (ⅰ) [关键步骤]③以第(1)问作为基础④比较大小,一般用作差法
(ⅱ) [关键步骤]⑤分析事件关系,确定的取值⑥根据事件关系,求出相应概率⑦用作差法比较大小
[典题溯源]
类别 教材题(选择性必修第三册 例1、 与 例3) 典题 关联特征
条件 ① 独立事件关系 独立事件关系 一样的关系
② 过完上一关才能进入下一关 完成第一阶段才能进入第二阶段 问题设置一致
③ 概率用具体数表示 概率用代数式表示,或用具体数表示 已知概率
问题 ① 求自上而下的概率 求两阶段都完成的概率 解答方法一致
② 求出具体期望值,根据期望值作决策 用字母表示期望值,并比较大小,再作决策 都是根据概率求期望进行决策
延伸 原典题有下列结论,当时, 结论1 甲参加第一阶段比赛时,甲、乙所在队得15分的概率,乙参加第一阶段比赛时,甲、乙所在队得15分的概率,则有的充要条件是. 结论2 甲参加第一阶段比赛时,甲、乙所在队比赛成绩的数学期望为,乙参加第一阶段比赛时,甲、乙所在队比赛成绩的数学期望为,则有的充要条件是. 结论1有两个基本事实:①,互换与互换;②得满分(15分)的决策是甲参加第一阶段比赛,即水平弱的参加第一阶段比赛. 结论2也有两个基本事实:①,互换与互换;②成绩的数学期望(均值)最大的决策是甲参加第一阶段比赛,即水平弱的参加第一阶段比赛. 可以论证无论,大小关系如何,当时,无论谁参加第一阶段比赛,概率相等,即. 因为, . 显然,无论,大小关系如何,无论谁参加第一阶段比赛,成绩为0分的概率总是相等的.
[典题重构].为喜迎新学期,高三一班、二班举行数学知识竞赛,赛制规定:共进行5轮比赛,每轮比赛每个班可以从 , 两个题库中任选1题作答,在前两轮比赛中每个班的题目必须来自同一题库,后三轮比赛中每个班的题目必须来自同一题库, 题库每题20分, 题库每题30分,一班能正确回答 , 题库每题的概率分别为 , ,二班能正确回答 , 题库每题的概率均为 ,且每轮答题结果互不影响.
(1) 若一班前两轮选题库,后三轮选题库,求其总分不少于100分的概率;
(2) 若一班和二班在前两轮比赛中均选了题库,而且一班两轮得分60分,二班两轮得分30分,一班后三轮换成题库,二班后三轮不更换题库,设一班最后的总分为,求的分布列,并判断哪个班总分的均值比较大.
【答案】(1) 解:由条件知,若一班在前两轮得20分,后三轮得90分,总分为110分,其概率为,若一班在前两轮得40分,后三轮得60分或90分,总分为100分或130分,其概率为,所以一班总分不少于100分的概率为.
(2) 由条件知,随机变量 的所有可能取值为60,80,100,120,

,
,
.
所以 的分布列为
X 60 80 100 120
P
.
设二班最后的总分为,的所有可能取值为30,60,90,120,,
,
,
,
所以 的分布列为
Y 30 60 90 120
P
.因为,所以一班总分的均值比较大.
第66页

展开更多......

收起↑

资源列表