2022-2023学年高二上数学期末复习——统计讲义(含解析)

资源下载
  1. 二一教育资源

2022-2023学年高二上数学期末复习——统计讲义(含解析)

资源简介

知识网络
重难点突破
知识点一 简单随机抽样
(1)定义:设一个总体含有N个个体,从中逐个不放回地抽取n个个体作为样本(n≤N),如果每次抽取时总体内的各个个体被抽到的机会都相等,就把这种抽样方法叫做简单随机抽样.
(2)最常用的简单随机抽样的方法:抽签法和随机数法.
例1. (湖南省怀化一中期中)某班的数学老师要对该班一模考试的数学成绩进行分析,利用随机数法抽取样本时,先将该班70名同学按00,01,02,…,69进行编号,然后从随机数表第9行第9列的数开始向右读,则选出的10个样本中第8个样本的编号是________.
(注:以下是随机数表的第8行和第9行)
第8行:63 01 63 78 59 16 95 55 67 19 98 10 50 71 75 12 86 73 58 07 44 39 52 38 79
第9行:33 21 12 34 29 78 64 56 07 82 52 42 07 44 38 15 51 00 13 42 99 66 02 79 54
【答案】38
【解析】由随机数表知选出的10个样本依次是29,64,56,07,52,42,44,38,15,51,第8个样本编号是38.
【变式训练1-1】、 (江苏省连云港一中模拟)利用简单随机抽样,从n个个体中抽取一个容量为10的样本.若第二次抽取时,余下的每个个体被抽到的概率为,则在整个抽样过程中,每个个体被抽到的概率为(  )
A.          B.
C. D.
【答案】C 
【解析】根据题意,=,解得n=28.
故在整个抽样过程中每个个体被抽到的概率为=.
知识点二 分层抽样
(1)定义:在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样方法叫做分层抽样.
(2)应用范围:当总体是由差异明显的几个部分组成时,往往选用分层抽样.
例2. 某工厂生产甲、乙、丙、丁四种不同型号的产品,产量分别为200,400,300,100件,为检验产品的质量,现用分层抽样的方法从以上所有的产品中抽取60件进行检验,则应从丙种型号的产品中抽取________件.
【答案】18
【解析】因为样本容量n=60,样本总体N=200+400+300+100=1 000,所以抽取比例为==.,因此应从丙种型号的产品中抽取300×=18(件)。
【变式训练2-1】、(南京联合体学校调研)为检验某校高一年级学生的身高情况,现采用先分层抽样后简单随机抽样的方法,抽取一个容量为210的样本,已知每个学生被抽到的概率为0.3,且男女生的比是4∶3,则该校高一年级女生的人数是________.
【答案】300
【解析】抽取的高一年级女生的人数为210×=90,则该校高一年级女生的人数为90÷0.3=300.
知识点三 系统抽样
(1)定义:当总体中的个体数目较多时,可将总体分成均衡的几个部分,然后按照事先定出的规则,从每一部分抽取一个个体得到所需要的样本,这种抽样方法叫做系统抽样.
(2)系统抽样的操作步骤
假设要从容量为N的总体中抽取容量为n的样本.
①先将总体的N个个体编号;
②确定分段间隔k,对编号进行分段,当(n是样本容量)是整数时,取k=;
③在第1段用简单随机抽样确定第一个个体编号l(l≤k);
④按照一定的规则抽取样本,通常是将l加上间隔k得到第2个个体编号(l+k),再加k得到第3个个体编号(l+2k),依次进行下去,直到获取整个样本.
例3. (河南省许昌一中模拟)利用系统抽样法从编号分别为1,2,3,…,80的80件不同产品中抽取一个容量为16的样本,如果抽出的产品中有一件产品的编号为13,则抽到产品的最大编号为(  )
A.73 B.78
C.77 D.76
【答案】B 
【解析】样本的分段间隔为=5,所以13号在第三组,则最大的编号为13+(16-3)×5=78.
【变式训练3-1】、 (湖北省咸宁一中模拟)某校高三年级共有30个班,学校心理咨询室为了了解同学们的心理状况,将每个班编号,依次为1到30,现用系统抽样的方法抽取5个班进行调查,若抽到的编号之和为75,则抽到的最小的编号为________.
【答案】3
【解析】系统抽样的抽取间隔为=6.设抽到的最小编号为x,则x+(6+x)+(12+x)+(18+x)+(24+x)=75,所以x=3.
知识点四 用样本的频率估计总体的频率
(1)频率分布表的画法:
第一步:求极差,决定组数和组距,组距=;
第二步:分组,通常对组内数值所在区间取左闭右开区间,最后一组取闭区间;
第三步:登记频数,计算频率,列出频率分布表.
(2)频率分布直方图:反映样本频率分布的直方图(如图)
横轴表示样本数据,纵轴表示,每个小矩形的面积表示样本落在该组内的频率.
1.频率分布直方图与众数、中位数与平均数的关系
(1)最高的小长方形底边中点的横坐标即是众数.
(2)中位数左边和右边的小长方形的面积和是相等的.
(3)平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘以小长方形底边中点的横坐标之和.
例4. (浙江省绍兴一中期中)某班的全体学生参加英语测试,成绩的频率分布直方图如图所示,数据的分组依次为[20,40),[40,60),[60,80),[80,100].若低于60分的人数是15,则该班的学生人数是(  )
A.45 B.50 C.55 D.60
【答案】B
【解析】由频率分布直方图,知低于60分的频率为(0.010+0.005)×20=0.3.∴该班学生人数n==50.
【变式训练4-1】、(广东省佛山一中期中)对某市“四城同创”活动中800名志愿者的年龄抽样调查统计后得到频率分布直方图(如图),但是年龄组为[25,30)的数据不慎丢失,则依据此图可得:
(1)[25,30)年龄组对应小矩形的高度为________;
(2)据此估计该市“四城同创”活动中志愿者年龄在[25,35)的人数为________.
【答案】(1)0.04 (2)440
【解析】设[25,30)年龄组对应小矩形的高度为h,则5×(0.01+h+0.07+0.06+0.02)=1,解得h=0.04.则志愿者年龄在[25,35)年龄组的频率为5×(0.04+0.07)=0.55,故志愿者年龄在[25,35)年龄组的人数约为0.55×800=440.
知识点五 用样本的数字特征估计总体的数字特征
(1)众数:一组数据中出现次数最多的那个数据,叫做这组数据的众数.
(2)中位数:把n个数据按大小顺序排列,处于最中间位置的一个数据(或最中间两个数据的平均数)叫做这组数据的中位数.
(3)平均数:把称为a1,a2,…,an这n个数的平均数.
(4)标准差与方差:设一组数据x1,x2,x3,…,xn的平均数为,则这组数据的标准差和方差分别是
s=,s2=[(x1-)2+(x2-)2+…+(xn-)2].
例5. (广西省贵港一中模拟)从某企业生产的某种产品中抽取100件,测量这些产品的一项质量指标值,由测量结果得如下频数分布表:
质量指标值分组 [75,85) [85,95) [95,105) [105,115) [115,125]
频数 6 26 38 22 8
(1)作出这些数据的频率分布直方图:
(2)估计这种产品质量指标值的平均数及方差(同一组中的数据用该组区间的中点值作代表);
(3)根据以上抽样调查数据,能否认为该企业生产的这种产品符合“质量指标值不低于95的产品至少要占全部产品80%”的规定?
【解析】(1)样本数据的频率分布直方图如图所示:
(2)质量指标值的样本平均数为=80×0.06+90×0.26+100×0.38+110×0.22+120×0.08=100.
质量指标值的样本方差为s2=(-20)2×0.06+(-10)2×0.26+0×0.38+102×0.22+202×0.08=104.
所以这种产品质量指标值的平均数的估计值为100,方差的估计值为104.
(3)质量指标值不低于95的产品所占比例的估计值为0.38+0.22+0.08=0.68.
由于该估计值小于0.8,故不能认为该企业生产的这种产品符合“质量指标值不低于95的产品至少要占全部产品80%”的规定.
【变式训练5-1】、(山西太原五中模拟)“一带一路”是“丝绸之路经济带”和“21世纪海上丝绸之路”的简称.某市为了了解人们对“一带一路”的认知程度,对不同年龄和不同职业的人举办了一次“一带一路”知识竞赛,满分为100分(90分及以上为认知程度高).现从参赛者中抽取了x人,按年龄分成5组,第一组:[20,25),第二组:[25,30),第三组:[30,35),第四组:[35,40),第五组:[40,45],得到如图所示的频率分布直方图,已知第一组有6人.
(1)求x;
(2)求抽取的x人的年龄的中位数(结果保留整数);
(3)从该市大学生、军人、医务人员、工人、个体户五种人中用分层抽样的方法依次抽取6人,42人,36人,24人,12人,分别记为1~5组,从这5个按年龄分的组和5个按职业分的组中每组各选派1人参加知识竞赛,分别代表相应组的成绩,年龄组中1~5组的成绩分别为93,96,97,94,90,职业组中1~5组的成绩分别为93,98,94,95,90.
(ⅰ)分别求5个年龄组和5个职业组成绩的平均数和方差;
(ⅱ)以上述数据为依据,评价5个年龄组和5个职业组对“一带一路”的认知程度,并谈谈你的感想.
【解析】(1)根据频率分布直方图得第一组的频率为0.01×5=0.05,
∴=0.05,∴x=120.
(2)设中位数为a,则0.01×5+0.07×5+(a-30)×0.06=0.5,
∴a=≈32,则中位数为32.
(3)(ⅰ)5个年龄组成绩的平均数为1=×(93+96+97+94+90)=94,方差为s=×[(-1)2+22+32+02+(-4)2]=6.5个职业组成绩的平均数为2=×(93+98+94+95+90)=94,方差为s=×[(-1)2+42+02+12+(-4)2]=6.8.
(ⅱ)从平均数来看两组的认知程度相同,从方差来看年龄组的认知程度更稳定(感想合理即可).
知识点六 线性回归分析
1、 相关关系与回归分析
回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法;判断相关性的常用统计图是:散点图;统计量有相关系数与相关指数.
(1)在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关.
(2)在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.
(3)如果散点图中点的分布从整体上看大致在一条直线附近,称两个变量具有线性相关关系.
2、线性回归方程
(1)最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法.
(2)回归方程:两个具有线性相关关系的变量的一组数据:,其回归方程为,则注意:线性回归直线经过定点.
(3)相关系数:.
3、 回归分析
(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法.
(2)样本点的中心:对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn),其中(,)称为样本点的中心.
(3)相关系数
当r>0时,表明两个变量正相关;
当r<0时,表明两个变量负相关.
r的绝对值越接近于1,表明两个变量的线性相关性越强.
r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r|大于0.75时,认为两个变量有很强的线性相关性.
(4)相关指数:R2=1-.其中 (yi-i)2是残差平方和,其值越小,则R2越大(接近1),模型的拟合效果越好.
例6、(衡水中学调研)已知变量x,y之间的线性回归方程为=-0.7x+10.3,且变量x,y之间的一组相关数据如下表所示,则下列说法错误的是(  )
x 6 8 10 12
y 6 m 3 2
A.变量x,y之间呈负相关关系
B.可以预测,当x=20时,=-3.7
C.m=4
D.该回归直线必过点(9,4)
【答案】C
【解析】由-0.7<0,得变量x,y之间呈负相关关系,故A正确;当x=20时,=-0.7×20+10.3=-3.7,故B正确;由表格数据可知=×(6+8+10+12)=9,=(6+m+3+2)=,则=-0.7×9+10.3,解得m=5,故C错;由m=5,得==4,所以该回归直线必过点(9,4),故D正确.故选C.
【变式训练6-1】、(四川省绵阳中学期中)调查某公司的五名推销员,其工作年限与年推销金额如下表:
推销员 A B C D E
工作年限x(年) 2 3 5 7 8
年推销金额y(万元) 3 3.5 4 6.5 8
(1)在图中画出年推销金额关于工作年限的散点图,并从散点图中发现工作年限与年推销金额之间关系的一般规律;
(2)利用最小二乘法求年推销金额关于工作年限的回归直线方程;
(3)利用(2)中的回归方程,预测工作年限为10年的推销员的年推销金额.
附:=,=-.
【解析】(1)年推销金额关于工作年限的散点图如图:
从散点图可以看出,各点散布在从左下角到右上角的区域里,因此, 工作年限与年推销金额正相关,即工作年限越长,年推销金额越大.
(2)由表中数据可得:=×(2+3+5+7+8)=5,=×(3+3.5+4+6.5+8)=5,
===,
=-=5-×5=,
∴年推销金额关于工作年限的回归直线方程为=x+.
(3)当x=10时,=×10+=,
∴预测工作年限为10年的推销员的年推销金额为万元.知识网络
重难点突破
知识点一 简单随机抽样
(1)定义:设一个总体含有N个个体,从中逐个不放回地抽取n个个体作为样本(n≤N),如果每次抽取时总体内的各个个体被抽到的机会都相等,就把这种抽样方法叫做简单随机抽样.
(2)最常用的简单随机抽样的方法:抽签法和随机数法.
例1. (湖南省怀化一中期中)某班的数学老师要对该班一模考试的数学成绩进行分析,利用随机数法抽取样本时,先将该班70名同学按00,01,02,…,69进行编号,然后从随机数表第9行第9列的数开始向右读,则选出的10个样本中第8个样本的编号是________.
(注:以下是随机数表的第8行和第9行)
第8行:63 01 63 78 59 16 95 55 67 19 98 10 50 71 75 12 86 73 58 07 44 39 52 38 79
第9行:33 21 12 34 29 78 64 56 07 82 52 42 07 44 38 15 51 00 13 42 99 66 02 79 54
【变式训练1-1】、 (江苏省连云港一中模拟)利用简单随机抽样,从n个个体中抽取一个容量为10的样本.若第二次抽取时,余下的每个个体被抽到的概率为,则在整个抽样过程中,每个个体被抽到的概率为(  )
A.          B.
C. D.
知识点二 分层抽样
(1)定义:在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样方法叫做分层抽样.
(2)应用范围:当总体是由差异明显的几个部分组成时,往往选用分层抽样.
例2. 某工厂生产甲、乙、丙、丁四种不同型号的产品,产量分别为200,400,300,100件,为检验产品的质量,现用分层抽样的方法从以上所有的产品中抽取60件进行检验,则应从丙种型号的产品中抽取________件.
【变式训练2-1】、(南京联合体学校调研)为检验某校高一年级学生的身高情况,现采用先分层抽样后简单随机抽样的方法,抽取一个容量为210的样本,已知每个学生被抽到的概率为0.3,且男女生的比是4∶3,则该校高一年级女生的人数是________.
知识点三 系统抽样
(1)定义:当总体中的个体数目较多时,可将总体分成均衡的几个部分,然后按照事先定出的规则,从每一部分抽取一个个体得到所需要的样本,这种抽样方法叫做系统抽样.
(2)系统抽样的操作步骤
假设要从容量为N的总体中抽取容量为n的样本.
①先将总体的N个个体编号;
②确定分段间隔k,对编号进行分段,当(n是样本容量)是整数时,取k=;
③在第1段用简单随机抽样确定第一个个体编号l(l≤k);
④按照一定的规则抽取样本,通常是将l加上间隔k得到第2个个体编号(l+k),再加k得到第3个个体编号(l+2k),依次进行下去,直到获取整个样本.
例3. (河南省许昌一中模拟)利用系统抽样法从编号分别为1,2,3,…,80的80件不同产品中抽取一个容量为16的样本,如果抽出的产品中有一件产品的编号为13,则抽到产品的最大编号为(  )
A.73 B.78
C.77 D.76
【变式训练3-1】、 (湖北省咸宁一中模拟)某校高三年级共有30个班,学校心理咨询室为了了解同学们的心理状况,将每个班编号,依次为1到30,现用系统抽样的方法抽取5个班进行调查,若抽到的编号之和为75,则抽到的最小的编号为________.
知识点四 用样本的频率估计总体的频率
(1)频率分布表的画法:
第一步:求极差,决定组数和组距,组距=;
第二步:分组,通常对组内数值所在区间取左闭右开区间,最后一组取闭区间;
第三步:登记频数,计算频率,列出频率分布表.
(2)频率分布直方图:反映样本频率分布的直方图(如图)
横轴表示样本数据,纵轴表示,每个小矩形的面积表示样本落在该组内的频率.
1.频率分布直方图与众数、中位数与平均数的关系
(1)最高的小长方形底边中点的横坐标即是众数.
(2)中位数左边和右边的小长方形的面积和是相等的.
(3)平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘以小长方形底边中点的横坐标之和.
例4. (浙江省绍兴一中期中)某班的全体学生参加英语测试,成绩的频率分布直方图如图所示,数据的分组依次为[20,40),[40,60),[60,80),[80,100].若低于60分的人数是15,则该班的学生人数是(  )
A.45 B.50 C.55 D.60
【变式训练4-1】、(广东省佛山一中期中)对某市“四城同创”活动中800名志愿者的年龄抽样调查统计后得到频率分布直方图(如图),但是年龄组为[25,30)的数据不慎丢失,则依据此图可得:
(1)[25,30)年龄组对应小矩形的高度为________;
(2)据此估计该市“四城同创”活动中志愿者年龄在[25,35)的人数为________.
知识点五 用样本的数字特征估计总体的数字特征
(1)众数:一组数据中出现次数最多的那个数据,叫做这组数据的众数.
(2)中位数:把n个数据按大小顺序排列,处于最中间位置的一个数据(或最中间两个数据的平均数)叫做这组数据的中位数.
(3)平均数:把称为a1,a2,…,an这n个数的平均数.
(4)标准差与方差:设一组数据x1,x2,x3,…,xn的平均数为,则这组数据的标准差和方差分别是
s=,s2=[(x1-)2+(x2-)2+…+(xn-)2].
例5. (广西省贵港一中模拟)从某企业生产的某种产品中抽取100件,测量这些产品的一项质量指标值,由测量结果得如下频数分布表:
质量指标值分组 [75,85) [85,95) [95,105) [105,115) [115,125]
频数 6 26 38 22 8
(1)作出这些数据的频率分布直方图:
(2)估计这种产品质量指标值的平均数及方差(同一组中的数据用该组区间的中点值作代表);
(3)根据以上抽样调查数据,能否认为该企业生产的这种产品符合“质量指标值不低于95的产品至少要占全部产品80%”的规定?
【变式训练5-1】、 “一带一路”是“丝绸之路经济带”和“21世纪海上丝绸之路”的简称.某市为了了解人们对“一带一路”的认知程度,对不同年龄和不同职业的人举办了一次“一带一路”知识竞赛,满分为100分(90分及以上为认知程度高).现从参赛者中抽取了x人,按年龄分成5组,第一组:[20,25),第二组:[25,30),第三组:[30,35),第四组:[35,40),第五组:[40,45],得到如图所示的频率分布直方图,已知第一组有6人.
(1)求x;
(2)求抽取的x人的年龄的中位数(结果保留整数);
(3)从该市大学生、军人、医务人员、工人、个体户五种人中用分层抽样的方法依次抽取6人,42人,36人,24人,12人,分别记为1~5组,从这5个按年龄分的组和5个按职业分的组中每组各选派1人参加知识竞赛,分别代表相应组的成绩,年龄组中1~5组的成绩分别为93,96,97,94,90,职业组中1~5组的成绩分别为93,98,94,95,90.
(ⅰ)分别求5个年龄组和5个职业组成绩的平均数和方差;
(ⅱ)以上述数据为依据,评价5个年龄组和5个职业组对“一带一路”的认知程度,并谈谈你的感想.
知识点六 线性回归分析
1、 相关关系与回归分析
回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法;判断相关性的常用统计图是:散点图;统计量有相关系数与相关指数.
(1)在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关.
(2)在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.
(3)如果散点图中点的分布从整体上看大致在一条直线附近,称两个变量具有线性相关关系.
2、线性回归方程
(1)最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法.
(2)回归方程:两个具有线性相关关系的变量的一组数据:,其回归方程为,则注意:线性回归直线经过定点.
(3)相关系数:.
3、 回归分析
(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法.
(2)样本点的中心:对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn),其中(,)称为样本点的中心.
(3)相关系数
当r>0时,表明两个变量正相关;
当r<0时,表明两个变量负相关.
r的绝对值越接近于1,表明两个变量的线性相关性越强.
r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r|大于0.75时,认为两个变量有很强的线性相关性.
(4)相关指数:R2=1-.其中 (yi-i)2是残差平方和,其值越小,则R2越大(接近1),模型的拟合效果越好.
例6、已知变量x,y之间的线性回归方程为=-0.7x+10.3,且变量x,y之间的一组相关数据如下表所示,则下列说法错误的是(  )
x 6 8 10 12
y 6 m 3 2
A.变量x,y之间呈负相关关系
B.可以预测,当x=20时,=-3.7
C.m=4
D.该回归直线必过点(9,4)
【变式训练6-1】、调查某公司的五名推销员,其工作年限与年推销金额如下表:
推销员 A B C D E
工作年限x(年) 2 3 5 7 8
年推销金额y(万元) 3 3.5 4 6.5 8
(1)在图中画出年推销金额关于工作年限的散点图,并从散点图中发现工作年限与年推销金额之间关系的一般规律;
(2)利用最小二乘法求年推销金额关于工作年限的回归直线方程;
(3)利用(2)中的回归方程,预测工作年限为10年的推销员的年推销金额.
附:=,=-.

展开更多......

收起↑

资源列表