湘教版(2019)高中数学必修第一册第6章统计学初步学案(共9份)(含解析)

资源下载
  1. 二一教育资源

湘教版(2019)高中数学必修第一册第6章统计学初步学案(共9份)(含解析)

资源简介

6.1 获取数据的途径及统计概念
学 习 任 务 核 心 素 养
1.知道获取数据的途径包括:统计报表和年鉴、社会调查、试验设计、普查和抽样、互联网等.(重点)2.了解总体、样本、样本容量的概念,了解数据的随机性.(重点) 1.通过对获取数据的途径的学习,培养数据分析的素养.2.在获取数据的过程中,培养数学建模的核心素养.
“大数据”是指以多元形式,自许多来源搜集而来的庞大数据组,往往具有实时性.这些数据可能来自社交网络、电子商务网站、顾客来访记录和许多其他来源.
凭你的经验,日常有哪些获取数据的方法和途径呢?
知识点1 收集数据
统计数据主要来自两种途径:间接来源和直接来源.
(1)数据的间接来源:如果与研究内容有关的原信息已经存在,我们只是对这些原信息重新加工、整理,使之成为我们进行统计分析可以使用的数据,就称该原信息为间接来源的数据.间接来源数据又称为二手数据.
(2)数据的直接来源:通过调查和实验的方法直接获得第一手数据.
1.(1)利用统计报表和年鉴属于哪种获取数据的途径?
(2)要了解一种新型灯管的寿命,能通过观察获取数据吗?
[提示] (1)属于数据的间接来源.
(2)不能,应该通过实验获取数据.
2.统计数据可以通过调查、实验、观察、查询来获得,那么这四种获得数据的途径适用类型是什么?应注意哪些问题?
[提示] 
获取数据的基本途径 适用类型 注意问题
通过调查获取数据 对于有限总体问题,我们一般通过抽样调查或普查的方法获取数据 要充分有效地利用背景信息选择或创建更好的抽样方法,并有效避免抽样过程中的人为错误
通过试验获取数据 没有现存的数据可以查询 严格控制试验环境,通过精心的设计安排试验,以提高数据质量
通过观察获取数据 自然现象 要通过长久的持续观察获取数据
通过查询获得数据 众多专家研究过,其收集的数据有所存储 必须根据问题背景知识“清洗”数据,去伪存真
知识点2 统计中的几个基本概念
1.总体与个体
在统计学中,我们把调查对象的全体叫作总体,把总体中的成员叫作个体.
2.样本
从总体中抽取的一部分个体就称为总体的一个样本,样本也叫作观测数据,构成样本的个体数目称为样本容量,简称为样本量.
从总体中抽取样本的工作称为抽样.
3.普查与抽样调查
统计调查一般分为两种:普查与抽样调查.
普查,又称全面调查,即对需要调查的对象进行逐个调查.抽样调查是从调查对象的总体中,抽取若干个个体进行调查.
1.下列调查方式中,适合用普查的是(  )
A.调查春节联欢晚会的收视率
B.了解某渔场中青鱼的平均质量
C.了解某批次华为手机的使用寿命
D.了解一批汽车的刹车性能
D [了解汽车的刹车性能,因为涉及人身安全,且对汽车没有破坏性,因此,应采用普查的方式.]
2.某校共有1 005名高三学生参加2021年上学期开学考试,为了了解这1 005名学生的数学成绩,决定从中抽取50名学生的数学成绩进行统计分析.下列叙述错误的是(  )
A.总体是1 005名学生的数学成绩
B.样本量是50
C.个体是每一名学生
D.样本是50名学生的数学成绩
C [个体是每一名学生的数学成绩.]
类型1 获取数据途径的选择
【例1】 (1)下列哪些数据一般是通过试验获取的(  )
A.1988年济南市的降雨量
B.2019年新生儿人口数量
C.某学校高一年级同学的数学测试成绩
D.某种特效中成药的配方
(2)“中国天眼”为500米口径球面射电望远镜(Five-hundred-meter Aperture Spherical Telescope,简称FAST),是具有我国自主知识产权、世界最大单口径、最灵敏的射电望远镜.建造“中国天眼”的目的是(  )
A.通过调查获取数据 B.通过试验获取数据
C.通过观察获取数据 D.通过查询获得数据
(1)D (2)C [(1)某种特效中成药的配方的数据只能通过试验获得.
(2)“中国天眼”主要是通过观察获取数据.]
选择获取数据的途径的依据
选择获取数据的途径主要是根据所要研究问题的类型,以及获取数据的难易程度.有的数据可以有多种获取途径,有的数据只能通过一种途径获取,选择合适的方法和途径能够更好地提高数据的可靠性.
1.要得到某乡镇的贫困人口数据,应采取的方法是(  )
A.通过调查获取数据 B.通过试验获取数据
C.通过观察获取数据 D.通过查询获得数据
A [某乡镇的贫困人口数据属于有限总体问题,所以可以通过调查获取数据.]
类型2 获取数据途径的方法的设计
【例2】 为了缓解城市的交通拥堵情况,某市准备出台限制私家车的政策,为此要进行民意调查.某个调查小组调查了一些拥有私家车的市民,你认为这样的调查结果能很好地反映该市市民的意愿吗?
[解] (1)一个城市的交通状况的好坏将直接影响着生活在这个城市中的每个人,关系到每个人的利益.为了调查这个问题,在抽样时应当关注到各种人群,既要抽到拥有私家车的市民,也要抽到没有私家车的市民.
(2)调查时,如果只对拥有私家车的市民进行调查,结果一定是片面的,不能代表所有市民的意愿.因此,在调查时,要对生活在该城市的所有市民进行随机地抽样调查,不要只关注到拥有私家车的市民.
在统计活动中,尤其是大型的统计活动,为避免一些外界因素的干扰,通常需要确定调查的对象、调查的方法与策略,需要精心设计前期的准备工作和收集数据的方法,然后对数据进行分析,得出统计推断.
2.一些期刊杂志社经常会请一些曾经高考落榜而在某方面的事业上取得成就的著名专家、学者,谈他们对高考落榜的看法,这些名人所讲的都是大同小异,不外乎“我也有过落榜的沮丧,但从长远看,它有益于我的人生”“我是因祸得福,落榜使我走了另一条成功之路”等.小明据此得出一条结论:“上大学不如高考落榜”,他的结论正确吗?
[解] 小明的结论是错误的,在众多的高考落榜生中,走出另外一条成功之路的是少数,小明通过研究一些期刊杂志社报道过的一些成功人士就得出结论是片面的,因为他的抽样不具有代表性.
1.下列调查方式中,可用“普查”方式的是(  )
A.调查某品牌电视机的市场占有率
B.调查某电视连续剧在全国的收视率
C.调查某校七年级一班的男女同学的比例
D.调查某型号炮弹的射程
[答案] C
2.粮食安全是每一个国家必须高度关注的问题,在现有条件下,降雨量对粮食生产的影响是非常巨大的,某次降雨之后该地气象台播报说本次降雨量是该地有气象记录以来最大的一次,气象台获取这些数据的途径是(  )
A.通过调查获取数据 B.通过试验获取数据
C.通过观察获取数据 D.通过查询获得数据
C [该地的气象记录和本次的降雨量数据都是通过观察获取的.]
3.为了了解我国电视机的销售情况,小张在某网站上下载了下图:
(1)小张获取数据的途径是什么?
(2)由图可知,电视机的销售总量在2012年达到最大值,你认为电视机销售总量出现下滑的主要原因是什么?
[解] (1)小张获取数据的途径是通过查询获得数据.
(2)结合我国的经济发展水平可知,从2012年开始,电视机销售总量出现下滑的主要原因是市场的饱和.
回顾本节知识,自我完成以下问题:
1.获取数据的途径一般有哪些?
[提示] 获取数据的途径一般有很多种,如统计报表和年鉴、社会调查、试验设计、普查和抽样调查、互联网等.
2.统计的基本概念有哪几个?
[提示] 总体、个体、样本、样本容量.
3.在实际统计中如何选择统计方式?
[提示] 要依据统计的对象,是否具有破坏性,是否需要了解每一个个体等情况来选择抽查还是普查.6.3 统计图表
学 习 任 务 核 心 素 养
1.理解并掌握统计图表的画法及应用.(重点、易混点)2.结合实例,能用样本估计总体的取值规律.(重点、难点) 1.通过对统计图表的学习,培养数学抽象素养.2.通过应用统计图表估计总体的取值规律,培养数据分析素养.
我市政府为了节约生活用水,计划在本市试行居民生活用水定额管理:即确定一个居民月用水量标准a,用水量不超过a的部分按平价收费,超过a的部分按议价收费.
如果标准太低,会影响居民的日常生活;如果标准太高,则不利于节水.
如果政府希望大部分居民的日常生活不受影响,那么标准a定为多少比较合理?需要做哪些工作?
知识点 统计图表
1.画频率分布直方图的步骤
(1)计算极差:极差为一组数据中最大值与最小值的差.
(2)确定组距和组数:为了方便起见,一般取等长组距,并且组距应力求“取整”,组数=.
(3)将数据分组.
(4)列频率分布表:当样本容量是n的观测数据中有ni个落入第i组时,我们称为fi=是第i组的频率.其中频数合计应是样本容量,频率合计是1.
(5)画频率分布直方图:横轴表示分组,纵轴表示.小长方形的面积=组距×=频率.各小长方形的面积总和等于1.
2.频率分布折线图
如果将频率分布直方图中的左边和右边各延长一个分组,取各相邻小矩形上底边的中点,用线段顺次连接各点,就得到频率分布折线图.频率分布折线图也反映出数据频率分布的规律.
3.其它统计图表
统计图表 主要应用
扇形统计图 直观描述各类数据占总数的比例
条形统计图和直方图 直观描述不同类别或分组数据的频数和频率
折线统计图 描述数据随时间的变化趋势
(1)为什么要对样本数据进行分组?
(2)频数分布表与频率分布直方图有什么不同?
[提示] (1)不分组很难看出样本中的数字所包含的信息,分组后,计算出频率,从而估计总体的分布特征.
(2)频数分布表能使我们清楚地知道数据分布在各个小组的个数,而频率分布直方图则是从各个小组数据在样本容量中所占比例大小的角度来表示数据分布的规律.
1.思考辨析(正确的打“√”,错误的打“×”)
(1)频率分布直方图中小长方形的高表示该组上的个体在样本中出现的频率与组距的比值. (  )
(2)频率分布直方图中小矩形的面积表示该组的个体数. (  )
(3)扇形统计图表示的是比例,条形统计图不表示比例. (  )
[答案] (1)√ (2)× (3)×
2.把过期的药品随意丢弃,会造成对土壤和水体的污染,危害人们的健康.如何处理过期药品,有关机构随机对若干家庭进行调查,调查结果如图,其中对过期药品处理不正确的家庭达到(  )
A.79%    B.80%   
C.18%    D.82%
D [79%+1%+2%=82%.]
3.如图所示是一容量为100的样本的频率分布直方图,则由图中的数据可知,样本落在[15,20]内的频数为(  )
A.20
B.30
C.40
D.50
B [样本数据落在[15,20]内的频数为100×[1-5×(0.04+0.1)]=30.]
4.某班计划开展一些课外活动,全班有40名学生报名参加,他们就乒乓球、足球、跳绳、羽毛球4项活动的参加人数做了统计,绘制了条形统计图(如图所示),那么参加羽毛球活动的人数的频率是________.
0.1 [参加羽毛球活动的人数是4,则频率是=0.1.]
类型1 频率分布直方图的画法
【例1】 一个农技站为了考察某种大麦穗生长的分布情况,在一块试验田里抽取了100株麦穗,量得长度如下(单位:cm):
6.5 6.4 6.7 5.8 5.9 5.9 5.2 4.0 5.4 4.6
5.8 5.5 6.0 6.5 5.1 6.5 5.3 5.9 5.5 5.8
6.2 5.4 5.0 5.0 6.8 6.0 5.0 5.7 6.0 5.5
6.8 6.0 6.3 5.5 5.0 6.3 5.2 6.0 7.0 6.4
6.4 5.8 5.9 5.7 6.8 6.6 6.0 6.4 5.7 7.4
6.0 5.4 6.5 6.0 6.8 5.8 6.3 6.0 6.3 5.6
5.3 6.4 5.7 6.7 6.2 5.6 6.0 6.7 6.7 6.0
5.6 6.2 6.1 5.3 6.2 6.8 6.6 4.7 5.7 5.7
5.8 5.3 7.0 6.0 6.0 5.9 5.4 6.0 5.2 6.0
6.3 5.7 6.8 6.1 4.5 5.6 6.3 6.0 5.8 6.3
根据上面的数据列出频率分布表,绘制出频率分布直方图,并估计在这块试验田里长度在5.75~6.35 cm之间的麦穗所占的百分比.
[解] (1)计算极差:7.4-4.0=3.4.
(2)确定组距和组数:
若取组距为0.3,因为≈11.3,需分为12组,组数合适,所以取组距为0.3,组数为12.
(3)将数据分组:
使分点比数据多一位小数,并且把第1小组的起点稍微减小一点,那么所分的12个小组可以是3.95~4.25,4.25~4.55,4.55~4.85,…,7.25~7.55.
(4)列频率分布表:
分组 频数 频率
[3.95,4.25) 1 0.01
[4.25,4.55) 1 0.01
[4.55,4.85) 2 0.02
[4.85,5.15) 5 0.05
[5.15,5.45) 11 0.11
[5.45,5.75) 15 0.15
[5.75,6.05) 28 0.28
[6.05,6.35) 13 0.13
[6.35,6.65) 11 0.11
[6.65,6.95) 10 0.10
[6.95,7.25) 2 0.02
[7.25,7.55] 1 0.01
合计 100 1.00
(5)绘制频率分布直方图如图.
从表中看到,样本数据落在5.75~6.35之间的频率是0.28+0.13=0.41,于是可以估计,在这块试验田里长度在5.75~6.35 cm之间的麦穗约占41%.
绘制频率分布直方图应注意的问题
(1)在绘制出频率分布表后,画频率分布直方图的关键就是确定小矩形的高.一般地,频率分布直方图中两坐标轴上的单位长度是不一致的,合理的定高方法是“以一个恰当的单位长度”(没有统一规定),然后以各组的“”所占的比例来定高.如我们预先设定以“”为1个单位长度,代表“0.1”,则若一个组的为0.2,则该小矩形的高就是“”(占两个单位长度),如此类推.
(2)数据要合理分组,组距要选取恰当,一般尽量取整,数据为30~100个左右时,应分成5~12组,在频率分布直方图中,各个小长方形的面积等于各组的频率,小长方形的高与频数成正比,各组频数之和等于样本容量,频率之和为1.
1.如表所示给出了在某校500名12岁男孩中,用随机抽样得出的120人的身高(单位:cm).
区间界限 [122,126) [126,130) [130,134) [134,138) [138,142)
人数 5 8 10 22 33
区间界限 [142,146) [146,150) [150,154) [154,158]
人数 20 11 6 5
(1)列出样本频率分布表;
(2)画出频率分布直方图;
(3)估计身高小于134 cm的人数占总人数的百分比.
[解] (1)样本频率分布表如下:
分组 频数 频率
[122,126) 5 0.04
[126,130) 8 0.07
[130,134) 10 0.08
[134,138) 22 0.18
[138,142) 33 0.28
[142,146) 20 0.17
[146,150) 11 0.09
[150,154) 6 0.05
[154,158] 5 0.04
合计 120 1.00
(2)其频率分布直方图如下.
(3)由样本频率分布表可知,身高小于134 cm的男孩出现的频率为0.04+0.07+0.08=0.19,所以我们估计身高小于134 cm的人数占总人数的19%.
类型2 频率分布直方图的应用
【例2】 为了了解高一年级学生的体能情况,某校抽取部分学生进行一分钟跳绳次数测试,将所得数据整理后,画出频率分布直方图(如图所示),图中从左到右各小矩形的面积之比为2∶4∶17∶15∶9∶3,第二小组的频数为12.
(1)第二小组的频率是多少?样本容量是多少?
(2)若次数在110以上(含110次)为达标,则该校全体高一年级学生的达标率是多少?
[解] (1)频率分布直方图是以面积的形式反映了数据落在各小组内的频率大小的,因此第二小组的频率为=0.08.
又因为第二小组的频率=,
所以样本容量===150.
(2)由频率分布直方图可估计该校高一年级学生的达标率为×100%=88%.
频率分布直方图具备的性质
(1)因为小矩形的面积=组距×=频率,所以各小矩形的面积表示相应各组的频率.这样,频率分布直方图就以面积的形式反映了数据落在各个小组内的频率大小.
(2)在频率分布直方图中,各小矩形的面积之和等于1.
(3) 样本容量=.
2.某高校调查了200名学生每周的自习时间(单位:小时),制成了如图所示的频率分布直方图,其中自习时间的范围是[17.5,30],样本数据分组为[17.5,20),[20,22.5),[22.5,25),[25,27.5),[27.5,30].根据直方图,这200名学生中每周的自习时间不少于22.5小时的人数是(  )
A.56 B.60   
C.120    D.140
D [由频率分布直方图可知每周自习时间不少于22.5小时的频率为(0.16+0.08+0.04)×2.5=0.7,故每周自习时间不少于22.5小时的人数为0.7×200=140.故选D.]
类型3 其它统计图表与频率分布直方图的综合应用
【例3】 如图是根据某市3月1日至3月10日的最低气温(单位:℃)的情况绘制的折线统计图,试根据折线统计图反映的信息,绘制该市3月1日到10日最低气温(单位:℃)的扇形统计图.
1 统计图表对于数据分析能够起到什么作用?
2 条形统计图、扇形统计图、折线统计图、频率分布直方图这四种统计图中,哪些可以从图中看出原始数据?
[解] 该城市3月1日至10日的最低气温(单位:℃)情况如下表:
日期 1 2 3 4 5 6 7 8 9 10
最低气温(℃) -3 -2 0 -1 1 2 0 -1 2 2
其中最低气温为-3 ℃的有1天,占10%,最低气温为-2 ℃的有1天,占10%,最低气温为-1℃的有2天,占20%,最低气温为0℃的有2天,占20%,最低气温为1℃的有1天,占10%,最低气温为2℃的有3天,占30%,扇形统计图如图所示.
若本例中条件不变,绘制该市3月1日到3月10日最低气温(单位:℃)的条形统计图.
[解] 该城市3月1日到3月10日的最低气温(单位:℃)情况如下表:
日期 1 2 3 4 5 6 7 8 9 10
最低气温(℃) -3 -2 0 -1 1 2 0 -1 2 2
其中最低气温为-3 ℃的有1天,最低气温为-2 ℃的有1天,最低气温为-1 ℃的有2天,最低气温为0 ℃的有2天,最低气温为1 ℃的有1天,最低气温为2 ℃的有3天.条形统计图如图所示.
折线统计图的读图方法
(1)读折线统计图时,首先要看清楚直角坐标系中横、纵坐标表示的意义;其次要明确图中的数量及其单位.
(2)在折线统计图中,从折线的上升、下降可分析统计数量的增减变化情况,从陡峭程度上,可分析数据间相对增长、下降的幅度.
3.每到春夏交替时节,雌性杨树会以满天飞絮的方式来传播下一代,漫天飞舞的杨絮易引发皮肤病、呼吸道疾病等,给人们造成困扰.为了解市民对治理杨絮方法的赞同情况,某课题小组随机调查了部分市民(问卷调查表如下表所示),并根据调查结果绘制了尚不完整的统计图(如图所示).
治理杨絮——您选哪一项? 单选
a.减少杨树新增面积,控制杨树每年的栽种量
b.调整树种结构,逐渐更换现有杨树
c.选育无絮杨品种,并推广种植
d.对雌性杨树注射生物干扰素,避免产生飞絮
e.其他
由两个统计图可知,选择d的人数和扇形统计图中e的圆心角度数分别为(  )
A.500,28.8° B.250,28.6°
C.500,28.6° D.250,28.8°
A [设接受调查市民的总人数为x,
由调查结果条形统计图可知选择a的人数为300,通过调查结果的扇形统计图可知选择a的人数比例为15%,
∴15%=,解得x=2 000.
∴选择d的人数为2 000×25%=500,
∴扇形统计图中e的圆心角度数为(1-15%-12%-40%-25%)×360°=28.8°.]
1.学校为了调查学生在课外读物方面的支出情况,抽取了一个容量为n的样本,其频率分布直方图如图所示,其中支出(单位:元)在[50,60]内的学生有30人,则n的值为(  )
A.100  B.1 000    
C.90     D.900
A [由题意可知,前三组的频率之和为(0.01+0.024+0.036)×10=0.7,∴支出在[50,60]内的频率为1-0.7=0.3,∴n==100.]
2.某公司2020年在各个项目中总投资500万元,如图是几类项目的投资占比情况,已知在1万元以上的项目投资中,少于3万元的项目投资占,那么不少于3万元的项目投资共有(  )
A.56万元 B.65万元
C.91万元 D.147万元
B [由题意知,因为在1万元以上的项目投资中,少于3万元的项目投资占,
所以在1万元以上的项目投资中,不少于3万元的项目投资占比为,
而1万元以上的项目投资占总投资的比例为1-46%-33%=21%,
所以不少于3万元的项目投资共有500×21%×=65(万元).故选B.]
3.随着2022年北京冬奥会临近,中国冰雪产业快速发展,冰雪运动人数快速上升,冰雪运动市场需求得到释放,将引领户外用品行业市场增长.如图是2012年至2018年中国雪场滑雪人次(单位:万)与同比增长率的统计图,则下列结论中不正确的是(  )
A.2013年至2018年,中国雪场滑雪人次逐年增加
B.2013年至2015年,中国雪场滑雪人次和同比增长率均逐年增加
C.2018年与2013年相比,中国雪场滑雪人次的同比增长率近似相等,所以同比增长人数也近似相等
D.2018年与2016年相比,中国雪场滑雪人次增长率约为30.5%
C [对于A,2013年至2018年,中国雪场滑雪人次逐年增加,故A正确;
对于B,2013年至2015年,中国雪场滑雪人次和同比增长率均逐年增加,故B正确;
对于C,2018年与2013年相比,中国雪场滑雪人次的同比增长率近似相等,但是同比增长人数不相等,2018年比2013年增长人数多,故C错误;
对于D,2018年与2016年相比,中国雪场滑雪人次增长率约为:×100%≈30.5%.故D正确.故选C.]
4.一个容量为100的样本,其数据的分组与各组的频数如下表:
组别 [0,10) [10,20) [20,30) [30,40) [40,50) [50,60) [60,70]
频数 12 13 24 15 16 13 7
则样本数据落在[10,40)上的频率为________.
0.52 [样本数据落在[10,40)上的频数为13+24+15=52.则样本数据落在[10,40)上的频率为=0.52.]
5.甲、乙两个城市2020年4月中旬每天的最高气温统计图如图所示,则这9天里,气温比较稳定的是________(选填“甲”或“乙”)城市.
甲 [这9天里,乙城市的最高气温约为35 ℃,最低气温约为20 ℃;甲城市的最高气温约为25 ℃,最低气温约为21 ℃.故甲城市气温较稳定.]
回顾本节知识,自我完成以下问题:
(1)频率分布直方图、折线统计图及扇形统计图各有什么特点?
[提示] 频率分布直方图及折线统计图特别适用于数据量很大的情况,但却损失了数据的部分信息.扇形统计图适合表示总体的各个部分所占比例的问题,但不适用于总体分成部分较多的问题.6.2 抽样
6.2.1 简单随机抽样
学 习 任 务 核 心 素 养
1.通过实例,了解简单随机抽样的含义及其解决问题的过程.(重点)2.掌握两种简单随机抽样方法:抽签法和随机数法.(重点、难点) 通过对简单随机抽样的概念和应用的学习,培养数据分析素养.
在我国,食品安全问题越来越受到人们的关注,党中央、国务院和各级政府部门也高度重视,从制度建设和管理上都做了大量的、卓有成效的工作,取得了良好的效果.
某报告称,食品质量检测人员对某品牌牛奶的抽检合格率为99.9%,你知道这一数据是怎么得到的吗?
知识点 简单随机抽样的概念
1.简单随机抽样
如果在抽样过程中,能使总体中的每个个体都有相同的可能性被选入样本,那么这样的抽样叫作随机抽样.
随机抽样分为无放回的随机抽样和有放回的随机抽样.
一般地,设一个总体含有N个个体,从中无放回地抽取n(n≤N)个个体为样本,如果总体内的每个个体都有相同的可能性被抽到,则把这样的抽样方法称为简单随机抽样.
我们把简单随机抽样得到的样本称为简单随机样本.
2.抽签法
抽签法的步骤:
①假设一个总体有N个个体,将它们逐一编号;
②制作N个号签(号签可以用小球、纸片等制作),将编号写在号签上;
③将号签放在一个容器中,并充分搅拌均匀;
④从容器中任意抽取n个号签,记录其编号,就得到一个容量为n的样本.
3.随机数法
先把总体中的个体编号,用随机数工具产生与总体中个体数量相等的整数随机数,把产生的随机数作为抽中的编号,并剔除重复的编号,直到抽足样本所需要的个体数.
1.采用抽签法抽取样本时,为什么将编号写在外观、质地等无差别的小纸片(也可以是卡片、小球等)上作为号签,并将这些小纸片放在一个不透明的盒里,充分搅拌?
[提示] 为了使每个号签被抽取的可能性相等,保证抽样的公平性.
2.抽签法有什么优点和缺点?
[提示] (1)优点:简单易行,当总体的个体数不多时,使总体处于“搅拌”均匀的状态比较容易,这时,每个个体都有均等的机会被抽中,从而能够保证样本的代表性.
(2)缺点:仅适用于个体数较少的总体,当总体容量较大时,费时费力又不方便,况且,如果号签搅拌的不均匀,可能导致抽样不公平.
1.思考辨析(正确的打“√”,错误的打“×”)
(1)抽签法和随机数法都适用于总体容量和样本容量较小时的抽样. (  )
(2)利用随机数法抽取样本时,选定的初始数是任意的,但读数的方向只能是从左向右读. (  )
(3)利用随机数法抽取样本时,若总体容量为100,则给每个个体分别编号为1,2,3,…,100. (  )
[答案] (1)√ (2)× (3)×
2.使用简单随机抽样从1 000件产品中抽出50件进行某项检查,合适的抽样方法是(  )
A.抽签法     B.随机数法
C.随机抽样法 D.以上都不对
B [由于总体相对较大,样本容量较小,故采用随机数法较为合适.]
类型1 简单随机抽样的判断
【例1】 下列5个抽样中,简单随机抽样的个数是(  )
①一儿童从玩具箱的20件玩具中任意拿一件玩,玩后放回再拿一件,连续玩了5件;
②仓库中有1万支奥运火炬,从中一次性抽取100支火炬进行质量检查;
③某班从50名同学中,选出5名数学成绩最优秀的同学代表本班参加数学竞赛;
④一彩民选号,从装有36个大小、形状都相同的号签的盒子中无放回地抽出6个号签.
A.0  B.1    
C.2     D.3
B [根据简单随机抽样的特点逐个判断.①不是简单随机抽样.因为一儿童从玩具箱的20件玩具中任意拿一件玩,玩后放回再拿一件,连续玩了5件它不是无放回的抽取和每个个体抽到的可能性不相同.②不是简单随机抽样.虽然“一次性抽取”和“逐个抽取”不影响个体被抽到的可能性,但简单随机抽样要求的是“无放回的抽取和每个个体抽到的可能性相同”.③不是简单随机抽样.因为5名同学是从中挑出来的,是最优秀的,每个个体被抽到的可能性不同,不符合简单随机抽样中“等可能抽样”的要求.④是简单随机抽样.因为总体中的个体数是有限的,并且是从总体中无放回的抽取和每个个体抽到的可能性相同.综上,只有④是简单随机抽样.]
简单随机抽样具备的特征
(1)被抽取样本的总体中的个体数N是有限的;
(2)每个个体都有相同的可能性被抽到;
(3)简单随机抽样是一种等可能的抽样.
如果三个特征有一个不满足,就不是简单随机抽样.
1.为了进一步严厉打击交通违法,交警队在某一路口随机抽查司机是否酒驾,这种抽查是(  )
A.简单随机抽样 B.抽签法
C.随机数法 D.以上都不对
D [由于不知道总体的情况(包括总体个数),因此不属于简单随机抽样.]
类型2 抽签法的应用
【例2】 从20架钢琴中抽取5架进行质量检查,请用抽签法确定这5架钢琴.
[解] 第一步,将20架钢琴编号,号码是01,02,…,20.
第二步,将号码分别写在外观、质地等无差别的小纸片上作为号签.
第三步,将小纸片放入一个不透明的盒里,充分搅匀.
第四步,从盒中不放回地逐个抽取5个号签,使与号签上编号相同的钢琴进入样本.
1.一个抽样试验能否用抽签法,关键看两点:一是制签是否方便;二是个体之间差异不明显.
2.应用抽签法时应注意的问题
(1)编号时,如果已有编号可不必重新编号.
(2)号签要求大小、形状完全相同.
(3)号签要均匀搅拌.
(4)根据实际需要采用有放回或无放回抽取.
2.为迎接2022年北京冬奥会,奥委会现从报名的某高校30名志愿者中选取6人组成奥运志愿小组,请用抽签法设计抽样方案.
[解] (1)将30名志愿者编号,号码分别是01,02,…,30.
(2)将号码分别写在外观、质地等无差别的小纸片上作为号签.
(3)将小纸片放入一个不透明的盒里,充分搅匀.
(4)从盒中不放回地逐个抽取6个号签,使与号签上编号相同的志愿者进入样本.
类型3 随机数法及样本平均数的综合应用
【例3】 某市质监局要检查某公司某个时间段生产的500克袋装牛奶的质量是否达标,现从500袋牛奶中抽取10袋进行检验.
(1)利用随机数法抽取样本时,应如何操作?
(2)如果用随机试验生成部分随机数如下所示,据此写出应抽取的袋装牛奶的编号.
162,277,943,949,545,354, 821,737, 932,354,873,520,964,384,
263,491,648,642,175,331,572,455,068,877,047,447,672,172,
065,025,834,216,337,663,013,785,916,955,567,199,810,507,
175,128,673,580,667.
(3)质监局对该公司生产的袋装牛奶检验的质量指标有两个:一是每袋牛奶的质量满足500±5g,二是10袋质量的平均数≥500g,同时满足这两个指标,才认为公司生产的牛奶为合格,否则为不合格.经过检测得到10袋袋装牛奶的质量(单位:g)为:
502,500,499,497,503,499,501,500,498,499.
计算这个样本的平均数,并按照以上标准判断牛奶质量是否合格.
(1)某工厂有2 000名工人,从中选取20人参加职工代表大会,采用简单随机抽样方法进行抽样,是用抽签法还是随机数法?为什么?
(2)某工厂的质检人员采用随机数法对生产的100件产品进行检查,若抽取10件进行检查,应如何对100件产品编号?
[解] (1)第一步,将500袋牛奶编号为001,002,…,500.
第二步,用随机数工具产生1~500范围内的随机数.
第三步,把产生的随机数作为抽中的编号,使编号对应的袋装牛奶进入样本.
第四步,重复上述过程,直到产生不同的编号等于样本所需要的数量.
(2)应抽取的袋装牛奶的编号为:162,277,354,384,263,491,175,331,455,068.
(3)=
=499.8<500,所以该公司的牛奶质量不合格.
1.该公司对质监部门的这种检验方法并不认可,公司自己质检部门抽取了100袋牛奶按照本例(3)检验标准,统计得到这100袋袋装牛奶的质量都满足500±5g,平均数为500.4g,你认为质监局和公司的检验结果哪一个更可靠?为什么?
[解] 该公司的质检部门的检验结果更可靠.因为质监局抽取的样本较少,不能很好地反映总体,该公司的质检部门抽取的样本量较大,一般来说,样本量大的会好于样本量小的.尤其是样本量不大时,增加样本量可以较好地提高估计的效果.
2.为进一步加强公司生产牛奶的质量,规定袋装牛奶的质量变量值为Yi=,公司质监部门又抽取了一个容量为50的样本,其质量变量值如下:
1 1 1 0 1 1 1 1 0 0 1 0 1 0 1 0 1 0 1 0 1 1 1 1 0 1 0 1 1 1 0 0 0 1 0 1 0 1 0 0 1 0 0 1 0 1 0 1 0 1
据此估计该公司生产的袋装牛奶质量不低于500 g的比例.
[解] 由样本观测数据,计算可得样本平均数为=0.56,据此估计该公司生产的袋装牛奶质量不低于500 g的比例约为0.56.
随机数法的注意点
(1)当总体较大,样本量不大时,可用随机数法抽取样本.
(2)用随机数法抽取样本,为了方便,在编号时需统一编号的位数.
(3) 掌握利用信息技术产生随机数的方法和规则.
3.某学校为了调查高一年级学生的体育锻炼情况,从甲、乙、丙3个班中,按简单随机抽样的方法获得了部分学生一周的锻炼时间(单位:h),数据如表.
甲 6 6.5 7 7.5 8
乙 6 7 8 9 10 11 12
丙 3 4.5 6 7.5 9 10.5 12 13.5
(1)估计这个学校高一年级的学生中,一周的锻炼时间超过10个小时的百分比.
(2)估计这个学校高一年级学生一周的平均锻炼时间.
[解] (1)由题意知,抽取的20个学生中,一周的锻炼时间超过10小时的有5人,故一周的锻炼时间超过10个小时的百分比为=25%.
(2)从甲班抽取的5名学生的总时间为6+6.5+7+7.5+8=35.
从乙班抽取的7名学生的总时间为6+7+8+9+10+11+12=63.
从丙班抽取的8名学生的总时间为3+4.5+6+7.5+9+10.5+12+13.5=66.
则==8.2.
即这个学校高一年级学生一周的平均锻炼时间为8.2小时.
1.某班50名学生中有30名男生,20名女生,用简单随机抽样抽取1名学生参加某项活动,则抽到女生的可能性为(  )
A.0.4 B.0.5
C.0.6 D.
A [在简单随机抽样中,每个个体被抽到机会相等,即=0.4.]
2.抽签法确保样本代表性的关键是(  )
A.制签 B.搅拌均匀
C.逐一抽取 D.抽取不放回
B [若样本具有很好的代表性,则每一个个体被抽取的机会相等,故需要对号签搅拌均匀.]
3.“双色球”彩票中有33个红色球,每个球的编号分别为01,02,…,33.一位彩民用随机数法选取6个号码作为6个红色球的编号,选取方法是从下面的随机数中第1行第5列和第6列的数字开始,从左向右读数,则依次选出来的第5个红色球的编号为(  )
7816 6572 0802 6314 0214 4319 9714 0198
3204 9234 4936 8200 3623 4869 6938 7181
A.01 B.02
C.14 D.19
A [从随机数中第1行第5列和第6列的数字开始,从左向右读数,依次是65(舍去),72(舍去),08,02,63(舍去),14,02(舍去),14(舍去),43(舍去),19,97(舍去),14(舍去),01,98(舍去),32;选出来的这6个数为:08,02,14,19,01,32,第5个红色球的编号为01.]
4.在总体为N的一批零件中抽取一个容量为30的样本,若每个零件被抽取的可能性为25%,则N的值为________.
120 [据题意=0.25,故N=120.]
5.某展览馆在22天中(全年中随机抽取的数据)每天进馆参观的人数如下:
180,158,170,185,189,180,184,185,140,179,192,185,190,165,182,170,190,183,175,180,185,147
可估计全年该展览馆平均每天参观的人数约为________.
177 [根据题意,可用样本均值近似估计总体均值=×(180+158+170+185+189+180+184+185+140+179+192+185+190+165+182+170+190+183+175+180+185+147)=177.]
回顾本节知识,自我完成以下问题:
1.判断一个抽样方法是否是简单随机抽样的关键是什么?
[提示] 要判断所给的抽样方法是不是简单随机抽样,关键是看它们是否符合简单随机抽样的定义,即简单随机抽样的四个特点:总体有限、逐个抽取、无放回抽取、等可能抽取.
2.常见的简单随机抽样方法有哪些?
[提示] 抽签法和随机数法.
3.抽签法有什么优点和缺点?
[提示] (1)优点:简单易行,当总体的个体数不多时,使总体处于“搅拌”均匀的状态比较容易,这时,每个个体都有均等的机会被抽中,从而能够保证样本的代表性.
(2)缺点:仅适用于个体数较少的总体,当总体容量较大时,费时费力又不方便,况且,如果号签搅拌的不均匀,可能导致抽样不公平.6.2.2 分层抽样
学 习 任 务 核 心 素 养
1.通过实例,了解分层抽样的特点和适用范围.(重点)2.了解分层抽样的必要性,掌握各层样本量比例分配的方法.(重点、难点)3. 结合具体实例,掌握分层抽样的样本均值.(重点) 1.通过对分层抽样的学习,培养数学抽象素养.2.通过对分层抽样的应用,培养数据分析素养.
假设某地区有高中生2 400人,初中生10 900人,小学生11 000人.此地区教育部门为了了解本地区中小学生的近视情况及其形成原因,要从本地区的中小学生中抽取1%的学生进行调查.
你认为应当怎样抽取样本?
知识点 分层抽样
当总体由差异明显的几部分组成时,为了使抽取的样本更好地反映总体的情况,把总体中各个个体按照某种特征或某种规则划分为互不交叉的层,然后对各层按其在总体中所占比例独立进行简单随机抽样,这种抽样方法称为分层抽样.
(1)哪种情况下适合选用分层随机抽样?
(2)简单随机抽样和分层抽样有什么区别和联系?
[提示] (1)在个体之间差异较大的情形下,只要选取的分层变量合适,使得各层间差异明显、层内差异不大,分层抽样的效果一般会好于简单随机抽样.
(2)区别:简单随机抽样是从总体中逐个抽取样本;分层抽样则首先将总体分成几层,在各层中按比例分配抽取样本.
联系:①抽样过程中每个个体被抽到的可能性相等;
②每次抽出个体后不再将它放回,即不放回抽样.
1.思考辨析(正确的打“√”,错误的打“×”)
(1)在统计实践中选择哪种抽样方法关键是看总体容量的大小.
(  )
(2)分层抽样中,个体数量较少的层抽取的样本数量较少,这是不公平的. (  )
(3)从全班50名同学中抽取5人调查作业完成情况适合用分层抽样. (  )
[答案] (1)×  (2)×  (3)×
2.某校高三年级有男生500人,女生400人,为了解该年级学生的健康状况,从男生中任意抽取25人,从女生中任意抽取20人进行调查.这种抽样方法是(  )
A.简单随机抽样   B.抽签法
C.随机数法 D.分层抽样
D [从男生500人中抽取25人,从女生400人中抽取20人,抽取的比例相同,因此用的是分层抽样.]
3.某校有高一学生400人,高二学生380人,高三学生220人,现教育局督导组欲用分层抽样的方法抽取50名学生进行问卷调查,则下列判断正确的是(  )
A.高一学生被抽到的可能性最大
B.高二学生被抽到的可能性最大
C.高三学生被抽到的可能性最大
D.每位学生被抽到的可能性相等
D [按照分层抽样,每个个体被抽到的概率是相等的,都等于=.]
4.某学院的A,B,C三个专业共有1 200名学生,为了调查这些学生勤工俭学的情况,拟采用分层抽样的方法抽取一个容量为120的样本.已知该学院的A专业有380名学生,B专业有420名学生,则在该学院的C专业应抽取________名学生.
40 [C专业的学生有1 200-380-420=400(名),由分层抽样原理,应抽取120×=40(名).]
类型1 对分层抽样概念的理解
【例1】 (1)某政府机关在编人员共100人,其中副处级以上干部10人,一般干部70人,工人20人,上级部门为了了解该机关对政府机构改革的意见,要从中抽取20人,用下列哪种方法最合适(  )
A.抽签法 B.随机数法
C.简单随机抽样法 D.分层抽样
(2)分层抽样即将相似的个体归入一类(层),然后每类抽取若干个个体构成样本,所以分层抽样为保证每个个体等可能抽样,必须进行(  )
A.每层等可能抽样
B.每层可以不等可能抽样
C.所有层按同一抽样比等可能抽样
D.所有层抽取的个体数量相同
(1)D (2)C [(1)总体由差异明显的三部分构成,应选用分层抽样.
(2)保证每个个体等可能的被抽取是三种基本抽样方式的共同特征,为了保证这一点,分层抽样时必须在所有层都按同一抽样比等可能抽取.]
1.使用分层抽样的前提
分层抽样的总体按一个或多个变量划分成若干个子总体,并且每一个个体属于且仅属于一个子总体,而层内个体间差异较小.
2.使用分层抽样应遵循的原则
(1)将相似的个体归入一类,即为一层,分层要求每层的各个个体互不交叉,即遵循不重复、不遗漏的原则.
(2)分层抽样为保证每个个体等可能入样,需遵循在各层中进行简单随机抽样,每层样本数量与每层个体数量的比等于抽样比.
1.下列问题中,最适合用分层抽样抽取样本的是(  )
A.从10名同学中抽取3人参加座谈会
B.某社区有500个家庭,其中高收入的家庭125户,中等收入的家庭280户,低收入的家庭95户,为了了解生活购买力的某项指标,要从中抽取一个容量为100户的样本
C.从1 000名工人中,抽取100人调查上班途中所用时间
D.从生产流水线上,抽取样本检查产品质量
B [A中总体所含个体无差异且个数较少,适合用简单随机抽样;C和D中总体所含个体无差异且个数较多,不适合用分层抽样;B中总体所含个体差异明显,适合用分层抽样.]
类型2 分层抽样的应用
【例2】 某学校有在职人员160人,其中行政人员有16人,教师有112人,后勤人员有32人.教育部门为了了解在职人员对学校机构改革的意见,要从中抽取一个容量为20的样本,请利用分层抽样的方法抽取,写出抽样过程.
[解] 抽样过程如下:
第一步,确定抽样比,样本容量与总体容量的比为=.
第二步,确定分别从三类人员中抽取的人数,从行政人员中抽取16×=2(人);从教师中抽取112×=14(人);从后勤人员中抽取32×=4(人).
第三步,采用简单抽样的方法,抽取行政人员2人,教师人员14人,后勤人员4人.
第四步,把抽取的个体组合在一起构成所需样本.
分层抽样的步骤
2.在一批电视中,有甲厂生产的56台,乙厂生产的42台,用分层随机抽样的方法从中抽取一个容量为14的样本.
[解] (1)确定各厂被抽取电视机的台数,
抽样比为=,
故从甲厂抽取56×=8(台),
从乙厂抽取42×=6(台).
(2)在各厂用简单随机抽样抽取作为样本的电视机.
(3)合成每层抽样,组成样本.
类型3 分层抽样中的计算问题
【例3】 (1)交通管理部门为了解机动车驾驶员(简称驾驶员)对某新法规的知晓情况,对甲、乙、丙、丁四个社区做分层抽样调查,假设四个社区驾驶员的总人数为N,其中甲社区有驾驶员96人.若在甲、乙、丙、丁四个社区抽取驾驶员的人数分别为12,21,25,43,则这四个社区驾驶员的总人数N为(  )
A.101 B.808
C.1 212 D.2 012
(2)将一个总体分为A,B,C三层,其个体数之比为5∶3∶2.若用分层抽样方法抽取容量为100的样本,则应从C中抽取________个个体.
(1)在分层抽样中,N为总体容量,n为样本容量,如何确定各层的个体数?
(2)在分层抽样中,总体容量、样本容量、各层的个体数、各层抽取的样本数这四者之间有何关系?
(1)B (2)20 [(1)因为甲社区有驾驶员96人,并且在甲社区抽取的驾驶员的人数为12人,
所以四个社区抽取驾驶员的比例为=,
所以驾驶员的总人数为(12+21+25+43)÷=808(人).
(2)∵A,B,C三层个体数之比为5∶3∶2,总体中每个个体被抽到的可能性相等,∴分层抽样应从C中抽取100×=20(个)个体.
进行分层抽样的相关计算时,常用到的2个关系
(1)=.
(2)总体中某两层的个体数之比等于样本中这两层抽取的个体数之比.
3.生物等级考试成绩位次由高到低分为A、B、C、D、E.各等级人数所占比例依次为∶A等级15%,B等级40%,C等级30%,D等级14%,E等级1%.现采用分层抽样的方法,从参加生物等级考试的学生中抽取300人作为样本,则该样本中获得A或B等级的学生人数为(  )
A.95   B.144   C.120   D.165
D [设该样本中获得A或B等级的学生人数为x,则=,∴x=165.
故选D.]
1.某学校为了了解三年级、六年级、九年级这三个年级之间的学生的课业负担情况,拟从这三个年级中按人数比例抽取部分学生进行调查,则最合理的抽样方法是(  )
A.抽签法 B.简单随机抽样
C.分层抽样 D.随机数法
C [根据年级不同产生差异及按人数比例抽取易知应为分层抽样.]
2.甲校有3 600名学生,乙校有5 400名学生,丙校有1 800名学生,为统计三校学生某方面的情况,计划采用分层抽样法抽取一个容量为90的样本,应在这三校分别抽取学生(  )
A.30人,30人,30人 B.30人,45人,15人
C.20人,30人,40人 D.30人,50人,10人
B [先求抽样比==,再各层按抽样比分别抽取,甲校抽取3 600×=30(人),乙校抽取5 400×=45(人),丙校抽取1 800×=15(人),故选B.]
3.某大学为了了解在校本科生对参加某项社会实践活动的意向,拟采用分层抽样的方法,从该校四个年级的本科生中抽取一个容量为300的样本进行调查,已知该校一年级、二年级、三年级、四年级的本科生人数之比为4∶5∶5∶6,则应从一年级本科生中抽取________名学生.
60 [根据题意,应从一年级本科生中抽取的人数为×300=60.]
4.一批产品中有一级品100个,二级品60个,三级品40个,用分层抽样法从这批产品中抽取一个容量为20的样本. 请利用分层抽样的方法抽取,写出抽样过程.
[解] 第一步:确定抽样比,因为100+60+40=200,所以=,
第二步:确定各层抽取的样本数,一级品:100×=10,二级品:60×=6,
三级品:40×=4.
第三步:采用简单随机抽样的方法,从各层分别抽取样本.
第四步:把抽取的个体组合在一起构成所需样本.
回顾本节知识,自我完成以下问题:
1.简单随机抽样和分层抽样有什么区别和联系?
[提示] 区别:简单随机抽样是从总体中逐个抽取样本;分层抽样则首先将总体分成几层,在各层中按比例分配抽取样本.
联系:(1)抽样过程中每个个体被抽到的可能性相等;
(2)每次抽出个体后不再将它放回,即不放回抽样.
2.在分层抽样中,N为总体容量,n为样本容量,如何确定各层的个体数?
[提示] 每层抽取的个体的个数为ni=Ni×,其中Ni为第i(i=1,2,…,k)层的个体数, 为抽样比.
3.在分层抽样中,总体容量、样本容量、各层的个体数、各层抽取的样本数这四者之间有何关系?
[提示] 设总体容量为N,样本容量为n,第i(i=1,2,…,k)层的个体数为Ni,各层抽取的样本数为ni,则=,这四者中,已知其中三个可以求出另外一个.6.4 用样本估计总体
6.4.1 用样本估计总体的集中趋势
学 习 任 务 核 心 素 养
1.结合实例,能用样本估计总体的集中趋势.(重点、难点)2. 理解集中趋势参数的统计含义.(重点、难点) 1.通过对数据平均数、中位数、众数概念的学习,培养数学抽象素养.2.通过利用平均数、中位数、众数估计总体的集中趋势,培养直观想象素养.
现从甲、乙、丙三个厂家生产的同一种耐用家电产品中,各抽取8件产品,对其使用寿命进行跟踪调查,其结果如下:(单位:年)
甲:3,4,5,6,8,8,8,10;
乙:4,6,6,6,8,9,12,13;
丙:3,3,4,7,9,10,11,12.
三家广告中都称其产品的使用寿命为8年,利用初中所学的知识,你能说明为什么吗?
知识点1 平均数
(1)定义:若样本容量为n,第i个个体是xi,则样本平均数=.平均数也称为均值.
(2)总体均值与样本均值
总体均值是总体指标,是一个固定的量.而样本均值依赖于样本的选择,不同的样本通常有不同的样本均值,样本均值带有随机性.在随机抽样的前提下,当样本容量增加时,样本均值会向总体均值μ接近,称为μ的估计.
(3)平均数与频率的关系
一般地,若取值为x1,x2,…,xn的频率分别为f1,f2,…,fn,则其平均数为x1f1+x2f2+…+xnfn.
(4)分层抽样中的总体均值与样本均值
在分层抽样中,用N表示总体A的个体总数,若将总体A分为L层.
用Ni表示第i层(i=1,2,…,L)的个体总数,则有N=N1+N2+…+NL.
称Wi=(i=1,2,…,L)为第i层的层权.
对i=1,2,…,L,用i表示从第i层抽出的样本的均值.称=W11+W22+…+WLL是总体均值μ的简单估计.
1.为了解我国13岁男孩的平均身高,从北方抽取了300个男孩,平均身高为1.60 m;从南方抽取了200个男孩,平均身高为1.50 m.由此可估计我国13岁男孩的平均身高为(  )
A.1.57 m  B.1.56 m  C.1.55 m  D.1.54 m
B [因为从北方抽取了300个男孩,平均身高为1.60 m,从南方抽取了200个男孩,平均身高为1.50 m,
所以这500名13岁男孩的平均身高是=1.56(m),据此可估计我国13岁男孩的平均身高为1.56 m.]
知识点2 众数、中位数
1.定义
(1)众数:观测数据中出现次数最多的数是众数,用M0表示.
(2)中位数:将一组观测数据按从小到大的顺序排列后,称处于中间位置的数是中位数,用Me表示.当数据个数为奇数时,处于中间位置的数就是中位数;当数据的个数是偶数时,则中间两个数的平均数即为中位数.
2.众数、中位数和平均数的比较
名称 优点 缺点
平均数 与中位数相比,平均数反映出样本数据中更多的信息,对样本中的极端值更加敏感 任何一个数据的改变都会引起平均数的改变.数据越“离群”,对平均数的影响越大
中位数 不受数据组中极端值的影响具有较好的稳定性 对极端值不敏感
众数 反映一组数据的集中趋势 众数是一个位置代表值,它不受数据中极端值的影响
3.众数、中位数、平均数与频率分布直方图的关系
(1)平均数:在频率分布直方图中,样本平均数可以用每个小矩形底边中点的横坐标与小矩形的面积的乘积之和近似代替.
(2)中位数:在频率分布直方图中,中位数左边和右边的直方图的面积应该相等.
(3)众数:众数是最高小矩形底边的中点所对应的数据.
(1)中位数一定是样本数据中的一个数吗?
(2)一组数据的众数可以有几个?中位数是否也具有相同的结论?
[提示] (1)不一定.一组数据按大小顺序排列后,如果有奇数个数据,处于中间位置的数是中位数;如果有偶数个数据,则取中间两个数据的平均数是中位数.
(2)一组数据的众数可能有一个,也可能有多个,中位数只有唯一一个.
2.思考辨析(正确的打“√”,错误的打“×”)
(1)一个样本的众数、平均数和中位数都是唯一的. (  )
(2)样本的平均数是频率分布直方图中最高长方形的中点对应的数据. (  )
(3)若改变一组数据中其中的一个数,则这组数据的平均数、中位数、众数都会发生改变. (  )
[答案] (1)× (2)× (3)×
3.一组样本数据为:19,23,12,14,14,17,10,12,18,14,27,则这组数据的众数和中位数分别为(  )
A.14,14 B.12,14
C.14,15.5 D.12,15.5
A [把这组数据按从小到大排列为:10,12,12,14,14,14,17,18,19,23,27,则可知其众数为14,中位数为14.]
4.已知甲、乙两组数据按从小到大排列后如下所示:
甲:27,m,39;
乙:n,32,34,38.
若这两组数据的中位数相同,平均数也相同,则=________.
 [因为两组数据的中位数相同,所以m=(32+34)=33,由于两组数据的平均数相同,所以(27+33+39)=(n+32+34+38).解得n=28,故=.]
5.已知一组数据4,6,5,8,7,6,那么这组数据的平均数为_____.
6 [=6.]
类型1 平均数、中位数和众数的计算
【例1】 已知10名工人生产同一零件,生产的件数分别是16,18,15,11,16,18,18,17,15,13,设其平均数为a,中位数为b,众数为c,则有(  )
A.a>b>c      B.a>c>b
C.c>a>b D.c>b>a
D [由题意得a=(16+18+15+11+16+18+18+17+15+13)==15.7,中位数为16,众数为18,则b=16,c=18,∴c>b>a.]
1.求样本数据的中位数和众数时,把数据按照从小到大的顺序排列后,按照其求法进行.
2.求样本数据的平均数的难点在于计算的准确性.
1.某篮球队甲、乙两名运动员练习罚球,每人练习10组,每组罚球40个,命中个数如下所示 :
甲:20,22,27,8,12,13,37,25,24,26
乙:14,9,13,18,19,20,23,21,21,11
则下面结论中正确的是________(填序号).
①甲的极差是29;②乙的众数是21;③甲的平均数为21.4;④甲的中位数是24.
①②③ [把两组数据按从小到大的顺序排列,得
甲:8,12,13,20,22,24,25,26,27,37
乙:9,11,13,14,18,19,20,21,21,23
故甲的最大值为37,最小值为8,则极差为29,所以①正确;乙中出现最多的数据是21,所以②正确;甲的平均数为甲=(8+12+13+20+22+24+25+26+27+37)=21.4,所以③正确;甲的中位数为(22+24)=23,故④不正确.]
类型2 平均数、中位数和众数的实际应用
【例2】 下面是某快餐店所有工作人员一周的收入表:
老板 大厨 二厨 采购员 杂工 服务生 会计
3 000元 450元 350元 400元 320元 320元 410元
(1)计算所有人员的周平均收入.这个平均收入能反映打工人员的周收入的一般水平吗?为什么?
(2)去掉老板的收入后,再计算平均收入,这能代表打工人员的周收入的水平吗?
[解] (1)周平均收入1=(3 000+450+350+400+320+320+410)=750(元).
这个平均收入不能反映打工人员的周收入水平,可以看出打工人员的收入都低于平均收入,因为老板收入特别高,这是一个异常值,对平均收入产生了较大的影响,并且他不是打工人员.
(2)去掉老板的收入后的周平均收入2=(450+350+400+320+320+410)=375(元).
这能代表打工人员的周收入水平.
利用样本数字特征进行决策时的两个关注点
(1)平均数与每一个数据都有关,可以反映更多的总体信息,但受极端值的影响大;中位数是样本数据所占频率的等分线,不受几个极端值的影响;众数只能体现数据的最大集中点,无法客观反映总体特征.
(2)当平均数大于中位数时,说明数据中存在许多较大的极端值.
2.某小区广场上有甲、乙两群市民正在进行晨练,两群市民的年龄如下(单位:岁):
甲群:13,13,14,15,15,15,15,16,17,17;
乙群:54,3,4,4,5,5,6,6,6,57.
(1)甲群市民年龄的平均数、中位数和众数各是多少岁?其中哪个统计量能较好地反映甲群市民的年龄特征?
(2)乙群市民年龄的平均数、中位数和众数各是多少岁?其中哪个统计量能较好地反映乙群市民的年龄特征?
[解] (1)甲群市民年龄的平均数为
=15(岁),
中位数为15岁,众数为15岁.平均数、中位数和众数相等,因此它们都能较好地反映甲群市民的年龄特征.
(2)乙群市民年龄的平均数为
=15(岁),
中位数为5.5岁,众数为6岁.
由于乙群市民大多数是儿童,所以中位数和众数能较好地反映乙群市民的年龄特征,而平均数的可靠性较差.
类型3 根据频率分布直方图求平均数、中位数和众数
【例3】 某校从参加高二年级学业水平测试的学生中抽出80名学生,其数学成绩(均为整数)的频率分布直方图如图所示.
(1)求这次测试数学成绩的众数;
(2)求这次测试数学成绩的中位数.
1 频率分布直方图中每个小矩形的面积代表什么?
2 在频率分布直方图中,如何确定众数和中位数?
[解] (1)由题干图知众数为=75.
(2)由题干图知,设中位数为x,由于前三个矩形面积之和为0.4,第四个矩形面积为0.3,0.3+0.4>0.5,因此中位数位于第四个矩形内,得0.1=0.03(x-70),所以x≈73.3.
1.若例3的条件不变,求数学成绩的平均分.
[解] 由题干图知这次数学成绩的平均数为:×0.005×10+×0.015×10+×0.02×10+×0.03×10+×0.025×10+×0.005×10=72.
2.若例3条件不变,求80分以下的学生人数.
[解] [40,80)分的频率为:(0.005+0.015+0.020+0.030)×10=0.7,
所以80分以下的学生人数为80×0.7=56.
众数、中位数、平均数与频率分布直方图的关系
(1)众数:众数在样本数据的频率分布直方图中,就是最高矩形的底边中点的横坐标.
(2)中位数:在样本中,有50%的个体大于或等于中位数,因此,在频率分布直方图中,中位数左边和右边的直方图的面积应该相等,由此可估计中位数的值.
(3)平均数:用频率分布直方图估计平均数时,平均数等于频率分布直方图中每个小矩形的面积乘以每个小矩形底边中点的横坐标之和.
3.随着移动互联网的发展,与餐饮美食相关的手机软件层出不穷.现从某市使用A和B两款订餐软件的商家中分别随机抽取100个商家,对它们的“平均送达时间”进行统计,得到频率分布直方图如下.
使用A款软件的100个商家“平
均送达时间”的频率分布直方图
使用B款软件的100个商家“平
均送达时间”的频率分布直方图
(1)试估计该市使用A款订餐软件的商家的“平均送达时间”的众数及平均数(同一组中的数据用该组区间的中点值代表);
(2)如果以“平均送达时间”的平均数作为决策依据,从A和B两款订餐软件中选择一款订餐,你会选择哪款?
[解] (1)依题意,可得该市使用A款订餐软件的商家中“平均送达时间”的众数约为55,平均数约为15×0.06+25×0.34+35×0.12+45×0.04+55×0.4+65×0.04=40.
(2)该市使用B款订餐软件的商家中“平均送达时间”的平均数约为15×0.04+25×0.2+35×0.56+45×0.14+55×0.04+65×0.02=35<40,所以选B款订餐软件.
1.一组观察值4,3,5,6出现的次数分别为3,2,4,2,则样本平均值为(  )
A.4.55 B.4.5   
C.12.5    D.1.64
A [由题意得=(4×3+3×2+5×4+6×2)≈4.55.]
2.下列数字特征一定会在原始数据中出现的是(  )
A.众数 B.中位数
C.平均数 D.都不会
A [众数是在一组数据中出现次数最多的数,所以一定会在原始数据中出现.]
3.已知一组数据按从小到大的顺序排列,得到-1,0,4,x,7,14,中位数为5,则这组数据的平均数为________.
5 [∵-1,0,4,x,7,14的中位数为5,∴=5,∴x=6.
∴这组数据的平均数是=5.]
4.某中学举行电脑知识竞赛,现将高一参赛学生的成绩进行整理后分成五组绘制成如图所示的频率分布直方图,已知图中从左到右的第一、二、三、四、五小组的频率分别是0.30,0.40,0.15,0.10,0.05.
则(1)高一参赛学生成绩的中位数为________分;
(2)高一参赛学生的平均成绩为________分.
(1)65 (2)67 [∵第一个小矩形的面积为0.3,前两个小矩形的面积和为0.3+0.4=0.7>0.5设第二个小矩形底边的一部分长为x,则x×0.04=0.2,得x=5,∴中位数为60+5=65分.
依题意,平均成绩为55×0.3+65×0.4+75×0.15+85×0.1+95×0.05=67,所以平均成绩约为67分.]
回顾本节知识,自我完成以下问题:
1.众数、中位数和平均数在分析样本数据时各有何优缺点?
[提示] 
名称 优点 缺点
平均数 与中位数相比,平均数反映出样本数据中更多的信息,对样本中的极端值更加敏感 任何一个数据的改变都会引起平均数的改变.数据越“离群”,对平均数的影响越大
中位数 不受少数几个极端数据(即排序靠前或靠后的数据)的影响 对极端值不敏感
众数 体现了样本数据的最大集中点 众数只能传递数据中的信息的很少一部分,对极端值不敏感
2.众数、中位数、平均数与频率分布直方图存在怎样的关系?
[提示] (1)平均数:在频率分布直方图中,样本平均数可以用每个小矩形底边中点的横坐标与小矩形的面积的乘积之和近似代替.
(2)中位数:在频率分布直方图中,中位数左边和右边的直方图的面积应该相等.
(3)众数:众数是最高小矩形底边的中点所对应的数据.6.4.2 用样本估计总体的离散程度
学 习 任 务 核 心 素 养
1.结合实例,能用样本估计总体的离散程度参数(标准差、方差、极差).(重点)2.理解离散程度参数的统计含义.(重点、难点) 1.通过对标准差、方差、极差概念的学习,培养数学抽象素养.2.通过利用标准差、方差、极差估计总体的离散程度,培养数据分析素养.
甲、乙两名战士在相同条件下各射靶10次,每次命中的环数分别是:
甲:8,6,7,8,6,5,9,10,4,7;
乙:6,7,7,8,6,7,8,7,9,5.
经过计算可知甲、乙的命中环数的平均数都是7环.
若从二人中选一人去和兄弟部分参加射击大赛,只用平均数能否作出选择?
知识点 极差、方差、标准差
1.极差
(1)定义:将一组数据中的最大值与最小值统称为极值,将最大值与最小值之差称为极差,也称全距,用R表示.
(2)极差的意义
极差反映了一组数据变化的幅度,是描述数据离散程度的最简单的代表值,但它易受极端值的影响,不能反映中间数据的离散状况.
2.方差
(1)总体方差:
①定义:若设y1,y2,…,yN是总体的全部个体,μ是总体均值,则称σ2=为总体方差或方差.
②意义:总体方差σ2刻画了总体中的个体向总体均值μ的集中或离散的程度:方差越小,表明个体与均值μ的距离越近,个体体向μ集中得越好.
总体方程σ2也刻画了总体中个体的稳定或波动的程度:方差越小,表明个体越整齐,波动越小.
(2)样本方差
①定义:若从总体中随机抽样,获得n个观测数据x1,x2,…,xn,用表示这n个数据的均值,则称
s2=[(x1-)2+(x2-)2+…+(xn-)2]
为这n个数据的样本方差,也简称为方差.
②意义:样本方差s2刻画了样本数据相对于样本均值集中或离散的程度.当样本容量较大时,样本方差是总体方差的估计.
(3)分层抽样的方差
将总体分为两层,第一、二层的样本量分别为n1,n2,样本均值分别为1,2,样本方差分别为s,s,则全部样本的样本容量、样本均值和样本方差分别为n=n1+n2,=(n11+n22),s2={n1[s+(1-)2]+n2[s+(2-)2]}.
(1)甲班和乙班各有学生20人、40人,甲班的数学成绩的平均数为80分,方差为2,乙班的数学成绩的平均数为82分,方差为4,那么甲班和乙班这60人的数学成绩的平均分是=81分吗?方差是=3吗?为什么?
(2)数据x1,x2,…,xn的平均数是,方差为s2,数据x1,x2,…,xn,的方差为s,那么s2与s的大小关系如何?
[提示] (1)不是,因为甲班和乙班在这60人中的层权是不同的.
(2)因为数据x1,x2,…,xn,比数据x1,x2,…,xn更加相对集中,所以方差变小了,即s<s2.
3.标准差
(1)定义:标准差是方差的算术平方根.
如果σ2是总体方差,则称σ=是总体标准差;
如果s2是样本方差,则称s=是样本标准差.
s=.
(2)标准差的意义
标准差刻画了数据的离散程度或波动幅度,标准差越大,数据的离散程度越大;标准差越小,数据的离散程度越小.样本标准差是总体标准差的估计.
1.思考辨析(正确的打“√”,错误的打“×”)
(1)若一组数据的值大小相等,没有波动变化,则标准差为0. (  )
(2)标准差越大,表明各个样本数据在样本平均数周围越集中;标准差越小,表明各个样本数据在样本平均数周围越分散. (  )
[答案] (1)√ (2)×
2.在教学调查中,甲、乙、丙三个班的数学测试成绩分布如图1、2、3,假设三个班的平均分都是75分,s1,s2,s3分别表示甲、乙、丙三个班数学测试成绩的标准差,则有(  )
图1      图2      图3
A.s3>s1>s2    B.s2>s1>s3
C.s1>s2>s3 D.s3>s2>s1
D [所给图是成绩分布图,平均分是75分,在图1中,集中在75分附近的数据最多,图3中从50分到100分均匀分布,所有成绩不集中在任何一个数据附近,图2介于两者之间.由标准差的意义可得s3>s2>s1.]
3.已知一个样本中的数据为1,2,3,4,5,则该样本的标准差为(  )
A.1  B.    
C.     D.2
B [∵样本容量n=5,∴=(1+2+3+4+5)=3,
∴s==.]
类型1 方差和标准差的计算
【例1】 甲、乙两机床同时加工直径为100 cm的零件,为检验质量,各从中抽取6件测量,数据为
甲:99 100 98 100 100 103;
乙:99 100 102 99 100 100.
(1)分别计算两组数据的平均数及方差;
(2)根据计算结果判断哪台机床加工零件的质量更稳定.
[解] (1)甲=(99+100+98+100+100+103)=100,
乙=(99+100+102+99+100+100)=100.
s=[(99-100)2+(100-100)2+(98-100)2+(100-100)2+(100-100)2+(103-100)2]=,
s=[(99-100)2+(100-100)2+(102-100)2+(99-100)2+(100-100)2+(100-100)2]
=1.
(2)两台机床所加工零件的直径的平均值相同,又s>s,所以乙机床加工零件的质量更稳定.
标准差、方差的意义
(1)标准差、方差描述了一组数据围绕平均数波动的大小.标准差、方差越大,数据的离散程度越大;标准差、方差越小,数据的离散程度越小,标准差的大小不会超过极差.
(2)标准差、方差的取值范围:[0,+∞).
标准差、方差为0时,样本各数据相等,说明数据没有波动幅度,数据没有离散性.
1.如图,样本A和B分别取自两个不同的总体,它们的样本平均数分别为A和B,样本标准差分别为sA和sB,则(  )
A.A>B,sA>sB    B.AsB
C.A>B,sAB [A=(2.5+10+5+7.5+2.5+10)=6.25,
B=(15+10+12.5+10+12.5+10)=≈11.67.
s=[(2.5-6.25)2+(10-6.25)2+(5-6.25)2+(7.5-6.25)2+(2.5-6.25)2+(10-6.25)2]≈9.90,
s=
≈3.47.
故A<B,sA>sB.]
2.一组数据中的每一个数据都乘2,再都减80,得一组新数据,若求得新数据的平均数是1.2,方差是4.4,则原来数据的平均数和方差分别是(  )
A.40.6,1.1 B.48.8,4.4
C.81.2,44.4 D.78.8,75.6
A [法一:设原来的数据为x1,x2,x3,…,xn,则新数据为2x1-80,2x2-80,2x3-80,…,2xn-80,
所以=1.2,
所以=1.2,
即=40.6.
[(2x1-80-1.2)2+(2x2-80-1.2)2+…+(2xn-80-1.2)2]=4.4,
即[(2x1-81.2)2+(2x2-81.2)2+…+(2xn-81.2)2]=4.4,
所以[(2x1-81.2)2+(2x2-81.2)2+…+(2xn-81.2)2]=×4.4=1.1.
法二:设原数据的平均数为,方差为s2,则数据中的每一个数都乘2,再都减80,得一组新数据后,新数据的平均数为2-80,方差为22s2,
由题意得2-80=1.2,22s2=4.4,解得=40.6,s2=1.1.]
类型2 分层抽样的方差
【例2】 在了解全校学生每年平均阅读了多少本文学经典名著时,甲同学抽取了一个容量为10的样本,并算得样本的平均数为5,方差为9;乙同学抽取了一个容量为8的样本,并算得样本的平均数为6,方差为16.已知甲、乙两同学抽取的样本合在一起组成一个容量为18的样本,求合在一起后的样本平均数与方差.(精确到0.1)
[解] 把甲同学抽取的样本的平均数记为,方差记为s;把乙同学抽取的样本的平均数记为,方差记为s;把合在一起后的样本的平均数记为,方差记为s2.
则=≈5.4,
s2=

≈12.4.
即样本的平均数为5.4,方差为12.4.
计算分层抽样的方差s2的步骤
(1)确定1,2,s,s,
(2)确定;
(3)应用公式s2=[s+(1-)2]+[s+(2-)2],计算s2.
3.甲、乙两支田径队体检结果为:甲队的体重的平均数为60 kg,方差为200,乙队体重的平均数为70 kg,方差为300,又已知甲、乙两队的队员人数之比为1∶4,那么甲、乙两队全部队员的平均体重和方差分别是什么?
[解] 由题意可知甲=60,甲队队员在所有队员中所占层权为=,
乙=70,乙队队员在所有队员中所占层权为=,
则甲、乙两队全部队员的平均体重为=×60+×70=68 kg,
甲、乙两队全部队员的体重的方差为
s2=[200+(60-68)2]+[300+(70-68)2]=296.
类型3 数据的数字特征的综合应用
【例3】 在一次科技知识竞赛中,某学校的两组学生的成绩如下表:
分数 50 60 70 80 90 100
人数 甲组 2 5 10 13 14 6
乙组 4 4 16 2 12 12
请根据你所学过的统计知识,判断这两个组在这次竞赛中的成绩谁优谁劣,并说明理由.
1 对一组数据进行统计分析,应该从哪几个方面进行?, 2 对比两组数据时,要从哪几个方面进行?
[解] (1)甲组成绩的众数为90,乙组成绩的众数为70,从成绩的众数比较看,甲组成绩好些.
(2)甲=(50×2+60×5+70×10+80×13+90×14+100×6)
=×4 000=80,
乙=(50×4+60×4+70×16+80×2+90×12+100×12)
=×4 000=80.
s=[2×(50-80)2+5×(60-80)2+10×(70-80)2+13×(80-80)2+14×(90-80)2+6×(100-80)2]=172,
s=[4×(50-80)2+4×(60-80)2+16×(70-80)2+2×(80-80)2+12×(90-80)2+12×(100-80)2]=256.
∵甲=乙,s(3)甲、乙两组成绩的中位数、平均数都是80分.其中,甲组成绩在80分以上(包括80分)的有33人,乙组成绩在80分以上(包括80分)的有26人.从这一角度看,甲组的成绩较好.
(4)从成绩统计表看,甲组成绩大于等于90分的有20人,乙组成绩大于等于90分的有24人,所以乙组成绩集中在高分段的人数多.同时,乙组得满分的人数比甲组得满分的人数多6人.从这一角度看,乙组的成绩较好.
数据分析的要点
(1)要正确处理此类问题,首先要抓住问题中的关键词语,全方位地进行必要的计算、分析,而不能习惯性地仅从样本方差的大小去决定哪一组的成绩好,像这样的实际问题还得从实际的角度去分析,如本例的“满分人数”;其次要在恰当地评估后,组织好正确的语言作出结论.
(2)在进行数据分析时,不同的标准没有对和错的问题,也不存在唯一解的问题,而是根据需要来选择“好”的决策,至于决策的好坏,是根据提出的标准而定的.
4.某校拟派一名跳高运动员参加一项校际比赛,对甲、乙两名跳高运动员进行了8次选拔比赛,他们的成绩(单位:m)如下:
甲:1.70,1.65,1.68,1.69,1.72,1.73,1.68,1.67;
乙:1.60,1.73,1.72,1.61,1.62,1.71,1.70,1.75.
经预测,跳高1.65 m就很可能获得冠军.该校为了获取冠军,可能选哪位选手参赛?若预测跳高1.70 m方可获得冠军呢?
[解] 甲的平均成绩和方差如下:
甲=(1.70+1.65+1.68+1.69+1.72+1.73+1.68+1.67)=1.69,
s=[(1.70-1.69)2+(1.65-1.69)2+…+(1.67-1.69)2]=0.000 6.
乙的平均成绩和方差如下:
乙=(1.60+1.73+1.72+1.61+1.62+1.71+1.70+1.75)=1.68,
s=[(1.60-1.68)2+(1.73-1.68)2+…+(1.75-1.68)2]=0.003 15.
显然,甲的平均成绩高于乙的平均成绩,而且甲的方差小于乙的方差,说明甲的成绩比乙稳定.由于甲的平均成绩高于乙,且成绩稳定,所以若跳高1.65 m就很可能获得冠军,应派甲参赛.
在这8次选拔赛中乙有5次成绩在1.70 m以上,虽然乙的平均成绩不如甲,成绩的稳定性也不如甲,但成绩突破1.70 m的可能性大于甲,所以若跳高1.70 m方可获得冠军,应派乙参赛.
1.若样本数据x1,x2,…,x10的标准差为8,则数据2x1-1,2x2-1,…,2x10-1的标准差为(  )
A.8  B.15    
C.16     D.32
C [已知样本数据x1,x2,…,x10的标准差为s=8,则s2=64,数据2x1-1,2x2-1,…,2x10-1的方差为22s2=22×64,所以其标准差为=2×8=16,故选C.]
2.某学员在一次射击测试中射靶10次,命中环数如下:7,8,7,9,5,4,9,10,7,4,
则:(1)平均命中环数为________;
(2)命中环数的标准差为________.
(1)7 (2)2 [(1)==7.
(2)∵s2=[(7-7)2+(8-7)2+(7-7)2+(9-7)2+(5-7)2+(4-7)2+(9-7)2+(10-7)2+(7-7)2+(4-7)2]=4,∴s=2.]
3.已知样本9,10,11,x,y的平均数是10,方差是4,则xy=________.
91 [由题意得

解得或
所以xy=91. ]
4.某校医务室抽查了高一10位同学的体重(单位:kg)如下:
74,71,72,68,76,73,67,70,65,74.
(1)求这10个学生体重数据的平均数、中位数、方差、标准差;
(2)估计高一所有学生体重数据的平均数、中位数、方差、标准差.
[解] (1)这10个学生体重数据的平均数为=×(74+71+72+68+76+73+67+70+65+74)=71.这10个学生体重数据从小到大依次为65,67,68,70,71,72,73,74,74,76,位于中间的两个数是71,72,∴这10个学生体重数据的中位数为=71.5.
这10个学生体重数据的方差为s2=×[(74-71)2+(71-71)2+(72-71)2+(68-71)2+(76-71)2+(73-71)2+(67-71)2+(70-71)2+(65-71)2+(74-71)2]=11,
这10个学生体重数据的标准差为s==.
(2)由样本估计总体得高一所有学生体重数据的平均数为71,中位数为71.5,方差为11,标准差为.
回顾本节知识,自我完成以下问题:
1.如何计算一组数据的方差或标准差?
[提示] 首先计算出这组数据的平均数,然后按公式s2=[(x1-)2+(x2-)2+…+(xn-)2]计算方差.
按公式s=
计算标准差.
2.如何计算分层抽样的方差?
[提示] 计算分层抽样的方差的步骤:
①确定1,2,s,s,
②确定;
③应用公式s2=[s+(1-)2]+[s+(2-)2]计算s2.
3.一组数据的方差或标准差反映了该组数据的什么特性?
[提示] 反映了这组数据相对于平均值的离散程度.6.4.3 用频率分布直方图估计总体分布
学 习 任 务 核 心 素 养
1.通过对实例的分析,体会总体分布的意义和作用.2.在表示样本数据的过程中,学会列频率分布表,画频率分布直方图、频率折线图,体会它们各自的特点,学会应用频率分布直方图分析个体在总体中的分布位置.(重点)3.会利用样本数据的四种图表估计总体分布. 1.通过对问题中数据样本进行分析,培养数据分析的数学核心素养.2.通过对样本数据的计算,培养数学运算的数学核心素养.
类型1 频率分布表的制作及应用
【例1】 (1)容量为20的样本数据,分组的频数如下表:
分组 [10,20) [20,30) [30,40) [40,50) [50,60) [60,70]
频数 2 3 4 5 4 2
数据落在区间[10,40)的频率为________.
(2)已知一个样本数据:
27 23 25 27 29 31 27 30 32 31
28 26 27 29 28 24 26 27 28 30
以2为组距,列出频率分布表.
(1)0.45 [数据落在区间[10,40)内的频数为9,样本容量为20,所求频率为=0.45.故填0.45.]
(2)[解] ①计算极差:最大值为32,最小值为23,它们的差为32-23=9.
②已知组距为2,决定组数:因为=4.5,所以组数为5.
③决定分点:[22.5,24.5),[24.5,26.5),[26.5,28.5),[28.5,30.5),[30.5,32.5].
④列频率分布表如下:
分组 频数 频率
[22.5,24.5) 2 0.1
[24.5,26.5) 3 0.15
[26.5,28.5) 8 0.4
[28.5,30.5) 4 0.2
[30.5,32.5] 3 0.15
总计 20 1
1.频率、频数和样本容量的关系为频率=,利用此式可知二求一.
2.制作频率分布表的步骤
(1)求全距,决定组数与组距,组距=;
(2)分组,通常对组内数值所在区间取左闭右开区间(或左开右闭区间),最后一组取闭区间;
(3)登记频数,计算频率,列出频率分布表.
提醒:(1)在制作频率分布表时,分组过多或过少都不好.分组过多会给制作频率分布表带来困难,分组过少虽减少了操作,但不能很好地反映总体情况.一般样本容量越大,所分组数应越多.
(2)所分的组数应力求“取整”.组数k=,若k∈Z,则组数为k;否则,组数为大于k的最小整数,这时需适当增大全距,在两端同时增加适当的范围.
(3)在决定分点时,应避免将样本中的数据作为分点,常将分点的数值取比样本中的数据多一位小数.
1.一个容量为n的样本分成若干组,已知某组的频数和频率分别为30和0.25,则n等于________.
120 [某一组的频率等于该组的频数与样本容量的比.由于=0.25,所以n=120.]
2.对某电子元件进行寿命追踪调查,情况如下:
寿命(h) 100~200 200~300 300~400 400~500 500~600
个数 20 30 80 40 30
(1)列出频率分布表;
(2)估计寿命在100 h~400 h以内的电子元件所占的百分比.
[解] (1)
分组 频数 频率
100~200 20 0.10
200~300 30 0.15
300~400 80 0.40
400~500 40 0.20
500~600 30 0.15
总计 200 1
(2)由频率分布表可以看出,寿命在100 h~400 h的电子元件出现的频率为0.65,因此我们估计寿命在100 h~400 h的电子元件所占的百分比为65%.
类型2 频率分布直方图、折线图的制作与应用
【例2】 有同一型号的汽车100辆,为了解这种汽车每耗油1 L所行路程的情况,现从中随机抽出10辆在同一条件下进行耗油1 L所行路程试验,得到如下样本数据(单位:km):13.7,12.7,14.4,13.8,13.3,12.5,13.5,13.6,13.1,13.4,其分组如下:
分组 频数 频率
[12.45,12.95)
[12.95,13.45)
[13.45,13.95)
[13.95,14.45]
总计 10 1.0
(1)完成上面的频率分布表;
(2)根据上表,在给定坐标系中画出频率直方图及频率折线图;
(3)根据上述图表,估计总体数据落在[12.95,13.95)中的可能性.
[解] (1)频率分布表如下.
分组 频数 频率
[12.45,12.95) 2 0.2
[12.95,13.45) 3 0.3
[13.45,13.95) 4 0.4
[13.95,14.45) 1 0.1
总计 10 1.0
(2)频率分布直方图及频率折线图如图.
(3)根据上述图表,可知数据落在[12.95,13.95)中的频率为0.3+0.4=0.7,故总体数据落在[12.95,13.95)中的可能性为0.7.
1.制作频率分布直方图的方法步骤
(1)制作频率分布表.
(2)建立直角坐标系:把横轴分成若干段,每一段对应一个组的组距,纵轴表示.
(3)画矩形:在横轴上标明各组端点值,以相邻两点间的线段为底,作高等于该组的的矩形,这样得到一系列矩形,就构成了频率直方图.
2.频率折线图的制作步骤
(1)取每个矩形上底边中点.
(2)顺次连接各个中点.
(3)取值区间两端点需分别向外延伸半个组距,并取此组距上在x轴上的点与折线的首、尾分别相连.
3.解决频率分布直方图的相关计算
(1)×组距=频率,即小长方形的高乘以宽即为落在相应区间数据的频率.
(2)=频率,此关系式的变形为=样本容量.
提醒:频率分布直方图中,每个矩形的高为,面积为对应组的频率.
3.如图是容量为100的样本的频率直方图,试根据图中的数据填空:
样本数据落在[6,10)内的频率为________,样本数据落在[10,14)内的频率为________.
0.32 0.36 [样本数据落在[6,10)内的频率为0.08×4=0.32,样本数据落在[10,14)内的频率为0.09×4=0.36.]
4.通过全国人口普查工作,得到我国人口的年龄频率分布直方图如图,那么在一个总人口数为200万的城市中,年龄在[20,60)之间的人大约有________万.
116 [在频率分布直方图中,小矩形的面积表示频率,年龄在[20,60)之间的频率约为(0.018+0.011)×20=0.58,200×0.58=116,故年龄在[20,60)之间的人大约有116万.]
1.在抽查某批产品尺寸的过程中,样本尺寸数据的频率分布表如下,则m等于(  )
分组 [100,200) [200,300) [300,400) [400,500) [500,600) [600,700]
频数 10 30 40 80 20 m
频率 0.05 0.15 0.2 0.4 a b
A.40 B.30
C.20 D.10
C [∵频率、频数的关系为:频率=,
∴=,
∴a=0.1.
∵表中各组的频率之和等于1,
∴b=1-0.9=0.1,
∴m=20.]
2.某个容量为100的样本的频率分布直方图如下,则在区间[4,5)上的数据的频数为(  )
A.10 B.15
C.20 D.30
D [由频率分布直方图可知,各组的频率分别为0.05,0.1,0.15,x,0.4,故x=1-0.05-0.1-0.15-0.4=0.3,在区间[4,5)上的数据的频数为100×0.3=30.故选D.]
3.在某次赛车中,50名参赛选手的成绩(单位:min)全部介于13到18之间(包括13和18),将比赛成绩分为五组:第一组[13,14),第二组[14,15),…,第五组[17,18].其频率分布直方图如图所示,若成绩在[13,15)内的选手可获奖,则这50名选手中获奖的人数为(  )
A.39 B.35
C.15 D.11
D [由频率分布直方图知成绩在[15,18]内的频率为(0.38+0.32+0.08)×1=0.78.所以成绩在[13,15)内的频率为1-0.78=0.22.则成绩在[13,15)内的选手有50×0.22=11(人),即这50名选手中获奖的人数为11,故选D.]
4.容量为100的某个样本,数据拆分为10组,并填写频率分布表,若前七组频率之和为0.79,而剩下三组的频率依次相差0.05,则剩下的三组中频率最大的一组的频率为________.
0.12 [设剩下的三组中频率最大的一组的频率为x,则另两组的频率分别为x-0.05,x-0.1,而由频率总和为1,得0.79+(x-0.05)+(x-0.1)+x=1,解得x=0.12.]
5.有一个容量为66的样本,数据的分组及各组的频数如下:
[11.5,15.5),2; [15.5,19.5),4;
[19.5,23.5),9;[23.5,27.5),18;
[27.5,31.5),11;[31.5,35.5),12;
[35.5,39.5),7;[39.5,43.5),3.
根据样本的频率,估计大于或等于31.5的数据约占________.
 [根据各组数据可知,符合条件的数据占=.]
回顾本节知识,自我完成以下问题:
1.画频率分布直方图大体分几步?
[提示] 求全距、决定组数和组距→分组→制作频率分布表→画频率直方图.
2.由频率直方图我们可以获取哪些信息?
[提示] ①组距、频率,倘若已知样本容量,我们可以计算每个区间上的样本数.
②可以粗略感知数据的分布情况.
3.频率分布直方图中,小矩形的面积和为多少?
[提示] 1.6.4.4 百分位数
学 习 任 务 核 心 素 养
1.结合实例,能用样本估计百分位数.(重点)2.理解百分位数的统计含义.(重点、难点) 1.通过对百分位数概念的学习,培养数学抽象素养.2.通过计算样本的百分位数,培养数学运算素养.
某省数学考试结果揭晓,根据规定,0.8%的同学需要补考.
那么如何确定需要补考的分数线呢?
知识点 百分位数
1.定义
百分位数是位于按一定顺序排列的一组数据中某一个百分位置的数值,以Pr表示,其中r是区间[1,99]上的整数.一个百分位数Pr将总体或样本的全部观测值分为两部分,至少有r%的观测值小于或等于它,且至少有(100-r)%的观测值大于或等于它,当r%=50%时,Pr即对应中位数.
2.计算一组n个数据的第P百分位数的步骤
第1步,按从小到大排列原始数据.
第2步,计算c=n×r%.
第3步,若c不是整数,用m表示比c大的最小整数,则所求Pr是xm,如果c是整数,则所求的Pr是.
3.四分位数
25%,50%,75%这三个分位数把一组由小到大排列后的数据分成四等份,因此称为四分位数.
(1) 班级人数为50的班主任老师说“90%的同学能够考取本科院校”,这里的“90%”是百分位数吗?
(2)“这次数学测试成绩的第70百分位数是85分”这句话是什么意思?
[提示] (1)不是.是指能够考取本科院校的同学占同学总数的百分比.
(2)有70%的同学数学测试成绩小于或等于85分.
1.思考辨析(正确的打“√”,错误的打“×”)
(1)若一组样本数据各不相等,则其75%分位数大于25%分位数. (  )
(2)若一组样本数据的10%分位数是23,则在这组数据中有10%的数据大于23. (  )
(3)若一组样本数据的24%分位数是24,则在这组数据中至少有76%的数据大于或等于24. (  )
[答案] (1)√ (2)× (3)√
2.下列关于一组数据的第50百分位数的说法正确的是(  )
A.第50百分位数就是中位数
B.总体数据中的任意一个数小于它的可能性一定是50%
C.它一定是这组数据中的一个数据
D.它适用于总体是离散型的数据
A [由百分位数的意义可知选项B,C,D错误.]
3.数据7.0,8.4,8.4,8.4,8.6,8.7,9.0,9.1的第30百分位数是________.
8.4 [因为8×30%=2.4,故30%分位数是第三项数据8.4.]
4.一组样本数据的频率分布直方图如图所示,试估计此样本数据的第50百分位数为________.
 [样本数据低于10的比例为0.08 +0.32=0.40,样本数据低于14的比例为0.40 +0.36=0.76,所以此样本数据的第50百分位数在[10,14]内,估计此样本数据的第50百分位数为10+×4=.]
类型1 百分位数的计算
【例1】 从某珍珠公司生产的产品中,任意抽取12颗珍珠,得到它们的质量(单位:g)如下:
79,9.0,8.9,8.6,8.4,8.5,8.5,8.5,9.9,7.8,8.3,8.0.
(1)分别求出这组数据的第25,75,95百分位数.
(2)请你找出珍珠质量较小的前15%的珍珠质量.
(3)若用第25,50,95百分位数把公司生产的珍珠划分为次品、合格品、优等品和特优品,依照这个样本的数据,给出该公司珍珠等级的划分标准.
[解] (1)将所有数据从小到大排列,得
7.8,7.9,8.0,8.3,8.4,8.5,8.5,8.5,8.6,8.9,9.0,9.9,
因为共有12个数据,所以12×25%=3,12×75%=9,12×95%=11.4,
则第25百分位数是=8.15,
第75百分位数是=8.75,
第95百分位数是第12个数据为9.9.
(2)因为共有12个数据,所以12×15%=1.8,则第15百分位数是第2个数据为7.9.
即产品质量较小的前15%的产品有2个,它们的质量分别为7.8,7.9.
(3)由(1)可知样本数据的第25百分位数是8.15 g,第50百分位数为8.5 g, 第95百分位数是9.9 g,所以质量小于或等于8.15 g的珍珠为次品,质量大于8.15 g且小于或等于8.5 g的珍珠为合格品,质量大于8.5 g且小于等于9.9 g的珍珠为优等品,质量大于9.9 g的珍珠为特优品.
计算第P百分位数的步骤
(1)排列:按照从小到大排列原始数据;
(2)计算c:计算c=n×r%;
(3)定数:若c不是整数,大于c的最小整数为m,则第P百分位数为第m项数据;若c整数,则第P百分位数为第m项与第(c+1)项数据的平均数.
1.以下数据为参加数学竞赛决赛的15人的成绩:
78,70,72,86,88,79,80,81,94,84,56,98,83,90,91,
则这15人成绩的第80百分位数是(   )
A.90 B.90.5   
C.91    D.91.5
B [把成绩按从小到大的顺序排列为:
56,70,72,78,79,80,81,83,84,86,88,90,91,94,98,
因为15×80%=12,所以这15人成绩的第80百分位数是=90.5.]
类型2 百分位数的综合应用
【例2】 某市为了鼓励市民节约用电,实行“阶梯式”电价,将该市每户居民的月用电量划分为三档,月用电量不超过200千瓦时的部分按0.5元/千瓦时收费,超过200千瓦时但不超过400千瓦时的部分按0.8元/千瓦时收费,超过400千瓦时的部分按1.0元/千瓦时收费.
(1)求某户居民用电费用y(单位:元)关于月用电量x(单位:千瓦时)的函数解析式.
(2)为了了解居民的用电情况,通过抽样获得了今年1月份100户居民每户的用电量,统计分析后得到如图所示的频率分布直方图.若这100户居民中,今年1月份用电费用不超过260元的占80%,求a,b的值.
(3)根据(2)中求得的数据计算用电量的75%分位数.
(1)第P百分位数有什么特点?
(2)某组数据的第P百分位数在此组数据中一定存在吗?为什么?
[解] (1)当0≤x≤200时,y=0.5x;
当200当x>400时,y=0.5×200+0.8×200+1.0×(x-400)=x-140.
所以y与x之间的函数解析式为
y=
(2)由(1)可知,当y=260时,x=400,即用电量不超过400千瓦时的占80%,
结合频率分布直方图可知
解得a=0.001 5,b=0.002 0.
(3)设75%分位数为m,
因为用电量低于300千瓦时的所占比例为(0.001+0.002+0.003)×100=60%,
用电量不超过400千瓦时的占80%,
所以75%分位数为m在[300,400)内,所以0.6+(m-300)×0.002=0.75,
解得m=375千瓦时,
即用电量的75%分位数为375千瓦时.
根据例2的(2)题中求得的数据计算用电量的15%分位数.
[解] 设15%分位数为x,
因为用电量低于100千瓦时的所占比例为0.001×100=10%,用电量不超过200千瓦时的占30%,
所以15%分位数为x在[100,200)内,所以0.1+(x-100)×0.002=0.15,
解得x=125千瓦时,即用电量的15%分位数为125千瓦时.
根据频率分布直方图计算样本数据的百分位数,首先要理解频率分布直方图中各组数据频率的计算,其次估计百分位数在哪一组,再应用方程的思想方法,设出百分位数,解方程可得.
2.某市举行“中学生诗词大赛”,某校有1 000名学生参加了比赛,从中抽取100名学生,统计他们的成绩(单位:分),并进行适当的分组(每组为左闭右开的区间),得到的频率分布直方图如图所示,则估计该校学生成绩的80%分位数为________.
122 [根据频率分布直方图可知,成绩在130分以下的学生所占比例为1-0.005 0×20=0.9,成绩在110分以下的学生所占比例为1-(0.012 5+0.005 0)×20=0.65,因此80%分位数一定位于[110,130)内,由110+20×=122,故可估计该校学生成绩的80%分位数为122.]
1.下列一组数据的第25百分位数是(  )
2.1,3.0,3.2,3.8,3.4,4.0,4.2,4.4,5.3,5.6
A.3.2 B.3.0   
C.4.4    D.2.5
A [把这组数据按照由小到大排列,可得:
2.1,3.0,3.2,3.4,3.8, 4.0,4.2,4.4,5.3,5.6,
由c=10×25%=2.5,不是整数,则第3个数据3.2是第25百分位数.]
2.已知100个数据的第75百分位数是9.3,则下列说法正确的是(  )
A.这100个数据中一定有75个数小于或等于9.3
B.把这100个数据从小到大排列后,9.3是第75个数据
C.把这100个数据从小到大排列后,9.3是第75个数据和第76个数据的平均数
D.把这100个数据从小到大排列后,9.3是第75个数据和第74个数据的平均数
C [因为100×75%=75为整数,所以第75个数据和第76个数据的平均数为第75百分位数,是9.3,故选C.]
3.2020年某学科能力测试共有12万考生参加,成绩采用15级分,测试成绩分布图如图,试估计成绩高于11级分的人数为(  )
A.8 000   B.10 000
C.20 000   D.60 000
B [从题图中可以看出,12级分的有2.5%左右,13级分的有3%左右,14级分的有1%左右,15级分的有1.5%左右,
∴高于11级分的有8%左右,其人数约为12万的8%,即120 000×0.08=9 600人.选项B最接近.故选B.]
4.对某市“四城同创”活动中800名志愿者的年龄抽样调查统计后得到频率分布直方图(如图),但是年龄组为[25,30)的数据不慎丢失,则依据此图可得:
(1)[25,30)年龄组对应小矩形的高度为________;
(2)由频率分布直方图估计志愿者年龄的95%分位数为________岁.
(1)0.04 (2)42.5 [(1)设[25,30)年龄组对应小矩形的高度为h,则5×(0.01+h+0.07+0.06+0.02)=1,解得h=0.04.
(2)由题图可知年龄小于40岁的频率为(0.01+0.04+0.07+0.06)×5=0.9,
且所有志愿者的年龄都小于45岁,所以志愿者年龄的95%分位数在[40,45]内,
因此志愿者年龄的95%分位数为40+×5=42.5岁.]
回顾本节知识,自我完成以下问题:
1.P百分位数有什么特点?
[提示] 总体数据中的任意一个数小于或等于它的可能性是P%.
2.如何求一组数据的P百分位数?
[提示] 求一组数据的百分位数时其步骤:①按照从小到大排列原始数据;②计算i=P×p%;③若i不是整数,大于i的最小整数为j,则P百分位数为第j项数据;若i是整数,则P百分位数为i项与第(i+1)项数据的平均数.类型1 抽样方法
1.高考对抽样方法考查的热点有二:一是两种抽样方法的判断问题,这就要求熟练地掌握两种抽样方法的特征;二是关于分层抽样的样本容量的计算问题,特别与其他的问题结合在一起的问题要引起重视.
2.应用各种抽样方法抽样时要注意以下问题:
(1)利用抽签法时要注意把号签放在不透明的容器中且搅拌均匀;
(2)利用随机数法时注意编号位数要一致;
(3)在分层抽样中,若在某一层按比例应该抽取的个体数不是整数,应在该层剔除部分个体,使抽取个体数为整数.
【例1】 (1)利用简单随机抽样,从n个个体中抽取一个容量为10的样本.若第二次抽取时,余下的每个个体被抽到的概率为,则在整个抽样过程中,每个个体被抽到的概率为(  )
A.  B.    
C.     D.
(2)假设要检查某企业生产的袋装牛奶的质量是否达标,现从500袋牛奶中抽取60袋进行检验,利用随机数表抽取样本时,先将500袋牛奶按000,001,…,499进行编号,使用随机数表中各个5位数组的后3位,选定第7行第5组数开始,取出047作为抽取的代号(从左向右读取数字),随后抽到的5袋牛奶的号码分别是(下面摘取了某随机数表第7行至第9行)____________________.
84421 75331 57245 50688 77047 44767 21763
35025 83921 20676 63016 47859 16955 56719
98105 07185 12867 35807 44395 23879 33211
(1)C (2)025,016,105,185,395 [(1)根据题意,=,解得n=28.
故在整个抽样过程中每个个体被抽到的概率为=.
(2)由已知读取号码的初始值为第7行第5组数中的后3位,第一个号码为047.
凡不在000~499中的数跳过去不取,前面已经取过的也跳过去不取,从而随后抽到的5袋牛奶的编号为025,016,105,185,395.]
1.某学校有教师200人,男学生1 200人,女学生1 000人.现用分层抽样的方法从全体师生中抽取一个容量为n的样本,若女学生一共抽取了80人,则n的值为(  )
A.193 B.192   
C.191    D.190
B [1 000×=80,求得n=192.]
2.某品牌白酒公司在甲、乙、丙三个地区分别有30个、120个、180个代理商.公司为了调查白酒销售的情况,需从这330个代理商中抽取一个容量为11的样本,记这项调查为①;在甲地区有10个特大型超市代理销售该品牌的白酒,要从中抽取7个调查其销售收入和售后服务情况,记这项调查为②.则完成①②这两项调查宜采用的抽样方法依次是__________________________.
分层抽样,简单随机抽样 [由于甲、乙、丙三个地区有明显差异,所以在完成①时,需用分层抽样.在甲地区有10个特大型超市代理销售该品牌的白酒,没有显著差异,所以完成②宜采用简单随机抽样.]
类型2 频率分布直方图及应用
1.频率分布直方图是高考的热点之一,难度比较小,考查根据频率分布直方图读取需要的数据,能够计算数字特征以及事件的概率,进而作出相应推断.
2.解题常见结论:(1)频率分布直方图中横坐标表示组距,纵坐标表示,频率=组距×.频率分布直方图中各小长方形的面积之和为1.(2)=频率,此关系式变形为=样本量,样本量×频率=频数.
【例2】 某花木公司为了调查某种树苗的生长情况,抽取了一个容量为100的样本,测得树苗的高度(cm)数据的分组及相应频数如下:
[107,109),3株;[109,111), 9株;[111,113),13株;
[113,115),16株;[115,117),26株;[117,119),20株;
[119,121),7株;[121,123),4株;[123,125],2株.
(1)列出频率分布表;
(2)画出频率分布直方图;
(3)据上述图表,估计数据在[109,121)范围内的可能性是百分之几?
[解] (1)
分组 频数 频率 累积频率
[107,109) 3 0.03 0.03
[109,111) 9 0.09 0.12
[111,113) 13 0.13 0.25
[113,115) 16 0.16 0.41
[115,117) 26 0.26 0.67
[117,119) 20 0.20 0.87
[119,121) 7 0.07 0.94
[121,123) 4 0.04 0.98
[123,125] 2 0.02 1.00
合计 100 1.00
(2)频率分布直方图如下:
(3)由上述图表可知数据落在[109,121)范围内的频率为:0.94-0.03=0.91,即数据落在[109,121)范围内的可能性是91%.
在本例中由得到的频率分布直方图估计树苗的高度(cm)的平均数.
[解] 由频率分布直方图可得树苗的高度(cm)的平均数的估计值为
0.03×108+0.09×110+0.13×112+0.16×114+0.26×116+0.20×118+0.07×120+0.04×122+0.02×124=115.46(cm)
类型3 数据的集中趋势和离散程度的估计
1.这类题目大多直接根据已知数字特征,如众数、中位数、平均数以及方差等的意义进行计算,考查学生对样本数字特征意义的理解,难度不大.
2.解答这类利用数字特征估计总体的问题时要认真审题,注意平均数、标准差、最大值、中位数的定义和意义的合理运用.
【例3】 为了解甲、乙两种离子在小鼠体内的残留程度,进行如下试验:将200只小鼠随机分成A,B两组,每组100只,其中A组小鼠给服甲离子溶液,B组小鼠给服乙离子溶液,每只小鼠给服的溶液体积相同、摩尔浓度相同.经过一段时间后用某种科学方法测算出残留在小鼠体内离子的百分比,根据试验数据分别得到如下直方图:
记C为事件:“乙离子残留在体内的百分比不低于5.5”,根据直方图得到P(C)的估计值为0.70.
(1)求乙离子残留百分比直方图中a,b的值;
(2)分别估计甲、乙离子残留百分比的平均值(同一组中的数据用该组区间的中点值为代表).
[解] (1)由已知得0.70=a+0.20+0.15,故
a=0.35.
b=1-0.05-0.15-0.70=0.10.
(2)甲离子残留百分比的平均值的估计值为
2×0.15+3×0.20+4×0.30+5×0.20+6×0.10+7×0.05=4.05.
乙离子残留百分比的平均值的估计值为
3×0.05+4×0.10+5×0.15+6×0.35+7×0.20+8×0.15=6.00.
3.从某项综合能力测试中抽取100人的成绩,统计如表,则这100人成绩的标准差为(  )
分数 5 4 3 2 1
人数 20 10 30 30 10
A.3  B.    
C.3     D.
B [∵==3,
∴s2=[(x1-)2+(x2-)2+…+(xn-)2]
=(20×22+10×12+30×12+10×22)== s=.]
4.甲、乙两位学生参加数学竞赛培训,现分别从他们在培训期间参加的若干次预赛成绩中随机抽取8次,记录如下:
甲:82 81 79 78 95 88 93 84;
乙:92 95 80 75 83 80 90 85.
(1)求甲成绩的80%分位数;
(2)现要从中选派一人参加数学竞赛,从统计学的角度(在平均数、方差或标准差中选两个)考虑,你认为选派哪位学生参加合适?请说明理由.
[解] (1)把甲的成绩按照从小到大的顺序排列可得:
78 79  81 82 84 88 93 95
因为一共有8个数据,所以8×80%=6.4,不是整数,所以甲成绩的80%分位数是第7个数据93.
(2)甲=(78+79+81+82+84+88+93+95)=85,
乙=(75+80+80+83+85+90+92+95)=85.
s=[(78-85)2+(79-85)2+(81-85)2+(82-85)2+(84-85)2+(88-85)2+(93-85)2+(95-85)2]=35.5,
s=[(75-85)2+(80-85)2+(80-85)2+(83-85)2+(85-85)2+(90-85)2+(92-85)2+(95-85)2]=41,
∵甲=乙,s1.(2020·全国卷Ⅲ)设一组样本数据x1,x2,…,xn的方差为0.01,则数据10x1,10x2,…,10xn的方差为(  )
A.0.01 B.0.1
C.1 D.10
C [由方差计算公式:x1,x2,…,xn的方差为s2,所以s2=0.01,则ax1,ax2,…,axn的方差为a2s2,则所求为100s2=1.]
2.(2019·全国卷Ⅱ)演讲比赛共有9位评委分别给出某选手的原始评分,评定该选手的成绩时,从9个原始评分中去掉1个最高分、1个最低分,得到7个有效评分.7个有效评分与9个原始评分相比,不变的数字特征是(  )
A.中位数 B.平均数
C.方差 D.极差
A [记9个原始评分分别为a,b,c,d,e,f,g,h,i(按从小到大的顺序排列),易知e为7个有效评分与9个原始评分的中位数,故不变的数字特征是中位数,故选A.]
3.(2018·全国卷Ⅰ)某地区经过一年的新农村建设,农村的经济收入增加了一倍,实现翻番.为更好地了解该地区农村的经济收入变化情况,统计了该地区新农村建设前后农村的经济收入构成比例,得到如图所示的饼图:
则下面结论中不正确的是(  )
A.新农村建设后,种植收入减少
B.新农村建设后,其他收入增加了一倍以上
C.新农村建设后,养殖收入增加了一倍
D.新农村建设后,养殖收入与第三产业收入的总和超过了经济收入的一半
A [设新农村建设前经济收入为a,则新农村建设后经济收入为2a,则由饼图可得建设前种植收入为0.6a,其他收入为0.04a,养殖收入为0.3a,养殖收入与第三产业收入的总和为0.36a.建设后种植收入为0.74a,其他收入为0.1a,养殖收入为0.6a,养殖收入与第三产业收入的总和为1.16a,所以新农村建设后,种植收入减少是错误的.故选A.]
4.(多选题)(2020·新高考全国卷Ⅱ)我国新冠肺炎疫情进入常态化,各地有序推进复工复产,下面是某地连续11天复工复产指数折线图,下列说法正确的是(  )
A.这11天复工指数和复产指数均逐日增加
B.这11天期间,复产指数增量大于复工指数的增量
C.第3天至第11天复工复产指数均超过80%
D.第9天至第11天复产指数增量大于复工指数的增量
CD [由折线图知,第1天至第2天复工指数减少,第7天至第8天复工指数减少,第10天至第11天复工指数减少,第8天至第9天复产指数减少,故A错误;由折线图知,第1天的复产指数与复工指数的差大于第11天的复产指数与复工指数的差,所以这11天期间,复产指数增量小于复工指数的增量,故B错误;由折线图知,第3天至第11天复工复产指数均超过80%,故C正确;由折线图知,第9天至第11天复产指数增量大于复工指数的增量,故D正确.综上,选CD.]
5.(2021·全国甲卷)为了解某地农村经济情况,对该地农户家庭年收入进行抽样调查,将农户家庭年收入的调查数据整理得到如下频率分布直方图:
根据此频率分布直方图,下面结论中不正确的是(  )
A.该地农户家庭年收入低于4.5万元的农户比率估计为6%
B.该地农户家庭年收入不低于10.5万元的农户比率估计为10%
C.估计该地农户家庭年收入的平均值不超过6.5万元
D.估计该地有一半以上的农户,其家庭年收入介于4.5万元至8.5万元之间
C [对于A,根据频率分布直方图可知,家庭年收入低于4.5万元的农户比率约为(0.02+0.04)×1×100%=6%,故A正确;对于B,根据频率分布直方图可知,家庭年收入不低于10.5万元的农户比率约为(0.04+0.02+0.02+0.02)×1×100%=10%,故B正确;对于C,根据频率分布直方图可知,该地农户家庭年收入的平均值约为3×0.02+4×0.04+5×0.10+6×0.14+7×0.20+8×0.20+9×0.10+10×0.10+11×0.04+12×0.02+13×0.02+14×0.02=7.68(万元),故C错误;对于D,根据频率分布直方图可知,家庭年收入介于4.5万元至8.5万元之间的农户比率约为(0.10+0.14+0.20+0.20)×1×100%=64%>50%,故D正确.]
6.(多选题)(2021·新高考全国卷Ⅰ)有一组样本数据x1,x2,…,xn,由这组数据得到新样本数据y1,y2,…,yn,其中yi=xi+c(i=1,2,…,n),c为非零常数,则(  )
A.两组样本数据的样本平均数相同
B.两组样本数据的样本中位数相同
C.两组样本数据的样本标准差相同
D.两组样本数据的样本极差相同
CD [设样本数据x1,x2,…,xn的平均数、中位数、标准差、极差分别为,m,σ,t,依题意得,新样本数据y1,y2,…,yn的平均数、中位数、标准差、极差分别为+c,m+c,σ,t,因为c≠0,所以C,D正确,故选CD.]

展开更多......

收起↑

资源列表