9.2.1总体取值规律、总体百分位数的估计 课件(共34张PPT)

资源下载
  1. 二一教育资源

9.2.1总体取值规律、总体百分位数的估计 课件(共34张PPT)

资源简介

(共34张PPT)
9.2用样本估计总体
9.1随机抽样要点回顾
1.了解全面调查、抽样调查的适用对象
2.了解总体、个体、样本、样本量的含义
3.随机抽样:(总体量大or有毁损性)
(1)简单随机抽样:抽签法、随机数法
(2)分层随机抽样:各层在样本中的比例=各层在总体中的比例
4.用样本平均数可估计总体平均数、用样本中的比例可估计总体中的比例
如:调查高一级712名(男326/女386)同学的平均身高,抽50名同学作为样本
①简单随机抽样:
②分层随机抽样:
搜集数据
整理和直观描述数据
分析数据
简单随机抽样
分层抽样
扇形图
用样本估计总体
用样本平均数估计总体平均数
用样本中的比例估计总体中的比例
条形图
折线图
频率分布表
频率分布
直方图
用样本的频率分布估计总体的频率分布
用样本的集中趋势估计总体的集中趋势
用样本的离散程度估计总体的离散程度
用样本的百分位数估计总体的百分位数
本节要点总览
问题1 我国是世界上严重缺水的国家之一,城市缺水问题较为突出.某市政府为了节约生活用水,计划在本市试行居民生活用水定额管理,即确定一个居民月用水量标准a,用水量不超过a的部分按平价收费,超出a的部分按议价收费. 那么标准a定为多少比较合理呢?
(1)每户居民月均用水标准a如果定得太低,会影响____________________;
(2)每户居民月均用水标准a如果定得太高,会不利于__________________;
很多居民的日常生活
节约用水
(3)为了较为合理地确定出这个标准,需要做哪些工作?
必须先了解全市所有居民用户中,月用水量在不同范围内的居民用户所占的比例情况.
(4)如何调查全市所有居民用户的月用水量分布情况?
①全面调查:获取过去一年全市所有居民用户的月均用水量数据
②抽样调查:分析样本观测数据,估计全市居民用户月均用水量的分布情况.
9.2.1总体取值规律的估计
在这个问题中,总体是该市的全体居民用户,个体是每户居民用户,调查的变量是居民用户的月均用水量.
假设通过简单随机抽样,获得了100户居民用户的月均用水量数据(单位:t)
9.0 13.6 14.9 5.9 4.0 7.1 6.4 5.4 19.4 2.0
2.2 8.6 13.8 5.4 10.2 4.9 6.8 14.0 2.0 10.5
2.1 5.7 5.1 16.8 6.0 11.1 1.3 11.2 7.7 4.9
2.3 10.0 16.7 12.0 12.4 7.8 5.2 13.6 2.6 22.4
3.6 7.1 8.8 25.6 3.2 18.3 5.1 2.0 3.0 12.0
22.2 10.8 5.5 2.0 24.3 9.9 3.6 5.6 4.4 7.9
5.1 24.5 6.4 7.5 4.7 20.5 5.5 15.7 2.6 5.7
5.5 6.0 16.0 2.4 9.5 3.7 17.0 3.8 4.1 2.3
5.3 7.8 8.1 4.3 13.3 6.8 1.3 7.0 4.9 1.8
7.1 28.0 10.2 13.8 17.9 10.1 5.5 4.6 3.2 21.6
易发现:居民用户月平均用水量最小值是___t,最大值是___t,其他在________t之间.
1.3
28
1.3~28
极差:一组数据中最大值和最小值的差.
画频率分布直方图
2.决定组距与组数
①数据的个数越多,所分的组数也越多.
当样本量不超过100时,常分成5—12组.
②一般取等长组距,且组距应力求“取整”.
③分组时可以先确定组距,也可以先确定组数.
1.求极差(一组数据中最大值与最小值的差)
样本观测数据的最小值是1.3 t,最大值是28.0 t,
极差为28.0 1.3=26.7, 这说明样本观测数据的变化范围是26.7 t.
合适的组距与组数对发现数据分布规律有重要意义,组数太多或太少,都会影响我们了解数据的分布情况.
组距与组数的确定没有固定的标准,常常需要一个尝试和选择的过程.
画频率分布直方图
1.求极差:最小值为1.3,最大值为28,极差为26.7
2.决定组距与组数:组距为3,分9组
3.将数据分组:
由于组距为3,9个组距的总长度为27,超过极差,
故可使第一组的左端点略小于数据中的最小值,
最后一组的右端点略大于数据中的最大值.
如,可取区间为[1.2,28.2],按如下方式把样本观测数据以组距3分为9组:
[1.2,4.2),[4.2,7.2),…,[25.2,28.2]
各组数值所在区间取左闭右开区间 , 最后一组取闭区间
画频率分布直方图
1.求极差:最小值为1.3,最大值为28,极差为26.7
2.决定组距与组数:组距为3,分9组
3.将数据分组:[1.2,4.2),[4.2,7.2),…,[25.2,28.2]
4.列频率分布表:
从频率分布表可看出样本观测数据在各个小组的比例.
如:月均用水量在区间[4.2,7.2)内的居民用户最多;用水量超过16.2的各区间内数据所占比例较小……
计算各小组的频率(频数和为样本量n,频率和为1)
画频率分布直方图
4.列频率分布表:计算各小组的频率(频数和为样本量n,频率和为1)
5.画频率分布直方图:横轴表示月均用水量,纵轴表示
月平均用水量/t
0.12
0.1
0.08
0.06
0.04
0.02
0
1.2 4.2 7.2 10.2 13.2 16.2 19.2 22.2 25.2 28.2
0.107
0.043
0.030
0.030
0.017
0.010
0.013
0.007
0.077
频率/组距
反映样本数据的疏密程度
以面积反映数据落在各组的频率
各小长方形面积和为1(各组频率和为1)
观察频率分布直方图
月平均用水量/t
0.12
0.1
0.08
0.06
0.04
0.02
0
1.2 4.2 7.2 10.2 13.2 16.2 19.2 22.2 25.2 28.2
0.107
0.043
0.030
0.030
0.017
0.010
0.013
0.007
0.077
频率/组距
频率分布的特点:
居民用户月均用水量的样本观测数据的分布不对称,图形左高、右低,右边有一个较长的“尾巴”.
根据100户居民用户的月均用水量的频率分布,可以推测该市全体居民用户月均用水量也会有类似的分布,即大部分居民用户均用水量集中在较低值区域.
思想:用样本的频率分布估计总体的频率分布
由于样本的随机性,这种估计可能会存在一定误差
这表明大部分居民用户的月均用水量集中在一个较低值区域,尤其在区间[1.2,7.2)最为集中,少数居民用户的月均用水量偏多,而且随着月均用水量的增加,居民用户数呈现降低趋势.
分别以3和27为组数,对数据进行等距分组,画出100户居民用户月均用水量的频率分布直方图如下图 . 观察图形,你发现不同组数对于直方图呈现数据分布规律有什么影响
同一组数据,组数不同,得到的直方图形状和频率分布特点也不尽相同。
随着月均用水量的增加,居民用户数的频率呈下降趋势 , 数据主要集中在低值区,尤其在区间[5.2,6.2)内最为集中。但存在个别区间频率变大或者缺少的现象.
随着月均用水量的增加,居民用户数的频率在降低;大部分居民用户的月均用水量低于10.2 t.
组数少、组距大:
容易从中看出数据整体的分布特点,但损失了较多的原始数据信息,无法看出每组内的数据分布情况;
组数多、组距小:
保留了较多的原始数据信息,但由于小长方形较多,有时图形会变得非常不规则,不容易从中看出总体数据的分布特点。
不同的频率分布印象有时会影响人们对总体的判断
小结:频率分布直方图
1.求极差(一组数据中的最大值与最小值的差).
2.决定组距与组数
3.将数据分组(确定分点,左闭右开最后闭)
4.列出频率分布表(分组,频数,频率)
5.列出频率分布直方图(纵轴为频率/组距)
[练习2]某公司为了解该公司800名员工参加运动的情况,对公司员工半年来的运动时间进行统计得到如图所示的频率分布直方图,则运动时间超过100小时的员工有(  )
A.360人 B.480人 C.600人 D.240人
[练习1]一个容量为80的样本中数据的最大值是140,最小值是41,组距是10,则应将样本数据分为(  )
A.10组 B.9组 C.8组 D.7组
P197-1.从某小区抽取100户居民进行月用电量调查,发现其用电量都在50到350度之间,频率分布直方图如图所示.
(1)直方图中的值为________;
(2)这些用户中,用电量落在区间[100,250)内的户数为____.
0.0044
原理:频率和/长方形面积和为1
原理:样本容量×频率
70
[改编]从某小区抽取100户居民进行月用电量调查,发现其用电量都在50到350度之间,频率分布直方图如图所示.在这些用户中,用电量落在区间[150,250)内的户数为(  )
A.46 B.48 C.50 D.52
[练习3]从某校随机抽取100名学生,获得了他们一周课外阅读时间(单位:小时)的数据,整理得到数据分组及频数分布表和频率分布直方图:
组号 分组 频数
1 [0,2) 6
2 [2,4) 8
3 [4,6) 17
4 [6,8) 22
5 [8,10) 25
6 [10,12) 12
7 [12,14) 6
8 [14,16) 2
9 [16,18] 2
合计 100
(1)求频率分布直方图中的a,b的值;
[练习4]某地政府调查了工薪阶层1 000人的月工资(单位:百元),并根据调查结果画出如图所示的频率分布直方图,为了了解工薪阶层对月工资的满意程度,要用分层随机抽样的方法从调查的1 000人中抽出100人做电话询访,则月工资在区间[30,35)内的工薪阶层应抽出_____人.
析:月工资在[30,35)内的频率为
1-(0.02+0.04+0.05+0.05+0.01)×5=0.15,
∴月工资在区间[30,35)内的工薪阶层应抽出
100×0.15=15(人).
[练习5]为了解今年某校高三毕业班准备报考飞行员学生的体重(单位:千克)情况,将所得的数据整理后,画出了频率分布直方图,如图所示,已知图中从左到右的前三个小组的频率之比为1∶2∶3,其中第2小组的频数为12. 则该校报考飞行员的总人数为_____.
析:前三组的频率和为1-(0.037+0.013)×5=0.75,
统计图表的特点与适用对象
除频率分布直方图外,我们在初中还学习过条形图、扇形图、折线图、频数分布直方图等。
不同的统计图在表示数据的特点不同,适用的数据类型上也不同.
扇形图主要用于直观描述各类数据占总数的比例(离散型数据)
条形图主要用于直观描述不同类别或分组数据的频数;
直方图主要用于直观描述不同分组数据的频率;(连续型数据)
折线图主要用于描述数据随时间的变化趋势 (离散型数据)
要根据实际问题的特点,选择恰当的统计图对数据进行可视化描述,以使我们通过图形直观地发现样本数据的分布情况,进而估计总体的分布规律。
[练习]小吴一星期的总开支分布如图(1)所示,一星期的食品开支如图(2)所示,则小吴一星期的鸡蛋开支占总开支的百分比为( )
A.1% B.2% C.3% D.5%
食品开支占总开支的30%
[练习7]华为、抖音海外版事件暴露了我国计算机行业中芯片、软件两大短板,为防止“卡脖子” 事件的再次发生,科技专业人才就成了决胜的关键. 为了解我国在芯片、软件方面的潜力,某调查机构对我国若干大型科技公司进行调查统计,得到了这两个行业从业者的年龄分布的饼形图和“90后”从事这两个行业的岗位分布雷达图,则下列说法中不一定正确的是( )
A.芯片、软件行业从业者中,“90后”占总人数的比例超过50%
B.芯片、软件行业中从事技术、设计岗位的“90后”人数超过总人数的25%
C.芯片、软件行业从事技术岗位的人中,“90后”比“80后”多
D.芯片、软件行业中,“90后”从事市场岗位的人数比“80前”的总人数多
55%×(37%+13%)=27.5%
占总人数的55%×14%=7.7%
占总人数的5%
55%×37%=20.35%
9.2.3总体集中趋势的估计2
在初中的学习中我们已经了解到,平均数、中位数和众数等都是刻画“中心位置”的量,它们从不同角度刻画了一组数据的集中趋势.
(2)中位数:一组数据按大小依次排列后处在最中间位置的数(或最中间两个数据的平均数).
(1)众数:一组数据中出现次数最多的数.
(3)平均数:一组数据的算术平均数.
一组11个样本数据为:19,23,12,15,14,17,10,12,18,12,27
排序后为:10,12,12,12,14,15,17,18,19,23,27
众数为12
中位数为15
下面我们通过具体实例进一步了解这些量的意义,探究它们之间的联系与区别,并根据样本的集中趋势估计总体的集中趋势.
众数的特点
P205例4.某学校要定制高一年级的校服,学生根据厂家提供的参考身高选择校服规格. 据统计,高一年级女生需要不同规格校服的频数如下表.
如果用一个量来代表该校高一年级女生所需校服的规格,那么在中位数、
平均数和众数中,哪个量比较合适
校服规格 155 160 165 170 175 合计
频 数 39 64 167 90 26 386
众数只利用了出现次数最多的那个值的信息,只能说明它比其他值出现的次数多,但并未体现它比别的数值多的程度.因此,众数只能传递数据中的信息的很少一部分,对极端值不敏感.
对分类型数据(如校服规格、性别、产品质量等级等)集中趋势的描述,可以用众数.
对数值型数据(如用水量、身高、收入、产量等)集中趋势的描述,可以用平均数、中位数;
平均数、中位数、众数刻画一组数据的集中趋势的特点
【思考】小明用统计软件计算了100户居民用水量的平均数和中位数.但在录入数据时,不小心把一个数据7.7录成了77.请计算录入数据的平均数和中位数,并与真实的样本平均数和中位数作比较,哪个量的值变化更大 你能解释其中的原因吗
平均数:8.79 t
中位数:6.8 t
9.483 t
6.8 t
与中位数比较,平均数反映出样本数据中的更多信息,对样本中的极端值更加敏感。
“去掉一个最高分和一个最低分”的原因?
“我们企业员工的年平均收入为20万元”可信吗?
平均数、中位数、众数刻画一组数据的集中趋势的特点
[练习1]
P208-3.某校举行演讲比赛,10位评委对两位选手的评分如下:
甲 7.5 7.5 7.8 7.8 8.0 8.0 8.2 8.3 8.4 9.9
乙 7.5 7.8 7.8 7.8 8.0 8.0 8.3 8.3 8.5 8.5
选手的最终得分为去掉一个最低分和一个最高分之后,剩下8个评分的平均数.
那么,这两个选手的最后得分是多少?
若直接用10位评委评分的平均数作为选手的得分,两位选手的排名有变化吗?
你认为哪种评分办法更好?为什么?
“去掉一个最低分和一个最高分”的评分机制更好,可规避个别评委对选手得分的影响.
平均数、中位数、众数刻画一组数据的集中趋势的特点
P215-9.在一次人才招聘会上,有一家公司的招聘员告诉你,“我们公司的收入水平很高”“去年,在50名员工中,最高年收入达到了200万,员工年收入的平均数是10万",而你的预期是获得9万元年薪.
(1)你是否能够判断年薪为9万元的员工在这家公司算高收入者?
(2)如果招聘员继续告诉你,“员工年收入的变化范围是从3万到200万”,
这个信息是否足以使你作出自己是否受聘的决定?为什么?
(3)如果招聘员继续给你提供了如下信息,员工收入的第一四分位数为4.5万,
第三四分位数为9.5万,你又该如何使用这条信息来作出是否受聘的决定?
(4)根据(3)中招聘员提供的信息,你能估计出这家公司员工收入的中位数是多少吗?为什么平均数比估计出的中位数高很多?
受年收入200万元这个极端值的影响.
既要会用数据说话,又要防止被数据误导
由频率分布直方图估计平均数、中位数、众数
在频率分布直方图中,我们无法知道每组数据是如何分布的,故通常假设它们在组内均匀分布。
1.平均数是直方图中每个小矩形底边中点的横坐标与小矩形的面积的乘积之和(组中值与频率积的和)
2.中位数左边和右边的直方图面积相等,各为0.5
3.众数是直方图中最高矩形的中点的横坐标
平均数、中位数的大小与数据分布形态
平均数和中位数都描述了数据的集中趋势,它们的大小关系和数据分布的形态有关(如下图)
(1)直方图形状对称:平均数和中位数应该大体上差不多;
(2)直方图右边“拖尾”:平均数大于中位数;
(3)直方图左边“拖尾”:平均数小于中位数.
与中位数相比,平均数总在直方图的“长尾巴”那边
由频率分布直方图估计平均数、中位数、众数
[练习2]已知200辆汽车通过某一段公路时的时速的频率分布直方图,如图所示,该图的众数为____,平均数为____,中位数为_____.
65
62
62.5
平均数为45×0.1+55×0.3+65×0.4+75×0.2=62
设中位数为m,则0.1+0.3+(m-60)×0.04=0.5,
解得m=62.5
由频率分布直方图估计平均数、中位数、众数
[练习3]某城市交通部门为了对该城市共享单车加强监管,随机选取了100人就该城市共享单车的推行情况进行问卷调查,并将问卷中的这100人根据其满意度评分值(百分制)按照[50,60),[60,70),…,[90,100]分成5组,制成如图所示频率分布直方图.
(1)求图中x的值; (2)求这组数据的平均数和中位数(保留两位小数)
解:(1)由(0.005+x+0.035+0.030+0.010)×10=1,解得x=0.02.
(2)平均数为55×0.05+65×0.2+75×0.35+85×0.3+95×0.1=77.
设中位数为m,评分小于等于70的频率为0.25,
评分小于等于80的频率为0.6,∴m∈(70,80),
则0.05+0.2+(m-70)×0.035=0.5,解得m≈77.14
由频率分布直方图估计平均数、中位数、众数
[练习4]
设中位数为m,则0.1+(m-30)×0.03=0.5,解得m=130/3.
P222-3.如果一组数据的中位数比平均数小很多,则下面叙述一定错误的是( ).
A.数据中可能有异常值 B.这组数据是近似对称的
C.数据中可能有极端大的值 D.数据中众数可能和中位数相同
B
中位数和平均数比较接近
C
用频率分布直方图估计众数、中位数、平均数
众数:最高矩形的中点
特点:反映样本数据的最大集合点
忽视了其他数据,无法客观的反映总体特征
中位数:中位数左右两边的直方图面积相等
特点:不受少数几个极端值的影响
平均数:直方图的“重心”,各组组中值与频率乘积之和
特点:和每一个样本数据都有关,可以反映更多的关于样本数据的信息
离平均数越远的数据对平均数影响越大(可靠性低)
求一组n个数据的平均数的方法
1.算术平均数:
2.加权平均数:
4.组中值法(由频率分布直方图求平均数)
推论:
3.分层抽样的样本平均数:

展开更多......

收起↑

资源预览