3.3统计分布 课件(共38张PPT)-《统计学基础》同步教学(人民邮电版)

资源下载
  1. 二一教育资源

3.3统计分布 课件(共38张PPT)-《统计学基础》同步教学(人民邮电版)

资源简介

(共38张PPT)
第三章 统计整理
第一节 统计整理概述
第二节 统计分组
第三节 统计分布
第四节 统计表
自我测试题三
本章教学目标
了解统计整理的概念;
掌握统计整理的内容和步骤;
理解统计分组的含义、作用及原则;
掌握统计分组的方法;
掌握统计分布的编制与表示方法;
掌握统计表的概念、分类与编制规则。
本章导入
如何清晰表示这些数字呢?
经过统计调查收集数据以后,接下来的工作就是对这些数据资料进行加工处理,使其能够清晰而准确地满足统计分析的需要。
例如,下面是某班30名学生的年龄(单位:岁)。
22 21 21 20 19 21 22 23 21 19 20 20 19 22 21
21 21 20 19 23 22 20 22 22 23 19 19 20 21 22
上述数据是我们通过对某班学生进行普查得到的原始资料,这些数据零散而且杂乱无章,无法揭示研究对象的分布特征和规律性。如何表示这些数字才会使其清晰呢?
为了概括以上的数据,统计学会经常使用一些图表,通过图表对这些数据进行归类整理。如何整理这些数据,如何编制图表来显示这些数据的分布特征就是本章所要讲述的内容。
第三节 统计分布
一、统计分布的概念
二、统计分布的编制过程
三、组距式变量数列编制的基本概念
四、统计分布的表示方法
一、统计分布的概念
在统计分组的基础上,将总体的所有单位按组进行归并排列,形成总体中各个单位在各组间的分布,称为统计分布,也称为次数分布。
统计分布的实质是把总体的全部单位按某标志所分的组进行分配所形成的数列,因此又称为分配数列。
统计分布包括两个要素:总体按某标志所分的组和各组的单位数(简称次数),即分配数列有两个组成要求:一个是分组;另一个是次数。
分配数列的基本形式(见图3-3)
在分配数列中,次数有两种表示方法:频数(次数)和频率。
分布在各个组的总体单位数叫作频数,频数的大小决定着该组标志值在总体标志值中的地位大小。
将各组频数与总频数进行对比叫作比重或频率。
分配数列的种类
(一)按分组标志的性质不同:
品质分配数列,变量分配数列。
(二)品质分配数列:简称品质数列,按品质标志分组形成的分配数列。
(三)变量分配数列:简称变量数列,按数量标志分组形成的分配数列。
品质数列
变量数列
分配数列
组距数列
单项数列
等距数列
异距数列
分配数列
某校学生性别构成
性别 人数(人) 比重
(%)
男 女 250 530 32.1
67.9
合计 780 100.0
某村农户按子女数分组
品质数列
单变量数列
子女数 户数 比率%
0 1 2 3 10 90 60 40 5
45
30
20
合计 200 100
组别
次数
频率
组别
次数
频率
【例】分配数列
累计次数
向上累计次数,是将各组次数由最小组向最大组累计,各项累计数表明各组上限以下的总次数。
向下累计次率,是将各组次数由最大组向最小组累计,各项累计数表明各组下限以上的总次数。
某班学生统计学考分次数分布表
成绩 (分) 频数 (人) 频率 (%) 向上累计 向下累计
频数(人) 频率(%) 频数(人) 频率(%)
60以下 60-70 70-80 80-90 90-100 2 7 12 11 8 5.0 17.5 30.0 27.5 20.0 2 9 21 32 40 5.0 22.5 52.5 80.0 100.0 40 38 31 19 8 100.0
95.0
77.5
47.5
20.0
合 计 40 100.0 — — — —
结果表明:该班80分以下有21人,占52.5%;
80分以上有19人,占47.5%。
二、统计分布的编制过程
【例3.2】某工厂有100名工人,某一天每个工人生产的零件件数如下(单位:件)。
420 420 420 420 450 450 480 480 480 480
540 540 540 540 540 540 540 540 540 540
540 540 540 540 540 540 540 540 580 580
520 520 520 520 530 500 500 500 500 500
510 510 520 520 520 500 510 510 500 500
530 530 530 540 620 620 620 620 720 720
720 720 630 630 630 630 620 620 620 620
650 650 650 650 650 650 650 650 650 650
580 580 580 580 580 580 580 580 580 580
580 580 580 580 580 650 650 620 630 630
第一,若将上述资料编制成单项式变量数列,步骤如下。
(1)将所有变量按照由小到大或由大到小的顺序排列。
(2)分别汇总出每一个变量值所对应的工人数。
结果见表3-9。
第二,若将上述资料编制成组距式变量数列,步骤如下。
(1)按工人完成的零件个数分组。
(2)汇总出每组包含的工人数。
(3)将每一组按照从小到大的顺序加以排列。
结果见表3-10。
若将上述资料编制成累积分布数列,可将表3-10中各组工人数逐一由低向高累积(称为向上累积或高位制累积)或由高向低累积(称为向下累积或低位制累积)。结果见表3-11。
由【例3.2】我们可以大概总结出统计分布(亦即分配数列)的编制过程。
1.将原始资料按其数值大小重新排列
只有把统计得到的原始资料按其数值大小重新排列顺序,才能较为清楚地看出变量分布的集中趋势和特点,为确定全距、组距和组数做准备。
2.确定全距
全距是变量值中最大值和最小值之差。确定全距主要是确定变量值的变动范围和变动幅度。如果是变动幅度不大的离散变量,即可编制单项式变量数列,如果是变动幅度较大的离散变量或者是连续变量,就可以考虑编制组距式变量数列。
3.确定组距和组数
前面已经介绍过组距数列有等距数列和异距数列之分,这应该视研究目的和研究对象的特点而定。 组距的大小和组数的多少是互为条件和互相制约的。当全距一定时,组距大,组数就少;组距小,组数就多。在实际应用中,组距应是整数,最好选5或10的整数倍。在等距分组条件下,存在以下关系:组数=全距/组距
4.确定组限
组限要根据变量的性质来确定的。如果变量值相对集中,无特大或特小的数值时,则采用闭口式,即各组都存在各自的下限和上限;反之,如果变量值相对比较分散,则宜采用开口式,即变量值最小的组只有上限(用“××以下”表示),变量值最大的组就只有下限(用“××以上”表示)。若变量为离散型变量,则可根据具体情况采用不重叠组限或重叠组限的表示方法;连续型变量则只能用重叠组限来表示。在采用闭口式时,应做到最小组的下限低于最小变量值,最大组的上限高于最大变量值,但不要过于悬殊。
5.编制分配数列
经过统计分组,明确了全距、组距、组数和组限及组限表示方法以后,就可以把变量值归类排列,最后把各组单位数按照要求填入相应的各组次数栏中。
三、组距式变量数列编制的基本概念
1.组距与组数
在变量式分组数列中,每个组变量值中的的最大值叫该组的组上限,最小值叫该组的组下限。组距是指每个组最大变量值与最小变量值之差,即:组距=上限 下限 。
组数是指某个变量数列划分为多少组。组数与组距是彼此联系的。在同一变量数列中,组距的大小与组数的多少成反比,即组距愈大,组数愈少;组距愈小,组数愈大。
2.等距数列与不等距数列
在组距数列中,各组组距相等的数列,称为等距数列;各组组距不相等的数列,称为不等距数列或异距数列。
3.组限与组中值
在变量式分组数列中,每个组两端的标志值被称为组限,每个组的起点值为组下限(或最小值),终点值为组上限(或最大值)。
每个组上限与下限的中点值叫组中值,其计算公式为
组中值=(组上限+组下限)÷2
或 组中值=组下限+(组上限 组下限)÷2
或 组中值=组上限 (组上限 组下限)÷2
请思考:表3-10中各组的组中值如何计算?
组中值是代表各组标志值平均水平的数值,当各组内标志值均匀分布时,可用组中值代表各组标志值的平均水平,但当各组标志值不是均匀分布时,组中值只能近似代替各组实际平均值。
划分组限时,相邻组的上下限可以不重叠,也可以重叠。在后一种情况,与上限相等的标志值应该计入下一组,即“上限不在组内”;亦即每一组只包含它的下限值,不包含它的上限值,即“包小不包大”。
实际进行分组时,往往会出现开口组,这种情况下的变量式分组数列被称为开口式分组;反之,则是闭口式分组。如表3-10所示,第1、6组为开口组,第2、3、4、5组为闭口组。
为了便于计算,我们将与开口组相邻的组距“虚拟”为该开口组的组距,即:
首组开口的“虚拟”组下限=首组上限 相邻组组距
末组开口的“虚拟”组上限=末组下限+相邻组组距
请思考:表3-10中,首组的下限与末组的上限各为多少?
由此,我们可以推算出开口组的组中值,计算公式为:
首组开口组的“虚拟”组中值=首组上限 邻组组距/2
末组开口组的“虚拟”组中值=末组下限+邻组组距/2
请思考:表3-10中,首组和末组的组中值各为多少?
4.频数与频率
所谓频数,是指分配数列中各组的单位数,也称次数。频数越大,该组的标志值对总体标志水平所起的作用越大;反之,越小。因此,频数实际上是各组标志值的权数,用以权衡各组作用的大小。
频率是将各组的单位数(频数)与总体单位数相比,求得的用百分比表示的相对数,也称比率、比重或权重。同样,频率越大,该组的标志值对总体标志水平所起的作用越大;反之,越小。频率可反映出各组标志值对总体相对作用的强度和各组标志值出现概率的大小,实际上是各组标志值在整个分组中的权重,用以权衡各组作用的大小。显然,各组的频率不小于0,各组的频率总和等于1(或100%)。
在实际中,有时还会累计出到本组为止的各组频数,称为累计频数。将累计频数除以频数总和即得累计频率。
四、统计分布的表示方法
统计分布的表示方法主要有列表法和图示法。
1.列表法
列表法就是将统计分布以统计表的形式表示出来。例如表3-9、表3-10、表3-11。
2.图示法
图示法是在列表法的基础上,绘制分布图来表示统计分布,以便更直观地显示统计分布的特征。常用的表示统计分布的图形有直方图、拆线图、曲线图和饼图。
直方图(或次数分配曲线图)
仍以上例考试成绩数据,画成如下直方图:
40
50
60
70
80
90
100
110
若组距不等的话,用标准组距人数,然后据此画直方图:
按工人年龄分组 (岁) 组距 人数 (人) 标准组距人数 ( 人) 频数密度
=频数/组距
15-20 5 17 17 3.4
20-25 5 28 28 5.6
25-30 5 40 40 8.0
30-35 5 70 70 14.0
35-45 10 65 32.5 6.5
45-50 5 10 10 2.0
合 计 - 230 - -
直方图

10
15
20
25
30
35
40
45
50
55
分类数据—饼图
顺序数据—环形图
折线图
在直方图的基础上连接各条形顶边的中点成折线图。
如下图红笔围成的,即为次数分配曲线图:
40
50
60
70
80
90
100
110
折线图还可用来表示累计次数分布(仍以上例数据):
曲线图是组数趋向于无限多时折线图的极限描绘,是一种理论曲线。
向下累计
向上累计
2.次数分布的主要类型
一般次数分布呈正态分布曲线,或称正态曲线
对称型
Y
Y
右偏型
(上偏型)
左偏型
(下偏型)
X
X
很多是偏态分布曲线,或称偏态曲线
还有其他形态
J型分配曲线
U型分配曲线
双峰曲线

展开更多......

收起↑

资源预览