第三章 统计数据的描述性分析 课件(共54张PPT)-《统计学》同步教学(电工版)

资源下载
  1. 二一教育资源

第三章 统计数据的描述性分析 课件(共54张PPT)-《统计学》同步教学(电工版)

资源简介

(共54张PPT)
第三章 统计数据的描述性分析
第一节 数据的集中趋势分析
第二节 数据的离散程度分析
第三节 数据的分布形态分析
学习目标
1、了解集中趋势、离散程度、分布形状等指标的定义和特点;
2、理解集中趋势度量和离散程度度量所代表数据的意义;
3、掌握各指标的计算和应用场合,能通过集中趋势、离散程度、偏态和峰态的计算,对数据分布特征有一个较为全面的把握。
这个公司员工收入到底怎样?
经理
第二天,阿冲上班了。
我这里报酬不错, 每周平均工资3000元,你在这里好好干!
阿冲
大学生如何选择就业?
阿冲在公司工作了一周后
平均工资确实是每周3000元,你看看公司的工资报表.
你欺骗了我,我已经问过公司的职员了,没有一个人是超过3000元的
经理
阿冲
大学生如何选择就业?
问题1:请同学们仔细观察表格中的数据,讨论该公
司的月平均工资是多少?经理是否欺骗了阿冲
问题2:平均月工资能否客观地反映员工的实际收入?
问题3:再仔细观察表中的数据,你们认为用哪个数据
反映一般职员的实际收入比较合适?
人员 经理 副经理 领工 工人 学徒
工资(元/周) 22000 2500 2200 2000 1000
人数 1 6 5 10 1
思考
问题4:同学们有想过未来如何进行就业选择吗?除了工资水平外,还有什么重要因素影响你的就业选择?
问题5:在对数据进行统计分析时,同学们关注数据的哪些特征?如何更加全面反映统计数据的特征?
问题6:同学们有了解过与统计数据研究相关的工作吗?如何看待这类工作?
思考
第一节 数据的集中趋势分析
集中趋势
一组数据向其中心值靠拢的倾向和程度;
测度集中趋势就是寻找数据水平的代表值或中心值;
不同类型的数据用不同的集中趋势测度值;
低层次数据的测度值适用于高层次的测量数据,但高层次数据的测度值并不适用于低层次的测量数据。
1.统计平均数的含义与作用
1.1统计平均数的含义
反映现象总体各单位某一数量标志在一定时间、地点、条件下所达到的一般水平,是体现分布平均水平的指标。
1.2统计平均数的作用
反映总体各单位变量分布的一般水平和集中趋势。
比较同类现象在不同空间的发展水平。
比较同类现象在不同时期的发展变化趋势或规律。
分析现象之间的依存关系。
进行数量估计推断。
一、平均数
1、简单平均数
429.0 671.2 622.4 678.7 393.2 331.3
477.0 450.0 536.0 450.0 478.2 583.8
655.9 373.5 540.1 303.6 397.4 515.3
507.1 431.3 511.1 570.1 427.1 386.2
512.9 455.1 465.4 452.7 437.5 625.4
按日销售额分组(元/人)x 职工人数
(人) f
2200 2
2600 3
2800 4
3000 5
3200 2
合计 16
某商场食品部职工日销售额资料及计算表
试计算职工平均日销售额(Excel加权平均)
2、加权平均数
按日销售额分组(元/人)x 职工人数
(人) f
2200~2500 2
2500~3000 7
3000~3500 7
合计 16
某商场食品部职工日销售额资料及计算表
试计算职工平均日销售额
组中值(元/人)
2250
2750
3250
2、加权平均数
n 个变量值乘积的 n 次方根
适用于对比率数据的平均
主要用于计算平均增长率
计算公式为
3.几何平均数
某机械厂生产机器,设有毛胚、粗加工、精加工、装配四个连续作业的车间,各车间某批产品的合格率分别为96%、93%、95%、97%,求各车间制品平均合格率。
一位投资者购持有一种股票,连续4年收益率分别为4.5%、
2.1%、25.5%、1.9%。计算该投资者在这四年内的平均收益率?
二、中位数和四分位数
一组数据从小到大排序后,处于中间位置上的值;
不受极端值的影响;
主要用于顺序数据,也可用数值型数据,但不能用于分类数据;
Me
50%
50%
1、数据未分组
设一组数据为x1,x2,x3…xn,按从小到大顺序排序后,中位数计算公式为:
2、数据有分组的情况
甲城市家庭对住房状况评价的频数分布 回答类别 甲城市 户数 (户) 累计频数
非常不满意 不满意 一般 满意 非常满意 24 108 93 45 30 24
132
225
270
300
合计 300 —
解:中位数的位置为
∑f/2=(300)/2=150
从累计频数看,中位数在
“一般”这一组别中,
中位数为:
Me= 一般
(大于等于150的最小值)
3、组距式分组
Me—中位数;
L—中位数所在组下限;
U—中位数所在组上限;
fm—中位数所在组的次数;
∑f—总次数;
d—中位数所在组的组距;
Sm-1—中位数组之前各组次数的累计;
Sm+1—中位数组之后各组次数的累计;
一组数据按从小到大排序后处于25%和75%位置上的值
QL
QM
QU
25%
25%
25%
25%
4、四分位数
下四分位
上四分位
中位数
位置= (下四分位数的位置) 位置=(上四分位数的位置)
取值
(1)如果位置是整数,四分位数就是该位置对应的数值;
(2)如果是在整数加0.5的位置上,则取该位置两侧数值的平均数;
(3)如果是在整数加0.25或0.75的位置上,则四分位数等于该位置前面的数值加上按比例分摊的位置两侧数值的差值。
【例】:9个家庭的人均月收入数据
原始数据: 1500 750 780 1080 850 960 2000 1250 1630
排 序: 750 780 850 960 1080 1250 1500 1630 2000
位 置: 1 2 3 4 5 6 7 8 9


位置=2.5 位置=
=(780+850)/2
=815
=(1250+1500)/2
=1375
例题4.4
四分位数解读:
750 780 850 960 1080 1250 1500 1630 2000
9个家庭的人均月收入数据
排序后,
至少25%的数据将小于或等于QL(815元),
至少75%的数据将大于或等于QL(815元)。
至少75%的数据将小于或等于QU(1375元),
至少25%的数据将大于或等于QU(1375元)。
大约一半的家庭人均月收入在815元和 1375元之间。
303.6 331.3 373.5 386.2 393.2 397.4 427.1 429.0 431.3 437.5
450.0 450.0 452.7 455.1 465.4 477.0 478.2 507.1 511.1 512.9
515.3 536.0 540.1 570.1 583.8 622.4 625.4 655.9 671.2 678.7
位置=7.75
=427.1+(429-427.1)*0.75=428.525
位置=
=540.1+(570.1-540.1)*0.25=547.6
例题
QL位置= (300+1)/4 =75.25
QU位置 =3*(300+1)/4=225.75
从累计频数看:
QL在“不满意”这一组别中;
QU在“一般”这一组别中
四分位数为:
QL = 不满意
QU = 满意
甲城市家庭对住房状况评价的频数分布 回答类别 甲城市 户数 (户) 累计频数
非常不满意 不满意 一般 满意 非常满意 24 108 93 45 30 24
132
225
270
300
合计 300 —
例题
三、众数
一组数据中出现次数最多的变量值,用表示;
一般在数据量较大时才有意义;
不受极端值的影响;
一组数据可能没有众数或有几个众数;
主要用于分类数据,也可用于数值型数据。
无众数
10 5 9 12 6 8
一个众数
6 5 9 8 5 5
多于一个众数
25 28 28 36 42 42
饮料类型 汇总
果汁 6
矿泉水 10
绿茶 11
其他 8
碳酸饮料 15
总计 50
零件数(个) 频数(人) 零件数(个) 频数(人)
107 1 119 2
108 2 120 3
109 3 121 1
110 1 125 5
112 2 126 1
115 1 128 2
117 3 129 1
单项式分组
组距式分组
L—众数所在组下限;
U—众数所在组上限;
△1—众数所在组次数与前一组次数之差;
△2—众数所在组次数与后一组次数之差;
按销售量分组(台) 频数(天) 频率(%)
140~150 4 3.33
150~160 9 7.50
160~170 16 13.33
170~180 27 22.50
180~190 20 16.67
190~200 17 14.17
200~210 10 8.33
210~220 8 6.67
220~230 4 3.33
230~240 5 4.17
合计 120 100
平均数、中位数和众数的关系
左偏分布
均值
中位数
众数
对称分布
均值
=
中位数
=
众数
右偏分布
众数
中位数
均值
第二节 数据的离散程度分析
1、极差
一组数据的最大值与最小值之差;
离散程度的最简单测度值;
易受极端值影响;
未考虑数据的分布;计算公式为
R = max(xi) - min(xi)
例如,根据例4.1中的数据,计算30个人网购金额的全距为: =678.7 303.6=375.1
上四分位数与下四分位数之差:
Qd = QU – QL
说明:
(1)反映了中间50%数据的离散程度,数值越小,中间数据越集中,数值越大,中间数据越分散。(衡量中位数的代表性)
(2)不受极端值的影响
(3)主要用于测度顺序数据的离散程度。
2、四分位差
非众数组的频数占总频数的比例,用Vr表示:
说明:
(1) 变量值的总频数; 为众数组的频数;
(2)异众比率越大,说明非众数组的频数占总频数的比重越大,众数的代表性越差;异众比率越小,众数代表性越好。
3、异众比率
结论:在调查的40人中,购买其他类型汉堡的人数占62.5%,异众比率较大,因此,用“板烧鸡腿堡”来代表消费者购买汉堡类型的一般状况,其代表性较差。
4、标准差

4、方差

5.平均差
目的是测算各单位标志值与其算术平均数离差的大小
或者
6、离散系数
变异系数,是一组数据的标准差与其相应的平均数之比。消除数据取值大小和计量单位对标准差的影响,可以反映一组数据的相对离散程度,也可以用于多对数据离散程度的比较。
离散系数大,数据的离散程度大;离散系数小,数据离散程度也小。
某管理局所属8家企业的产品销售数据 企业编号 产品销售额(万元) x1 销售利润(万元)
x2
1 2 3 4 5 6 7 8 170 220 390 430 480 650 950 1000 8.1
12.5
18.0
22.0
26.5
40.0
64.0
69.0
【例】某管理局抽查了所属的8家企业,其产品销售数据如表。试比较产品销售额与销售利润的离散程度。
=536.25(万元)
=309.19(万元)
=
=0.577
=32.52(万元)
=23.09(万元)
=
=0.710
结论: 计算结果表明,v1相对位置的度量:标准分数
也称标准化值
某个数据与其平均数的离差除以标准差后的值;设样本数据的标准分数为z,则有
标准分数可以测度每个数值在该组数据中相对位置,表示是某个数据与平均数相比相差多少个标准差。
可用于判断一组数据是否有离群点(outlier)。
【例4.9】用例4.1计算30个人网购金额的标准分数。
解:根据上面的计算结果,,。以第1个人的标准分数为例,由式(4.16)得:
结果表示,第1个人的网购金额比平均网购金额低0.61412个标准差。
未分组的原始数据
根据分组数据计算
三、偏态及其测度(数据分布偏斜程度)
偏态系数=0为对称分布;
偏态系数> 0为右偏分布,整体数据偏右,平均值被拉高
偏态系数< 0为左偏分布,整体数据偏左,平均值被拉低
偏态系数大于1或小于-1,被称为高度偏态分布;
偏态系数在0.5~1或-1~-0.5之间,被认为是中等偏态分布;
偏态系数越接近0,偏斜程度就越低
第三节 数据的分布形态分析
根据原始数据计算
根据分组数据计算
一、峰态及其测度(数据分布扁平程度)
偏态系数=0为对称分布;
偏态系数> 0为右偏分布,整体数据偏右,平均值被拉高
偏态系数< 0为左偏分布,整体数据偏左,平均值被拉低
偏态系数大于1或小于-1,被称为高度偏态分布;
偏态系数在0.5~1或-1~-0.5之间,被认为是中等偏态分布;
偏态系数越接近0,偏斜程度就越低
峰态系数=0扁平峰度适中
峰态系数<0为扁平分布,说明数据比较分散,平均值的代表性较弱
峰态系数>0为尖峰分布:说明数据比较集中,平均值的代表性较强
二、峰态及其测度

展开更多......

收起↑

资源预览