任务4:数据特征的描述 课件(共77张PPT)- 《统计学基础》同步教学(人民邮电版)

资源下载
  1. 二一教育资源

任务4:数据特征的描述 课件(共77张PPT)- 《统计学基础》同步教学(人民邮电版)

资源简介

(共77张PPT)
任务四
数据特征的描述
《统计学基础》
4.1 总量与相对量的测度
任务四 数据特征的描述
学 习 目 标
4.2 集中趋势的测度
4.3 离散程度的测度
学习要点
总量指标的含义、计量单位、种类
相对指标的含义、计量单位、种类
任务四
数据特征的描述
4.1 总量与相对量的测度
任务四
数据特征的描述
4.1 总量与相对量的测度
任务四
数据特征的描述
4.1 总量与相对量的测度
中华人民共和国2011年国民经济和社会发展统计公报
初步核算,全年国内生产总值471564亿元,比上年增长9.2%。其中,第一产业增加值47712亿元,增长4.5%;第二产业增加值220592亿元,增长10.6%;第三产业增加值203260亿元,增长8.9%。第一产业增加值占国内生产总值的比重为10.1%,第二产业增加值比重为46.8%,第三产业增加值比重为43.1%。
任务四
数据特征的描述
4.1 总量与相对量的测度
总量指标的含义
总量指标是计算相对指标和平均指标的基础
总量指标是反映社会经济现象总体在一定时间、地点和条件下总规模或总水平的统计指标
因为其表现形式通常是绝对数,所以也称为绝对指标或绝对数
任务四
数据特征的描述
任务四
数据特征的描述
4.1.1 总量指标
总量指标的计量单位
实物单位
货币单位
劳动单位
自然单位:如“人”、“辆 ”、双”等
度量衡单位:如“米”、“吨”、“公升”等
复合单位 ,如“吨公里”、“千瓦时”等
标准实物量= (混合实物量×折算系数)
工时、工日、工年等
元、万元、亿元等
任务四
数据特征的描述
4.1.1 总量指标
总量指标的计算方法
如:国内生产总值=总产出-中间投入
相加计算
平衡计算与推算
对于同类的计算对象按实际计量单位直接加起来
直接相加
对于不同类的计算对象按标准计量单位折算再相加
折算相加
任务四
数据特征的描述
4.1.1 总量指标
总量指标的种类
总量指标的种类
按时间状态分
按内容分
时期总量
时点总量
单位总量
标志总量
任务四
数据特征的描述
4.1.1 总量指标
总体单位总量表示总体本身的规模大小,是统计总体中总体单位数的合计数,简称单位总量
总体标志总量反映统计总体中各个单位某个数量标志值的总和,简称标志总量
研究某市国有商业企业的经营情况,该市全部国有商业企业
就是一个 ,国有商业企业总数是这个总体的 ,
而该市国有商业企业实现的商品销售额、上缴利税总额、职
工总人数、职工工资总额等就是这个统计总体的 。
统计总体
单位总量
标志总量
任务四
数据特征的描述
4.1.1 总量指标
时期总量反映现象在一定时间范围内发展变化的累积总量,又称流量(Flow)。
特点 :①可以简单累加;②连续不断的记录取得;③数据大小与所包含时期的长短成正比关系。
时点总量反映现象在某一时点或瞬间状态上的总规模,又称存量(Stock)。
特点 :①不可以简单累加;②不必连续不断地登记,通常在期初或期末登记一次;③数值的大小与时期长短无直接关系。
例如 某种产品产量、某地区的GDP 时期总量
人口数、商品库存量、固定资产价值 时点总量
时期总量
时点总量
任务四
数据特征的描述
4.1.1 总量指标
相对指标的含义
相对指标是两个有相互联系的指标的对比,
又称相对数。
用以反映现象的发展程度、结构、强度、
普遍程度或比例关系。
任务四
数据特征的描述
4.1.2 相对指标
任务四
数据特征的描述
4.1.2 相对指标
相对指标的计量单位
有名数:由对比的两个指标的计量单位构成
无名数
系数和倍数是将对比基数抽象化为1而计
算的相对数
百分数是将对比的基数抽象化为100而计
算的相对数
千分数是将对比的基数抽象化为1000而计
算的相对数
成数是将对比的基数抽象化为10而计算的
相对数
分母为10
分母为1
分母为100
分母为1000
任务四
数据特征的描述
4.1.2 相对指标
相对指标的种类
相对指标的种类
计划完成相对指标
结构相对指标
比例相对指标
比较相对指标
动态相对指标
强度相对指标
任务四
数据特征的描述
4.1.2 相对指标
计划完成程度相对指标
实际完成数与计划任务数之比,一般用百分数(%)表示
短期计划的检查
中长期计划的检查
任务四
数据特征的描述
4.1.2 相对指标
短期计划的检查
【例4-1-1】某企业8月份计划利润总额达到270万元,实际利润总额为300万元,求该企业8月份计划完成程度。
【例4-1-2】某企业9月份计划销售收入比上月增长6%,实际增长了9%,求该企业9月份销售收入的计划完成程度。
【例4-1-3】某企业B产品去年单位成本为500元,今年计划比去年单位成本降低8%,实际单位成本降低4%。求该企业B产品单位成本降低计划完成程度。
任务四
数据特征的描述
4.1.2 相对指标
小知识:
2、“百分数”与“百分点”
1、对百分数进行计算时应考虑其基数
任务四
数据特征的描述
4.1.2 相对指标
中长期计划的检查
是对5年或5年以上计划任务的检查。
水平法.适合于只规定计划期末要达到某种水平的现象。
【例4-1-4】某企业某种产品的零售额,按五年计划的规定,最后一年要达到100万元。实际执行情况如下:
一年 二年 三年 四年 五年
一季 二季 三季 四季 一季 二季 三季 四季
零售
额 78 82 89 24 24 24 25 25 26 26 28
任务四
数据特征的描述
4.1.2 相对指标
中长期计划的检查
累计法.适合于规定计划期全期累计应达到某个总量的现象。
【例4-1-5】某企业2001-2005年计划基本建设投资总额为2500万元,实际完成情况如下:
2001 2002 2003 2004 2005
一季 二季 三季 四季
基本建设投资总额 480 508 600 612 120 180 250 150
任务四
数据特征的描述
4.1.2 相对指标
结构相对指标
总体中的一部分数值与总体全部数值对比的结果
用于反映总体内部的构成情况.
一般用百分数(%)表示,各部分占总体的比重之和应等于100%.
例:第三产业占GDP的比重为42.6%。
任务四
数据特征的描述
4.1.2 相对指标
比例相对指标
总体中某一部分数值与另一部分数值对比的结果.
用于反映总体中各部分数值之间的对比关系.
比例相对指标既可以用百分数表示,也可以用小数、倍数等形式表示。
比例相对指标的分子和分母可以互换位置。
例:一、二、三次产业之比为1︰4.43︰4.03。
任务四
数据特征的描述
4.1.2 相对指标
比较相对指标
同一时间不同空间条件下同类指标数值对比的结果
可以揭示研究对象之间的差异程度.
一般用百分数或小数、倍数表示。
比较相对指标的分子和分母可以互换位置。
例:2011年我国城镇居民人均可支配收入是农村居民人均纯收入的3.13倍。
任务四
数据特征的描述
4.1.2 相对指标
动态相对指标
某一指标在不同时间上数值的对比
说明现象发展变化的方向和程度
一般用百分数(%)表示
例:2011年国内生产总值471564亿元,比上年增长9.2%
任务四
数据特征的描述
4.1.2 相对指标
强度相对指标
两个性质不同但又有密切联系的两个总量指标
对比的结果
反映现象的强度、密度和普遍程度
例:人口密度“人/平方公里”、
商业网点密度“千人/个”或“个/千人等
任务四
数据特征的描述
4.1.2 相对指标
学习要点
4.2.1 集中趋势的含义
任务四
数据特征的描述
4.2 集中趋势的测度
4.2.2 集中趋势的度量方法
4.2.3 计算各种平均数的Excel操作
算术平均数、调和平均数、中位数、众数、几何平均数
任务四
数据特征的描述
4.2 集中趋势的测度
4.2.1 集中趋势的含义
集中趋势是一组数据向其中心值靠
拢的倾向和程度
测度集中趋势就是寻找数据一般水
平的代表值或中心值

中心值
即:平均水平
任务四
数据特征的描述
4.2.1 集中趋势的含义
任务四
数据特征的描述
4.2.1 集中趋势的含义
任务四
数据特征的描述
按测度方法分
算术平均数
几何平均数
众 数
中 位 数
4.2.2 集中趋势的度量方法
任务四
数据特征的描述
调和平均数
4.2.2 集中趋势的度量方法
任务四
数据特征的描述
1、算术平均数(average)
是一组数据相加后除以数据个数的
结果,也称为均值
只能计算数值型数据的平均水平
优点是利用了全部数据的信息,
缺点是容易受数据中极端值的影响
有简单算术平均数和加权算术平均
数两种计算形式
4.2.2 集中趋势的度量方法
任务四
数据特征的描述
简单算术平均数(simple mean )
适用于对未经分组的数据资料计算平均数
将变量值简单相加再除以变量的个数
计算公式为:
设一组数据为:
例:10名工人的工资水平为900、1100、1290、850、1500、1300、1200、1260、1800、1400.求平均工资水平。
4.2.2 集中趋势的度量方法
任务四
数据特征的描述
加权算术平均数(weighted mean)
适用于对已分组的数据资料计算平均数
以各组的频数或频率作为权数对各组的变量值
进行加权平均
计算公式为:
绝对
权数
相对
权数
4.2.2 集中趋势的度量方法
任务四
数据特征的描述
某公司400名职工平均工资计算表 单位:元
组中值
职工人数
④=②×③
按月工资分组
① ③
1100以下
1100-1300
1300-1500
1500-1700
1700以上 60
100
140
60
40
合计 — 400
加权算术平均数(例题)
人数为权数
1000
1200
1400
1600
1800

72000
60000
120000
196000
96000
544000
4.2.2 集中趋势的度量方法
任务四
数据特征的描述
某公司400名职工平均工资计算表 单位:元
组中值
职工人数
比重

⑤=③÷400
⑥=②×⑤
按月工资分组
① ② ③
1100以下
1100-1300
1300-1500
1500-1700
1700以上 1000
1200
1400
1600
1800 60
100
140
60
40 0.15
0.25
0.35
0.15
0.1
合计 — 400 1
比重%
为权数
(元)
150
300
180
490
240
1360
4.2.2 集中趋势的度量方法
任务四
数据特征的描述
某公司400名职工平均工资计算表 单位:元
组中值
职工人数
比重(%)
④=②×③
⑤=③÷400
⑥=②×⑤
按月工资分组
① ② ③
1100以下
1100-1300
1300-1500
1500-1700
1700以上 1000
1200
1400
1600
1800 60
100
140
60
40 60000
120000
196000
96000
72000 15
25
35
15
10 150
300
490
240
180
合计 — 400 544000 100 1360
人数为权数
比重%
为权数
(元)
4.2.2 集中趋势的度量方法
任务四
数据特征的描述
算术平均数的数学性质
各变量值与其平均数离差之和等于零,
即:
各变量值与其平均数离差平方和最小
即:
4.2.2 集中趋势的度量方法
任务四
数据特征的描述
2、 调和平均数(harmean )
4.2.2 集中趋势的度量方法
任务四
数据特征的描述
调和平均数(harmean)是各变量值倒数的算术平均数的倒数,也称为倒数平均数。
实际中,调和平均数一般作为算术平均数的变形使用
调和平均数也分为简单调和平均数和加权调和平均数两种形式。
简单调和平均数
4.2.2 集中趋势的度量方法
任务四
数据特征的描述
例4-2-4
平均价格=
例4-2-5
加权调和平均数
平均价格=
3、 众数(mode)
是一组数据中出现频率最高的数值,用 “ ”表示,反映现象的一般水平。
一组数据有可能无众数或存在双众数。
适用于数据足够多,且数据具有明显的集中趋势时。
4.2.2 集中趋势的度量方法
任务四
数据特征的描述
众数的确定(例1)
某班有30名学生的年龄如下:
19 20 20 20 20 20 21 19 20 20 20 19 18 20 20 20 20 20 20 20 21 20 20 20 20 22 20 20 20 20
求该班学生的平均年龄。
平均年龄20岁(众数年龄)
4.2.2 集中趋势的度量方法
任务四
数据特征的描述
众数的确定(例2)
去旧货市场的
次数(次) 消费者人数
(人)
1 10
2 24
3 14
4 8
5以上 4
合计 60
次数最多的组
众数值
4.2.2 集中趋势的度量方法
任务四
数据特征的描述
众数的确定(例3)
按月工资分组(元) 职工人数(人)
1100以下 60
1100-1300 100
1300-1500 140
1500-1700 60
1700以上 40
合计 400
众数所在组
下限公式:
上限公式:
4.2.2 集中趋势的度量方法
任务四
数据特征的描述
4、 中位数(median)
是一组数据按大小顺序排列后,处于
中间位置上的数据,用“ ”表示。
适用于存在极端数据(极大值或极小值),且数据偏斜程度较大的数据组。
4.2.2 集中趋势的度量方法
任务四
数据特征的描述
中位数的确定(例1)
●根据未分组的数据确定中位数
●中点位置
7名消费者每月去旧货市场次数
6名消费者每月去旧货市场次数
奇数项: 1 2 2 2 3 7 9
偶数项: 2 2 2 3 7 9
中位数2
中位数2.5
4.2.2 集中趋势的度量方法
任务四
数据特征的描述
中位数的确定(例2)
●根据单变量数列确定中位数
去旧货市场的次数(次) 人数(人) 累积次数(次)
1
2
3
4
5及以上 10
24
14
8
4 10
34
48
56
60
合计 60 —
◎计算累积次数
◎中位数所在位置:首先包含总次数一半的累积次数所在组
◎中位数为2
4.2.2 集中趋势的度量方法
任务四
数据特征的描述
中位数的确定(例3)
●根据组距变量数列确定中位数
◎计算累积次数
◎中位数所在位置:首先包含总次数一半的累积次数所在组
◎中位数(下限公式推算)
按工资分组
(元) 职工人数
(人) 向上累积
人数(人)
1100以下
1100-1300
1300-1500
1500-1700
1700以上 60
100
140
60
40 60
160
300
360
400
合计 400 —
4.2.2 集中趋势的度量方法
任务四
数据特征的描述
5、众数、中位数和均值的关系
X
f
X
f
对称分布
正偏态分布
(右)
负偏态分布
(左)
1
2
1
2
X
f
4.2.2 集中趋势的度量方法
任务四
数据特征的描述
4.2.5 几何平均数(median)
是 个变量值乘积的 次方根,用 表示。
适用于对比率数据的平均,经常用于计算平均增长率
简单几何平均:
加权几何平均:
4.2.2 集中趋势的度量方法
任务四
数据特征的描述
4.2.5 几何平均数(median)
适用于未分组数据
简单几何平均
【例4-2-10】某公司连续4年实现了利润的正增长,从2009年至2012年利润分别比上年增长7%、10%、12%、14%,求4年的平均增长率。
年平均增长率为110.72%-100%=10.72%
4.2.2 集中趋势的度量方法
任务四
数据特征的描述
4.2.5 几何平均数(median)
加权几何平均
适用于已分组数据
【例4-2-11】某银行对贷款利率是以复利计算的,10年间的贷款利率中,有2年利率为6%;有5年利率为7%;有2年利率为8%;有1年利率为9%,计算该银行的平均年利率。
平均年利率为106.196%-100%=6.196%
4.2.2 集中趋势的度量方法
任务四
数据特征的描述
任务四
数据特征的描述
4.2.3 集中趋势的Excel操作
AVERAGE(算术平均数)
HARMEAN(调和平均数)
MEDIAN(中位数)
MODE (众数)
GEOMEAN(几何平均数)
利用Excel函数计算
利用“描述统计”计算
作业
任务四
数据特征的描述
4.3 离散程度的测度
数据分布的特征和测度
分布的形状
集中趋势
离散程度
众 数
中位数
离散系数
方差和标准差
算术平均数
几何平均数
峰 度
偏 态
异众比率
四分位差
极差
任务四
数据特征的描述
4.3 离散程度的测度
学习要点
4.3.1 离散程度的含义
4.3.2 离散程度的度量方法
4.3.3 数据的标准化
4.3.4 离散指标的Excel操作
4.3.5 偏态与峰度
任务四
数据特征的描述
4.3 离散程度的测度
4.3.1 离散程度的含义
离散程度:各变量值远离其中心值的
程度,也称为离中趋势.
从另一个侧面说明了集中趋势测度值
的代表程度

中心值
任务四
数据特征的描述
4.3.1 离散程度的含义
任务四
数据特征的描述
离散程度测度值的作用
反映总体各单位变量值分布的均衡性
判断平均指标对总体各单位变量值代表性的高低
4.3.1 离散程度的含义
任务四
数据特征的描述
离散程度测度指标
异众比率
四分位差
离散系数
(标准差系数)
标准差
极差
4.3.2 离散程度的度量方法
任务四
数据特征的描述
4.3.2 离散程度的度量方法
任务四
数据特征的描述
平均差
用于衡量众数对一组数据的代表程度 。
是非众数组的频数之和占总频数的比重(%)。
【例4-3-1】随机抽选100名顾客,调查购买AI牌产品的地点。其中20人声称只去AI专卖店,70人说只去商场或超市,10人说专卖店和商场都去。如果认为购买AI牌产品的主要地点是商场或超市,则“商场或超市”就是众数。众数的代表性如何呢
“商场或超市”作为主要购物地点是有代表性的。
异众比率
1、异众比率
4.3.2 离散程度的度量方法
任务四
数据特征的描述
分位数:排序后处于25%、50%和75%位置上的值
反映了中位数对一组数据的代表程度。四分位差的意义是,
约有50%的数据应落在上四分位数和下四分位数之间。
的位置=
下四分位数
中位数
上四分位数
四分位差
的位置=
的位置=
2、四分位差
4.3.2 离散程度的度量方法
任务四
数据特征的描述
四分位数 (例子)


【例】:9个家庭的人均月收入数据
原始数据: 1500 750 780 1080 850 960 2000 1250 1630
排 序 750 780 850 960 1080 1250 1500 1630 2000
位 置: 1 2 3 4 5 6 7 8 9
四分位差 =1565-815=750
5个数据落在区间内
4.3.2 离散程度的度量方法
任务四
数据特征的描述
是一组数据的最大值与最小值之差,
又称为全距,用“R”表示
离散程度的最简单测度值
易受极端值影响
3、极差
4.3.2 离散程度的度量方法
任务四
数据特征的描述
4、平均差
4.3.2 离散程度的度量方法
任务四
数据特征的描述
平均差与标准差的区别
◆是离散程度最常用的测度值。
◆根据全部数据计算,反映了各变量值
与其算术平均数的平均离差程度。
◆标准差是方差的平方根 ,有量纲单位,与变量
值的计量单位相同,其实际意义比方差清楚。
5、标准差
4.3.2 离散程度的度量方法
任务四
数据特征的描述
◆计算公式
总体标准差
未分组
数据
分 组
数 据
4.3.2 离散程度的度量方法
样本标准差
注意:样本的自由度是n-1。
标准差计算实例
例4-3-6:简单式
甲组营业员(5人)的销售量(件)为 :20、40、50、90、50
平均数:
标准差:
=25.5(件)
4.3.2 离散程度的度量方法
任务四
数据特征的描述
标准差计算实例
例4-3-7 :加权式
零件个数
(件) 天 数
(天) 组中值
(件)
270以下
270-290
290-310
310-330
330以上 15
25
35
65
40 260
280
300
320
340 3900
7000
10500
20800
13600 2500
900
100
100
900 37500
22500
3500
6500
36000
合计 180 — 55800 — 106000
表4-3-2 乙批发商上半年日销售量资料 单位:件
4.3.2 离散程度的度量方法
任务四
数据特征的描述
经验法则
假设一组数据呈对称分布,则:
约68.27%的数据在平均数±1个标准差的范围内
约95%的数据在平均数±1.96个标准差的范围内
约95.45%的数据在平均数±2个标准差的范围内
约99.73%的数据在平均数±3个标准差的范围内
4.3.2 离散程度的度量方法
任务四
数据特征的描述
是非变量的标准差
只表现为是与否、有或无的标志,称为是非变量,
也称为交替变量
是非变量用文字表示,在进行统计处理时,具有某
种属性的用“1”代表,不具有某种属性的用“0”代表。
假设总体有“ ”个单位,具有某种属性的有
“ ”个,不具有某种属性的有“ ”个,
则 。
4.3.2 离散程度的度量方法
任务四
数据特征的描述
是非变量的方差与标准差
总体
样本
比例的平均数
比例的方差
比例的标准差
比 例
=
4.3.2 离散程度的度量方法
任务四
数据特征的描述
『例』从一批产品中随机抽取100件产品进行质量测试,测试的结果为90件合格,10件不合格,试计算合格率的方差和标准差
解:
4.3.2 离散程度的度量方法
任务四
数据特征的描述
6、离散系数
◆是对数据相对离散程度的测度。
◆消除了数据水平高低和计量单位的影响。
◆用于对不同组别数据离散程度的比较。
◆一般计算标准差系数,公式为:
样本
总体
4.3.2 离散程度的度量方法
任务四
数据特征的描述
离散系数实例
身高 体重
平均数为123.10cm 平均数为22.29kg
标准差为4.71cm 标准差为2.26kg
问:是身高的差异大还是体重的差异大
例:某地7岁男童
结论:同一批儿童体重的差异更大
4.3.2 离散程度的度量方法
任务四
数据特征的描述
对某一个值在一组数据中相对位置的度量
可用于判断一组数据是否有离群点
用于对变量的标准化处理
计算公式为
总体
样本
4.3.3 数据的标准化
任务四
数据特征的描述
业务员编号 1 2 3 4 5 6 7
原始数据
标准化值 8500
0.7722 5400
-1.2223 9500
-1.4157 5100
-1.4157 6500
-0.5148 8500
0.7722 7600
0.1931
表4-3-3
=1554元
标准差
例:1号业务员的
工资标准化值为:
平均数
=7300元
任务四
数据特征的描述
4.3.3 数据的标准化
任务四
数据特征的描述
4.3.4 离散程度的Excel操作
利用Excel函数计算离散指标
利用Excel的“描述统计”功能
MAX(最大值)
MIN(最小值)
QUARTILE(四分位点)
STDEV(样本标准差)
VAR(样本标准差)
KURT(峰度系数)
SKEW(偏态系数)
工具 数据分析 描述统计
任务四
数据特征的描述
偏态及其测度
峰度及其测度
4.3.5 偏态与峰度
任务四
数据特征的描述
偏态及其测度
偏态( Skewness )是指频数分布的偏斜方向和程度 。
左偏分布
右偏分布
与标准正态分布比较!
4.3.5 偏态与峰度
任务四
数据特征的描述
偏态系数(Skewness coefficient)是测度频数分布偏斜程度的统计指标,用SK表示。
计算公式为:
即:SK=O,正态分布
SK>O,右偏分布
SK<O,左偏分布
4.3.5 偏态与峰度
任务四
数据特征的描述
扁平分布
尖峰分布
峰度及其测度
峰度:是指频数分布曲线顶端尖峭或扁平的程度。有时两组数据的算术平均数、标准差和偏态系数都相同,但其频数分布曲线顶端的高耸程度却不同。
4.3.5 偏态与峰度
任务四
数据特征的描述
峰度系数 (Coefficient of kurtosis )
峰度系数是测度频数分布曲线顶端尖峭或扁平程度的指标,用K表示。
计算公式为:
4.3.5 偏态与峰度
即:K=O,正态分布
K>O,尖峰分布
K<O,扁平分布
任务四
数据特征的描述
任务四 要点回顾

展开更多......

收起↑

资源预览