第3章数据描述 课件(共45张PPT)-《统计学-理论、案例、实训》同步教学(电工版)

资源下载
  1. 二一教育资源

第3章数据描述 课件(共45张PPT)-《统计学-理论、案例、实训》同步教学(电工版)

资源简介

(共45张PPT)
第3章 数据描述
第一节 总量指标与相对指标
第二节 分布集中趋势的测度
第三节 分布离散程度的测度
第四节 分布偏态与峰度的测度
第五节 数据的标准化
学习目标
掌握总量指标和相对指标
掌握集中趋势和离散趋势的测度
了解偏态和峰度的测度
掌握数据的标准化处理
第一节 总量指标与相对指标
一、总量指标
二、相对指标
总量指标
(Total amount index)
反映社会经济现象在一定时间、地点、条件下所达到的总规模、总水平或工作总量。
用绝对数表示,又称为绝对数、绝对数指标或绝对指标。
是计算相对指标和平均指标的基础。
总量指标
(类型)
按反映的内容不同分:
总体总量是总体中单位数之和,说明总体本身规模的大小。如企业数、人口数等
标志总量是总体中各个单位某一数量标志值的总和。如工业总产值、工资总额等。
总量指标
总体总量
标志总量
总量指标
(类型)
按反映的时间状态不同分:
时期指标:反映社会经济现象在一段时期内发展过程的总数量。如产品产量、工资总额、销售额等
时点指标:反映社会经济现象在某一时点(或时刻)所表现的数量特征的总量。如人口数、商品库存量、企业数等。
总量指标
时期指标
时点指标
相对指标
(Relative index)
是社会经济现象中两个相互联系的指标数值之比。也称为相对数
无名数形式:系数、倍数、成数、百分数、千分数、万分数
有名数形式:如周转次数(次)、周转天数(天)、人口密度(人/平方公里)
相对指标
(类型)
计划完成相对指标
结构相对指标
比较相对指标
动态相对指标
强度相对指标
分子、分母不互换,一般用百分数表示。
实际完成数
计划任务数
计划完成程度相对指标=
×100%
计划完成相对指标
(计算式)
结构相对指标
总体的各组数值与全部总体数值之比,表明构成事物总体的各个组成部分在总体中所占的比重,说明总体结构
结构相对指标一般用百分数或系数来表示,各部分占总体的比重之和必须等于100%或1。
分子分母不能互换
总体部分数值
总体全部数值
结构相对指标 =
比较相对指标
同类现象在不同空间的对比
同一总体内的不同部分之比。有时又把这种形式称为比例相对数。例如:我国第三、四、五、六次人口普查及2015年1%人口抽调的结果,男女性别比例分别为:106.3,106.6,106.74,105.20 ,105.02。
分子分母可以互换
某条件下的某类指标数值
另一条件下的同类指标数值
比较相对指标 =
动态相对指标
同类现象在不同时期的对比
反映现象在时间上发展变化的方向和程度
也称为发展速度
报告期水平
基期水平
动态相对指标 =
强度相对指标
两个性质不同但有联系的指标对比
表明现象强度、密度和普遍程度
常用复名数表示,由分子、分母的原有计量单位组成
有正指标、逆指标之分
指标带有平均的形式,但不是平均指标,如人均国民生产总值、人均粮食产量等
某一总量指标数值
另一有联系而性质不同的总量指标数值
强度相对指标 =
第二节 分布集中趋势的测度
一、众数
二、中位数
三、四分位数
四、均值
五、几何均值
六、众数、中位数和均值的比较
众数
(mode)
一组数据中出现次数最多的变量值
适合于数据量较多时使用
不受极端值的影响
一组数据可能没有众数或有几个众数
主要用于分类数据,也可用于顺序数据和数值型数据
mo
众数
(不惟一性)
无众数
原始数据: 10 5 9 12 6 8
一个众数
原始数据: 6 5 9 8 5 5
多于一个众数
原始数据: 25 28 28 36 42 42
中位数
(median)
排序后处于中间位置上的值
Me
50%
50%
不受极端值的影响
主要用于顺序数据,也可用数值型数据,但不能用于分类数据
各变量值与中位数的离差绝对值之和最小,即
中位数
(位置的确定)
1. 位置确定
2. 数值确定
四分位数—用3个点等分数据
(quartile)
排序后处于25%和75%位置上的值
不受极端值的影响
主要用于顺序数据,也可用于数值型数据,但不能用于分类数据
QL
QM
QU
25%
25%
25%
25%
四分位数的计算
(位置的确定)
定义算法
均值
(mean)
集中趋势的最常用测度值
一组数据的均衡点所在
体现了数据的必然性特征
易受极端值的影响
用于数值型数据,不能用于分类数据和顺序数据
简单均值
(simple mean)
设一组数据为: x1 ,x2 ,… ,xn
总体均值
样本均值
加权均值
(weighted mean)
设一组数据为: x1 ,x2 ,… ,xn
相应的频数为: f1 , f2 ,… ,fk
总体均值
样本均值
均值
(数学性质)
1. 各变量值与均值的离差之和等于零
2. 各变量值与均值的离差平方和最小
几何均值
(geometric mean)
n 个变量值乘积的 n 次方根
适用于对比率数据的平均
主要用于计算平均增长率
计算公式为
众数、中位数和均值的比较
众数、中位数和均值的关系
左偏分布
均值
中位数
众数
对称分布
均值
=
中位数
=
众数
右偏分布
众数
中位数
均值
第三节 分布离散程度的测度
一、异众比率
二、极差
三、四分位差
四、方差和标准差
五、离散系数
异众比率
(variation ratio)
非众数组的频数占总频数的比例
衡量众数对一组数据的代表性。
异众比率越大,众数的代表性就越差;反之,异众比率越小,众数的代表性就越好。
用于测度分类数据的离散程度,也可用于顺序数据和定量数据
计算公式为
极差
(range)
一组数据的最大值与最小值之差
变量值离散程度的最简单测度值
易受极端值影响
未考虑数据的分布
7
8
9
10
7
8
9
10
R = max(xi) - min(xi)
计算公式为
也称内距
上四分位数与下四分位数之差
四分位差QD = QU – QL
反映了中间50%数据的离散程度
不受极端值的影响
可用于衡量中位数的代表性
四分位差
quartile deviation
25%
75%
方差和标准差
(Variance and Standard deviation)
1. 离散程度的测度值之一
2. 最常用的测度值
3. 反映了数据的分布
反映了各变量值与均值的平均差异
根据总体数据计算的,称为总体方差或标准差;根据样本数据计算的,称为样本方差或标准差
4 6 8 10 12
x = 8.3
总体方差和标准差
(Population variance and Standard deviation)
未分组数据:
组距分组数据:
未分组数据:
组距分组数据:
方差的计算公式
标准差的计算公式
样本方差和标准差
(simple variance and standard deviation)
未分组数据:
组距分组数据:
未分组数据:
组距分组数据:
方差的计算公式
标准差的计算公式
离散系数
(coefficient of variation)
1. 标准差与其相应的均值之比
对数据相对离散程度的测度
消除了数据水平高低和计量单位的影响
4. 用于对不同组别数据离散程度的比较
5. 计算公式为
第四节 分布偏态与峰度的测度
一、偏态
二、峰度
数据分布的形状—偏态与峰态
扁平分布
尖峰分布
偏态
峰态
左偏分布
右偏分布
与标准正态分布比较!
偏态
(skewness)
统计学家Pearson于1895年首次提出。是指数据分布的不对称性
测度统计量是偏态系数(coefficient of skewness)
偏态系数=0为对称分布;>0为右偏分布;<0为左偏分布
偏态系数大于1或小于-1,为高度偏态分布;偏态系数在0.5~1或-1~-0.5之间,为是中等偏态分布;偏态系数越接近0,偏斜程度就越低
计算公式
峰度
(kurtosis)
统计学家Pearson于1905年首次提出。数据分布峰值的高低
测度统计量是峰度系数(coefficient of kurtosis)
峰度系数=0扁平峰度适中
峰度系数<0为扁平分布
峰度系数>0为尖峰分布
计算公式
第五节 数据的标准化
一、标准化值的计算
二、契比雪夫定理
标准化值的计算
(用于数据变换)
Z值只是将原始数据进行了线性变换,它并没有改变一个数据在该组数据中的位置,也没有改变该组数分布的形状,而只是使该组数据均值为0,标准差为1
经验法则
经验法则表明:当一组数据对称分布时
约有68%的数据在平均数加减1个标准差的范围之内
约有95%的数据在平均数加减2个标准差的范围之内
约有99%的数据在平均数加减3个标准差的范围之内
根据经验法则,对于对称分布,几乎所有数据的标准化值都在区间( 3,+3)内,则标准化值在区间外的数据都可以看作是异常值。
契比雪夫不等式
(Chebyshev’s inequality)
如果一组数据不是对称分布,经验法则就不再适用,这时可使用契比雪夫不等式,它对任何分布形状的数据都适用。
契比雪夫定理的内容:在任意一个数据集中,至少有1-1/z2的数据与平均数的距离在z个标准差之内,其中z是大于1的任意值。
契比雪夫不等式提供的是“下界”,也就是“所占比例至少是多少”。
契比雪夫不等式
(Chebyshev’s inequality)
对于z=2,3,4,该不等式的含义是
当z=2时,则至少有75%的数据与平均数的距离在2个标准差之内,即:至少有75%的数据落在平均数加减2个标准差的范围之内。
当z=3时,则至少有89%的数据与平均数的距离在3个标准差之内,即:至少有89%的数据落在平均数加减3个标准差的范围之内。
当z=4时,则至少有94%的数据与平均数的距离在4个标准差之内,即:至少有94%的数据落在平均数加减4个标准差的范围之内。
运用契比雪夫定理可以估计在均值的特定范围之内数据的个数。
本章小结
总量指标与相对指标
分布集中趋势测度
分布离散程度测度
分布偏态与峰度测度
数据的标准化

展开更多......

收起↑

资源预览