资源简介 (共45张PPT)第3章 数据描述第一节 总量指标与相对指标第二节 分布集中趋势的测度第三节 分布离散程度的测度第四节 分布偏态与峰度的测度第五节 数据的标准化学习目标掌握总量指标和相对指标掌握集中趋势和离散趋势的测度了解偏态和峰度的测度掌握数据的标准化处理第一节 总量指标与相对指标一、总量指标二、相对指标总量指标(Total amount index)反映社会经济现象在一定时间、地点、条件下所达到的总规模、总水平或工作总量。用绝对数表示,又称为绝对数、绝对数指标或绝对指标。是计算相对指标和平均指标的基础。总量指标(类型)按反映的内容不同分:总体总量是总体中单位数之和,说明总体本身规模的大小。如企业数、人口数等标志总量是总体中各个单位某一数量标志值的总和。如工业总产值、工资总额等。总量指标总体总量标志总量总量指标(类型)按反映的时间状态不同分:时期指标:反映社会经济现象在一段时期内发展过程的总数量。如产品产量、工资总额、销售额等时点指标:反映社会经济现象在某一时点(或时刻)所表现的数量特征的总量。如人口数、商品库存量、企业数等。总量指标时期指标时点指标相对指标(Relative index)是社会经济现象中两个相互联系的指标数值之比。也称为相对数无名数形式:系数、倍数、成数、百分数、千分数、万分数有名数形式:如周转次数(次)、周转天数(天)、人口密度(人/平方公里)相对指标(类型)计划完成相对指标结构相对指标比较相对指标动态相对指标强度相对指标分子、分母不互换,一般用百分数表示。实际完成数计划任务数计划完成程度相对指标=×100%计划完成相对指标(计算式)结构相对指标总体的各组数值与全部总体数值之比,表明构成事物总体的各个组成部分在总体中所占的比重,说明总体结构结构相对指标一般用百分数或系数来表示,各部分占总体的比重之和必须等于100%或1。分子分母不能互换总体部分数值总体全部数值结构相对指标 =比较相对指标同类现象在不同空间的对比同一总体内的不同部分之比。有时又把这种形式称为比例相对数。例如:我国第三、四、五、六次人口普查及2015年1%人口抽调的结果,男女性别比例分别为:106.3,106.6,106.74,105.20 ,105.02。分子分母可以互换某条件下的某类指标数值另一条件下的同类指标数值比较相对指标 =动态相对指标同类现象在不同时期的对比反映现象在时间上发展变化的方向和程度也称为发展速度报告期水平基期水平动态相对指标 =强度相对指标两个性质不同但有联系的指标对比表明现象强度、密度和普遍程度常用复名数表示,由分子、分母的原有计量单位组成有正指标、逆指标之分指标带有平均的形式,但不是平均指标,如人均国民生产总值、人均粮食产量等某一总量指标数值另一有联系而性质不同的总量指标数值强度相对指标 =第二节 分布集中趋势的测度一、众数二、中位数三、四分位数四、均值五、几何均值六、众数、中位数和均值的比较众数(mode)一组数据中出现次数最多的变量值适合于数据量较多时使用不受极端值的影响一组数据可能没有众数或有几个众数主要用于分类数据,也可用于顺序数据和数值型数据mo众数(不惟一性)无众数原始数据: 10 5 9 12 6 8一个众数原始数据: 6 5 9 8 5 5多于一个众数原始数据: 25 28 28 36 42 42中位数(median)排序后处于中间位置上的值Me50%50%不受极端值的影响主要用于顺序数据,也可用数值型数据,但不能用于分类数据各变量值与中位数的离差绝对值之和最小,即中位数(位置的确定)1. 位置确定2. 数值确定四分位数—用3个点等分数据(quartile)排序后处于25%和75%位置上的值不受极端值的影响主要用于顺序数据,也可用于数值型数据,但不能用于分类数据QLQMQU25%25%25%25%四分位数的计算(位置的确定)定义算法均值(mean)集中趋势的最常用测度值一组数据的均衡点所在体现了数据的必然性特征易受极端值的影响用于数值型数据,不能用于分类数据和顺序数据简单均值(simple mean)设一组数据为: x1 ,x2 ,… ,xn总体均值样本均值加权均值(weighted mean)设一组数据为: x1 ,x2 ,… ,xn相应的频数为: f1 , f2 ,… ,fk总体均值样本均值均值(数学性质)1. 各变量值与均值的离差之和等于零2. 各变量值与均值的离差平方和最小几何均值(geometric mean)n 个变量值乘积的 n 次方根适用于对比率数据的平均主要用于计算平均增长率计算公式为众数、中位数和均值的比较众数、中位数和均值的关系左偏分布均值中位数众数对称分布均值=中位数=众数右偏分布众数中位数均值第三节 分布离散程度的测度一、异众比率二、极差三、四分位差四、方差和标准差五、离散系数异众比率(variation ratio)非众数组的频数占总频数的比例衡量众数对一组数据的代表性。异众比率越大,众数的代表性就越差;反之,异众比率越小,众数的代表性就越好。用于测度分类数据的离散程度,也可用于顺序数据和定量数据计算公式为极差(range)一组数据的最大值与最小值之差变量值离散程度的最简单测度值易受极端值影响未考虑数据的分布7891078910R = max(xi) - min(xi)计算公式为也称内距上四分位数与下四分位数之差四分位差QD = QU – QL反映了中间50%数据的离散程度不受极端值的影响可用于衡量中位数的代表性四分位差quartile deviation25%75%方差和标准差(Variance and Standard deviation)1. 离散程度的测度值之一2. 最常用的测度值3. 反映了数据的分布反映了各变量值与均值的平均差异根据总体数据计算的,称为总体方差或标准差;根据样本数据计算的,称为样本方差或标准差4 6 8 10 12 x = 8.3总体方差和标准差(Population variance and Standard deviation)未分组数据:组距分组数据:未分组数据:组距分组数据:方差的计算公式标准差的计算公式样本方差和标准差(simple variance and standard deviation)未分组数据:组距分组数据:未分组数据:组距分组数据:方差的计算公式标准差的计算公式离散系数(coefficient of variation)1. 标准差与其相应的均值之比对数据相对离散程度的测度消除了数据水平高低和计量单位的影响4. 用于对不同组别数据离散程度的比较5. 计算公式为第四节 分布偏态与峰度的测度一、偏态二、峰度数据分布的形状—偏态与峰态扁平分布尖峰分布偏态峰态左偏分布右偏分布与标准正态分布比较!偏态(skewness)统计学家Pearson于1895年首次提出。是指数据分布的不对称性测度统计量是偏态系数(coefficient of skewness)偏态系数=0为对称分布;>0为右偏分布;<0为左偏分布偏态系数大于1或小于-1,为高度偏态分布;偏态系数在0.5~1或-1~-0.5之间,为是中等偏态分布;偏态系数越接近0,偏斜程度就越低计算公式峰度(kurtosis)统计学家Pearson于1905年首次提出。数据分布峰值的高低测度统计量是峰度系数(coefficient of kurtosis)峰度系数=0扁平峰度适中峰度系数<0为扁平分布峰度系数>0为尖峰分布计算公式第五节 数据的标准化一、标准化值的计算二、契比雪夫定理标准化值的计算(用于数据变换)Z值只是将原始数据进行了线性变换,它并没有改变一个数据在该组数据中的位置,也没有改变该组数分布的形状,而只是使该组数据均值为0,标准差为1经验法则 经验法则表明:当一组数据对称分布时约有68%的数据在平均数加减1个标准差的范围之内约有95%的数据在平均数加减2个标准差的范围之内约有99%的数据在平均数加减3个标准差的范围之内根据经验法则,对于对称分布,几乎所有数据的标准化值都在区间( 3,+3)内,则标准化值在区间外的数据都可以看作是异常值。契比雪夫不等式(Chebyshev’s inequality)如果一组数据不是对称分布,经验法则就不再适用,这时可使用契比雪夫不等式,它对任何分布形状的数据都适用。契比雪夫定理的内容:在任意一个数据集中,至少有1-1/z2的数据与平均数的距离在z个标准差之内,其中z是大于1的任意值。契比雪夫不等式提供的是“下界”,也就是“所占比例至少是多少”。契比雪夫不等式(Chebyshev’s inequality) 对于z=2,3,4,该不等式的含义是当z=2时,则至少有75%的数据与平均数的距离在2个标准差之内,即:至少有75%的数据落在平均数加减2个标准差的范围之内。当z=3时,则至少有89%的数据与平均数的距离在3个标准差之内,即:至少有89%的数据落在平均数加减3个标准差的范围之内。当z=4时,则至少有94%的数据与平均数的距离在4个标准差之内,即:至少有94%的数据落在平均数加减4个标准差的范围之内。运用契比雪夫定理可以估计在均值的特定范围之内数据的个数。本章小结总量指标与相对指标分布集中趋势测度分布离散程度测度分布偏态与峰度测度数据的标准化 展开更多...... 收起↑ 资源预览