资源简介 (共77张PPT)任务四数据特征的描述《统计学基础》4.1 总量与相对量的测度任务四 数据特征的描述学 习 目 标4.2 集中趋势的测度4.3 离散程度的测度学习要点总量指标的含义、计量单位、种类相对指标的含义、计量单位、种类任务四数据特征的描述4.1 总量与相对量的测度任务四数据特征的描述4.1 总量与相对量的测度任务四数据特征的描述4.1 总量与相对量的测度中华人民共和国2011年国民经济和社会发展统计公报初步核算,全年国内生产总值471564亿元,比上年增长9.2%。其中,第一产业增加值47712亿元,增长4.5%;第二产业增加值220592亿元,增长10.6%;第三产业增加值203260亿元,增长8.9%。第一产业增加值占国内生产总值的比重为10.1%,第二产业增加值比重为46.8%,第三产业增加值比重为43.1%。任务四数据特征的描述4.1 总量与相对量的测度总量指标的含义总量指标是计算相对指标和平均指标的基础总量指标是反映社会经济现象总体在一定时间、地点和条件下总规模或总水平的统计指标因为其表现形式通常是绝对数,所以也称为绝对指标或绝对数任务四数据特征的描述任务四数据特征的描述4.1.1 总量指标总量指标的计量单位实物单位货币单位劳动单位自然单位:如“人”、“辆 ”、双”等度量衡单位:如“米”、“吨”、“公升”等复合单位 ,如“吨公里”、“千瓦时”等标准实物量= (混合实物量×折算系数)工时、工日、工年等元、万元、亿元等任务四数据特征的描述4.1.1 总量指标总量指标的计算方法如:国内生产总值=总产出-中间投入相加计算平衡计算与推算对于同类的计算对象按实际计量单位直接加起来直接相加对于不同类的计算对象按标准计量单位折算再相加折算相加任务四数据特征的描述4.1.1 总量指标总量指标的种类总量指标的种类按时间状态分按内容分时期总量时点总量单位总量标志总量任务四数据特征的描述4.1.1 总量指标总体单位总量表示总体本身的规模大小,是统计总体中总体单位数的合计数,简称单位总量总体标志总量反映统计总体中各个单位某个数量标志值的总和,简称标志总量研究某市国有商业企业的经营情况,该市全部国有商业企业就是一个 ,国有商业企业总数是这个总体的 ,而该市国有商业企业实现的商品销售额、上缴利税总额、职工总人数、职工工资总额等就是这个统计总体的 。统计总体单位总量标志总量任务四数据特征的描述4.1.1 总量指标时期总量反映现象在一定时间范围内发展变化的累积总量,又称流量(Flow)。特点 :①可以简单累加;②连续不断的记录取得;③数据大小与所包含时期的长短成正比关系。时点总量反映现象在某一时点或瞬间状态上的总规模,又称存量(Stock)。特点 :①不可以简单累加;②不必连续不断地登记,通常在期初或期末登记一次;③数值的大小与时期长短无直接关系。例如 某种产品产量、某地区的GDP 时期总量人口数、商品库存量、固定资产价值 时点总量时期总量时点总量任务四数据特征的描述4.1.1 总量指标相对指标的含义相对指标是两个有相互联系的指标的对比,又称相对数。用以反映现象的发展程度、结构、强度、普遍程度或比例关系。任务四数据特征的描述4.1.2 相对指标任务四数据特征的描述4.1.2 相对指标相对指标的计量单位有名数:由对比的两个指标的计量单位构成无名数系数和倍数是将对比基数抽象化为1而计算的相对数百分数是将对比的基数抽象化为100而计算的相对数千分数是将对比的基数抽象化为1000而计算的相对数成数是将对比的基数抽象化为10而计算的相对数分母为10分母为1分母为100分母为1000任务四数据特征的描述4.1.2 相对指标相对指标的种类相对指标的种类计划完成相对指标结构相对指标比例相对指标比较相对指标动态相对指标强度相对指标任务四数据特征的描述4.1.2 相对指标计划完成程度相对指标实际完成数与计划任务数之比,一般用百分数(%)表示短期计划的检查中长期计划的检查任务四数据特征的描述4.1.2 相对指标短期计划的检查【例4-1-1】某企业8月份计划利润总额达到270万元,实际利润总额为300万元,求该企业8月份计划完成程度。【例4-1-2】某企业9月份计划销售收入比上月增长6%,实际增长了9%,求该企业9月份销售收入的计划完成程度。【例4-1-3】某企业B产品去年单位成本为500元,今年计划比去年单位成本降低8%,实际单位成本降低4%。求该企业B产品单位成本降低计划完成程度。任务四数据特征的描述4.1.2 相对指标小知识:2、“百分数”与“百分点”1、对百分数进行计算时应考虑其基数任务四数据特征的描述4.1.2 相对指标中长期计划的检查是对5年或5年以上计划任务的检查。水平法.适合于只规定计划期末要达到某种水平的现象。【例4-1-4】某企业某种产品的零售额,按五年计划的规定,最后一年要达到100万元。实际执行情况如下:一年 二年 三年 四年 五年一季 二季 三季 四季 一季 二季 三季 四季零售额 78 82 89 24 24 24 25 25 26 26 28任务四数据特征的描述4.1.2 相对指标中长期计划的检查累计法.适合于规定计划期全期累计应达到某个总量的现象。【例4-1-5】某企业2001-2005年计划基本建设投资总额为2500万元,实际完成情况如下:2001 2002 2003 2004 2005一季 二季 三季 四季基本建设投资总额 480 508 600 612 120 180 250 150任务四数据特征的描述4.1.2 相对指标结构相对指标总体中的一部分数值与总体全部数值对比的结果用于反映总体内部的构成情况.一般用百分数(%)表示,各部分占总体的比重之和应等于100%.例:第三产业占GDP的比重为42.6%。任务四数据特征的描述4.1.2 相对指标比例相对指标总体中某一部分数值与另一部分数值对比的结果.用于反映总体中各部分数值之间的对比关系.比例相对指标既可以用百分数表示,也可以用小数、倍数等形式表示。比例相对指标的分子和分母可以互换位置。例:一、二、三次产业之比为1︰4.43︰4.03。任务四数据特征的描述4.1.2 相对指标比较相对指标同一时间不同空间条件下同类指标数值对比的结果可以揭示研究对象之间的差异程度.一般用百分数或小数、倍数表示。比较相对指标的分子和分母可以互换位置。例:2011年我国城镇居民人均可支配收入是农村居民人均纯收入的3.13倍。任务四数据特征的描述4.1.2 相对指标动态相对指标某一指标在不同时间上数值的对比说明现象发展变化的方向和程度一般用百分数(%)表示例:2011年国内生产总值471564亿元,比上年增长9.2%任务四数据特征的描述4.1.2 相对指标强度相对指标两个性质不同但又有密切联系的两个总量指标对比的结果反映现象的强度、密度和普遍程度例:人口密度“人/平方公里”、商业网点密度“千人/个”或“个/千人等任务四数据特征的描述4.1.2 相对指标学习要点4.2.1 集中趋势的含义任务四数据特征的描述4.2 集中趋势的测度4.2.2 集中趋势的度量方法4.2.3 计算各种平均数的Excel操作算术平均数、调和平均数、中位数、众数、几何平均数任务四数据特征的描述4.2 集中趋势的测度4.2.1 集中趋势的含义集中趋势是一组数据向其中心值靠拢的倾向和程度测度集中趋势就是寻找数据一般水平的代表值或中心值▲中心值即:平均水平任务四数据特征的描述4.2.1 集中趋势的含义任务四数据特征的描述4.2.1 集中趋势的含义任务四数据特征的描述按测度方法分算术平均数几何平均数众 数中 位 数4.2.2 集中趋势的度量方法任务四数据特征的描述调和平均数4.2.2 集中趋势的度量方法任务四数据特征的描述1、算术平均数(average)是一组数据相加后除以数据个数的结果,也称为均值只能计算数值型数据的平均水平优点是利用了全部数据的信息,缺点是容易受数据中极端值的影响有简单算术平均数和加权算术平均数两种计算形式4.2.2 集中趋势的度量方法任务四数据特征的描述简单算术平均数(simple mean )适用于对未经分组的数据资料计算平均数将变量值简单相加再除以变量的个数计算公式为:设一组数据为:例:10名工人的工资水平为900、1100、1290、850、1500、1300、1200、1260、1800、1400.求平均工资水平。4.2.2 集中趋势的度量方法任务四数据特征的描述加权算术平均数(weighted mean)适用于对已分组的数据资料计算平均数以各组的频数或频率作为权数对各组的变量值进行加权平均计算公式为:绝对权数相对权数4.2.2 集中趋势的度量方法任务四数据特征的描述某公司400名职工平均工资计算表 单位:元组中值职工人数④=②×③按月工资分组① ③1100以下1100-13001300-15001500-17001700以上 601001406040合计 — 400加权算术平均数(例题)人数为权数10001200140016001800②7200060000120000196000960005440004.2.2 集中趋势的度量方法任务四数据特征的描述某公司400名职工平均工资计算表 单位:元组中值职工人数比重④⑤=③÷400⑥=②×⑤按月工资分组① ② ③1100以下1100-13001300-15001500-17001700以上 10001200140016001800 601001406040 0.150.250.350.150.1合计 — 400 1比重%为权数(元)15030018049024013604.2.2 集中趋势的度量方法任务四数据特征的描述某公司400名职工平均工资计算表 单位:元组中值职工人数比重(%)④=②×③⑤=③÷400⑥=②×⑤按月工资分组① ② ③1100以下1100-13001300-15001500-17001700以上 10001200140016001800 601001406040 600001200001960009600072000 1525351510 150300490240180合计 — 400 544000 100 1360人数为权数比重%为权数(元)4.2.2 集中趋势的度量方法任务四数据特征的描述算术平均数的数学性质各变量值与其平均数离差之和等于零,即:各变量值与其平均数离差平方和最小即:4.2.2 集中趋势的度量方法任务四数据特征的描述2、 调和平均数(harmean )4.2.2 集中趋势的度量方法任务四数据特征的描述调和平均数(harmean)是各变量值倒数的算术平均数的倒数,也称为倒数平均数。实际中,调和平均数一般作为算术平均数的变形使用调和平均数也分为简单调和平均数和加权调和平均数两种形式。简单调和平均数4.2.2 集中趋势的度量方法任务四数据特征的描述例4-2-4平均价格=例4-2-5加权调和平均数平均价格=3、 众数(mode)是一组数据中出现频率最高的数值,用 “ ”表示,反映现象的一般水平。一组数据有可能无众数或存在双众数。适用于数据足够多,且数据具有明显的集中趋势时。4.2.2 集中趋势的度量方法任务四数据特征的描述众数的确定(例1)某班有30名学生的年龄如下:19 20 20 20 20 20 21 19 20 20 20 19 18 20 20 20 20 20 20 20 21 20 20 20 20 22 20 20 20 20求该班学生的平均年龄。平均年龄20岁(众数年龄)4.2.2 集中趋势的度量方法任务四数据特征的描述众数的确定(例2)去旧货市场的次数(次) 消费者人数(人)1 102 243 144 85以上 4合计 60次数最多的组众数值4.2.2 集中趋势的度量方法任务四数据特征的描述众数的确定(例3)按月工资分组(元) 职工人数(人)1100以下 601100-1300 1001300-1500 1401500-1700 601700以上 40合计 400众数所在组下限公式:上限公式:4.2.2 集中趋势的度量方法任务四数据特征的描述4、 中位数(median)是一组数据按大小顺序排列后,处于中间位置上的数据,用“ ”表示。适用于存在极端数据(极大值或极小值),且数据偏斜程度较大的数据组。4.2.2 集中趋势的度量方法任务四数据特征的描述中位数的确定(例1)●根据未分组的数据确定中位数●中点位置7名消费者每月去旧货市场次数6名消费者每月去旧货市场次数奇数项: 1 2 2 2 3 7 9偶数项: 2 2 2 3 7 9中位数2中位数2.54.2.2 集中趋势的度量方法任务四数据特征的描述中位数的确定(例2)●根据单变量数列确定中位数去旧货市场的次数(次) 人数(人) 累积次数(次)12345及以上 10241484 1034485660合计 60 —◎计算累积次数◎中位数所在位置:首先包含总次数一半的累积次数所在组◎中位数为24.2.2 集中趋势的度量方法任务四数据特征的描述中位数的确定(例3)●根据组距变量数列确定中位数◎计算累积次数◎中位数所在位置:首先包含总次数一半的累积次数所在组◎中位数(下限公式推算)按工资分组(元) 职工人数(人) 向上累积人数(人)1100以下1100-13001300-15001500-17001700以上 601001406040 60160300360400合计 400 —4.2.2 集中趋势的度量方法任务四数据特征的描述5、众数、中位数和均值的关系XfXf对称分布正偏态分布(右)负偏态分布(左)1212Xf4.2.2 集中趋势的度量方法任务四数据特征的描述4.2.5 几何平均数(median)是 个变量值乘积的 次方根,用 表示。适用于对比率数据的平均,经常用于计算平均增长率简单几何平均:加权几何平均:4.2.2 集中趋势的度量方法任务四数据特征的描述4.2.5 几何平均数(median)适用于未分组数据简单几何平均【例4-2-10】某公司连续4年实现了利润的正增长,从2009年至2012年利润分别比上年增长7%、10%、12%、14%,求4年的平均增长率。年平均增长率为110.72%-100%=10.72%4.2.2 集中趋势的度量方法任务四数据特征的描述4.2.5 几何平均数(median)加权几何平均适用于已分组数据【例4-2-11】某银行对贷款利率是以复利计算的,10年间的贷款利率中,有2年利率为6%;有5年利率为7%;有2年利率为8%;有1年利率为9%,计算该银行的平均年利率。平均年利率为106.196%-100%=6.196%4.2.2 集中趋势的度量方法任务四数据特征的描述任务四数据特征的描述4.2.3 集中趋势的Excel操作AVERAGE(算术平均数)HARMEAN(调和平均数)MEDIAN(中位数)MODE (众数)GEOMEAN(几何平均数)利用Excel函数计算利用“描述统计”计算作业任务四数据特征的描述4.3 离散程度的测度数据分布的特征和测度分布的形状集中趋势离散程度众 数中位数离散系数方差和标准差算术平均数几何平均数峰 度偏 态异众比率四分位差极差任务四数据特征的描述4.3 离散程度的测度学习要点4.3.1 离散程度的含义4.3.2 离散程度的度量方法4.3.3 数据的标准化4.3.4 离散指标的Excel操作4.3.5 偏态与峰度任务四数据特征的描述4.3 离散程度的测度4.3.1 离散程度的含义离散程度:各变量值远离其中心值的程度,也称为离中趋势.从另一个侧面说明了集中趋势测度值的代表程度▲中心值任务四数据特征的描述4.3.1 离散程度的含义任务四数据特征的描述离散程度测度值的作用反映总体各单位变量值分布的均衡性判断平均指标对总体各单位变量值代表性的高低4.3.1 离散程度的含义任务四数据特征的描述离散程度测度指标异众比率四分位差离散系数(标准差系数)标准差极差4.3.2 离散程度的度量方法任务四数据特征的描述4.3.2 离散程度的度量方法任务四数据特征的描述平均差用于衡量众数对一组数据的代表程度 。是非众数组的频数之和占总频数的比重(%)。【例4-3-1】随机抽选100名顾客,调查购买AI牌产品的地点。其中20人声称只去AI专卖店,70人说只去商场或超市,10人说专卖店和商场都去。如果认为购买AI牌产品的主要地点是商场或超市,则“商场或超市”就是众数。众数的代表性如何呢 “商场或超市”作为主要购物地点是有代表性的。异众比率1、异众比率4.3.2 离散程度的度量方法任务四数据特征的描述分位数:排序后处于25%、50%和75%位置上的值反映了中位数对一组数据的代表程度。四分位差的意义是,约有50%的数据应落在上四分位数和下四分位数之间。的位置=下四分位数中位数上四分位数四分位差的位置=的位置=2、四分位差4.3.2 离散程度的度量方法任务四数据特征的描述四分位数 (例子) 【例】:9个家庭的人均月收入数据原始数据: 1500 750 780 1080 850 960 2000 1250 1630排 序 750 780 850 960 1080 1250 1500 1630 2000位 置: 1 2 3 4 5 6 7 8 9四分位差 =1565-815=7505个数据落在区间内4.3.2 离散程度的度量方法任务四数据特征的描述是一组数据的最大值与最小值之差,又称为全距,用“R”表示离散程度的最简单测度值易受极端值影响3、极差4.3.2 离散程度的度量方法任务四数据特征的描述4、平均差4.3.2 离散程度的度量方法任务四数据特征的描述平均差与标准差的区别◆是离散程度最常用的测度值。◆根据全部数据计算,反映了各变量值与其算术平均数的平均离差程度。◆标准差是方差的平方根 ,有量纲单位,与变量值的计量单位相同,其实际意义比方差清楚。5、标准差4.3.2 离散程度的度量方法任务四数据特征的描述◆计算公式总体标准差未分组数据分 组数 据4.3.2 离散程度的度量方法样本标准差注意:样本的自由度是n-1。标准差计算实例例4-3-6:简单式甲组营业员(5人)的销售量(件)为 :20、40、50、90、50平均数:标准差:=25.5(件)4.3.2 离散程度的度量方法任务四数据特征的描述标准差计算实例例4-3-7 :加权式零件个数(件) 天 数(天) 组中值(件)270以下270-290290-310310-330330以上 1525356540 260280300320340 39007000105002080013600 2500900100100900 37500225003500650036000合计 180 — 55800 — 106000表4-3-2 乙批发商上半年日销售量资料 单位:件4.3.2 离散程度的度量方法任务四数据特征的描述经验法则假设一组数据呈对称分布,则:约68.27%的数据在平均数±1个标准差的范围内约95%的数据在平均数±1.96个标准差的范围内约95.45%的数据在平均数±2个标准差的范围内约99.73%的数据在平均数±3个标准差的范围内4.3.2 离散程度的度量方法任务四数据特征的描述是非变量的标准差只表现为是与否、有或无的标志,称为是非变量,也称为交替变量是非变量用文字表示,在进行统计处理时,具有某种属性的用“1”代表,不具有某种属性的用“0”代表。假设总体有“ ”个单位,具有某种属性的有“ ”个,不具有某种属性的有“ ”个,则 。4.3.2 离散程度的度量方法任务四数据特征的描述是非变量的方差与标准差总体样本比例的平均数比例的方差比例的标准差比 例=4.3.2 离散程度的度量方法任务四数据特征的描述『例』从一批产品中随机抽取100件产品进行质量测试,测试的结果为90件合格,10件不合格,试计算合格率的方差和标准差解:4.3.2 离散程度的度量方法任务四数据特征的描述6、离散系数◆是对数据相对离散程度的测度。◆消除了数据水平高低和计量单位的影响。◆用于对不同组别数据离散程度的比较。◆一般计算标准差系数,公式为:样本总体4.3.2 离散程度的度量方法任务四数据特征的描述离散系数实例身高 体重平均数为123.10cm 平均数为22.29kg标准差为4.71cm 标准差为2.26kg问:是身高的差异大还是体重的差异大例:某地7岁男童结论:同一批儿童体重的差异更大4.3.2 离散程度的度量方法任务四数据特征的描述对某一个值在一组数据中相对位置的度量可用于判断一组数据是否有离群点用于对变量的标准化处理计算公式为总体样本4.3.3 数据的标准化任务四数据特征的描述业务员编号 1 2 3 4 5 6 7原始数据标准化值 85000.7722 5400-1.2223 9500-1.4157 5100-1.4157 6500-0.5148 85000.7722 76000.1931表4-3-3=1554元标准差例:1号业务员的工资标准化值为:平均数=7300元任务四数据特征的描述4.3.3 数据的标准化任务四数据特征的描述4.3.4 离散程度的Excel操作利用Excel函数计算离散指标利用Excel的“描述统计”功能MAX(最大值)MIN(最小值)QUARTILE(四分位点)STDEV(样本标准差)VAR(样本标准差)KURT(峰度系数)SKEW(偏态系数)工具 数据分析 描述统计任务四数据特征的描述偏态及其测度峰度及其测度4.3.5 偏态与峰度任务四数据特征的描述偏态及其测度偏态( Skewness )是指频数分布的偏斜方向和程度 。左偏分布右偏分布与标准正态分布比较!4.3.5 偏态与峰度任务四数据特征的描述偏态系数(Skewness coefficient)是测度频数分布偏斜程度的统计指标,用SK表示。计算公式为:即:SK=O,正态分布SK>O,右偏分布SK<O,左偏分布4.3.5 偏态与峰度任务四数据特征的描述扁平分布尖峰分布峰度及其测度峰度:是指频数分布曲线顶端尖峭或扁平的程度。有时两组数据的算术平均数、标准差和偏态系数都相同,但其频数分布曲线顶端的高耸程度却不同。4.3.5 偏态与峰度任务四数据特征的描述峰度系数 (Coefficient of kurtosis )峰度系数是测度频数分布曲线顶端尖峭或扁平程度的指标,用K表示。计算公式为:4.3.5 偏态与峰度即:K=O,正态分布K>O,尖峰分布K<O,扁平分布任务四数据特征的描述任务四 要点回顾 展开更多...... 收起↑ 资源预览