资源简介 (共54张PPT)第三章 统计数据的描述性分析第一节 数据的集中趋势分析第二节 数据的离散程度分析第三节 数据的分布形态分析学习目标1、了解集中趋势、离散程度、分布形状等指标的定义和特点;2、理解集中趋势度量和离散程度度量所代表数据的意义;3、掌握各指标的计算和应用场合,能通过集中趋势、离散程度、偏态和峰态的计算,对数据分布特征有一个较为全面的把握。这个公司员工收入到底怎样?经理第二天,阿冲上班了。我这里报酬不错, 每周平均工资3000元,你在这里好好干!阿冲大学生如何选择就业?阿冲在公司工作了一周后平均工资确实是每周3000元,你看看公司的工资报表.你欺骗了我,我已经问过公司的职员了,没有一个人是超过3000元的经理阿冲大学生如何选择就业?问题1:请同学们仔细观察表格中的数据,讨论该公司的月平均工资是多少?经理是否欺骗了阿冲 问题2:平均月工资能否客观地反映员工的实际收入?问题3:再仔细观察表中的数据,你们认为用哪个数据反映一般职员的实际收入比较合适?人员 经理 副经理 领工 工人 学徒工资(元/周) 22000 2500 2200 2000 1000人数 1 6 5 10 1思考问题4:同学们有想过未来如何进行就业选择吗?除了工资水平外,还有什么重要因素影响你的就业选择?问题5:在对数据进行统计分析时,同学们关注数据的哪些特征?如何更加全面反映统计数据的特征?问题6:同学们有了解过与统计数据研究相关的工作吗?如何看待这类工作?思考第一节 数据的集中趋势分析集中趋势一组数据向其中心值靠拢的倾向和程度;测度集中趋势就是寻找数据水平的代表值或中心值;不同类型的数据用不同的集中趋势测度值;低层次数据的测度值适用于高层次的测量数据,但高层次数据的测度值并不适用于低层次的测量数据。1.统计平均数的含义与作用1.1统计平均数的含义反映现象总体各单位某一数量标志在一定时间、地点、条件下所达到的一般水平,是体现分布平均水平的指标。1.2统计平均数的作用反映总体各单位变量分布的一般水平和集中趋势。比较同类现象在不同空间的发展水平。比较同类现象在不同时期的发展变化趋势或规律。分析现象之间的依存关系。进行数量估计推断。一、平均数1、简单平均数429.0 671.2 622.4 678.7 393.2 331.3477.0 450.0 536.0 450.0 478.2 583.8655.9 373.5 540.1 303.6 397.4 515.3507.1 431.3 511.1 570.1 427.1 386.2512.9 455.1 465.4 452.7 437.5 625.4按日销售额分组(元/人)x 职工人数(人) f2200 22600 32800 43000 53200 2合计 16某商场食品部职工日销售额资料及计算表试计算职工平均日销售额(Excel加权平均)2、加权平均数按日销售额分组(元/人)x 职工人数(人) f2200~2500 22500~3000 73000~3500 7合计 16某商场食品部职工日销售额资料及计算表试计算职工平均日销售额组中值(元/人)2250275032502、加权平均数n 个变量值乘积的 n 次方根适用于对比率数据的平均主要用于计算平均增长率计算公式为3.几何平均数某机械厂生产机器,设有毛胚、粗加工、精加工、装配四个连续作业的车间,各车间某批产品的合格率分别为96%、93%、95%、97%,求各车间制品平均合格率。一位投资者购持有一种股票,连续4年收益率分别为4.5%、2.1%、25.5%、1.9%。计算该投资者在这四年内的平均收益率?二、中位数和四分位数一组数据从小到大排序后,处于中间位置上的值;不受极端值的影响;主要用于顺序数据,也可用数值型数据,但不能用于分类数据;Me50%50%1、数据未分组设一组数据为x1,x2,x3…xn,按从小到大顺序排序后,中位数计算公式为:2、数据有分组的情况甲城市家庭对住房状况评价的频数分布 回答类别 甲城市 户数 (户) 累计频数非常不满意 不满意 一般 满意 非常满意 24 108 93 45 30 24132225270300合计 300 —解:中位数的位置为∑f/2=(300)/2=150从累计频数看,中位数在“一般”这一组别中,中位数为:Me= 一般(大于等于150的最小值)3、组距式分组Me—中位数;L—中位数所在组下限;U—中位数所在组上限;fm—中位数所在组的次数;∑f—总次数;d—中位数所在组的组距;Sm-1—中位数组之前各组次数的累计;Sm+1—中位数组之后各组次数的累计;一组数据按从小到大排序后处于25%和75%位置上的值QLQMQU25%25%25%25%4、四分位数下四分位上四分位中位数位置= (下四分位数的位置) 位置=(上四分位数的位置)取值(1)如果位置是整数,四分位数就是该位置对应的数值;(2)如果是在整数加0.5的位置上,则取该位置两侧数值的平均数;(3)如果是在整数加0.25或0.75的位置上,则四分位数等于该位置前面的数值加上按比例分摊的位置两侧数值的差值。【例】:9个家庭的人均月收入数据原始数据: 1500 750 780 1080 850 960 2000 1250 1630排 序: 750 780 850 960 1080 1250 1500 1630 2000位 置: 1 2 3 4 5 6 7 8 9 位置=2.5 位置==(780+850)/2=815=(1250+1500)/2=1375例题4.4四分位数解读:750 780 850 960 1080 1250 1500 1630 20009个家庭的人均月收入数据排序后,至少25%的数据将小于或等于QL(815元),至少75%的数据将大于或等于QL(815元)。至少75%的数据将小于或等于QU(1375元),至少25%的数据将大于或等于QU(1375元)。大约一半的家庭人均月收入在815元和 1375元之间。303.6 331.3 373.5 386.2 393.2 397.4 427.1 429.0 431.3 437.5450.0 450.0 452.7 455.1 465.4 477.0 478.2 507.1 511.1 512.9515.3 536.0 540.1 570.1 583.8 622.4 625.4 655.9 671.2 678.7位置=7.75=427.1+(429-427.1)*0.75=428.525位置==540.1+(570.1-540.1)*0.25=547.6例题QL位置= (300+1)/4 =75.25QU位置 =3*(300+1)/4=225.75从累计频数看:QL在“不满意”这一组别中;QU在“一般”这一组别中四分位数为:QL = 不满意QU = 满意甲城市家庭对住房状况评价的频数分布 回答类别 甲城市 户数 (户) 累计频数非常不满意 不满意 一般 满意 非常满意 24 108 93 45 30 24132225270300合计 300 —例题三、众数一组数据中出现次数最多的变量值,用表示;一般在数据量较大时才有意义;不受极端值的影响;一组数据可能没有众数或有几个众数;主要用于分类数据,也可用于数值型数据。无众数10 5 9 12 6 8一个众数6 5 9 8 5 5多于一个众数25 28 28 36 42 42饮料类型 汇总果汁 6矿泉水 10绿茶 11其他 8碳酸饮料 15总计 50零件数(个) 频数(人) 零件数(个) 频数(人)107 1 119 2108 2 120 3109 3 121 1110 1 125 5112 2 126 1115 1 128 2117 3 129 1单项式分组组距式分组L—众数所在组下限;U—众数所在组上限;△1—众数所在组次数与前一组次数之差;△2—众数所在组次数与后一组次数之差;按销售量分组(台) 频数(天) 频率(%)140~150 4 3.33150~160 9 7.50160~170 16 13.33170~180 27 22.50180~190 20 16.67190~200 17 14.17200~210 10 8.33210~220 8 6.67220~230 4 3.33230~240 5 4.17合计 120 100平均数、中位数和众数的关系左偏分布均值中位数众数对称分布均值=中位数=众数右偏分布众数中位数均值第二节 数据的离散程度分析1、极差一组数据的最大值与最小值之差;离散程度的最简单测度值;易受极端值影响;未考虑数据的分布;计算公式为R = max(xi) - min(xi)例如,根据例4.1中的数据,计算30个人网购金额的全距为: =678.7 303.6=375.1上四分位数与下四分位数之差:Qd = QU – QL说明:(1)反映了中间50%数据的离散程度,数值越小,中间数据越集中,数值越大,中间数据越分散。(衡量中位数的代表性)(2)不受极端值的影响(3)主要用于测度顺序数据的离散程度。2、四分位差非众数组的频数占总频数的比例,用Vr表示:说明:(1) 变量值的总频数; 为众数组的频数;(2)异众比率越大,说明非众数组的频数占总频数的比重越大,众数的代表性越差;异众比率越小,众数代表性越好。3、异众比率结论:在调查的40人中,购买其他类型汉堡的人数占62.5%,异众比率较大,因此,用“板烧鸡腿堡”来代表消费者购买汉堡类型的一般状况,其代表性较差。4、标准差或4、方差或5.平均差目的是测算各单位标志值与其算术平均数离差的大小或者6、离散系数变异系数,是一组数据的标准差与其相应的平均数之比。消除数据取值大小和计量单位对标准差的影响,可以反映一组数据的相对离散程度,也可以用于多对数据离散程度的比较。离散系数大,数据的离散程度大;离散系数小,数据离散程度也小。某管理局所属8家企业的产品销售数据 企业编号 产品销售额(万元) x1 销售利润(万元)x21 2 3 4 5 6 7 8 170 220 390 430 480 650 950 1000 8.112.518.022.026.540.064.069.0【例】某管理局抽查了所属的8家企业,其产品销售数据如表。试比较产品销售额与销售利润的离散程度。=536.25(万元)=309.19(万元)==0.577=32.52(万元)=23.09(万元)==0.710结论: 计算结果表明,v1相对位置的度量:标准分数也称标准化值某个数据与其平均数的离差除以标准差后的值;设样本数据的标准分数为z,则有标准分数可以测度每个数值在该组数据中相对位置,表示是某个数据与平均数相比相差多少个标准差。可用于判断一组数据是否有离群点(outlier)。【例4.9】用例4.1计算30个人网购金额的标准分数。解:根据上面的计算结果,,。以第1个人的标准分数为例,由式(4.16)得:结果表示,第1个人的网购金额比平均网购金额低0.61412个标准差。未分组的原始数据根据分组数据计算三、偏态及其测度(数据分布偏斜程度)偏态系数=0为对称分布;偏态系数> 0为右偏分布,整体数据偏右,平均值被拉高偏态系数< 0为左偏分布,整体数据偏左,平均值被拉低偏态系数大于1或小于-1,被称为高度偏态分布;偏态系数在0.5~1或-1~-0.5之间,被认为是中等偏态分布;偏态系数越接近0,偏斜程度就越低第三节 数据的分布形态分析根据原始数据计算根据分组数据计算一、峰态及其测度(数据分布扁平程度)偏态系数=0为对称分布;偏态系数> 0为右偏分布,整体数据偏右,平均值被拉高偏态系数< 0为左偏分布,整体数据偏左,平均值被拉低偏态系数大于1或小于-1,被称为高度偏态分布;偏态系数在0.5~1或-1~-0.5之间,被认为是中等偏态分布;偏态系数越接近0,偏斜程度就越低峰态系数=0扁平峰度适中峰态系数<0为扁平分布,说明数据比较分散,平均值的代表性较弱峰态系数>0为尖峰分布:说明数据比较集中,平均值的代表性较强二、峰态及其测度 展开更多...... 收起↑ 资源预览