资源简介 (共42张PPT)基础统计实务项目三: 统计数据的整理与显示统计数据的整理与显示3.1.1统计整理的程序(1)根据研究目的设计整理汇总方案统计汇总方案的设计包括两方面:一是对于总体的处理方法。二是确定用哪些统计指标来说明总体。(2)汇总前对统计数据资料的审核(3)对数据资料的分组与汇总按照一定的组织形式和方法,根据调查资料的性质与特点,划分为若干组,并加总,计算出各组的单位数和合计数,计算出各组指标和综合指标的数值。分组和汇总是统计数据整理的中心工作。(4)编制统计表、绘制统计图将整理结果用统计表和统计图的形式反映出来,它可清晰地、简明扼要地表述统计资料的内容。(5)统计资料的积累和保管3.1.2 统计分组(1)统计分组的概念统计分组是根据统计研究的目的和任务,按照一定的标志将统计总体划分为若干个组成部分的一种统计方法。(2)统计分组的要求根据统计分组的定义可知,统计分组有三个要素:母项,须划分的总体;子项,划分以后的类(组)总体;分组标志,进行统计分组的标准和依据。进行统计分组,在技术上有三个基本要求:周延性,要求分组以后各子项之和应等于母项;互斥性,组与组之间要相互排斥,不能重合;分组标志的同一性,每一次分组只能以一个标志为划分依据,不能同时采纳两个或两个以上的标志为划分依据。遵守以上要求,就能达到组内同质性、组间差别性的分组效果,反之,就可能会出现分组上的混淆和矛盾,这是我们在统计分组中必须注意的。统计数据的整理与显示(3)统计分组的种类统计分组可以按照不同的标志进行分类统计分组主要有如下几种。① 按分组标志的多少,可分为简单分组和复合分组1)简单分组与平行分组体系简单分组就是对研究现象按一个标志进行分组,它只能从某一方面说明和反映事物的分布状况和内部结构。例如,为了了解企业职工基本情况,可以选择年龄、工龄、文化程度等标志进行简单分组,具体情况如下:按年龄分组 按文化程度分组20岁及20岁以下 大专及大专以上21~35岁 中专、技工36~50岁 高中51~55岁 小学识字不多文盲统计数据的整理与显示对同一总体选择两个或两个以上的标志分别进行简单分组,就形成平行分组体系。如为了深入了解我国固定资产构成的基本情况,可以按照经济领域、物质生产部门、经济类型、经济用途、使用情况及所有权进行分组,这六个简单分组相互联系、相互补充便构成平行分组体系: 按经济领域分组 按经济用途分组物质生产领域 生产性固定资产非物质生产领域 非生产性固定资产按物质生产部门分组 按使用情况分组工业 在用固定资产农业 租出固定资产建筑业 未使用固定资产运输邮电业 不需用固定资产商业物资供销业等 封存固定资产按经济类型分组 按所有权分组国有经济 自用固定资产集体经济 租人固定资产个体经济其他经济类型统计数据的整理与显示2)复合分组与复合分组体系许多场合,要用两个或两个以上标志分组,即先按一个标志分组,在此基础上再按第二个标志分小组,又再层叠地按第三个标志分成更小的组,这称为复合分组。复合分组形成复合分组体系。例如,固定资产投资项目,先按经济类型分组,再按投资规模分组,形成如图3-1所示的复合分组。统计数据的整理与显示图3-1 固定资产投资项目的复合分组图统计数据的整理与显示复合分组和复合分组体系将多个标志层叠起来分组,能全面深入地说明问题。但当分组标志数目较多时,复合分组的组数将随分组标志的增加而成倍地增加,反而不易揭示出问题的实质。一般不宜采用太多的标志进行复合分组。② 按分组的标志的性质不同,分为品质分组(或称属性分组)和数量分组(或称变量分组)品质分组就是按品质标志进行分组。一般地,对于类别数据,采用品质分组。例如,职工按性别分组,企业按经济类型分组等。数量分组就是按数量标志分组,数量标志的变异性体现在它不断变动自身的数量上,故也称为变量分组。例如,企业按产值、工人数分组。品质分组所形成的数列称为品质数列,变量分组所形成的称为变量数列。③ 按分组的作用不同,分为类型分组、结构分组和分析分组把复杂的现象总体,划分为若干个不同性质的部分,就是类型分组;在对总体分组的基础上计算出各组对总体的比重,借此研究总体各部分的结构,即结构分组。类型与结构分组往往紧密地联系在一起。为研究现象之间依存关系而进行的统计分组为分析分组。分析分组的分组标志称为原因标志,与原因标志相对应的标志称为结果标志。原因标志不同,结果标志也会不同;同一原因标志由于分组的不同,结果标志也会不同。例如,工人的劳动生产率与产值之间、商品流通费用率与商品销售额之间的依存关系,都可以按分析分组法来研究它们之间的联系,如表3—1所示。统计数据的整理与显示商店按商品销售额分组(万元) 商店数(个) 商品流通费用率(%)100以下100~300300~500500~700700~900900以上 101211986 9.88.77.56.55.85.4表3-1 某地区部分商店按商品销售额分组的商品流通费用率表从表中可看出,随着商品销售规模的扩大,其商品流通费用率相应降低,两者表现出负依存关系。统计数据的整理与显示(4)统计分组的方法统计分组的关键在于选择分组标志和确定各组的界限。① 正确选择分组标志统计分组的核心问题就是如何正确地选择分组标志,这关系到能否确切地反映总体的特征,体现分组的科学性,实现统计研究的任务。列宁在论述选择分组标志的重要性时曾指出:“由于分类的方法不同,同一个材料可能得出完全相反的结论。”因此,为了正确地选择分组标志,必须注意以下几点:·要根据统计研究目的和任务选择分组标志,也就是应选择与统计研究任务密切相关的、最为符合统计研究目的的标志作为分组标志。·要结合现象所处的具体历史条件和经济条件动态地选择分组标志。② 正确确定各组的界限分组标志确定后,就可以进一步在分组标志的变异范围内,具体划分各组的界限。分组标志按其形式,可分为品质标志和数量标志。统计总体可按品质标志分组,也可按数量标志分组。·按品质标志分组。·按数量标志分组。统计数据的整理与显示3.1.3次数分布与变量数列编制(1)次数分布在按某一标志进行统计分组的基础上,将总体的所有单位按组归类排列,形成总体中各单位在各组间的分布,称为次数分布,或频数分布、分布数列。它是统计整理的一种重要形式,可用以研究总体各组分布状况,分布特征及总体的构成状况,还是进一步分析总体集中趋势和离散程度的基础资料。因此,编制分布数列,不仅是只反映统计整理结果的需要,也是进行统计分析的需要。其一般形式如表3-2所示。分组标志 单位数(频数次数) 比率(或频率)(%) 合计 ┆总体单位数 100.00表3-2 次数分布的一般形式统计数据的整理与显示性别 人数(万人) 比率(%)男性女性合计 65.33561.228126.583 51.6348.37100.00根据分组特征的不同,分布数列可分为品质分布数列和变量分布数列两种。① 品质分布数列品质分布数列是指按品质标志分组所形成的分布数列,简称品质数列。例如,根据我国第五次人口普查资料,大陆人口按性别标志分组,可编成品质数列,如表3-3所示。表3-3 第五次人口普查大陆人口的性别分布品质数列属定类测定资料,如果分组标志选择得好、分组标准定得恰当,则事物的差异表现得就比较明确,总体中各组如何划分就容易解决。属性分布数列一般比较稳定,通常均能准确地反映总体分布特征。统计数据的整理与显示② 变量分布数列变量分布数列是指按数量标志分组形成的分布数列,简称变量数列。例如,我国大陆人口按年龄分组可编制如下变量数列,如表3-4所示。表3-4 我国大陆人口的年龄分布按年龄分组(岁) 人数(万人) 比率(%)0~1415~6465岁及65岁以上合计 28.97988.7938.811126.583 22.8970.156.96100.00各组变量值 频数 频率表中,第1列是变量x;第2列是各组单位数出现的次数.厂,即频数,各组频数之和等于总体单位数;第3列是频率,是各组频数与总体单位总和之比,各组频率之和为l。频率=f/∑f (2-1)统计数据的整理与显示变量数列按照用以分组的变量的表现形式,可以分为单项式变量数列和组距式变量数列两种。单项式变量数列指数列中每个组的变量值都只有一个,即一个变量值就代表一组,如表3-5所示。按年看电影次数分组(次) 学生数(人) 比率(%)01234合计 200500150020003004500 4.4411.1133.3344.446.66100.00表3-5 某大学学生年看电影次数情况统计数据的整理与显示组距式变量数列指按一定的变化范围或距离进行分组的变量数列,又称组距数列,如表3—5所示。在组距式变量数列中,每一组的最大变量值称为该组的上限,最小变量值称为该组的下限。上限与下限之间的距离或差数就是该组的组距,即:组距=上限一下限。组距变量数列又有等距数列和不等距数列之分。如果各组组距都相等,称为等距数列,各组组距大小不等,称为不等距(或异距)数列。统计数据的整理与显示(2)变量数列的编制① 整理原始资料变量数列的分组是按数量大小作为分组标准的。这样,就必须首先对原始资料按从小到大的顺序排列,确定最大值和最小值,并计算全距。1250 1320 1230 1100 1180 1580 1210 1460 1170 10801050 1100 1070 1370 1200 1680 1250 1360 1270 14201180 1030 870 1150 1410 1170 1230 1260 1380 15101010 860 780 1130 1140 1190 1260 1350 930 14201080 1010 1050 1250 1160 830 1380 1310 1270 880根据抽样调查,某企业50名工人月平均收入资料如下(单位:元):统计数据的整理与显示上述资料比较零乱,不易直接看出其基本特征,若将这些数据按由小到大的顺序排列,可得到如下的阵列:780 830 860 870 880 930 1010 1010 1030 10501050 1070 1080 1080 1100 1100 1130 1140 1150 11601170 1170 1180 1180 1190 1200 1210 1230 1230 12501250 1250 1260 1260 1270 1270 1310 1320 1350 13601370 1380 1380 1410 1420 1420 1460 1510 1580 1680它反映出资料的某些特征:首先,说明月收人的波动幅度较大,其全距为900元。其次,说明多数工人的月收入在1 000~l 400元之间。通过整理,使我们大致对该资料的某些特征和基本状况有一个初步了解。统计数据的整理与显示② 确定变量数列的形式对于离散型变量,因其所描述对象的数量特征,可以按一定的顺序一一列举数值,相邻两个变量之间不可能有小数。③ 编制组距式变量数列应注意的问题1)确定组距组距的大小要适度,要能正确地反映总体的分布特征及其规律。组距与组数成反比例关系,组距越大,组数就越少;组距越小,组数就越多(组数=全距÷组距)。组数过少,容易把不同质的单位归在一个组内;组数过多,又容易把同质的单位分散在不同的组内,两者都不符合分组的要求。至于是采用等距分组还是采用不等距分组,要根据现象的特点、统计研究的目的及所收集到的资料分布是否均匀来确定。如果资料分布比较均匀,就可采用等距分组,否则应采用不等距分组。如上面所举工人月工资一例,则宜编制等距数列。等距数列的组数、组距可以采用下列公式计算,作为参考。统计数据的整理与显示K=l+3.3221gn(2-2)i=R i K (2-3)式中,K是组数;i是组距;尺是全距;n是数据个数。2)确定组限上限和下限统称为组限。确定组限的基本原则是:按这样的组限分组后,要能使性质相同的单位归入同一组内,使不同性质的单位按不同的组别划分。对于离散型变量,其变量值都是整数,变量值之间有明显的界限,因而,组的上下限可用肯定性的数值表示,组限非常清楚。对于连续型变量,其变量值有小数,组限不能用肯定的数值表示,只能用前一组的上限与后一组的下限重叠的方法表示。一般原则是把达到上限值的单位划人下一组内。数列的首末两组用“××以下”和“××以上”表示的叫开口组,首末两组上下限俱全的叫闭口组。在分组时是采用开口组还是闭口组,要根据现象的实际情况而定。组中值是上限和下限之间的中点数值,它是代表各组标志值平均水平的数值。计算组中值的公式为:组中值=(上限+下限)/2开口组的组距和组中值的确定,一般以其邻近组的组距为准,其计算公式为:缺下限开口组的组中值=上限-(邻组组距/2)缺上限开口组的组中值=下限+(邻组组距/2)统计数据的整理与显示④ 频数分布表的具体编制如前所举,该企业工人月平均收入的全距为900元,组距=全距÷组数=900÷5=180元,可近似取200C.这里,组数取5组是根据研究的目的而定的。第1组为900元以下,表示最低收人;第2组为900~1100元,表示较低收入;第3组为1100~l 300元,表示收入为中等;第4组为l 300~1500元,表示收入较高;第5组为1 500元以上,表示收入高者,如表3—6所示。按工人月平均收入分组x(元) 频数f 频率(%)f/∑f 向上累计 向下累计频数 频率(%) 频数 频率(%)900以下900~11001100~13001300~15001500以上合计 592211350 101844226100 514364750- 10287294100- 504536143- 1009072286-表3-6 50名工人月平均收入频数分布表统计数据的整理与显示有时为了研究次数分布的状况,计算分析的需要,常需要计算累计次数或累计频率。计算累计次数或累计频率的方法有两种:向上累计,即把各组次数或频率由变量值小的组向变量值大的组的顺序逐项累计,各组的累计次数或累计频率表示小于该组变量值上限的次数或频率合计有多少。向下累计,即把各组次数或频率由变量值大的组向变量值小的组的顺序逐项累计,各组的累计次数或累计频率表示大于该组变量值下限的次数或频率合计有多少。统计数据的整理与显示(3)次数分布的主要类型各种不同性质的现象有着各自特殊的次数分布。概括起来,主要有钟形、u形、J形分布三种。1)钟形分布钟形分布的特征是“两头小,中间大”,即靠近中间的变量值分布的次数多,靠近两端的变量值分布的次数少。如果次数分配并不完全对称,则称为偏态分布,一般有左偏态和右偏态两种;如果次数分配完全对称,则称为对称分布或正态分布。正态分布是实际生活中最重要、最常见的分布,许多现象(如商品市场价格、农作物平均产量、零件公差等)统计总体的分布都趋于正态分布。对称分布和偏态分布如图3-2所示。图3-2 钟形分布图统计数据的整理与显示2)U形分布u形分布的特征是“两头大,中间小”,即靠近两端的变量值分布的次数多,靠近中间的变量值分布的次数少,如图3—3所示。人口死亡率、每日天空中云量的百分比等现象的分布都呈u形分布。图3-3 u形分布图统计数据的整理与显示3)J形分布J形分布有正J形和反J形两种类型。正J形分布是次数随着变量值的增大而增多,如投资额按利润率大小分布;反J形分布是次数随着变量值的增大而减少,如人口总体按年龄大小分布,如图3—4所示。统计数据的整理与显示统计数据的显示3.2.1统计表(1)统计表的结构统计表的结构,可以从形式和内容两个方面来认识。统计表的形式统计表是由纵横交叉的线条组成的一种表格,表格包括总标题、横行标题、纵列标题和指标数值四个部分。总标题是统计表的名称,它扼要地说明该表的基本内容,并指明时间和范围,它置于统计表格的正上方;横行标题是横行的名称,一般放在表格的左方;纵列标题是纵栏的名称,一般放在表格的上方;横行标题和纵列标题共同说明填人表格中的统计数字所指的内容。指标数值是列在横行和纵列的交叉处,用来说明总体及其组成部分的数量特征,它是填写在统计表格的核心部分。统计表的内容统计表由主词栏和宾词栏两个部分组成。主词栏是统计表所要说明的总体及其组成部分;宾词栏是统计表用来说明总体数量特征的各个统计指标。主词一般列在表的左方,宾词一般列在表的右方。必要时,主宾词可以变换位置或合并排列,如表3-7所示。按税种分组 税收收入(亿元) 占总收入(%)三项流转税(国内增值税、消费税和营业税三项所得税(内资企业所得税、涉外企业所得税、个人所得税)海关代征进口税收完成收入其他税收收入合计 14016 5811 3706218525718 54.5 22.6 14.48.5100.0 主词栏 宾词栏表3-7 2004年全国税收收入及其构成表此外,统计表还有补充资料、注解、资料来源、填表单位、填表人等。统计数据的显示(2)统计表的种类1)按用途分类广义的统计表可分为如下几类:调查表,即在统计调查中用于登记调查项目的表格。整理表或汇总表,即在统计整理汇总过程中使用的表格和用于表现统计汇总或整理 结果的表格。分析表,即用于统计分析的表格。这类表往往与整理表结合在一起,成为整理表的延续。2)按主词的结构分类根据主词是否分组和分组的程度,分为简单表、分组表和组合表。简单表:主词未经任何分组的统计表称为简单表,也称一览表。主词罗列各单位的名称。分组表:主词只按一个标志进行分组形成的统计表,也称简单分组表。简单分组表的应用十分广泛,对比简单表,它有如下作用:区分事物的类型,研究总体结构,分析现象之间的依存关系。统计数据的显示3)复合表主词按两个或两个以上标志进行分组的统计表,也称复合分组表。表3—8是复合表,表中国内生产总值分别按产业和国民经济行业分组。在复合分组表中设计横行标题时,应在第一次分组的各组组别下退一、二字填第二次分组的组别,这时第一次分组的组别就成为第二次分组的各组小计。若需再进行第三、第四次分组,均可按此类推。如表2.10所示,按产业进行第一次分组,分为第一、第二和第三产业。对第二产业又进行第二次分组,按行业分为工业和建筑业。国内生产总值按产业和行业分组 国内生产总值(亿) 比重(%)第一产业第二产业工业建筑业第三产业交运仓储邮电通信业批发和零售贸易餐饮业合计 统计数据的显示4)按宾词设计分类统计表按宾词设计不同可分为宾词简单排列、分组平行排列和分组层叠排列等三种。宾词简单排列是指宾词不加任何分组、按一定顺序排列在统计表上,如表3-9所示。经济类型 企业数(个) 年平均职工人数(人) 工业增加值(万元) 年末固定资产净值(万元)国有经济集体经济外商经济其他经济合计 表3-9 某地区不同经济类型工业企业主要经济指标统计数据的显示宾词分组平行排列是指宾词栏中各分组标志彼此分开,平行排列,如表3-10所示。按地区 按商品性质和用途分组 按城乡分组 按经济类型分组社会消费品零售总额 农业生产资料销售额 城镇 农村 国有 集体 个体 其他北京天津河北山西内蒙古┆合计 表3-10 各地区社会商品零售总额 单位:元统计数据的显示宾词分组层叠排列是指统计指标同时有层次地按两个或两个以上标志分组,各种分组层叠在一起,宾词的栏数等于各种分组的组数连乘积。如表3-11所示,农村劳动力按产业分为3组,按性别分为2组,则复合分组设计的宾词栏数共有3×2=6栏(不包括合计栏)。年份 劳动力 产业人数 第一产业 第二产业 第三产业合计 男 女 合计 男 女 合计 男 女 合计 男 女2005200620072008总计 表3-11 2005—2008年农村劳动力的分布情况统计数据的显示统计表的主词分组与宾词分组是有区别的。主词分组的结果使总体分成许多组成部分,它们是需要用统计指标(宾词)来描述和表现的。宾词分组的结果并不增加统计总体的组成部分,仅仅是比较详细地描述总体已有的各个组成部分。由此可见,主词分组具有独立的意义,而宾词分组从属于主词的要求,是为描述主词的数量特征而考虑的。(3)统计表的编制应注意的问题统计表设计总的要求是:简练、明确、实用、美观、便于比较。① 统计表形式设计注意事项统计表应设计成由纵横交叉线条组成的长方形表格,长与宽之间保持适当的比例。线条的绘制。表的上下端应以粗线绘制,表内纵横以细线绘制。表格的左右两端一般:~iCii线,采用“开口式”。合计栏的设置。统计表各纵列若需合计时,一般应将合计列在最后一行,各横行若需要合计时,可将合计列在最前一栏或最后一栏。栏数的编号。如果栏数较多,应当按顺序编号,习惯上主词栏部分分别编以“甲、乙、丙、丁……”为序号,宾词栏编以(1),(2),(3),(4)等为序号。统计数据的显示② 统计表内容设计注意事项标题设计。统计表的总标题,横行、纵列标题应简明扼要,以简练而又准确的文字表述统计资料的内容、资料所属的空间和时间范围。指标数值。表中数字应该填写整齐,对准位数。当数字因小可略而不计时,可写上 “0”;当缺某项数字资料时,可用符号“…”表示;不应有数字时用符号“一”表示。计量单位。统计表必须注明数字资料的计量单位。当全表只有一种计量单位时,可以把它写在表头的右上方。如果表中各栏的指标数值计量单位不同,可在横行标题后添一列计量单位。注解或资料来源。为保证统计资料的科学性与严肃性,在统计表下,应注明资料来源,以便查考。必要时,还可在统计表下加上注解或说明。统计数据的显示3.2.2 统计图运用统计图描述次数分布的类型特征,常用的图形有三种:直方图、折线图和曲线图。现以某班40名学生统计学考试成绩资料(见表3—12)为例,说明如何采用图示法来描述学生考试成绩的分布状况。按考分分组 次数fi 频率fi/∑fi 向上累计 向下累计次数 频率(%) 次数 频率(%)50~6060~7070~8080~9090~100合计 271112840 5.017.527.530.020.0100.0 29203240— 5.022.550.070.0100.0— 403831208— 100.095.077.550.020.0—表3-12 某班学生统计学考试成绩资料统计数据的显示(1)直方图即用直方形的宽度和高度来表示次数分布的图形。绘制直方图时,横轴表示各组组限,纵轴表示次数(一般标在左方)和比率(或频率,一般标在右方),若没有比率的直方图只保留左侧的次数。依据各组的组距的宽度与次数的高度绘成直方图。根据表3-12的资料绘制的直方图,如图3-5所示。图3-5 次数分布直方图统计数据的显示图3-5是依据等组距式变量数列绘制的直方图。对于不等组距式变量数列,则通常按次数密度(频数密度)绘制直方图以表示其分布。例如,40名学生统计学成绩次数分布状况如表3-13所示。按考分分组 组 距d 次 数fi 频数密度=次数/组距56~6060~6666~8282~9292~100合计 4616108— 251411840 0.50.8330.8751.11.0—表3-13 某班学生统计学考试成绩次数分布表统计数据的显示对于不等距式变量数列,只有以频数密度绘制直方图,才能准确地反映客观实际情况。根据表3—13的资料,按频数密度绘制直方图,如图3—6所示。图3-6 频数密度分布直方图统计数据的显示(2)折线图折线图可以在直方图的基础上,用折线将各组次数高度的坐标连接而成,也可以用组中值与次数求坐标点连接而成。统计数据的显示(3)曲线图当变量数列的组数无限增多时,折线便近似地表现为一条平滑曲线。曲线图的绘制方法与折线图基本相同,只是在连接各组次数坐标点时应当用平滑曲线,而不用折线。统计数据的显示(4)条形图条形图是用宽度相同的条形的高度或长短来表示数据变动的图形。它可以横置或纵置,纵置时也称为柱形图。在表示定类数据的分布时,用条形图的高度来表示各类。统计数据的显示(5)圆形图圆形图也称饼图,是用圆形及圆内的扇形面积来表示数值大小的图形。圆形图主要用于表示总体中各组成部分所占的比例,对于研究结构性的问题很有用。这些扇形的中心角度是按各部分百分比占360。的相应比例确定的。例如,关注服务广告的人数占总人数的百分比为25.5%,那么其扇形的中心角度就应为360。×25.5%=91.8。,其余类推。统计数据的显示 展开更多...... 收起↑ 资源预览