资源简介 (共90张PPT)统 计 整 理第三章返回2014年中国城市居民居住满意度调查中国指数研究院和中国房地产指数系统于2004年专门成立课题组,致力于房地产行业顾客满意度的专项研究,首次将顾客满意度评价模型引入房地产行业,并提出了房地产顾客满意度管理理念,旨在推动企业将追求顾客满意融入到经营管理活动的各个环节,从居住环境中的每一个细节处关注顾客的居住体验。2007年以来,中国指数研究院已连续8年开展“中国城市居民居住满意度调研”工作。导入案例从中国指数研究院公布的2014年《全国重点城市居民居住满意度评价排名 》来看,在总共100份的调查中,杭州达到了80.1分,高居第一,重庆和宁波也超过78分,分列第二和第三,排名第四位的沈阳只有74.4分。四大一线城市中,深圳、北京、广州只比72.5分的平均分高一些,而上海得到了71.5分,位居第16位。本次调研评价的目的在于全面测评中国重点城市居民居住满意度水平,探寻居民对居住环境的需求和期待,完善房地产顾客满意度服务标准,并据此帮助地产企业提升服务品质,营造良好的居住消费环境,进而促进行业整体满意度水平的提升。导入案例分析通过对部分城市商品房调查后的部分调查结果,这些数据是通过调查工具收集原始资料整理而来的,如何对分散、杂乱而又毫无规律的原始资料进行整理分析,才能得到上述结果呢?通过本章的学习就能够找到答案。目录1第一节 统计数据整理的意义和内容2第二节 统计分组3第三节 分配数列4第四节 统计资料的表现形式第一节 统计数据整理的意义和内容1一统计数据整理的意义和内容一、统计数据整理的意义统计数据整理是根据统计研究的需要,将收集到的大量反映个体特征的数据进行科学的分类汇总、加工处理,或对收集到的次级资料进行再加工,使之系统化、条理化,以符合统计分析的需要,成为能够反映事物总体特征的综合资料的过程。统计调查所收集的原始资料是反映个体特征的、分散的、零碎的资料,不能反映总体的数量特征。对原始数据的整理一般是分类和汇总性的整理。对次级资料的整理主要是再分组。统计数据整理是统计工作的中间环节,是从对现象个体观察过渡到对总体数量特征认识的连接点,在统计工作中起着承先启后的作用。统计整理的质量,直接影响对现象总体数量描述的准确性和分析结果的正确性。一统计数据整理的意义和内容二、统计整理的基本程序(一)审核在分组汇总之前,要对原始统计数据进行认真审核,主要审核资料的及时性、准确性和完整性。(1)及时性检查,即检查需要的统计数据是否在规定的时间内已经上报到调查机构,缺一两个单位的资料都会影响整个汇总工作。(2)完整性检查,一是看所有的调查表格或问卷是否收齐,二是看所有的调查项目的答案是否完整。发现有问题应立即同被调查者或报告单位联系,采取补救措施。资料不完整,得出的结论就难以说明现象总体的本质特征。一统计数据整理的意义和内容(3)准确性检查,即检查原始资料是否准确可靠,这是原始资料审核的核心。其审核方法有两个:一是逻辑检查,即根据调查项目之间的内在联系,检查各项目的答案是否合理,是否符合逻辑,答案之间有无矛盾之处,如有不符合逻辑或不合理的答案,应查明原因,及时纠正;二是计算检查,即检查调查表中各项数字的计算方法、计算口径、计算结果有无差错,数字之间该平衡的是否平衡了,若发现错误,能更正的则代其更正,原因难以查明的则退回给调查者或报告单位,查明原因,予以更正。一统计数据整理的意义和内容(二)分类或分组对原始数据进行审核,确认准确无误后,根据统计研究目的和要求,对这些数据进行科学的分类或分组。定性的数据主要是进行分类整理,定量的数据主要是进行分组整理。通过编制频数分布表,可汇总计算各个组的有关指标。具体的分类和分组方法将在后面详细介绍。(三)编表作图将汇总整理的结果用适当的表格形式表现出来,使统计数据系统化、条理化。如有必要,也可以绘制适当的统计图来表现汇总整理的结果,反映总体的分布特征。第二节 统计分组2二统计分组一、统计分组的意义统计分组是指根据统计研究的目的和任务,按照一个或几个标志,将总体划分为类型或性质不同的若干个组的一种统计方法。例如,全国人口按性别分为男女两组;按住处分为城镇和农村两组;按民族可分为汉族与少数民族两个组等。国民经济各行业按产业发生的顺序分为第一产业、第二产业和第三产业;企业按规模可分为大、中、小型企业;按所有制可分成国有、集体和其他经济类型等。统计分组对总体而言,是“分”,是将总体区分为性质不同的若干组成部分,来表现总体的内在差异性。如全国人口这一总体,是由具有中华人民共和国国籍的人组成的,可以按不同标志进行分组。而对每个个体而言,是“合”,是将具有相同性质的个体合为一组,体现组内的同质性。二统计分组社会经济现象具有复杂性和多样性,为了区别现象性质上的差异,分析现象的数量特征,揭示现象的本质特征及其发展变化的规律,进行科学分组是十分重要的。确定统计调查的范围,必须首先对现象的类型进行分组。对统计资料进行加工整理,也必须以统计分组为基础。所以,统计分组贯穿于整个统计工作过程,而且在统计整理阶段尤为重要。它是统计整理的基本手段。二统计分组二、统计分组的作用(一)区分事物不同性质属性社会经济现象复杂多样,只有揭示构成客观现象不同事物现象的类型,对不同类型特征加以分析,才能认清现象的本质规律。例如,对某学院市场营销专业2012级学生按性别分组分析,能够提示该班级学生的不同性别属性,如表3-1所示。性别分组 人数 比重(%)男 女 46 24 65.734.3合计 70 100.0表3-1 某学院市场营销2012级学生性别分组表二统计分组(二)反映现象的内部结构复杂的社会经济现象由许多性质不同的个别事物组成,通过统计分组能够区分现象内部不同组成所占比重,说明因内部结构比重不同对现象发展产生的影响。例如,表3-2说明国内生产总值的构成,各产业在国民经济中的地位,第二、三产业产值占国内生产总值的比重很大,说明我国经济发展进入了工业化发展阶段。类型 合计 第一产业 第二产业 第三产业小计 工业 建筑业国内生产总值(亿元) 比重% 568 845 100 56 957 10.01 249 684 43.89 210 689 37.04 38 995 6.85 262 20446.10(资料来源:中华人民共和国统计局网)表3-2 2007年我国国内生产总值不同产业构成二统计分组(三)分析现象间数量的依存关系社会经济发展受到诸多因素的影响和制约,通过统计分组可以把现象间数量依存关系表现出来,揭示现象数量变动的规律。例如,商品销售额与销售费用率之间存在一定依存关系,通过统计分组能够反映出在一定范围内,商品销售率随着销售额的增加而降低的变化规律,根据这一规律可以为销售管理提供依据。二统计分组(四)揭示现象特征和内在规律统计调查得到的资料,一般都处于零星、分散不系统的状态,需要通过统计分组揭示现象内在的本质特征和发展规律。例如,搜集某班统计学期末考试成绩数据资料如表3-3所示。统计学课程期末 考试成绩 85 78 85 91 83 68 65 72 88 9262 84 43 94 85 81 79 73 89 8347 74 83 87 79 64 78 80 81 7663 79 84 86 76 87 74 77 67 86表3-3某班统计学期末考试成绩分组表二统计分组以上资料没有经过统计分组过程,还不能算出该班统计学期末考试成绩数据资料表现的基本特征和内在规律。下面通过分组加工得表3-4。序号 成绩分组 人数 比重(%)1 60分以下 3 7.52 60~75分 10 253 75~90分 25 62.54 90分以上 2 55 合计 40 100表3-4 某班统计学期末考试成绩分组表二统计分组经过分组后,该班级统计学期末考试成绩资料的特征就表现出来了。从分组表可以算出,该班考试成绩基本呈正态分布,大多数学生考试成绩在75分至90分之间,60分以下的和90分以上的学生数所占比例较小,说明该班统计学的教与学都处于正常状态,考试成绩的分布特征就较为明显。二统计分组三、分组标志的选择分组标志,即将同质总体区分为不同组的标准或依据。分组标志一旦选定,就必然突出了总体在该标志下的性质差别,而掩盖了总体在其他标志下的不同,即对同一总体按不同标志进行分组会得到不同的分组结果甚至相反的结论。分组标志选择不当,不但无法显示现象的根本特征,甚至会混淆事物的性质,歪曲社会经济的真实情况。因此,分组标志的选择是统计分组的核心问题。为了达到统计分组的目的,在进行统计分组时要遵循以下原则:二统计分组正确选择分组标志是统计分组的关键。分组标志的选择是统计分组的核心。分组标志选择恰当与否,直接影响到分组的科学性。如要研究总体哪一方面的特征,就应该选择反映该特征的标志作为分组标志。统计总体中的个体有许多标志,选择什么标志作为分组标志,要根据统计研究的目的来确定。例如,要了解某单位职工的学历状况,就应选择“文化程度”为分组标志;要了解学生的学习情况,要以“成绩”为分组标志,而不能用“性别”“年龄”“收入”为分组标志,因为这些内容与要了解的内容无关。因此,根据研究目的,正确选择分组标志是保证统计分组具有科学性的关键,是保证统计研究获得正确结论的前提。(1)根据统计研究的目的选择分组标志二统计分组明确了统计研究的目的,还不等于能够选择好分组标志。因为说明同一问题可能有若干个相关标志,在进行分组时,应选择最能反映事物本质特征的标志。例如,研究城镇居民家庭生活水平状况,而反映居民家庭生活水平的标志有:家庭人口数、就业人口数、每一就业者负担人数(含本人)、家庭年收入、平均每人年收入等。其中最能反映居民家庭生活水平状况的标志是“平均每人年收入”,所以应选择这一标志作为分组标志。(2)选择最能够反映现象本质的标志作为分组标志二统计分组社会经济现象随着时间、地点、条件的变化而发生变化,其标志的内涵也会发生变化。同一分组,在过去适用,现在就不一定适用;在这一场合适用,在另一场合就不一定适用。例如,在计划经济时期,企业按所有制形式分组一般分为四组,即全民所有制企业、集体所有制企业、私营企业和其他企业。而现在按企业登记注册类型可分为:(1)国有企业;(2)集体企业;(3)股份合作制企业;;(4)联营企业;(5)有限责任公司;(6)股份有限公司;(7)私营企业;(8)港澳台商投资企业;(9)外商投资企业;(10)个体企业等类型。又如,对最低生活水平的确定,就不能沿用20世纪五六十年代的标准,而应根据目前的生活水平状况制定标准,然后再进行分组。此外,行业的划分也发生了很大变化。结合研究对象所处的历史条件、经济条件选择分组标志,这样可以保证分组标志在不同时间、不同场合的适用性。(3)根据现象所处的历史条件和经济状况选择分组标志二统计分组四、统计分组的方法分组标志确定之后,还必须在分组标志变异范围内,划定各相邻组间的性质界限和数量界限。根据分组标志的不同特征,统计总体可以按品质标志分组,也可以按数量标志分组。二统计分组按品质标志分组是指选择反映事物属性差异的品质标志作为分组标志进行分组。按品质标志分组能直接反映事物间质的差别,给人以明确、具体的概念。事物的属性差异是客观存在的,有些品质标志分组,由于界限清晰,分组标志有几种具体表现,就分成几组。例如,人口按性别、民族、职业、文化程度等分组,企业总体按所有制分为国有、集体、联营、股份合作、其他等组。有些品质标志分组有时也很复杂,其相邻组之间的界限不容易划清。有些在理论上容易区分,但在实际社会经济生活中却难于辨别。例如,人口按城乡分组,居民一般分为城市和乡村两组,但因目前还存在有些既具备城市形态又具备乡村形态的地区,分组时就需慎重考虑。其他如部门分类、职业分类也都存在同样的问题。因此,在实际工作中,为了便利和统一,联合国及各个国家都制订有适合一般情况的标准分类目录,如我国就有《国民经济行业分类目录》、《工业部门分类目录》和《商品目录》等。(一)按品质标志分组二统计分组(二)按数量标志分组统计的研究对象是社会经济现象的数量方面,所以按数量标志分组是我们研究的重点。按数量标志分组是指选择反映事物数量差异的数量标志作为分组标志进行分组。如企业根据工人数、产值、产量等标志进行分组;居民家庭按子女人数分组,可分为0人(无子女)、1人、2人、3人等。按数量标志分组的目的,并不是单纯确定各组在数量上的差别,而是要通过数量上的变化来区分各组的不同类型和性质。因此,按数量标志分组,应根据事物内在特点和统计研究的要求,先确定总体在某数量标志的特征下有几种性质不同的组成部分,再研究确定各组成部分之间的数量界限。例如,人口按年龄分组,男性分为0~6岁、7~17岁、18~59岁、60岁以上;女性分为0~6岁、7~17岁、18~54岁、55岁以上。这是由于国家对男女职工规定退休年龄的不同而有所差别,因此,正确选择决定事物性质差别的数量界限是按数量标志分组中的一个关键问题。二统计分组1.单变量值分组按数量标志分组有两种方法,即单变量值分组和组距分组。单变量值分组的方法通常只适合于离散变量,且在变量值较少的情况下使用。例如,表3-5的分组方式就是单变量值分组。看管机床台数 工人数1 252 153 84 6合计 54表3-5 某车间工人看管机床台数情况二统计分组2.组距式分组如果变量的变动幅度很大,总体单位数较多时,就不宜采用单变量值分组,而应将全部变量值依次划分为几个区间,将一个区间内的所有变量值归为一组,这种分组形式称为组距式分组,如表3-6所示。工人按工资额分组(元) 工人数(人)400~500 80500~600 100600~700 120700~800 80合计 380表3-6 某厂工人按工资额分组情况二统计分组在组距式分组时,一般遵循“上限不在内”原则,即各组的上限值划归下一组,如上例,500元应归于第二组,600元应归于第三组。组距式分组中,各组变量值变化的范围称为各组的组距。各组中最大的变量值称为上限,最小值称为下限,其中组距=上限-下限。在组距式分组时,如各组组距相等,则称为等距数列,如表3-6。如果各组组距不等,则称为异距分组,如表3-7。人口按年龄分组 人口数(万人)1岁以下 3.51~3 4.53~7 77~18 40.018~25 30.025~55 5055岁以上 28.0合计 163.0表3 -7 某地区人口年龄构成情况二统计分组在分组中,如上表所示,第一组和最末一组有时会出现“以下”“以上”等字样,这种组称为开口组,开口组不是缺下限就是缺上限。编制组距数列时,采用等距式还是异距式应根据现象的性质、变量变动的情况和统计研究的目的来确定。一般来说,凡是变量值的变动比较均匀,现象性质的相对差异是由数量的变化逐渐积累起来的,例如工人的年龄、工龄、工资或零件尺寸误差等,都可以采用等距分组方法。凡是现象性质的变动并不是以它的数量绝对变化为基础,而是以数量的相对变化程度为基础,例如人口统计中要根据人体生理变化的特点进行分组,就应采用异距分组方法。二统计分组五、统计分组的形式(一)简单分组统计分组按分组标志的多少及其排列形式可分为简单分组、平行分组体系和复合分组体系。在现实经济生活中,这三种形式都有广泛的应用价值。简单分组就是对被研究现象总体仅按一个标志所进行的分组。这种分组比较简单,它只能说明社会经济现象某一方面的状况。例如,人口按性别或年龄分组、企业按所有制或规模大小进行分组等。二统计分组(二)分组体系在统计整理中,为了全面认识被研究现象总体,常常需要运用多个分组标志对总体进行分组,形成一系列相互联系、相互补充的分组体系。例如,对国民经济总体进行统计研究,必须通过按经济类型、部门、产业、地区、管理系统等多种分组,形成国民经济分组体系。在我们所要研究现象总体中,总是可以选择一系列标志进行分组,所以分组体系是客观存在的,组与组之间层层深入、相互联系、相互补充。1.平行分组体系平行分组体系就是对同一总体同时选择两个或两个以上的标志分别进行简单分组,然后并列在一起就形成了平行分组体系。例如,为了认识我国工业企业的一些基本情况,可以按所有制、轻重工业、企业规模等分组,得到如表3-8的分组体系:二统计分组指标 企业数(个)按所有制分: 国有企业 集体企业 私营企业 ………… 按轻重工业分: 轻工业 重工业 按企业规模分: 大型企业 中型企业 小型企业 —————— ———— ——————表3-8 2004年全国各类工业企业按所有制、轻重工业及企业规模分组表二统计分组平行分组体系的特点是,每一分组只能固定一个因素对差异的影响,不能固定其他因素对差异的影响。应用平行分组体系,其多种分组相互独立而不重叠,既可以从不同的角度、不同方面对某一社会经济现象作出比较全面的说明,反映事物的多种结构,又不至于使分组过于繁琐,故这种分组被广泛采用。上面的分组从多方面反映了我国企业类型的状况,给人以全面的认识。2.复合分组体系复合分组体系就是将总体按两个或两个以上的标志结合起来进行层叠分组,形成复合分组体系。具体地说,它是先按一个标志分组,再按另一个标志对已经分好的各个组进行再分组。例如,对工业企业按轻重工业和企业规模重叠分组形成的复合分组如表3-9:二统计分组复合分组体系的特点是,第一次分组只固定一个因素对差异的影响,第二次分组同时固定两个因素对差异的影响,依此类推,当完成最后一次分组时,则所有的分组标志对差异的影响已全部被固定。复合分组体系可以更深入细致地研究总体的内部结构,反映问题全面深入。但其组数会随着分组标志的增加而成倍增加,使各组的单位数减少,次数分布不集中,不易揭示总体的本质特征。因此复合分组体系不宜采用过多的分组标志,也不宜对较小总体进行复合分组。按轻重工业和企业规模分组 企业数(个)轻工业 大型工业企业 中型工业企业 小型工业企业 重工业 大型工业企业 中型工业企业 小型工业企业 ———————— ——————表3-9 某地区工业企业复合分组表第三节 分配数列3三分配数列一、分配数列的概念在统计分组的基础上,把总体的所有单位按组归并排列,形成总体中各个单位在各组间的分布,称为分配数列或次数分布。分布在各组的总体单位数,称为次数。由于各组次数实际上表现了具有各组标志值的现象在总体中“频繁”出现的次数多少,因此也称为频数。各组次数占总体单位总数的比重,称为频率、比重或比率。它说明具有某组标志值的现象在总体中“频繁”出现的程度,反映总体的构成。次数分布实质上是反映统计总体中所有单位在各组间的分布状态和分布特征的一个数列,例如,人口按性别分组后形成的人口数在各组分布情况的数列,学生按年龄分组后形成的学生人数在各组分布情况的数列等,都是次数分布数列。三分配数列分配数列包括两个要素。一是各组的名称(或各组变量值),常用x表示;二是各组单位数(次数),常用f表示,有时候也可把频率(比重)列人分布数列中。各组的次数愈大,则表示该组的标志值对于全体标志水平所起的作用愈大;反之,次数愈小,则表示该组的标志值所起的作用愈小。因此,在整理和分析分布数列的时候,不但要注意各组标志值的变动范围,而且注意各组标志值的作用大小,也就是次数的大小。次数分布数列的形成虽然简单,但它是统计整理的一种重要表现形式,也是统计分析的一种重要方法。它可以表明总体单位的分布特征和结构状况,并在此基础上进一步研究某种标志的构成、平均水平及其变动规律性。三分配数列二、分布数列的种类(一)品质数列品质数列是指按品质标志分组所形成的分布数列,它由各组名称和次数构成。各组的次数可以用绝对数表示,即频数;也可以用相对数表示。如表3-10所示为以品质数列组成的某大学学生性别构成表。三分配数列这个品质数列是按“性别”这一标志分组形成的,表中的“男”、“女”是组名称,人数6000、14000、20000是次数,比重30、70、100是频率。性别 人数(人) 比重(%)男 女 6000 14000 3070合计 20000 100表3-10某大学学生性别构成表三分配数列(二)变量数列1.单项数列变量数列是指按数量标志分组所形成的分布数列,它由变量和次数构成。作为分组标志的那个数量标志称为变量。变量数列是一种典型的分配数列。如表3-11和表3-12所示都是常见的变量数列。变量数列按其变量值的表示方法不同,可分为单项数列和组距数列两种。单项数列是指数列中每个组只用一个变量值表示,即一个变量值只代表一组。三分配数列单项数列一般在总体中的变量值不多,且变动幅度较小,变量呈离散型,总体单位数又不多的情况下采用。如表3-11中工人的日产量最高为39个,最低为30个,最大相差数仅9个,变量值只有5个,总体单位数只有200人。因此,适合采用单项数列来反映。按日产量分组(个) 工人数(人) 比重(%)30 32 34 36 39 34 42 50 44 30 1721252215合计 200 100表3-11 某企业工人日产量完成情况表三分配数列2.组距数列组距数列是指各组都由两个变量值界定的变量区间(组距)来表示的数列,一般在总体中变量值较多,且变动幅度较大的情况下采用。组距数列分为等距数列和不等距数列。在组距数列中,各组组距相等的,叫做等距数列。如表3-12所示就是一个等距数列。按成绩分组(分) 人数(人) 频率(%)50~60 60~70 70~80 80~90 90~100 4 12 20 10 4 82440208合计 50 100表3-12某班学生计算机考试成绩次数分布表三分配数列组距不相等的叫做不等距数列。如表3-13所示就是一个不等距数列。如果数据分布比较均衡,宜采用等距数列;如果数据分布很不均衡,应采用不等距数列。人口按年龄分组 人口数(万人)1岁以下 1~6岁 6~18岁 18岁~55岁 55岁以上 18.553.460.880.250.1合计 263.0表3-13 某市人口年龄构成三分配数列组距变量数列的次数分布还可以用次数分布图来表示。次数分布图是一种简单的统计图。绘制次数分布图时,一般是绘制直方图或曲线图。直方图是以横轴表示各组组限,纵轴表示次数,各组组距为宽度,各组次数的高度,绘出各组所对应的直方图。将表3-12中的资料绘制成直方图,如图3-1所示。在直方图的基础上,将各直方图上端的中点连成一条折线,就形成次数分布曲线图(也称为折线图),如图3-1所示。从面积的角度看,曲线图所覆盖的面积与直方图的面积恰好相等。图3-1 某班学生计算机考试成绩次数分布的直方图和折线图三分配数列上述次数分布图的画法,适用于等距数列。由于等距分组更具有直观、可比的优势,所以在选择组距时,能采用等距分组反映现象中的数值变化就不采用不等距的分组方法。对于不等距数列,需要计算次数密度,也就是各组次数除以各组组距,然后根据频数密度和组距来绘制次数分布图。以表3-14为例,这是一个不等距数列,类同于图3-1绘制出次数分布直方图出来。按人均月收入分组(元) 户数 频数密度=次数/组距 标准组距次数2000~2200 2200~2300 2300~2400 2400~2500 2500~2600 10 8 10 12 10 0.05 0.08 0.10 0.12 0.10 5.08.010.012.010.0合计 50 — —表3-14某市居民家庭人均月生活费收入次数分布表三分配数列具体的换算公式如下:标准组距次数=某组单位组距次数×标准组距(标准组距通常是组距数列中的最小组距)=再以横轴代表各组的变量值,以纵轴代表各组的标准组距次数(或频数密度),就可以绘出正确反映总体次数分布状况的分布图。三分配数列三、编制变量数列应注意的问题(一)组数和组距1.品质分组的组数品质分组组数的确定,主要取决于两个因素:一是统计研究的任务,二是事物的特点。例如,将人口按性别分组,就只能分为两组,这是由人口本身的特点决定的;将企业按经济类型分组,也只能分为国有、集体、个体、私营、外资等几组。但是,有些事物构成比较复杂,组数可多可少,这时,到底将总体分为几组,就需要考虑统计研究任务的具体要求。例如,将人口按职业分组,组数可多可少,此时应根据统计研究的任务来确定。如果要求较细时,组数可以多一些;反之,组数可以少一些。三分配数列2.数量分组的组数和组距在单项数列中不存在组距问题,而在组距数列中就要确定组数和组距。首先要确定全距。确定全距主要是为了便于确定组数和组距。全距是总体中的最大变量值与最小变量值之差。在表3-5中,全距=39-30=9(个)。在表3-6中,全距=100-50=50(分)。组数是在一个数列中共有的组的个数。在表3-6中,有5个组。组距是各组的最大变量值与最小变量值之差。在表3-6中,组距是10分。组距和组数二者有着密切的联系,在全距既定的条件下,组距大,则组数少,组距小,则组数多。三分配数列按数量标志分组的目的,不仅是要确定各组在数量上的差异,而且还要通过数量上的变化来区分各组的不同类型和性质。因此,确定组数和组距时,要能够将总体单位分布的特点充分反映出来,要充分考虑总体单位分布的集中程度和趋势,以及被研究现象的特点和实际情况,把相同质的单位划分在一组内,不同质的单位区别开来,尽可能地区分出组与组之间在性质上的差异。另外,分组不宜过多,过多则容易将属于同一类的单位划分在不同的组,从而显示不出类型的特点;也不宜过少,过少则容易使不同类型的单位归在一组,从而掩盖了质的差异,达不到反映客观事实的目的。三分配数列(二)组限和组中值1.组限组限是指每组两端的数值,其中每组的最大变量值为该组的上限,最小变量值为该组的下限。在表3-6中的70~80一组,70是本组的下限,80是本组的上限。组限是决定现象总体质量的数量界限。确定组限时要主要考虑下列几点:一是最小组的下限应低于最小变量值,最大组的上限应高于最大变量值;二是组限的确定应当有利于表现总体单位分布的规律性;三是对于等距数列,设定的组距最好是5和10的倍数。由于变量有连续变量和离散变量之分,所以组限的表示方法一般有两种:重合式和不重合式。如果分组标志是连续变量,组限一般用重合式;如果分组标志是离散变量,组限一般用不重合式。三分配数列所谓重合式,就是在相邻两组中,前一组的上限与后一组的下限数值重合,如表3-6中的50~60分、60~70分、70~80分、80~90分、90~100分。但是,重合式只是形式上重合,实际上两组之间是不重合的,一般按“含下限不含上限”或“上限不在本组之内”的原则处理。例如,“60~70分”是指从含60分到不含70分,“70~80分”是指从含70分到不含80分,以此类推。所谓不重合式,是指前一组的上限与后一组的下限数值紧密相连而又不相重复。例如,学生按人数分为59人以下、60~69人、70~79人、80~89人以及90人以上各组。在这里,69与70、79与80、89与90等,都是紧密相连的。遇到特大或特小的变量值时,为了不使组数增加或组距不必要地扩大,可用开口组。开口组是指只有下限而无上限的组或只有上限而无下限的组。如表3-7所示就是一个开口组。在实际工作中,为了简单方便,保证不重复、不遗漏总体单位,离散变量也经常采用重合式的组限的表示方法。三分配数列2.组中值组中值是各组的上限与下限之间的中点值,它代表组内各变量值的一般水平。其计算方法如下。开口组的组中值:例如,对表3-15中的组中值的计算如下。三分配数列= = 75(分)缺下限的最小组的组中值 = = = 55(分)缺上限的最大组的组中值 = = = 95(分)按考分分组(分) 人数(人) 频率(%)60以下 60~70 70~80 80~90 90以上 2 8 16 10 4 520402510合计 40 100表3-15 某班学生英语考试成绩次数分布表三分配数列3.编制变量数列下面以等距数列为例,说明变量数列的编制方法。【例3-1】根据下列资料编制变量数列。对某班50名学生2008年7月的市场营销学成绩进行登记,得到以下原始资料。62 74 85 96 87 52 54 64 56 9756 85 86 94 66 68 69 60 70 9098 96 86 88 87 78 79 88 86 7078 86 76 84 66 77 76 68 78 7978 77 79 68 78 69 76 77 78 88(单位:分)三分配数列(1)将原始资料按数值大小顺序进行排列(如下所示)52 54 56 56 60 62 64 66 66 6868 68 69 69 70 70 74 76 76 7677 77 77 78 78 78 78 78 78 7979 79 84 85 85 86 86 86 86 8787 88 88 88 90 94 96 96 97 98根据上述资料,计算全距为:全距=最大变量值-最小变量值=98-52=46从以上数据的排列和全距的计算可知,学生成绩的变化是有波动的,但这种波动并不完全是杂乱无章的,而是呈现出一定的规律性。首先,波动的范围在52~98分之间,其全距为46分;其次,大多数学生的成绩在68~88分之间,分数偏高或偏低的情形都比较少。三分配数列(2)确定组数和组距组数与组距是相互制约的,二者成反比例关系,在等距数列中,二者的计算关系如下:组距 =或组数 =本例中,我们先采用组距为5分和15分,这样相应的组数也就确定下了。当组距为5分时,组数 = = = 9.2,化整为l0。当组距为15分时,组数 = = = 3.06,化整为4。三分配数列(3)分别得到相应的分布数列,如表3-16和表3-17所示。按考分分组(分) 人数(人) 频率(%)50~55 55~60 60~65 65~70 70~75 75~80 80~85 85~90 90~95 95~100 2 2 3 7 3 15 1 11 2 4 4461463022248合计 50 100表3-16 某班学生市场营销学成绩次数分布表三分配数列表3-17 某班学生市场营销学成绩次数分布表按考分分组(分) 人数(人) 频率(%)50~65 65~80 80~95 95~100 7 25 14 4 1450288合计 50 100从表3-16中可以看出,组距为5分太小,组数太多,各组单位数分散,看不出分布规律。从表3-17中可以看出,组距为15分时,总体单位在各组的分布规律开始表现出来,但特征仍不很明显。若再将组距确定为10分,此时组数可定为5组(组数 = = = 4.6,化整为5),如表3-18所示。三分配数列表3-18 某班学生市场营销学成绩次数分布表从表3-18中可见,50名学生的市场营销学成绩的分布特征被明显地表现出来了,呈现出“两头小,中间大”的分布,规律性是很明显的。因此,采用组距为10分来编制该班学生学习成绩的分布数列最为适宜。按考分分组(分) 人数(人) 频率(%)50~60 60~70 70~80 80~90 90~100 4 10 18 12 6 820362412合计 50 100三分配数列对于一组数据究竟可以分为多少组,很多时候取决于研究者的经验。对于不熟悉领域的数据,可以借鉴美国统计学家斯特吉斯提供的经验公式来确定组数。现在用K代表组数,N代表分组数据的总数,则分组数目的计算公式如下:(3-1)三分配数列确定组数的目的是为了使数据恰当地分布在各组之中,如果组数太少,数据的分布就会过于集中;如果组数太多,数据的分布就会过于分散,这都不便于观察数据分布的特征和规律,不利于后续的分析研究。组数的确定应以能够显示数据的分布特征和规律为目的。计算组数的经验公式正是从这个角度出发,总结出的一个根据待分组数据的多少来计算组数的具体方法。但是,经验公式计算出来的组数只是一个参考数值,不是必分的组数。在实际应用时,组数的确定还要根据数据的多少和特点,以及研究对象的实际情况,具体问题具体分析,因地制宜地加以确定。例如,根据例3-1的资料,当N为50时,采用 这个公式计算出组数为 ,可以考虑分为7组。但是,在对考试成绩进行分析时,人们习惯将其分为优(90分以上)、良(80~90分)、中(70~80分)和及格(60~70分)和不及格(60分以下)5组,因此应分成5组较为适宜。三分配数列四、累计次数分布在研究次数和频率分布的时候,我们常常还需要编制累计次数分布数列和累计频率分布数列。如表3-12所示,次数分布只能表示每一组的次数,如学生考分在“70~80”一组的有18人,但要知道80分以下的学生有多少人,频率是多少,80分以上的学生有多少人,频率是多少,这就需要使用累计次数分布数列和累计频率分布数列。三分配数列累计次数分布的计算方法有两种:一种是以下累计,又称为向上累计,也就是由变量值低的组向变量值高的组累计,此时每组的累计次数或累计频率表示该组上限以下的次数或频率共有多少。当我们所关心的是标志值比较小的现象的次数分布情况时,一般是采用次数以下累计,以表明在这些数值以下的次数和频率是多少。另一种是以上累计,又称为向下累计,也就是由变量值高的组向变量值低的组累计,此时每组的累计次数或累计频率表示该组下限以上的次数或频率共有多少。当我们所关心的是标志值比较大的现象的次数分布情况时,一般是采用次数以上累计,以表明在这些数值以上的次数和频率是多少。如表3-19所示为某班学生市场营销学成绩的次数分布表。在表中,80分以下的学生有32人,频率是64%;80分以上的学生有18人,频率是36%。由此可以看到累计次数分布的特点:同一数值的以下累计次数和以上累计次数之和等于总体总次数,频率之和等于100%,最后一组的累计频率等于100%。三分配数列表3-19某班学生市场营销学成绩次数分布表累计次数和累计频率可以更简便、更清晰地概括总体各单位的分布特征。根据累计次数分布表的资料,还可以绘制累计次数分布图,如图3-2所示是根据表3-19绘制的累计次数分布图。图中由左下角至右上角的曲线为以下累计曲线,由左上角至右下角的曲线为以上累计曲线。累计次数分布是确定位置平均数的依据。考分分组(分) 人数(次数) 频率(%) 以下累计 以上累计人数(人) 频率(%) 人数(人) 频率(%)50~60 60~70 70~80 80~90 90~100 4 10 18 12 6 8 20 36 24 12 4 14 32 44 50 8 28 64 88 100 50 46 36 18 6 10092723612合计 50 100 — — — —三分配数列图3-2 学生考试分数累计次数分布图三分配数列五、次数分布的特征次数分布是统计描述和统计分析的一种重要方法,它可以表明总体的结构情况。各组次数比率的大小,意味着相应的变量值在决定总体数量表现中所起的作用不同。次数或比率大的变量值对总体标志水平的影响大,反之则小。由于社会经济现象性质的不同,各个统计总体都有不同的次数分布,形成各种不同类型的分布特征。研究各种类型的次数分布特征,对于准确认识不同类型的社会经济现象的数量特征及规律有重要意义。概括起来,各种不同性质的社会经济现象的次数分布主要有三种类型:钟形分布、U形分布、J形分布。三分配数列(一)钟形分布钟形分布的特征是“两头小,中间大”,次数向中央集中的分布。这种分布绘成曲线图,中央隆起、两边低垂,其状如钟,故称钟形分布。在自然现象和社会现象中有许多数量分布是属于钟形分布类型的。例如,农作物单位面积产量、商品的价格、学生的学习成绩、细沙的强力、螺丝的口径、金属的抗压强度、客运量、人的身高、家庭收入、企业的利润分布等。钟形分布绘成曲线图主要有以下三种,如图3-3所示。图3-3 钟形分布a、左偏分布 b、对称分布 c、右偏分布三分配数列(二)U形分布U形分布的特征是“两头大,中间小”,是与钟形分布恰恰相反的一种分布形式。标志两端次数较多,越向中间次数越少。这种分布绘成图形,就像英文字母“U”,故称U形分布。例如,人口死亡率按年龄分组就是U形分布。婴儿死亡率最高;儿童年龄渐长,死亡率渐低;到成年,死亡率最低;45岁以后,死亡率又逐步升高;60岁以上老年组达到最高水平。如图3-4所示。图3-4 U形分布三分配数列(三)J形分布J形分布有两种类型。正J形分布,是次数随着变量值的增大而增高,绘成曲线图,犹如正写的英文字母“J”,故称正J形分布;反J形分布,是次数随着变量值的增大而减少,绘成曲线图,犹如反写的英文字母“J”,故称反J形分布。例如,资本主义社会中,投资额按利润大小分布,一般是正J形分布;而人口总体按年龄大小分布,则一般呈反J形分布,如图3-5所示。图3-5 J形分布第四节 统计资料的表现形式4四统计资料的表现形式一、统计表(一)统计表的概念和结构统计表是表现统计资料的一种形式。把经过大量调查得来的数字资料加以系统化,填列在表格内,就形成了统计表。统计表的优点在于能使大量的统计资料系统化、条理化,简单明了地表述出统计资料的内容,而且便于比较分析和资料积累。从构成要素看,统计表由总标题、横行标题、纵栏标题和指标数值四部分组成。总标题是表的名称,放在表的上端,简明扼要地说明全表的内容。横行标题或称横标目,写在表的左方,是总体各组或各单位的名称。纵栏标题或称纵标题写在表的上方,用于说明各组或各单位的指标名称。指标数值就是汇总得到的各组或各单位的指标取值。四统计资料的表现形式从内容上看,统计表主要包括主词和宾词两个部分。主词是统计表所要说明的对象,也就是统计表所要反映的总体或总体的各个分组;宾词是说明总体的统计指标,包括指标名称和指标数值。一般情况下,主词排列在表的左方,即列于横行;宾词的指标名称列在纵栏标题的位置。见表3-20。项目 总标题 增加值产值(亿元) 比重(%)第一产业 第二产业 24 737.0 103 162.0 11.748.9第三产业 82 972.0 39.4合计 210 871.0 100纵栏标题指标数值表3-20 我国2006年国内生产总值(GDP)按产业分组表横型标题主词宾词总标题四统计资料的表现形式(二)统计表的种类1.简单表表的主词未经任何分组的统计表称为简单表。例如,主词由研究总体单位清单组成的一览表;主词由国家、地区等目录组成的区域表;主词按时间顺序组成的编年表等。如2007年某公司产品合格品数量表就是一个简单表,如表3-21所示。表3-21 2007年某公司所属两企业产品合格品数量表厂别 合格品数量(件)甲厂 乙厂 30004000合计 7000四统计资料的表现形式2.分组表表的主词按照某一标志进行分组的统计表称为分组表。关于分配数列中的各例,都属于分组表,包括按品质标志分组的品质数列和按数量标志分组的变量数列,如表3-22所示。表3-22某地区工业企业按经济类型分组的劳动生产率和经济效益指标按经济 类型分组 企业数 (个) 职工人数 (人) 人均总产值 (百元) 产品销售收入(万元) 利润总额(万元)国有经济 集体经济 其他经济 4 6 5 11044 2883 803 162.7 114.5 89.3 1442.00 994.69 647.30 21.3029.5118.72合计 15 14730 149.9 3083.99 69.53四统计资料的表现形式3.复合表表的主词按照两个或两个以上标志进行复合分组的统计表,称为复合表,即应用复合分组形成的统计表,如表3-23所示。复合表能更深刻详细地反映客观现象,但使用复合表应恰如其分,并不是分组越细越好。复合表中多进行一次分组,组数将成倍增加,分组太细不利于研究现象的特征。项目 产值(万元) 职工人数(人)全民 大 9750 13600中 8500 45000小 4300 10050集体 大 7300 7500中 5400 10400小 4600 4500四统计资料的表现形式(三)统计表的编制规则(1)设计统计表一定要根据需要填列的内容合理布局,使分组和指标的安排紧凑而富有表现力,一目了然。(2)统计表的总标题应简明、确切、概括地反映出表的基本内容,除此之外,还应该表明资料所属的时间和地点。(3)表中的主词各行和宾词各栏,一般应按先局部后整体的原则排列,即先列各个项目,后列总计。(4)如果统计表的栏数较多,可以在表或各栏应用(1)、(2)等数字编号。四统计资料的表现形式(5)表中数字应填写整齐,对准位数。当数字为0或数字很小可忽略不计时,要写上0;当缺乏某项资料时,用符号“…”表示;不应有数字时,用符号“-”表示,不能留空格。(6)统计表中必须注明统计数据的计量单位。当全表只有一种计量单位时,可以把它写在表头的右上方。如果表中需要分别注明不同的计量单位时,横行的计量单位可以专设一栏,纵栏的计量单位与纵栏标题写在一起即可。(7)必要时,统计表应加注说明或注解,主要是对表中某些指标的计算口径、方法、含义的解释,而且还要注明统计资料的来源,以便查考。说明或注解一般写在表的下端。四统计资料的表现形式二、统计图用来表现统计数据的各种几何图形、具体事物的形象、符号等都叫统计图。用统计图来显示统计数据,具有直观、生动、形象、易懂的优点。统计图没有冗长的数据和呆板的表格形式,易为一般人接受和理解。不同的统计图绘制方法不同,但都必须遵守如实反映、便于比较、通俗易懂、鲜明醒目、灵活机动的原则。四统计资料的表现形式(一)直方图和条形图1.直方图直方图是用矩形的宽度和高度来表示频数分布的图形。在平面直角坐标系中,横轴表示数据分组,纵轴表示频数或频率,这样各组与相应的频数就形成了一个矩形,即直方图。如根据表3-24可绘制成直方图如图3-6。年份 2008 2009 2010 2011 2012 2013国内生产总值/亿元 314045 340903 401513 472882 519470 568845表3-24 2008-2013年我国国内生产总值四统计资料的表现形式图3-6 直方图四统计资料的表现形式2.条形图条形图是用宽度相同的条形高度或长度来表示数据变动的图形。条形图可以横置或纵置,纵置时也叫柱形图。如根据表3-25资料绘制条形图如图3-7。表3-25 我国2007~2013年进出口贸易总额年份 2007 2008 2009 2010 2011 2012 2013进出口总额/亿美元 21 738 25 616 22 073 29 728 36 421 38 668 41 600四统计资料的表现形式条形图和直方图不同,条形图用条形的长度(横置时)表示各类别数量的多少,其宽度(表示类别)是固定的,直方图是用面积表示数量的多少;直方图各矩形通常是连续排列,而条形图则是分开排列。图3-7 条形图四统计资料的表现形式(二)折线图和曲线图1.折线图折线图也称频数多边图,它是在直方图的基础上把相邻直方形的顶边中点连接成一条折线,再把折线两端与横轴上直方形两侧延伸的假想组中点相连,就形成了频数分布折线图。折线图也可以用组中值与次数求坐标点连接而成。例如,根据表3-24可绘制图3-8所示折线图。图3-8 折线图四统计资料的表现形式2.曲线图曲线图是用曲线的升降起伏表示被研究现象的变动情况及其趋势的图形。曲线图根据所示数据的性质和作用不同,可分为额数分布曲线图、动态曲线图和依存关系曲线图。在频数分布折线图的基础上,当变量数列的组数无限增多时,折线图便近似地表现为一条平滑的曲线,折线图就变成了频数分布曲线图。例如,根据表3-26资料,可绘制出图3-9所示频数分布曲线图。表3-26 某村人口按年龄分组统计表按年龄分组(岁) 2以下 2~4 2~6 6~8 8~10 10~12 12~14 14~16 16~18 18~20各组人数(人) 50 70 100 110 140 150 165 170 185 200按年龄分组(岁) 20~22 22~24 24~26 26~28 28~30 30~32 32~34 34~36 36~38 38~40各组人数(人) 210 225 235 240 250 265 270 275 283 295按年龄分组(岁) 40~42 42~44 44~46 46~48 48~50 50~52 52~54 54~56 56~58 58~60各组人数(人) 300 294 285 270 260 250 240 230 215 200按年龄分组(岁) 60~62 62~64 64~66 66~68 68~70 70~72 72~74 74~76 76~78 78~80各组人数(人) 190 185 170 160 150 145 120 105 80 45四统计资料的表现形式图3-9 频数分布曲线图四统计资料的表现形式(三)圆形图圆形图又称饼图,它是以圆的面积或圆内各扇形的面积来表示数值大小或总体内部结构的一种图形。根据圆形图的作用不同,可分为圆形比较图、圆形结构图和圆形结构比较图。我们主要介绍圆形结构图。圆形结构图通过圆内各扇形的面积来反映总体中各组成部分所占的比例,对于研究结构性问题十分有用。绘制圆形结构图的关键是正确计算各扇形的面积。由于在相同半径条件下,扇形面积与圆心角成正比,且圆心角度数为360°,故各扇形的中心角度为360°×各组频率。例如,根据2003年公布的我国第二次基本单位普查统计资料,见表3-27,企业法人占59.2%,那么扇形的中心角度数应为360°×59.2%=213.12°。依次类推,我们可绘制圆形结构图如图3-10所示。四统计资料的表现形式按单位类别分组 单位数(万个) 比重(%)企业法人 机关、事业法人 社会团体法人 居(村)委会 其他法人 302.6 102.6 10.6 79.2 15.7 59.220.12.115.63.0合 计 510.7 100.0表3-27 我国法人单位按单位类别分组统计表四统计资料的表现形式图3-10 圆形结构图1.统计整理的意义和步骤是什么?2.统计分组有何作用?如何选择统计分组的标志?3.什么叫变量数列?编制变量数列应注意什么问题?4.以小组为单位,对第二章收集的调查问卷进行整理分析。要求:(1)审核统计调查问卷。(2)根据调查目的进行统计分组。(3)编制分配数列,并用统计图表表示整理结果。思考与练习谢 谢 观 赏 展开更多...... 收起↑ 资源预览