资源简介 (共86张PPT)第二章 统计数据的收集与整理第一节 统计数据收集第二节 统计数据整理第三节 统计数据表现形式第四节 统计数据特征描述本章小节主要内容第二章 统计数据的收集与整理加工整理,归并汇总,重新排列调查得到的原始统计资料发现数据的规律性,作进一步的统计分析第一节 统计数据收集一、收集资科的方式取得统计数据有多种途径,但概括起来不外乎是直接方式和间接方式。(一)统计资料的直接收集直接获取第一手统计资料的主要方法包括:统计调查和试验设计。统计调查的方式主要有 普查 抽样调查 重点调查 统计报表制度。调查方式方法统计调查的方式统计报表制度专门组织的统计调查普查重点调查抽样调查…普查 普查是专门组织的一次性的全面调查,用来调查属于—定时点上或时期内的社会经济现象的总量。抽样调查 抽样调查是一种非全面调查,它是按照随机的原则,从总体中抽取一部分单位作为样本来进行观测研究,以抽样样本的指标去推算总体指标的一种调查。重点调查 重点调查的组织方式有两种:一种是专门组织的一次性调查;另一种是利用定期统计报表经常性地对一些重点单位进行调查。统计报表制度 统计报表制度是根据国家有关统计法的规定,依据自上而下统一规定的表格形式、项目及其指标、报送时间与程序布置调查要求和任务,自下而上逐级汇总上报的统计报表制度。(一)统计资料的直接收集试验设计 科学试验是进行科学研究的重要手段,在许多学科中几乎都起着积极的作用。统计中的试验设计是科学试验研究的组成部分之一 。试验设计,包括五个相互关联的环节,分别是: 方案设计 方案实施 数据采集 数据分析 管理优化(一)统计资料的直接收集 凡不是通过直接的统计调查和试验,而是从其他各种渠道搜集的第二手资料,我们把它总称为统计资料的间接收集。间接资料的来源大体包括:统计年鉴、统计摘要、统计资料汇编、统计台账、统计公告、报纸、杂志、网上资料等。(一)统计资料的间接收集二、收集资料的方法 数据资料的收集方法可以分为初级资料收集方法和次级资料收集方法或称文案资料。初级资料收集方法访问法访问法是按所拟调查事项,有计划地通过访谈询问方式向被调查者提出问题,通过他们的回答来获得有关信息资料的方法。按访问内容的传递方式不同,可分为:面谈调查、电话调查、邮寄调查、留置调查、日记调查和网上调查等方法。二、收集资料的方法观测法 观测法是指调查者通过直接观测、跟踪和记录被调查者的情况来收集资料的—种调查方法。报告法 报告法是由报告单位根据原始记录和核算资料,按照统计机关颁发的统—的表格和要求,按—定的报送程序提供资料的方法。次级资料收集方法 次级资料又称二手资料,通常是公开出版的资科。次级资料收集亦称文案调查。统计的整个工作过程就是对数据的加工过程,从原始数据的收集开始,经过整理、显示、样本信息的获取到总体数量规律性的科学推断,都有一个减少误差、提高数据质量的问题。也就是说,统计数据的质量控制问题是贯穿于统计全过程的重要问题,因此,加强统计数据质量的管理要体现在统计研究的全过程。三、统计数据的质量问题主要任务资料审核、分组、汇总、制表、制图等。分组频数分布统计表统计图第二节 统计数据整理一、统计分组统计分组是根据统计研究目的,将总体按一定标志区分为不同类型或不同性质的组,使组与组之间有比较明显的差别,而在同一组内的单位具有相对的同质性,即同一组内各单位之间具有某些共同的特征。(一) 统计分组原则根据统计研究的目的选择分组标志选择能够反映现象总体本质特征的标志考虑现象所处的具体时间、地点、条件来分组满足完备性、互斥性及一致性第二节 统计数据整理(二) 统计分组的方法按标志的特征分组总体单位的各个标志按分组标志的特征分组区分为品质标志和数量标志。按分组标志数量分组统计分组按分组标志多少不同,可分为简单分组和复合分组。第二节 统计数据整理第二节 统计数据整理简单分组简单分组是对研究对象按照一个标志进行的分组。例如某高校职工按照性别或者职称进行的分组,如表2.2.1、2.2.2所示。第二节 统计数据整理复合分组复合分组是对研究对象按两个或两个以上的标志层叠起来进行的分组。即先按一个标志进行分组,然后再按另一个标志在已分好的各个组内划分成若干个小组。例如企业职工按性别分组后,在每组内再按年龄分组,如表2.2.3所示 。第二节 统计数据整理(三) 统计分组体系统计分组体系有两种:平行分组体系和复合分组体系,如图2.2.1、2.2.2所示。(三) 统计分组体系二、分布数列将统计总体按某一标志分组后,用来反映总体单位在各组中分配情况的数列叫分配数列。分配在各组的总体单位数叫次数或频数。各组次数与总次数的比值称为频率。(一)分布数列的分类根据分组标志的不同,分配数列可以分为品质分配数列和变量分配数列两种。(一)分布数列的分类品质数列按品质标志分组所形成的分布数列称品质分布数列或属性分布数列,简称品质数列。它是由总体各组名称及各组总体单位数(次数)组成,如表2.2.4所示。(一)分布数列的分类变量数列按数量标志分组形成的分布数列,称为变量分配数列,简称变量数列。它由各组变量值及各组总体单位数(次数)组成。变量数列按照用以分组的变量的表现形式,可分为单项数列和组距数列两种。单项数列就是指以一个变量值代表一组而编制的变量数列,如表2.2.5所示。确定组数k找出xmin与xmax计算组距h确定每组上下限将相应数据归并到各组Xmin 最小值,xmax 最大值(二)分布数列的编制某校200个学生大学英语考试成绩的频数分布表分数 人数(f) 分数 人数(f)40—45 1 76—81 2546—51 0 82—87 4252—57 12 88—93 1058—63 29 94—99 1164—69 28 100—105 370—75 39 总 数 200(二)分布数列的编制组距数列的分类组距数列可分为等距分组和异距分组。等距分组即各组组距相等的分组。异距分组即各组组距不相等的分组。在标志值变动比较均匀的条件下,可采用等距分组。当标志值变动很不均匀,如急剧的增大、下降,变动幅度大时,可采用异距分组。组数的确定组距数列中组距的大小与组数的多少成反比。组限和组中值当组距、组数确定后,只需划分各组数量界限便可编制组距数列。(二)分布数列的编制(二)分布数列的编制组限和组中值由于变量有离散型与连续型两种,因此,其组限的划分也有所不同。离散变量其变量值可以依次列举,而相邻组两个变量值之间没有中间数值,因此,分组时相邻组的组限必须间断。连续变量由于其变量值不能依次列举,而且相邻两个变量值之间可以存在无限多的中间数值,因此,相邻组的上限和下限无法用两个确定的数值分别表示,这时相邻的上、下限采用重叠的方法分组界定。在统计工作中,为保证变量的分组不发生混乱,习惯上规定各组一般均只包括本组下限变量值的单位,而不包括上限变量值的单位,这就是“上限不在内”原则。(二)分布数列的编制若按照间断式组限分组时,则需要转换成连续式组限后再计算组中值,闭口组时采用上 (2.2.1) 式计算。若按照间断式组限分组时,则需要转换成连续式组限后再计算组中值,闭口组时采用上 (2.2.1) 式计算,开口组时需要采用 (2.2.2) 式、 (2.2.3) 式以下近似算:第一组为××以下,缺少下限,则组中值=组上限-下一组组距/2 (2.2.2)最末组为××以上,缺少上限,则组中值=组下限+上一组组距/2 (2.2.3)(二)分布数列的编制间断式组中值的计算事例如表2.2.6所示。第三节 统计数据表现形式一、统计表(一) 统计表的结构 从形式上看,统计表的结构是由表题、横行标题、纵栏标题和指标数值等要素构成,统计表结构的一般形式如图2.4.1所示。(一) 统计表的结构 例:2001年我国工业增加值的一个统计表示如表2.3.1所示。 按照统计表的主词是否分组和分组的程度,分为简单表,分组表和复合表三种。简单表简单表是统计表的主词未经任何分组的统计表。分组表 分组表指统计表的主词按某一标志进行分组。复合表 复合表指统计表的主词按两个或两个以上标志进行复合分组(二) 统计表的种类二、统计图条形图(Bar chart) 条形图常用于描述离散型数据的情况,是我们经常见到的一种图形,它是用宽度相等而高度为频数(率)来表示各类数据的大小。例2.3.1 某高校2020年各院教师在国内核心杂志上发表论文情况,如表2.3.2所示条形图(Bar chart)解:由表2.3.2中的数据应用Excel软件中的“插入”功能中的“图表”功能绘成的条形图如图2.3.2所示。直方图(Histogram)直方图表征数据的频数分布特征,它与条形图在形式上有类似之处,都是用条形来表示数据特征,但直方图中的条形之间是没有间隔的。例2.3.2 某连锁企业2020年度各分公司完成销售计划如表2.3.3所示,试绘制直方图。直方图(Histogram)解:应用Spss软件中的“Gragh”功能绘制的直方图,如图2.3.3所示。饼分图(Pie chart) 饼分图经常用来表示各成分在总体中所占的百分比。 例2.3.3 某课题组为了科学评价某高校学科建设项目的绩效,对构建的学科建设绩效评估指标权重进行了问卷调查,累计发放问卷调查表243份,回收有效问卷223份,其中,教授占65%,研究员占1%,副教授占12%,副研究员占1%,讲师占20%,助教占1%,则样本职称分布如图2.3.4所示。 洛伦茨曲线是20世纪初美国经济学家、统计学家洛伦兹(M.E.Lorentz)绘制成的描述收入和财富分配性质的曲线,洛伦兹曲线如图2.3.5所示。 洛伦茨曲线SA50 100人口累计百分比(%)50100图2.3.5 洛伦茨曲线OT洛伦茨曲线L收入累计百分比(%)SB 洛伦茨曲线 为了更准确地反映收入分配的变化程度,20世纪初意大利经济学家基尼(Gini)根据洛伦茨曲线,提出了计算收入分配公平程度的统计指标,称为基尼系数。其公式为: 联合国有关组织规定:G小于0.2表示收入绝对平均,在0.2~0.3之间表示比较平均,在0.3~0.4之间表示相对合理,在0.4~0.5之间表示收入差距较大,大于0.6表示收入差距悬殊。基尼系数0.4为国际警戒线,超过了0.4则应采取措施缩小收入差距。 箱形图 (Boxplot) 箱形图也称箱线图,是由一组数据的最大值、最小值、中位数和两个四分位数5个特征值绘制的一个箱子和两条线段的图形。如图2.3.6所示。 箱形图 (Boxplot)不同箱形形状可反映出不同的分布特征,如图所示。 箱形图 (Boxplot)例2.3.4 某高校管理科学与工程学科共有10篇博士学位论文需要评审,分别请该领域8位专家评阅打分,论文得分数据如表2.3.4所示。 解:应用Spss软件中的“Gragh”功能绘制的各博士学位论文得分情况的箱形图,如图2.3.8所示。 箱形图 (Boxplot)图2.3.8 10篇博士学位论文得分的箱形图第四节 统计数据特征描述一、总量指标 总量指标是反映社会经济现象在一定时间、地点、条件下的总规模或总水平的统计指标。总量指标也称为绝对指标或绝对数。(一) 社会总产品 社会总产品也称总产出。它是指一个国家或地区在一定时期(如一年)内全部生产活动的总成果,当以货币表现时,即为全部生产活动成果的价值总量。(二) 增加值 增加值是企业或部门在一定时期(如一年)内从事生产经营活动所增加的价值。它是总产出减去中间投入后的余额,因此,从价值构成看,它包括全部新创造的价值和物质消耗中本期固定资产折旧。一、总量指标(三) 国内生产总值(GDP) 国内生产总值是按市场价格计算的国内生产总值的简称。它是一个同家(或地区)所有常住单位在一定时期内生产活动的最终成果。 国内生产总值有三种表现形态,即价值形态、收入形态和产品形态。在实际核算中,国内生产总值的三种表现形态表现为三种计算方法,即生产法、收入法和支出法。生产法 国内生产总值=各部门增加值之和 (2.4.1) 增加值=总产出一中间投入 (2.4.2)收入法 增加值=固定资产折旧+劳动者报酬+生产税净额+营业盈余 (2.4.3)支出法 国内生产总值=最终消费十资本形成总额十净出口 (2.4.4)国民总收入=国内生产总值十国外要素收人净额 (2.4.5)国外要素收入净额=来自国外的劳动者报酬和财产收入-国外从本国获得的劳动者报酬和财产收入 (2.4.6)一、总量指标例2.4.1 如表2.4.1所示的《国内生产总值及其使用表》是国民经济核算体系中再生产核算表的重要组成部分,是—张平衡表。该表从生产、分配、使用三个不同角度充分揭示了国内生产总值是衡量社会生产与使用的核心指标;它将国内生产总值的三种计算方法集中体现在一张表中,既可以从不同角度对国内生产总值指标进行观测分析,又保证了指标概念的完整性、逻辑关系的清晰性和技术方法的统一性。二、相对指标相对指标又称相对数,它是两个有联系的指标数值对比的结果。用来对比的两个数,既可以是绝对数,也可以是平均数和相对数。(一)计划完成相对指标1.根据总量指标计算计划完成相对指标例2.4.2 设某工厂某年计划工业增加值为600亿元,实际完成660亿元,求增加值计划完成相对数。二、相对指标2.根据平均指标计算计划完成相对指标根据平均指标计算计划完成相对数的计算公式为:二、相对指标例2.4.3 某企业生产某产品,本年度计划单位成本降低9%,实际降低12%,求成本降低率计划完成相对数。例2.4.4 某企业某月生产某产品,计划每人每日平均产量为36件,实际每人每日平均产量为39件,求劳动生产率计划完成相对数。(二) 结构相对指标总体是在同一性质基础上由各种有差异的部分所组成的。结构相对指标就是利用分组法,将总体区分为不同性质(即差异)的各部分,以部分数值与总体数值对比而得出比重或比率,来反映总体内部组成状况的综合指标。其计算公式为例2.4.5 某公司男职工为员工总数的60%,女职工为员工总数的40%,它反映了该公司在男女性别上的构成情况。(三) 比较相对指标比较相对致也称类比相对数,是将两个同类指标做静态对比得出的综合指标,表明同类现象在不同条件(如在各国、各地、各单位)下的数量对比关系。其计算公式为:例2.4.6 某年有甲、乙两企业同时生产一种性能相同的产品,甲企业工人劳动生产率为224万元,乙企业为320万元,求两企业劳动生产率比较相对数。解:两企业劳动生产率比较相对指标=(四) 比例相对指标比例相对指标是将总体内某一部分数值与另一部分数值对比所得到的相对数,常用系数或倍数表示。计算公式为例2.4.7 某地区2020年地区生产总值为116898.4亿元,其中第—产业为17092.1亿元,第二产业为61131.3亿元,第三产业为38675.0亿元,则第—产业生产总值:第二产业生产总值:第三产业生产总值=1:3.6:2.3(五) 强度相对指标强度相对指标是两个性质不同,但有一定联系的总量指标对比的结果,用来表明现象的强度、密度和普通程度的综合指标。强度相对指标的计算(五) 强度相对指标例2.4.8 某地区占地10.2万平方公里,据统计2020年初和2020年底的人口分别为4216万人和4372万人,2020年国民收入总额为33768亿元,求2020年的人口密度、平均人口数、人均国民收入。(五) 强度相对指标强度相对指标的正逆指标强度相对数是两个有联系的不同事物的总量指标数值的对比,因此,分子和分母可以互换,这就产生了有些强度相对数有正指标和逆指标两种例2.4.9 某城市人口620万人,有大学66所,求大学密度正指标与大学密度负指标。 动态相对指标是同类指标在不同时期上的对比,其计算公式为(五)动态相对指标 式(2.4.12)中,作为对比标准的时期叫做基期,而同基期比较的时期叫做报告期,有时也称为计算期。动态相对数的计算结果用百分数或倍数表示。三、平均指标(一)算术平均数 简单算术平均数(一)算术平均数加权算术平均数加权算术平均数的简略形式为:(一) 算术平均数 例2.4.10 表2.4.2为某企业职工月平均工资的分组数据,试计算职工的月平均工资。解:该企业职工月平均工资(二) 调和平均数调和平均数也称“倒数平均数”,它是对变量的倒数求平均,然后再取倒数而得到的平均数(三)几何平均数简单几何平均数例2.4.11 某高校自2015-2020年学生人数如表2.4.3所示,求该校平均发展速度。解:(三)几何平均数加权几何平均数(三)几何平均数例 2.4.12 某银行在过去15年中的年利率资料如表2.4.4所示,求15年的平均年利率。解:用几何平均法求15年平均利率(四) 中位数中位数是将总体中各单位标志值按大小顺序排列,居于中间位置的那个标志值就是中位数,用 表示。 未分组资料中位数的确定 例2.4.13 7名工人的日产量依次从小到大排列为16件、18件、22件、23件、26件、29件、31件;8名工人的日产量依次从小到大排列为16件、18件、22件、24件、26件、29件、31件、33件,分别求其中位数。 解:7名工人的日产量的中位数位次(用)为(四) 中位数8名工人的日产量的中位数位次为分组资料中位数的确定 下限公式(向上累计时)为(四) 中位数上限公式(向下累计时)(四) 中位数 例2.4.14 某车间共有工人130名,生产某种产品按日产量分组资料如表2.4.5所示,试确定该车间工人日产量的中位数。 例2.4.15 某高校某学院学生体重的数据资料如表2.4.6所示,计算该学院学生体重的中位数。(四) 中位数按下限公式计算:按上限公式计算:例2.4.15 计算(五) 众数众数是指总体中出现次数最多的标志值,它能够直观地说明客观现象分配中的集中趋势。按单项数列确定众数只须观测标志值出现的次数,把次数最多的组定为众数组,该组的标志值即为众数。按组距数列确定众数的方法下限公式:上限公式:(五) 众数(五) 众数图-1比较众数、中位数和算术平均数的相对位置(六)各种平均数的适用范围及其相互关系不同平均指标的适用范围算术平均数易受极端变量值影响,使的代表性变小;当组距数列为开口组时,由于组中值不易确定,使的代表性变得不可靠。几何平均数适用于各个变量值的连乘积等于其发展总速度时,求算其平均数;求等比数列的平均数。众数适用于总体的单位数较多,各标志值的次数分配又有明显的集中趋势的的情况。中位数属于位置平均数,它与众数一样,都是从数据位置的角度来反映数据的代表水平,中位数不受极端值的影响,各个变量值相对其中位数的绝对离差之和为最小。(六)各种平均数的适用范围及其相互关系算术平均数、中位数和众数三者的关系四、变异指标标志变异指标是评价平均数代表性的依据,标志变异指标愈大,平均数代表性愈小;标志变异指标愈小,则平均数代表性愈大。极差(range)极差也称全距,是指总体分布中最大标志值与最小标志值之差,用以说明标志值变动范围的大小,通常用来表示,其计算公式为极差(range)例2.4.16 某商场连续11天销售某品牌手机的数量分别为:22、36、43、12、31、52、42、20、35、26、33,求极差。解:将销售数量由大到小排序为:12、20、22、26、31、33、35、36、42、43、52,则极差为:标准差(standard deviation)和方差(variance)由未分组数据资料计算标准差是总体各单位标志值与平均数离差平方平均数的平方根,标准差的平方即为方差。设从某个总体中抽取的数据为 , 则称为样本标准差为样本方差标准差(standard deviation)和方差(variance)若某总体的全部元素就是 ,则称为该总体的标准差为该总体的方差标准差(standard deviation)和方差(variance)由分组资料计算例2.4.17 以例2.4.15中学生体重的样本资料,计算学生体重的方差与平均差。例2.4.18 某高校经济管理学院中的0401和0402两个班各有9名学生选修了管理预测与决策方法课程,考试成绩如表2.4.7所示,试计算各班管理预测与决策方法成绩的平均值和标准差。解:根据表2.4.7的数据资料计算得变异系数(coefficient of variation)离散系数是消除平均数影响后的标志变异指标,用来对两组数据的差异程度进行相对比较,其形式为相对数,因此,也称为标志变异相对数指标。常见的离散系数是标准差系数 。变异系数(coefficient of variation) 例2.4.19 某电器公司中的两个车间生产不同的产品,其中一车间生产手机,二车间生产MP3,某月两个车间产量的平均数和标准差资料如表2.4.8所示,试分析两者标志的变异程度。解:五、偏度与峰度偏度(Skewness)偏度是用于衡量分布的不对称程度或偏斜程度的指标峰度(Kurtosis)五、偏度与峰度 例2.4.20 根据例2.4.15中学生体重的样本资料,计算学生体重的峰度。本章小节统计资料的收集与整理是对数据的直接处理与分析,目的是计算数据的特征值、发现其数量规律性,进而用样本数据的特征值推断未知总体的参数。统计调查方案的设计与统计资料的收集主要介绍如何用数据对客观事物进行计量,如何获得数据,以及对数据质量的评价。统计整理是根据统计研究的目的,将调查所得到的资料进行科学地分组、汇总、表现并对总体的数量特征加以描述,为统计分析准备系统的、条理化的综合资料的工作过程。统计资料整理的结果可以用不同的形式表现,其中统计表和统计图是表现统计资料的常用形式。最重要的数字描述性指标有两类,一类测量数据集的集中趋势(平均值、中位数和众数) ,另一类测量数据的变异性(极差和标准差 )。 展开更多...... 收起↑ 资源预览