资源简介 (共84张PPT)管理统计学2 数据的搜集与整理2.1 统计数据的搜集2.2 调查设计2.3 统计数据的整理2.4 SPSS基础2.1 统计数据的搜集统计数据的搜集根据统计研究的目的,采用科学的方法,有计划有组织地搜集统计资料的过程搜集统计数据须遵循的原则准确性:统计调查资料要客观 、 真实地反映所研究的现象及时性:统计调查资料应按照统一规定的时间 搜集完成并上报全面性:统计调查应按调查方案和调查表的要求 , 无遗漏地全面搜集统计资料2.1.1 统计数据的来源统计数据:统计工作过程中所取得的各项数字资料以及与之相关的其他实际资料的总称统计数据的来源数据的直接来源:在统计研究中,调查人员通过直接的调查或科学实验获得的统计数据数据的间接来源:对于某些研究问题,如果与研究内容相关的数据资料已经存在,我们所要做的只是将这些数据资料搜集起来,经过再加工处理使之变成我们可以使用的数据资料2.1.2 统计调查与统计调查体系统计调查根据统计研究的目的、要求和任务,采用科学的调查方法,有计划、有组织地收集统计资料的工作过程统计调查的方法观察法:由调查人员到现场对调查对象直接计数和计量以获得统计资料的方法报告法:以原始记录或核算资料为基础,由调查单位按规定填写调查表,并按统一规定的时间上报的方法询问法:调查人员通过询问的方式,从调查对象的回答中获得统计资料的方法实验调查法:在控制条件下操控某种变量来考察它对其他变量影响的研究方法统计调查的种类(待续)按搜集资料的组织方式不同,分为统计报表制度和专门调查统计报表制度是由政府主管部门根据统计法规,以统计表格形式和行政手段自上而下布置,而后由企、事业单位自下而上层层汇总、逐级上报,提供基本统计数据的调查方式专门调查是指为了研究某些特定的社会经济现象而专门组织的调查按调查对象所包括的范围不同,分为全面调查和非全面调查统计调查的种类(续)全面调查是对构成调查对象总体的全部单位无一例外地进行调查非全面调查是对构成调查对象的部分单位的调查按调查登记时间是否连续,分为经常性调查和一次性调查经常性调查是随着调查对象的变化,经常地、连续不断地进行调查登记,以了解事物在一定时期内发展变化的全过程一次性调查是指间隔一段时间,对调查对象进行不连续地调查登记,以了解事物在一定时点上的状态统计调查体系1994年国家统计局“全国统计工作会议”以必要的周期性普查为基础以经常性的抽样检查为主体辅之以重点调查、科学推算和全面报表等多种方法综合运用常用统计调查组织形式:统计报表制度、普查、抽样调查、重点调查、典型调查统计报表制度统计报表制度:由政府主管部门根据统计法规,以统计表格形式和行政手段自上而下布置,而后由企、事业单位自下而上层层汇总、逐级上报,提供基本统计数据的一种调查方式统计报表的分类根据报表内容和实施范围,分为国家统计报表、业务部门统计报表和地方统计报表根据报送周期长短,分为日报、旬报、季报和年报根据报送单位,分为基层统计报表和综合统计报表根据调查范围,分为全面统计报表和非全面统计报表根据报送方式的不同,可分为邮寄报表和电讯报表普查普查:为了某一特定目的而专门组织的一次性全面调查,常被用来说明现象在一定时点上的全面情况普查的组织形式建立专门机构,配备大量人员,对调查单位进行直接的登记利用调查单位的原始记录和核算资料,颁发调查表,由登记单位填报普查需要坚持的原则统一时点:调查资料必须反映调查对象在这一时点上的状况,以避免发生登记重复和遗漏的问题短期同步:各调查单位或调查点尽可能同时登记,并在尽量短的期限完成,在方法上、步调上保持一致,保证统计资料的准确性和及时性统一口径:调查项目应统一规定,且项目一旦确定不得任意改变或删减,以免影响汇总综合,降低资料质量固定周期:普查尽可能按照一定周期进行,以便进行历史资料动态对比,研究调查对象的发展变化规律抽样调查抽样调查:从总体中抽取一部分单位作为样本进行调查,并根据样本的数量特征去推断总体的数量特征概率抽样:抽取调查样本时遵循随机原则(如无特殊说明,下文提到的抽样调查都是指概率抽样调查 )非概率抽样:调查者根据自己的方便或主观判断抽取样本的方法抽样调查的特点按照随机原则从总体中抽取样本单位根据所调查样本的实际情况对调查总体的数量特征作出估计用样本数据推算总体的特征,不可避免地存在误差,但这个误差可以事先计算并加以控制重点调查重点调查:在全体调查对象中选择一部分重点单位进行调查,以取得统计数据的一种非全面调查方法例如,要了解全国钢铁行业生产的基本情况,只需要对鞍钢、武钢、首钢、宝钢、包钢等几个钢铁企业进行调查重点调查的关键问题是确定重点单位重点单位可以是重点地区(产区、市场、出口基地等),也可以是重点企业、主要产品或商品,在具体问题中应视情况而定典型调查典型调查:根据调查目的和要求,在对调查对象进行初步分析的基础上,有意识地选取少数具有代表性的典型单位进行深入细致的调查研究,借以认识事物发展变化规律及本质的一种非全面调查典型调查单位的确定更多地取决于调查者主观的判断与决策在采用典型调查的方式时要求研究者有较丰富的经验,在划分类别、选择典型上有较大的把握2.1.3 抽样调查抽样调查的基本概念总体与样本总体/全及总体:所要认识的对象的全体,由具有共同性质的许多单位组成,总体单位数用N表示变量总体:反映总体各单位性质的为标志值属性总体:反映总体各单位性质的为标志特征抽样框:指包含全部抽样单位的名单框架样本/子样:从总体中随机抽取出来的部分单位所构成的集合样本容量n:样本的单位数抽样比:样本容量n与总体单位数N的比值n/N抽样调查的基本概念(待续)总体指标和样本指标总体指标/全及指标:根据总体各单位的标志值和标志特征计算的、反映总体数量特征的综合指标对于变量总体,设总体单位数为N,变量为X,变量值分别为X1,X2,…,XN, 则总体平均数和总体方差为对于属性总体,设总体N个单位中,有N1个单位具有某种属性,则总体成数P为抽样调查的基本概念(续)样本指标:根据样本各单位的标志值或标志特征计算的、反映样本总体特征的综合指标。一般用小写字母表示样本指标对于从变量总体中抽取出来的样本,设样本m各单位各单位变量值分别为x1,x2,…,xn,则样本平均数和样本方差为对于从属性总体中抽取出来的样本,设样本n个单位中有n1个单位具有某种属性,则样本成数p为抽样调查的方法根据样本是否能够反复抽取,抽样调查可以分为重复抽样和不重复抽样重复抽样/放回式抽样:从总体中抽取样本时,每次抽取的样本单位,在记录其有关标志表现后都要放回总体中去参加下一次抽取,直到抽满n个样本单位为止不重复抽样/不放回式抽样:从总体中抽取样本时,每次抽取的样本单位,在记录其有关标志表现后不再放回总体,这样在下次抽样时就不会再次抽到前面已经抽中过的样本单位抽样调查的组织形式简单随机抽样/纯随机抽样:按照随机原则从总体中逐个地抽取样本单位,因此每个单位的入样概率是相等的类型抽样/分层抽样:将总体中的各单位按照某种特征或某种规则划分成若干个不同的类型组,然后从各类型组中独立地、随机地抽取样本,再将各类型组的样本结合起来,对总体的目标量进行估计等距抽样/系统抽样:将总体中各单位按照某一标志顺序排列,在规定的范围内随机确定起点,然后按照一定的间隔抽取其他样本单位整群抽样:将总体各单位划分为若干群,然后以群为单位从中随机抽取一些群,对抽中群的所有单位都进行调查多阶段抽样/多级抽样/阶段抽样:将对总体单位的整个抽样过程分为两个或更多个阶段进行,先从总体中抽选若干个大的样本群,称为第一阶段单位,然后从被抽中的若干个大的单位群中,抽选较小的样本单位,以此类推2.2 调查设计统计调查需要投入大量的人力、物力和财力,为了保证统计调查资料的准确、及时、全面,在组织调查之前,必须制定科学、严密的工作计划和实施措施,以保证调查工作顺利、有序地进行调查设计包括:统计调查方案的设计和调查问卷的设计2.2.1 统计调查方案的设计(1) 明确调查目的即明确统计调查要研究和解决什么问题,这是统计调查中最基本的问题(2) 明确调查对象、调查单位调查对象/调查总体:我们需要调查的总体范围调查单位/总体单位:具体调查项目和内容的承担者报告单位:负责报告调查资料的单位(3) 确定调查项目调查项目:所要调查登记的具体内容,即调查单位所要承担的基本标识(4) 确定调查时间和调查期限调查时间:调查资料所属的时点或时期调查期限:调查工作的时限,包括搜集资料和报送资料的整个工作所需时间(5) 确定调查的组织实施计划包括确定调查工作的领导队伍,调查人员队伍的组织,调查资料的管理方法,调查前的准备工作等2.2.2 调查问卷的设计调查问卷:根据调查目的,将所要调查的内容、问题和可能的答案按照一定的形式排列所形成搜集调查数据的书面形式,是一种特殊的调查表(1)调查问卷的结构和内容①标题即问卷的主题,应能够概括性地描述问卷的研究主题,并且应醒目、准确,使被调查者大致明确调查的内容和性质②前言主要包括引言和注释,用来向被调查者说明调查的目的、意义和主要内容、调查者的身份及填写说明等③主体包括问题与答案,是问卷的核心内容,研究者欲通过调查问卷了解的数据资料大部分在这里以问题和回答项目的形式提出④结束语和实验记录结束语是为了表示对调查对象真诚合作的谢意,在问卷的末端的简短明了的感谢语实验记录用于记录调查的完成情况和需要复查、校订的问题,由调查员和审核员签写姓名和日期,以明确调查人员责任(2)问题与答案的设计(待续)①问题的主要形式:开放式问题和封闭式问题开放式问题/无结构的问答题:只需提出问题,而不必在问卷上拟定答案封闭式问题/有结构的回答题:对问题预先设计备选答案,由被调查者根据自己的判断或实际情况进行选择②问题的措辞与顺序表述问题时应遵守的原则措辞应简单,尽量使用符合人们交谈习惯的通俗易懂的语言避免诱导性问题避免使用双重否定语和语义双关的句子对敏感性问题的设计应讲究技巧,特别注意问题的提出方式问题的排序应遵循的原则问题与答案的设计(续)按照由易到难的顺序,最前面的是容易回答的问题,然后是较难回答的问题,最后是敏感性问题封闭式问题放在前面,开放式问题放在后面注意问题的逻辑顺序③答案的设计调查问卷答案的主要形式自由回答式:由被调查者自由填写答案二项选择式:被调查者只需在两个对立的答案中任选其一多项选择式:被调查者需要从若干个备选答案中选择符合自己情况的一项或几项顺位式:列出对某一问题不同层次的答案,由被调查者排除先后次序,以表示自己的态度和倾向量表应答式:以量表的方式是调查对象对问题作出反应(3)调查问卷的信度与效度问卷调查的误差测量误差/随机误差:产生于问卷测验过程中的误差系统误差:由问卷的结构质量造成的误差为了提高调查问卷的结构质量,减少误差,在调查问卷初步设计成型后,需要在小范围内进行试验性调查,并对调查问卷进行信度和效度的检验信度:问卷的可靠性,即用一份调查问卷对同一组调查对象进行重复调查时,所得结果的一致性程度效度:问卷的有效性和正确性,即问卷能够正确测量研究者所要测量的特质的程度2.3 统计数据的整理统计数据整理:根据统计研究的目的和任务的要求,对统计调查所得到的各项原始资料进行科学的分类和汇总,为统计分析提供准确、系统、条理清晰、能在一定程度上说明总体特征的综合资料的工作过程统计资料的整理包括统计资料的审核、统计分组、汇总计算,制作统计表、统计图等程序,以及描述统计数据的分布特征等2.3.1 统计分组统计分组是根据统计研究的目的和需要,将统计总体按照某一标识划分为若干个类型组统计分组应保证:各组内统计资料的差异尽可能小,各组间则应有明显的差异统计分组的作用划分现象的类型:通过统计分组能将这些不同类型的现象区分开来,分别研究研究总体的结构:在划分总体类型的基础上,通过统计分组能计算出各类型现象占总体的比重,以进一步说明总体的结构特征和基本性质研究总体现象之间的依存关系 :在统计分组的基础上,计算相关指标,可以观察不同现象之间是否存在或存在何种联系统计分组的种类和分组标志的选择统计分组的种类根据分组标志的多少,分为简单分组和复合分组简单分组:将统计总体按照一个分组标志进行分组复合分组:对同一统计总体运用两个或两个以上分组标志进行层叠方式的分组根据分组标志的性质,可以分为品质分组和数量分组品质分组:按反映事物属性或质的特征等品质标志进行的分组数量分组:按反映事物数量特征的数量标志进行的分组分组标志的选择:选择分组标志须遵循以下原则选择符合统计研究的目的和要求的分组标志选择最能反映现象本质特征的分组标志要考虑社会经济现象所处的具体历史条件和社会经济发展条件2.3.2 频数分布频数分布/分布数列:在统计分组的基础上,将总体所有单位按组归类整理,并按一定的顺序排列,形成说明单位总数在各组分配情况的分布频数分布的组成部分按照分组标志分组形成的组别频数/次数:与各组相对应的总体单位数频率:各组频数与总次数的比率频数分布数列的分类品质分布数列/品质数列 :按品质标志分组的分布数列品质数列一般较稳定,能够准确地反映总体的分布特征变量分布数列/变量数列:按可变数量标志分组的分布数列矿泉水品牌 销售量/瓶 比率(频率)/%(精确到百分位)农夫山泉 8 13乐百氏 4 6康师傅 13 21哇哈哈 8 13冰露 15 23统一 9 14雀巢 6 10合计 63 100不同品牌矿泉水销售量的分布数列变量数列的编制单项式变量数列单项式变量数列:在数量标志分组中,若总体变量是离散型变量,且变量值变动幅度较小,变量值的项数又较少,我们可以依次将每个变量作为一组,形成分布数列组距式变量数列/组距数列组距式变量数列:将总体变量依次划分为几个区间,各个变量值按其大小确定所归并的区间,形成分布数列年龄/岁 人数(频数)/人 比率(频率)/%18 603 15.07519 1761 44.02520 1286 32.15021 350 8.750总计 4000 100.00某大学年级在校人数年龄分组表组距数列的编制(待续)组距数列的编制步骤确定组数和组距确定组限计算频数、频率等统计指标组距数列的基本概念组距和组数全距:总体变量的最大数值与最小数值之差组距:每个组上限和下限之间的距离组数:全距除以组距(在等距分组的前提下)斯特杰斯经验公式:确定组数和组距的经验公式n=1+3.3lgN其中,n为组数,N为总体单位数,d为组距,R为全距,xmax和xmin分别为最大变量值和最小变量值组距数列的编制(续)等距分组和异距分组等距分组:分组时各组保持相等的组距异距分组:各组组距并不完全相等的分组异距分组的分布受各组组距大小的影响,需要对每组数据计算其频数密度若总体中变量分布比较均衡,采用等距分组;若总体中变量值分布很不均衡,且变动范围大,则采用异距分组组限和组中值组限:各组两端的数值在划分离散变量的组限时,相邻组限可以间断在划分离散变量的组限时,相邻组的组限必须重叠,统计次数时应遵循“上组限不包括在内”的原则组距数列的编制(续)组中值:各组变量值范围的中点值当相邻组组限重合时,当相邻组组限不重合时,开口组:在首末两组使用“××以上”或“××以下” 的组限表示方法开口组以相邻组的组距作为本组的组距累计频数和累计频率:用于表示某个变量值以上或以下的总次数和总比重有多少向上累计:由变量值小的向变量值大的累计向下累计:由变量值大的向变量值小的累计2.3.3 统计表和统计图统计表:将统计调查搜集到的资料,经分组、汇总、整理后,按一定的顺序和格式排列在表格内用数据代替文字描述,便于统计结果的精确、简洁的表达和对比分析统计图:用几何图形或具体形象图形把统计表中的数字资料直观、形象地展示出来用图形代替数据,获得直观、形象的效果(1)统计表统计表的结构统计表的种类和编制规则统计表的种类简单表:主词未经过任何分组的统计表分组表:主词只按一个标志进行分组的统计表复合表:主词按两个或两个以上标志进行分组,且标志重叠排列的统计表统计表的编制规则统计表的标题应简明扼要统计表的内容应少而精,使主题突出,一目了然表内分组和指标的排列顺序,要符合内容的逻辑关系数字应排列整齐,同栏数据的计量单位和精确度应一致必须注明数字资料的计量单位表左右两端一般不封口,表上下两端通常划粗线或双线必要时表下可加“注释”,说明表的资料来源,制表人或制表单位,制表日期以及其他需要说明的问题(2)统计图常用的统计图饼图:用圆形及圆内扇形的面积表示数值大小的图形条形图:坐标平面上用宽度相同的条形的高度或长短来表示数据多少的图形直方图:在坐标平面上以组距为底边,以长方形面积代表各组的次数绘制的一系列条形图折线图:在直方图的基础上,将每个长方形的顶边中点用折线连接起来,或直接以组中值作为横坐标、频数作为纵坐标得到各个坐标点并依次连接各坐标点曲线图:若变量数列的变量值非常多,将各组组距无限缩小,组数无限增多,折线图趋于一条平滑的曲线饼图和条形图饼图主要是以圆内扇形的面积的大小来表示总体中各组成部分占总体的比重条形图中,条形及条形之间宽度相等,条形的高度或长度表示各类别指标值的大小不同品牌矿泉水销售量比重不同品牌矿泉水销售量分布直方图直方图和折线图直方图中,长方形的高度与频数成正比关系,高度就可反映次数(对于异距分组以频数密度作为纵坐标)折线图,在直方图的基础上,将每个长方形的顶边中点用折线连接起来绘制而成某班级男生身高分布直方图某班级男生身高分布折线图曲线图(待续)①钟形曲线靠近中间的变量值分布次数较多,靠近两边的变量值分布次数较少,整个曲线的形状如同一个倒挂的钟可以分为正态分布和偏态分布(又包括左偏和右偏)正态分布曲线左偏分布曲线右偏分布曲线曲线图(续)②U型曲线:靠近中间的变量值分布的次数较少,靠近两边的变量值分布的次数较多③J型曲线根据次数随变量的变化情况,可分为正J型和负J型曲线U型分布曲线正J型曲线负J型曲线洛伦茨曲线横轴表示累计的人口百分比,纵轴表示累计的收入或财富百分比,弧线OL为洛伦茨曲线洛伦茨曲线的弯曲程度反映了收入分配的不平等程度洛伦茨曲线的弯曲程度越大,收入分配越不平等,特别是如果所有的财富都集中的一人手中,而其余人口一无所有时,收入分配达到完全不平等,这时洛伦茨曲线为折线OHL洛伦茨曲线2.3.4 统计数据的分布特征统计数据的分布特征分布集中趋势的测度为了反映总体各单位的一般数量水平,需要将各单位的数量差异一般化,得到能够反映数量总体分布的集中趋势的综合指标——平均指标分布离散程度的测度反映各标志值之间差异程度的指标——标志变异指标分布偏度与峰度的测度(1)分布集中趋势的测度①众数(M0):总体单位中出现次数最多的标志值对于单项式变量数列,通过观察法将出现次数最多的标志值确定为众数对于组距式变量数列,首先确定次数最多的组为众数组,然后根据下面的近似公式来计算众数其中:M0表示众数;L表示众数组的下限;Δ1表示众数组与前一组的次数之差;Δ2表示众数组与后一组的次数之差;d表示众数组的组距中位数②中位数:将总体单位中各单位标志值按大小顺序排列,处于中间位置的那个标志值对于未分组数据,根据中位数的定义确定其取值对于未分组数据,根据变量数列类型的不同对于单项式变量数列,可以先计算出各组的累计频数,中间位置所在组的标志值即为中位数对于组距式变量数列,首先根据累计频数确定中为数组,然后根据下面的近似公式来计算中位数其中:N/2 表示中位数所在位置;L表示中位数所在组的下组限;Sm-1表示中位数所在组以下各组的累计频数;fm表示中位数所在组的频数;d表示中位数所在组的组距类似于中位数,总体单位可以划分为更多个数量相等的部分,如四分位数、十分位数和百分位数平均数(待续)③平均数/均值算术平均数对于未分组数据,对总体各单位的标志值求和并除以总体单位数其中:xi(i=1,2,…,n)表示第i个单位的标志值;n表示单位总数对于已分组的数据的平均数,需要考虑到各组的权值,计算其加权平均值xi(i=1,2,…,k)表示各组组中值,fi(i=1,2…,k)表示各组频数平均数(续)几何平均数:在某些实际问题中,总体各单位的变量值具有整体的衔接性,或联乘积具有实际意义,需要求解n个变量值乘积的n次方根来代表变量值的平均水平(2)分布离散程度的测度(待续)①极差与四分位差极差/全距(R):总体各单位标志值中最大值与最小值之差R=max(xi)-min(xi)四分位差(QD):总体单位的两个四分位数之差QD=Q3-Q1其中QD表示四分位差;Q3和Q1分别表示75%位置上和25%位置上的四分位数②平均差平均差(AD):总体各单位标志值同其算术平均数的离差的绝对值的算术平均数对于未分组数据对于已分组数据上两式中字母含义同平均数(后同)分布离散程度的测度(续)③方差与标准差方差(s):总体各单位标志值同算术平均数离差的平方的算术平均数,对方差开平方就得到标准差( )对于未分组数据对于已分组数据④变异系数变异系数/离散系数(V):总体离散程度的指标值相对于平均数的比值极差系数标准差系数(2)分布偏度与峰度的测度偏度:数据分布相对于正态分布的偏斜方向及程度,用偏度系数(SK)来测度数据分布的偏度SK=0时分布对称,SK>0时为右偏分布,SK<0时为左偏分布峰度:频数分布曲线顶端尖峭或扁平的程度,用峰度系数(K)来测度频数分布曲线的峰度K=0时为标准正态分布,K>0为尖峰分布,K<0时为平峰分布2.4 SPSS基础2.4.1 SPSS软件的基本操作环境2.4.2 SPSS数据文件2.4.3 SPSS数据的统计整理2.4.1 SPSS软件的基本操作环境(1) SPSS软件的启动开始 程序 SPSS Inc SPSS 16.0Data Editor window启动操作对话框○Run the tutorial 运行SPSS教程○Type in data 在数据编辑窗口直接输入数据○Run an existing query 使用已经定义的SQL数据源○Create new query using Database Capture Windows 使用数据库向导创立一个新的SQL数据○Open an existing data sourse 使用已有的内部数据○Open another type of file 使用已有的外部数据□Don’t show this dialog in the future 以后启动SPSS不再显示该对话框进入数据编辑窗口直接输入数据SPSS启动界面(2) SPSS软件的基本窗口数据编辑窗口/SPSS Data EditorSPSS以电子表格形式创建、编辑、浏览数据文件(*.sav)的主程序窗口结果输出窗口/SPSS Viewer在对数据编辑窗口中的数据执行完相应的操作时,系统会自动打开结果输出窗口,用来显示和管理SPSS统计分析结果、图表及各种警告和错误信息编程窗口/SPSS Syntax Editor用户可以在此窗口中编写、调试和运行SPSS程序数据编辑窗口标题栏菜单栏工具栏Variables变量名栏数据输入栏当前数据栏CasesElements系统状态显示区窗口切换标签数据编辑区数据视图变量视图视窗控制按钮目录区内容区标题栏菜单栏工具栏系统状态显示区分析结果显示区结果输出窗口视窗控制按钮标题栏菜单栏工具栏系统状态显示区编程窗口编程区视窗控制按钮(3) SPSS软件的退出在菜单栏中依次点选 File Exit回答系统提出的有关是否需要存储原始数据、计算结果和SPSS命令之后,即退到Windows的程序管理器中单击视窗控制按钮×双击标题栏图标右键单击标题栏图标 下拉菜单 关闭Alt+F42.4.2 SPSS数据文件在数据编辑窗口下编辑的文件可供SPSS进行统计分析,形成SPSS数据文件SPSS数据文件存盘的扩展名为*.savFile Save直接存盘形成*.sav文件File Save as可指定路径、文件名、格式(包括数据库文件、ASCII文件、Excel文件)File New打开数据编辑器建立一个新的数据文件File Open打开一个已经存在的数据文件File Print打印数据文件(1)SPSS数据文件的建立第一步:启动SPSS软件,在启动对话框中选择“Type in data” ,打开数据编辑窗口若数据编辑窗口中已有数据而又需要建立新的数据文件时,可以在菜单栏依次点选File New Data打开新的数据编辑窗口第二步:选择窗口左下角的Variable View标签或双击Data View视图中列的题头Var,打开变量视图,定义数据文件的每个变量及其相关属性,即数据结构单击变量视图标签双击变量名变量视图:定义数据文件的每个变量及其相关属性,即数据结构变量的属性包括十项-Name变量名-Type变量类型-Width变量宽度-Decimal小数位-Label变量标签-Values数值标签-Missing缺失值-Column显示宽度-Align对齐方式-Measure测度类型SPSS数据文件 —变量视图变量的属性(待续)Name(变量名):在SPSS数据编辑窗口中,变量名将显示在数据视图列标题的位置上变量名的定义规则一般有在同一数据文件中变量名必须具有唯一性变量名必须以字母或汉字开头,后面可以跟除“?”、“*”、“!”、“’”及空格之外的任何字符,不能以下划线、圆点结尾变量名的长度在1~64字符之间ALL、AND、OR等系统保留字不能作为变量名英文字母作为变量名时,系统不区分大小写Type(类型)、Width(变量宽度)、Decimals(小数位宽)SPSS中有八种基本数据类型,每种类型都有其默认的变量宽度和小数位宽变量的属性(续)数据类型 中文名称 说明Numeric 标准数值型变量 默认长度8,小数位2Comma 逗点数值型变量 默认长度8,小数位2,在显示时整数部分从右至左每三位用一个逗号作分隔符Dot 圆点数值型变量 默认长度8,小数位2,在显示时整数部分从右至左每三位用一个圆点作分隔符Scientific notation 科学计数法型数值变量 默认长度8,小数位2,变量值可以有指数部分,指数部分用E或D表示,且可带正负号Date 日期型变量 按指定的日期、时间格式显示日期或时间Dollar 美元符号型数值变量 用来表示货币数据,在数据前附加美元符号$Custom currency 自定义数值型变量 用户可以自定义变量类型,此项一般不用String 字符型变量 默认长度为8SPSS中的8种数据类型变量的属性(续)Label(变量名标签)对变量名的进一步解释说明,总长度可达256字符(128个汉字)Values(变量值标签)变量值取值含义的解释说明,标签内容可以有120个字符Missing(缺失值)系统缺失值:数据编辑窗口中任何空数据单元的系统默认值“.”用户缺失值:由特殊原因造成的数据缺失或数据不完全Columns(列显示宽度)数据编辑窗口的数据值或数据值标签显示输出时占用的列宽度Align(对齐方式):变量值在的数据单元中的对齐方式Measure(计量尺度)统计数据是对客观现象的计量,按精确程度可分为:Scale(定距型数据)、Ordinal(定序型数据)和Nominal(定类型数据)SPSS数据文件 —数据视图每行一组观测值每列一个变量第三步:选择Data View标签,将数据编辑窗口切换到数据视图,将数据录入到电子表格中(2)SPSS数据文件的编辑(待续)数据的定位:将当前数据单元定位到目标单元按观察个案号码定位:Edit Go to Case,在出现的窗口中输入欲定位的观察个案号码,单击Go按钮按变量名定位 :Edit Go to Variable,在出现的窗口中选择欲定位的变量名,单击Go按钮按变量值定位:Edit Find,在出现的窗口中输入定位变量值并确认,则当前数据单元定位到其原位置下方满足指定条件的第一个个案插入和删除一个个案插入一个个案:将当前数据单元定位到某个案,选择Edit Insert Cases,在该个案的前面插入一空行删除一个个案:在欲删除个案的个案号码上单击鼠标右键,从弹出的快捷菜单中选择Clear选项SPSS数据文件的编辑(续)插入和删除一个变量插入一个变量:将当前数据单元定位到某变量,选择Edit Insert Variable,在该变量的前面插入一空列删除一个变量:在欲删除变量的变量名上单击鼠标右键,从弹出的快捷菜单中选择Clear选项数据的复制、移动和删除选定数据块:将鼠标移动到源数据块左上角的数据单元上,单击鼠标左键并拖动鼠标至源数据块右下角的数据单元数据块的复制、剪切和删除:右键单击选定的数据块,在弹出的快捷菜单中:若要复制源数据到指定位置,则选择Copy复制数据;若要移动源数据到指定位置,则选择Cut剪切数据;若要删除源数据,则选择Clear清除该数据块中的数据数据块的粘贴:复制或剪切数据后,在目标位置左上角的数据单元上单击鼠标右键,并在弹出的快捷菜单中选择Paste粘贴数据块,源数据块中的数据被整块地复制或移动到指定位置2.4.3 SPSS数据的统计整理SPSS数据的预处理数据的选取:根据分析的需要,从数据总体中按照一定的规则选取部分数据进行分析计算,操作指令为Data Select cases数据的排序:将数据编辑窗口中的数据按照一个或多个变量重新排列顺序,操作指令为Data Sort Cases数据的分类汇总:将数据编辑窗口中的数据按照指定变量的数值进行分类汇总计算,操作指令为Data Aggregate按条件选取数据:单击If…按钮,设置选择条件选取所有数据按数据范围选取:单击Range…按钮,设置选取数据的开始结束位置数据的选取随机选取数据:单击Sample…按钮,设置随机抽样占总体的百分比通过过滤变量选取:选择左侧列表中将作为过滤变量的变量名移入该选项下面的文本框,值为零或者缺失数据的观察个案将被过滤源变量列表数据的排序源变量列表排序变量升序排列降序排列源变量列表汇总变量分类变量指定对汇总变量计算哪些统计量,SPSS默认计算均值设定汇总统计变量的变量名创建一个新数据集,其中包括分类变量和汇总变量,在Dataset name栏命名这个数据集把分类汇总的结果增加到原数据文件创建新的数据文件保存汇总结果数据的分类汇总(2)SPSS数据的整理通过如下实例说明如何在SPSS软件中的进行统计数据的整理东方食品厂为加强质量管理,在某天生产的一批罐头中抽查了100个罐头,测得内装食品的净重数据如下(单位:g):342 341 348 346 343 342 346 341 344 348346 346 341 344 342 344 345 340 344 344343 344 342 342 343 345 339 350 337 345349 336 348 344 345 332 342 341 350 343347 340 344 353 341 340 353 346 345 346341 339 342 352 342 350 348 344 350 335340 338 345 345 349 336 342 338 343 343341 347 341 347 344 339 347 358 343 347346 344 345 350 341 338 343 339 343 346342 339 343 350 341 346 341 345 344 342数据的录入和排序将数据录入到SPSS数据编辑窗口中,建立数据文件weight.sav,并对weight.sav中的数据按照“净重”属性进行排序数据的重编码(待续)利用数据重编码,对统计数据进行统计分组第一步:选择Transform Recode into Different Variables命令,打开其对话框第二步:从变量列表中选择“净重”,将其移入右侧栏内,在Output Variable栏下的Name框输入新变量名“净重分组”,在Name框下的Label栏内对其进行详细说明(也可不作说明) ,单击Change按钮,结果如右图数据的重编码(续)第三步:单击Old and New Values按钮,打开如下对话框,定义新旧变量值的转换内容①选择该项并在文本框中填入334.5,在New Value栏选择Value并输入1,单击Add,定义第1组②选择该项,并在上面的文本框中输入334.5、下边的文本框中输入337.5 ,在New Value栏选择Value并输入2,单击Add,定义第2组,且以后每隔3定义一组,直至定义完第8组③选择该项并在文本框中填入355.5,在New Value栏选择Value并输入9,单击Add,定义最后一组,单击Continue第四步:在对话框Recode into Different Variables对话框中,单击OK,完成重编码数据的重编码(续)重编码数据的频数分析对重编码后的新变量“净重分组”作频数分析第一步:选择Analyze DescriptiveStatistics Frequencies命令,打开Frequencies对话框第二步:在Frequencies对话框中,将新变量“净重分组”变量移入Variable(s)框内,单击右侧的Charts按钮,打开Frequencies:Charts对话框第三步:在Frequencies:Charts对话框中,共有4个单选按钮:None(不作图)、Bar Charts(条形图)、Pie Charts(饼图)、Histograms(直方图),选择Histograms,单击Continue按钮,回到主对话框第四步:在Frequencies对话框中单击OK按钮,得到输出结果频数分析输出结果1Statistics净重分组N Valid 100Missing 0净重分组Frequency Percent ValidPercent CumulativePercentValid 1 1 1.0 1.0 1.02 4 4.0 4.0 5.03 12 12.0 12.0 17.04 32 32.0 32.0 49.05 30 30.0 30.0 79.06 11 11.0 11.0 90.07 7 7.0 7.0 97.08 2 2.0 2.0 99.09 1 1.0 1.0 100.0Total 100 100.0 100.0频数分析输出结果2数据的分布特征第一步:选择Analysis Descriptive Statictics Frequencies命令,打开Frequencies对话框第二步:在Frequencies对话框中,将“净重”变量移入Variable(s)框,单击右侧Statistics按钮,打开Statistics对话框四分位数n分位数,n值在后面的文本框中定义众数中位数均值自由规定输出标志值的百分位点总和最小值极差方差标准差最大值标准误标准误标准误第三步:在Statistics对话框中依次勾选Quartiles、Mean、Median、Mode、Std.deviation、Variance、Range、Minimum、Maximum、Skewness、Kurtosis选项,单击Continue按钮,回到主对话框第四步:在Frequencies对话框中,单击OK按钮,得到输出结果Statistics净重N Valid 100Missing 0Mean 343.76Median 344.00Mode 344Std. Deviation 4.130Variance 17.053Skewness .322Std. Error of Skewness .241Kurtosis 1.143Std. Error of Kurtosis .478Range 26Minimum 332Maximum 358Percentiles 25 341.0050 344.0075 346.00数据的分布特征(续) 展开更多...... 收起↑ 资源预览