资源简介 (共28张PPT)1统计学Statistics2第 2 章 数据的收集2.1 数据收集的主要方法2.2 几种基本的抽样方法2.3 数据收集的误差2.4 小结3第 2 章 数据的收集2.1 数据收集的主要方法4数据收集的主要方法根据研究的目的和要求,采用科学的方法,有组织、有计划地收集数据信息资料的过程,称之为统计调查(statistical survey)。实践中,数据来源通常有两个主要渠道:一是直接进行调查或实验,获得“一手数据”;二是通过他人调查或实验的结果整理得到“二手数据”。5数据收集的主要方法在社会经济领域,专门调查是直接获取数据的重要手段,包括了一国政府组织的各种普查、抽样调查、统计报表制度等,也包括了企业、机构、部门甚至个人为了特定目的而进行的各种市场调查、产品测试、民意调研等。调查数据一般是客观上已经存在的,但需要通过观察或询问的方式才能收集汇总得到。显然,调查数据大多与时间有关,是特定时期或时点上的变量结果,因此,这类数据也会随着时间的变化而改变,理论上无法重复观察。6数据收集的主要方法此外,调查的对象通常以人为主体,即使调查对象是其他的客观事物(如一块土地),调查的结果(如产量)也往往与人的活动有关。这就使得要收集高质量的调查数据,必须将人为因素的干扰尽可能控制在最低限度,而这也恰恰是收集调查数据的难点所在。科学实验则是收集自然科学数据的常用手段。与调查数据不同,实验数据是在控制一个或多个因素的前提下,观察感兴趣的变量结果,实验的次数也可以是无限的,并且可以通过改变控制因素,观察变量结果的变化情况。7数据收集的主要方法相较于专门调查,通过科学实验收集数据在一定程度上能更为有效地控制数据质量,但也更加专业,受到的技术甚至法律、道德等因素的制约更多,从而应用的领域不及专门调查广泛。值得一提的是,随着计算机技术和电子商务的快速发展,很多数据被自动收集保存到特定的数据库当中,成为当今“大数据”的主要来源。如果能够根据研究目的,“量身定制”调查或实验方案,直接收集“一手数据”,当然是最好的。但对于大多数使用者来说,受各方面因素的限制,设计、实施一项调查或实验往往是不太现实的,能够获得的数据量也较为有限。因此,人们更多的是通过收集整理他人调查或实验的结果来间接获取“二手数据”。8数据收集的主要方法政府、企业、机构等公开出版或发布的数据,各类媒体公开报道的数据,都是十分重要的间接数据来源。对于使用者来说,“二手数据”的收集显然更加快捷、经济而便利,并且能够突破直接数据收集在时间上的约束,观察变量在较长一段时期内的变化趋势。但是,需要注意的是,由于“二手数据”是他人调查或实验的结果,并非根据使用者自身的研究目的设计、实施的,很难完全吻合使用者的研究需要,因此,对于数据的筛选、检查、核实等预处理工作就显得尤为重要,避免误用或滥用。9第 2 章 数据的收集2.2 几种基本的抽样方法10几种基本的抽样方法如果在抽样的过程中,总体中的每个个体都有一个已知的机会(概率)被选中,那么依据这样的抽样方案得到的样本就是一个随机样本(random sample)。按照一定的概率,依据随机原则从总体中抽取部分单元的抽样方法就称为随机抽样(random sampling)或概率抽样(probability sampling)。随机抽样最主要的优点是,由于每个总体单元都是随机抽取的,而且能够计算出每个单元被抽中的概率,因此能够计算出数据收集过程中的抽样误差,从而得到样本估计结果的可靠程度。11几种基本的抽样方法假设总体一共有N个单元,从中随机地抽取n个单元组成最后的样本,并且总体中每个单元被抽中的概率是相等的,这就是简单随机抽样(simple random sampling)。采用简单随机抽样时,如果每抽取一个单元记录下数据后,再把这个单元放回到原来的总体中参与下一次的抽选,称为有放回抽样或重复抽样(sampling with replacement)。如果被抽中的单元不再放回到总体中,每次抽样都仅从剩余的单元中随机抽取,就称为无放回抽样或不重复抽样(sampling without replacement)。12几种基本的抽样方法简单随机抽样是一种最基本的概率抽样方法,也是其他抽样方法的基础。这种方法简单直观,尤其在计算机技术发达的今天,可以方便地利用计算机从总体中抽取简单随机样本。但是,简单随机抽样在实际应用时也存在一些局限性。首先,要获得包含总体所有单元的名单可能是不现实的;其次,如果总体单元某方面的特征(如性别)有可能对研究变量(如身高)产生影响,抽样时就需要借助这些辅助信息合理安排样本构成比例,提高估计的效率。因此,根据研究问题和研究对象的不同,人们往往会将简单随机抽样与其他抽样方法结合起来使用。13几种基本的抽样方法分层抽样(stratified sampling)是在抽样之前先将总体单元按照某种特征或某种规则划分成不同的层,然后从不同的层中独立、随机地抽取一定数量的单元组成样本。分层抽样可以借助总体单元的某些辅助信息,确保不同特征的总体单元都能以一定的数量被包含到样本中,避免了一次简单随机抽样可能抽中的具有相同特征的总体单元过于集中的偏差,使样本结构在一定程度上更加接近总体结构,提高估计的精度。此外,由于分层抽样不仅可以收集样本数据估计总体的目标变量,还可以提供不同层的估计结果,因此便于比较不同特征的总体单元之间的差异。14几种基本的抽样方法整群抽样(cluster sampling)是在抽样之前先按照某种规则将总体单元划分为不同的群,然后随机抽取部分群,被抽中的群中所有的单元都入选到样本中,没有被抽中的群则不做调查。整群抽样与分层抽样看似相近的地方是,在抽样之前都会按照某种规则将总体单元进行分类,但其实质作用则不尽相同。15几种基本的抽样方法分层抽样中对总体单元的分层,目的是为了保障每个层内都有一定数量的单元被抽中,其假设前提是不同层的总体单元之间存在较大的差异,而同一层内的单元较为相似。而整群抽样主要是通过群的划分,大大简化编制总体所有单元名单的工作量(有的时候可能是无法获得的),并且群的划分规则往往是以地理位置邻近或隶属于同一系统为标准,从而组织实施调查会相对便利,节省了调查费用。因此,理论上来说,只有当不同群的总体单元之间较为相似,抽取若干群就足以代表所有群的总体特征,而被抽中的群内不同单元之间又存在显著差异时,整群抽样的效果才会比较理想。16几种基本的抽样方法系统抽样(systematic sampling)是将总体中的所有单元按照一定的顺序排列,在规定的范围内随机抽取一个单元作为起点,然后按照事先确定的规则依次抽取其他的单元,直至达到样本量的要求。系统抽样操作简便,如果有辅助信息,可以事先对总体单元进行合理的排列,有效地提高抽样的精确度。但是,如果总体单元排列的顺序(如按日期排列)可能导致研究变量(如销售额)存在某种内在的变化规律(如淡季旺季的周期性),由于抽样起点和抽样间隔确定的随机性,也可能导致抽取的样本数据具有某些趋同的特征(如抽取的都是淡季或旺季数据),增加抽样误差。17几种基本的抽样方法【例2-1】表2-1是60家金融类上市公司股票代码和股票名称,抽取10家公司组成一个随机样本。序号 股票代码 股票名称 序号 股票代码 股票名称 序号 股票代码 股票名称1 000001 平安银行 21 601128 常熟银行 41 601555 东吴证券2 600000 浦发银行 22 600926 杭州银行 42 002736 国信证券3 600016 民生银行 23 601229 上海银行 43 000686 东北证券4 600036 招商银行 24 603323 吴江银行 44 600909 华安证券5 600015 华夏银行 25 002839 张家港行 45 000776 广发证券6 601988 中国银行 26 601838 成都银行 46 000728 国元证券7 601398 工商银行 27 601628 中国人寿 47 600061 国投资本8 601166 兴业银行 28 601318 中国平安 48 600155 宝硕股份9 601998 中信银行 29 601601 中国太保 49 601901 方正证券10 601328 交通银行 30 601336 新华保险 50 600864 哈投股份11 002142 宁波银行 31 601198 东兴证券 51 601788 光大证券12 601009 南京银行 32 601375 中原证券 52 601377 兴业证券13 601169 北京银行 33 002797 第一创业 53 601211 国泰君安14 601939 建设银行 34 002670 国盛金控 54 600705 中航资本15 601288 农业银行 35 002500 山西证券 55 000783 长江证券16 601818 光大银行 36 601688 华泰证券 56 600369 西南证券17 600919 江苏银行 37 601881 中国银河 57 000750 国海证券18 601997 贵阳银行 38 002673 西部证券 58 600837 海通证券19 002807 江阴银行 39 600109 国金证券 59 600999 招商证券20 600908 无锡银行 40 600958 东方证券 60 600030 中信证券表2-1 60家金融类上市公司股票代码和股票名称18几种基本的抽样方法解:首先将表2-1中的60家公司的序号、股票代码和股票名称分别录入到Excel工作表中的三列单元格中(A2:A61;B2:B61;C2:C61),然后按照如下步骤进行随机抽样。第1步:在Excel工作表界面中点击【数据】→【数据分析】。第2步:在弹出的对话框中选择【抽样】,单击【确定】按钮,如图2-1所示。第3步:在弹出的对话框【输入区域】中输入60家上市公司的序号(非数值型数据不能直接参与抽样);【抽样方法】中选择【随机】,并在【样本数】后面输入需要抽取的样本量;在【输出选项】中选择抽样结果显示的方式(【输出区域】可在当前工作表中指定区域显示,也可以选择其他两个选项将结果保存为新工作表组或新工作簿);最后单击【确定】按钮。19第 2 章 数据的收集2.3 数据收集的误差20数据收集的误差在数据收集的过程中,即使条件允许能够对总体中每个单元进行统计调查(例如我国定期开展的人口普查,或者对本校选修统计学课程的所有同学进行问卷调查),记录下来的数据结果与真实的情况也不一定会百分之百地吻合,这就是数据收集的误差。导致数据收集误差产生的因素有很多,尤其是抽样调查过程中,抽样误差、未响应误差和响应误差是我们必须知道并尽力控制在研究可接受限度内的三个重要方面。21数据收集的误差统计调查的随机性决定了,不同的样本会产生不同的数据,从而很难期望某一个特定的样本估计结果能够恰好与总体的真实情况完全一致,这就是抽样误差(sampling error)。只要采用抽样调查,抽样误差就不可避免,它并不是一个“错误”的误差。抽样误差的大小依赖于抽样的方式和样本量的大小。22数据收集的误差在其他条件相同的情况下,样本量越大,抽样误差越小。抽样误差与样本量的平方根大致呈反比关系,如图所示。23数据收集的误差实践中,即使按照合理的方法设计统计调查方案,将抽样误差事先控制在可接受的范围内,但出于各种原因,仍然可能无法获得每一个被选入到样本中的总体单元的数据,而这部分数据的缺失所造成的样本估计结果与总体真实情况之间的偏差就是未响应误差(nonresponse error)。经验表明,如果在最初选中的抽样对象中,未响应者占到的比例并不高,例如只有20%甚至更低,那么大多数情况下,只要抽样方案合理,最终的样本量足够大,可以在一定程度上假定未响应者和响应者并无太大差别,响应者的回答足以代表其他未响应者。但是,如果响应率很低,例如不超过50%,那么此时的未响应误差可能会较为显著,影响到样本的代表性,需要谨慎使用。24数据收集的误差造成受访者未响应的原因有很多,包括由于对调查不感兴趣或对调查人员不够信任等主观原因造成的拒访,也包括由于时间冲突、身体状况不佳等客观原因造成的无法接受调查等。一方面可以通过一些预防性的措施有针对性地提高响应率。另一方面,分析未响应者的基本特征,尽可能降低随机因素之外的其他因素可能带来的响应者与未响应者之间的差别,将未响应误差控制在可接受的范围内。最后,必要时还应对存在未响应的数据进行调整,达到纠偏、校正的补救效果。25数据收集的误差如果受访者的回答与真实情况并不吻合,就会直接导致样本数据估计结果与总体真实情况之间的偏差,这就是响应误差(response error)。引起响应误差的因素同样十分广泛。第一个方面是调查问卷设计不周可能带来的误差。另一个方面是受访者自身因素可能带来的误差。此外,调查人员也是可能引起响应误差的重要因素之一。26第 2 章 数据的收集2.4 小结27小结实践中,人们可以通过直接进行调查或实验收集“一手数据”,也可以利用他人调查或实验的结果整理得到“二手数据”。多数情况下,数据都是从总体当中抽取得到的样本数据。如果能够使得总体中的每个个体都有一个已知的机会(概率)被选中,那么依据这样的抽样方法得到的样本就是一个随机样本。基于随机样本数据得到的统计分析结果是能够被推广应用于其所属总体的、有较好代表性的统计结果。28小结简单随机抽样、分层抽样、整群抽样和系统抽样是获得随机样本的几种常见的概率抽样方法,有各自的优缺点和适用情形。收集数据时,抽样的随机性决定了抽样误差是不可避免的,但由于部分受访者没有回答问题所可能产生的未响应误差以及接受调查的受访者没有提供真实答案所可能造成的响应误差则是应该尽力控制和消除的。 展开更多...... 收起↑ 资源预览