资源简介 (共39张PPT)统计学:思想、方法与应用欢迎交流新浪微博http:///qingyuanliu第1章什么是统计学?如何运用统计学?统计学的基本概念数据的收集数据阵/数据文件统计学和数学、统计软件的关系学习目标用一句话说明统计学;理解我们为什么要学习统计学;懂得如何运用统计学;知道统计学的基本概念;什么是描述统计学和推断统计学;了解数据如何收集以及数据收集中存在的问题;知道常用的统计软件。数据显示,2010年中国名义GDP为58786亿美元,GDP增速为10%左右。而2010年日本名义GDP为54742亿美元,GDP增速为3.9%。中国GDP比日本多4044亿美元,这意味着中国超越日本成为世界第二大经济体。尽管中国总量GDP超过日本,但中国人均GDP却只有日本1/10,在世界排名第100位左右,不到世界平均水平的一半。这样的结果对我们意味着什么呢?毫无疑问,我们需要知道一些统计知识。1960到2009全球主要国家人均GDP的增长图表(来源:Google网站)作为一名潜在的汽车购买者和一名有责任心的市民,你乐意为保护地球生态环境应有的贡献。根据最新的研究结果,消费者的行为对自然资源到底有怎样的影响呢?你应该买使用柴油发动机的汽车,还是购买电动车,或者干脆骑自行车呢?报纸、杂志或网络中的统计结果对于你的决定非常关键,这些结果建议你该有怎样的消费观。低碳社会要求汽车厂商根据他们的总产量生产一定比例的电动车,以减少机动车造成的空气污染,这已开始成为整个国家的趋势。对于立法者来说,统计信息在使他们相信并检测使用电动车在改进空气质量上的有效性方面起着关键性的作用。 在金融危机发生后,各国政府对于国家经济的现状和对未来经济走势的预测十分关注,每个月都要编制CPI等各类指数以评价通货膨胀情况。有关商品销售额、新开工的住宅、货币流通以及工业生产的信息仅仅是构成预测基础的成百上千类信息的一小部分。我们该如何解读这些数据呢?知道一些统计知识有助于我们知道这些数据是如何与我们的生活息息相关的。假设你是市场部的新任经理,一次广告活动的统计结果摆到了你面前,声称某个结果是“统计显著”的。你如何解释这份报告而又不暴露你对该术语的无知呢?赶快学点统计,这对你和你的事业都非常有用。1.1什么是统计学在三百多年前,统计的英文单词Statistics首次被人们应用。统计学是研究收集数据,整理数据,分析数据以及由数据分析得出结论的方法,简称为“数据的科学”。2010年6月3日,第64届联合国大会第90次会议通过决议确定每年10月20日为“世界统计日”。2011年初,国务院学位委员会在新的研究生专业目录中将统计学上升为一级学科,为统计学科和统计教育的发展提供了更广阔的平台,也显示出统计对科学研究、经济增长和社会发展的重要性。人物小传:瓦尔德有人把统计学定义为数据处理的一门艺术,瓦尔德(A. Wald,1902—1950年)的事例就是明证。瓦尔德是二战时期的统计学家,他发明的一些统计方法在战时被视为军事机密。瓦尔德被咨询飞机上什么部位应该加强钢板时,他开始研究从战役中返航的军机上受敌军创伤的弹孔位置。他画了飞机的轮廓,并且标示出弹孔的位置。资料累积一段时间后,几乎把机身各部位都填满了。于是瓦尔德提议,把剩下少数几个没有弹孔的部位补强……因为这些部位被击中的飞机都没有返航。这是一个简单但近乎完美的实例,简单的统计方法一旦融入了统计学家的智慧,便显得生动而唯美! 1.2如何运用统计学统计在许多学科中得到广泛的应用。比如说,学术研究杂志就依赖于统计结果。在许多学科中,一篇文章是否能够发表在主要杂志上,在很大程度上取决于该文章是否能正确地使用统计方法。除了学术领域,统计在其他领域也被人们广泛使用。统计在工业中得到大量使用,尤其用于研究新产品、质量控制和市场开发中;市场调查也需要统计。读者文摘的总统选举调查这个故事有关一次著名的失败的统计调查。在1936年美国总统选举前,一份名为读者文摘(Literαry Digest)的杂志曾进行了一次民意调查。调查的焦点是谁将成为下一届总统——是挑战者,堪萨斯州州长阿尔夫·兰登(Alf Landon),还是现任总统富兰克林·德拉诺·罗斯福(Franklin Delano Roosevelt)。为了了解选民意向,民意调查专家们根据电话簿和车辆登记簿上的名单给一大批人发了简单的调查表(电话和汽车在1936-年并不像现在这样普遍,但是这些名单比较容易得到)。尽管发出的调查表大约有一千万张,但收回的比例并不高。在收回的调查表中,兰登非常受欢迎。于是,该杂志预测兰登将赢得选举。你可能对声称兰登将赢得选举的预测结果有疑问。正如你所怀疑的,在经济大萧条时期调查拥有电话和汽车的人们,并不能够很好地反映全体选民的观点。此外,只有少数的调查表被收回,这一点也是值得怀疑的。事实表明,最终是罗斯福而不是兰登赢得了这次选举。由此可见,那次的调查结果有多么错误了。当前大多数应用统计不会像这个例子错得那样厉害,但即便在今天,我们也很容易发现统计被误用的情况,尤其在需要考虑选择正确的样本时。1.3 统计学的基本概念1.3.1随机性和规律性当我们不能预测一件事情的结果时,这件事就和随机性联系起来了。例如,掷硬币,参加统计考试是否会达到预期的分数。当把大量随机事件放在一起时,就表现出令人惊奇的规律性。比如,考察掷硬币这样的随机事件,如果你将同样的硬币掷100次,经验告诉我们差不多50次正面朝上,50次反面朝上。类似地,尽管每个人死于二手烟的可能性很小,但是全球每年有60万人死于二手烟,这个恐怖的数字却令人难以置信地稳定。通过对看起来随机的现象进行统计分析,统计知识能够帮助我们把随机性归纳于可能的规律性中。统计从我们如何观察事物和事物本身如何真正发生这两个方面帮助我们理解随机性和规律性的重要性。因此,统计可以看做是一项对随机性中的规律性的研究。1.3.1随机性和规律性规律也表现出某种随机性。如果你再掷100次硬币,正面朝上的次数几乎不会和前100次完全一样。在第一个100次中,也许有52次硬币的正面朝上,然而在第二个100次中,也许就有49次正面朝上。这种偏差不仅仅发生于掷硬币时,而且发生于调查、实验和其它任何一种方式的数据收集中。比如在某次调查中,如果对两个不同群的人做同样的调查,则有不同的比例的人支持这一观点。这两个比例之间的差异主要是由于数据本身的随机性引起的。在这种意义下来说,统计就成了对数据中的偏差问题的研究。根据作为统计基础的数学理论,我们可以确定一项调查中的某一比例有多大的随机性,以及在下一次的重复调查中,这个比例可能有多大的偏差。我们还可以指出,两个比例之间的差异是否大到了随机性本身所不能解释的地步。我们将在以后章节中详细讨论这些思想。1.3.2概率因为涉及到随机性,统计学还需要一个很重要的概念——概率(probability) 。概率是一个0到1之间的数,它告诉我们某一事件发生的机会有多大。概率为统计学的第三个方面——如何从数据中得出结论——奠定了基石。我们可能永远不能确定两个数字的差异是否超出了随机性本身所预期的范围,但是我们可以确定,这种差异发生的概率是大还是小。根据这个基本思想,在很多情况下,我们可以得出关于我们所处的这个世界的重要结论。我们将在第四章及其后章节中详细阐述。1.3.3变量变量(variable) 是指一个可以取两个或更多个可能值的特征、特质或属性。比如,性别是取两个值的变量,因为一个人只可能是男性或女性。还有其它变量的例子,如人的寿命,体重,以及汽车每升汽油所能行驶的距离,等等。图1.1 变量及其取值1.3.3变量变量的值(value)通常是对某一特定个体的度量,特定个体可能是指一个人,一个家庭,一个地区,或一个国家。表1.1列出了一些变量、变量的取值及其所测量的个体的例子。从表中可知,性别变量是以人为个体的观测,孩子的数目是以家庭为个体的观测。表1.1 变量,值和个体 变量 变量的值 个体性别 男,女 人学历 小学,中学,本科,硕士,博士 人失业 有工作,无工作 人孩子数 0, 1, 2, 3,… 家庭贫困程度 严重,一般,边缘,没有 地区1.3.3变量上面介绍的是经验变量(empirical variables) ,级处理的对像是我们周围可观测到的物质世界中的事物。用数学方法推导的变量称为理论变量(theoretical variables)——z,t, 和F变量。与变量相对的概念是常数(constant)。在统计中经常使用的一种被称做参数(parameter)的常数。1.4 数据的收集1.4.1 定义变量数据收集的第一个准则是要清楚测量的是什么。换句话说,变量必须有一个明确的适合研究目的的定义。这有时是说起来容易做起来难。如果我们对问题考虑得不全面,那么就没理由指望回答问题的人(一般称为响应者)能按照我们期望的回答问题。在我们做研究之前,对变量必须要有一个清晰、详尽的定义。1.4 数据的收集1.4.1 定义变量假定我们在一次食品企业的市场调查中包含了这样的问题"在您的家庭中有多少个孩子 "我们也许认为自己知道想要了解的是什么,但是,没有理由期待响应者和我们有同样的想法。1.4 数据的收集1.4.1 定义变量我们也许不加考虑地认为,"孩子"应定义为一个不满18岁并和他(她)的亲生父母一起生活的人。但如果一个家庭中包含大于18岁的亲生子女、前妻或前夫的孩子、养子或养女、过继子女或者其他年轻的亲戚,那该怎么办呢 对于不和亲生父母生活在一起的孩子怎么算呢 对于父母离了婚而共同抚养的孩子怎么算呢 这有很多种发生混淆的可能。因此,我们在调查之前首先需要明确"孩子"的定义。1.4.2 观测数据数据收集有两种主要方法,其中一种是当我们观测现实世界时收集到的数据,如在不同城市中的流动人口数量。观测数据(observational data)是指仅通过对世界的观察(而没有操纵或控制它)所得到的数据。收集观测数据的研究者们尽量不干涉研究对象的行为模式。例如,证券分析人员可能会记录某即将被收购的公司在被收购的前一天的股市收盘价格,并与其宣布被收购的当天的收盘价比较。总体和样本收集数据是为了从收集的个体中得出结论。所有我们感兴趣的个体就组成了总体 (population) 。比如,你读本教材这一时刻,我国所有居民就构成了一个总体。有时我们能够收集到总体中所有个体的数据。在这种情况下,我们就是对总体做了普查(census)。 我国进行的第六次全国人口普查就是希望确定我国所有居民数。然而,在苛刻的现实生活中,由于资金、时间有限以及不断变化的环境条件,普查通常是很困的。此时,我们需要把收集数据限制在总体的一个样本(sample)上,样本是总体的中的一个被选中的部分。样本的选择统计研究者所面临的一个关键问题是如何选择样本。我们希望基于样本得出的结论能够适用于该样本所属的总体,这依赖于获得一个"好"的样本,否则这是不可能实现的。以烹调为例子来帮助你理解为什么一个好的样本如此重要。当我们品尝一勺我们做的汤时,我们关心的不是这勺汤怎样,而是整个锅里的汤味道如何。如果锅里的汤被充分搅拌了,我们只需品尝一勺即可知道整锅汤的味道。我们品尝的这一勺汤无论是来自家庭厨房中的一个小锅,还是来自一个更大的锅,我们都可以窥一斑而知全豹。这正如我们从总体中选择一个样本,从某种意义上来说,需要选择一个来自"搅拌均匀"的总体的样本。如果总体能被搅拌均匀,那么一个包含1000个个体的样本,不管它是以整个国家为总体,还是以一个城市为总体,都可以告诉我们同样多的内容。样本的选择我们可以把这个例子应用于样本调查。某产品上市之前的市场调查表明,有70%的人喜该产品。如果样本选择正确,这个比例将和整个市场中的消费者中的比例大致相同。类似地,在对大学毕业生就业状况的研究中,检查毕业生的某个样本的目的,不是要看这些抽查到的毕业生是否能顺利就业,而是要要看所有大学毕业生组成的总体能否顺利就业。选择的这个样本应该能够很好地反映总体,因此也就能够很好地反映大学毕业生就业状况。如果不能正确地选择样本,那么对于"整锅汤"的判断可能导致错误的结论。如果市场调查专家们只对他们的家人和朋友提问,那么将可能产生坏样本。如果只对已经就业的毕业生进行调查,而忽略校漂族,那么此样本将产生错误的结论。由于样本选择对于结果的可信度有重要作用,所以根据正确的统计原理选择样本是非常必要的。随机样本随机样本(random sample)指一个合适的、能够被推广应用于更大的总体的统计样本。从一个纸箱子中抽签对学生点名回答问题,是选择随机样本的最简单的例子。叠好的写有学生名字的纸签是组成整个总体的个体,每一个个体都有相等的被选中的机会。从这种意义上说完全可能实现总体中所有的群体在某样本中的代表的数量比例大致等于这些群体在总体中的比例。比如,如果一个工科院系的班级有25个男生和5个女生,那么在该班级的一个随机样本中,每5个男生应该对应着大约1个女生。当一个总体中的名字或代码被放进一个纸箱子里,搅拌均匀,并随机抽取,其结果就是一个简单随机样本(simple random sample) 。本书中每一章末尾的所有公式都基于简单随机样本的使用。方便样本:如何产生一个"坏的"样本研究者们经常习惯于研究手头方便的总体中的个体。例如,医学研究者经常对他们自己的病人做研究;市场调查者研究被他们说服进行合作的消费者。能够很容易、很经济地得到的样本称为方便样本(convenience sample) 。从方便样本中得出的结果有时候很难推广到整个总体。有时候大型商场会要求他们的顾客回答某些问题并收回问卷,由此得到一些样本。根据随机取样的原则,我们可以对此提出疑问:不在该商场买东西的人显然不包含在样本中,而回答问卷的人构成了方便样本,从他们那儿得到的数据是不能够作为该样本以外的其他人的推广的;即使对于该商场的顾客总体本身而言,它们也不一定是典型的。这些数据只是很好地描述了那些花了时间和精力回答问卷的顾客,仅此而已。抽样的其它形式抽取比简单随机样本更复杂的样本也是可能的。其中一种抽样方法是随机选取若干小的地区,然后随机选取居住在这个地区的一些人进行直接调查。这是得到样本的一种有效途径。通过调查每一地区居住相临的一些人,研究者们就避免了走好远的路从一个居住区到另一个居住区。任何一种抽样程序的一个普遍的困难是,很少能完全包含属于某一特定总体的所有样本。1.4.3 收集观测数据时的错误和误差研究抽样技术使我们意识到,很多因素可使样本中的数据产生错误并导致错误结论。若仅凭某一样本中有55%的人认为他们的生活很幸福,我们还不能够得出结论说全国人口中的55%的人生活很幸福。从刚开始决定调查到最后报告结果,任何一件事情都有可能出错。大部分调查也的确犯了这样或那样的错误。抽样误差:并非错误的"误差"调查中的有些误差纯粹是统计上的,主要的统计误差即所谓的抽样误差(sampling error)。这并不是某件事出错造成的误差,而是指这样的一个事实:如果研究被再做一遍,结果未必会和上次一模一样。例如,前面提到过的在第二个100次掷硬币中,也许就有49次正面朝上,即正面朝上的比例为49%,不同于第一个100次掷硬币中正面朝上的比例52%。又例如,在下一次的抽样中,也许并不是60%的人赞同政府开征的房地产税,而是57%或63%或其它相近比例的人赞同房地产税。但是,即便不同的样本会产生不同的答案,大部分答案仍都位于总体中的真正比例的某一变化范围内。例如,通过每次大约1000个响应者的多次抽样,大部分样本(95%)得出的比例和实际的比例至多相差3个百分点。也就是说,抽样误差等于加或减三个百分点(± 3%)。这种结果仅仅是每一个统计研究所固有的随机性的反映。别忘了这些比例是来自不同的样本,我们没有理由相信一个样本的结果会和另一个样本的结果一模一样。并且,没有理由相信某一特定样本的结果恰好等于从整个总体可能得到的结果。抽样误差:并非错误的"误差"图1.2表明当实际的总体比例为50%时,计算机产生的数据的情况。其中,100个不同样本中的95个样本比例位于47%和53%之间。在这种情况下,我们说有±3%的抽样误差——53%比50%多( +)3个百分点,47%比50%少( -)3个百分点。 图1.2 实际的总体比例和抽样误差为±3%的例子这一例子是基于实际的总体比例为50%的基础之上的。而现实中,我们几乎从来不知道这个数字。实际上,我们之所以做调查,就是要估计总体比例。然而,我们通过样本依然可以计算出抽样误差有多大。在第5章和第6章的参数估计和假设检验中会给出一些计算抽样误差的公式。抽样误差的大小依赖于得到样本的方式和样本中包含的观测的个数。样本越大,误差越小。如果样本等于整个总体,则样本比例就等于总体比例。在总体变化以前,对整个总体做重复研究,就会得到相同的结果。在这种情况下,抽样误差是0。抽样误差:并非错误的"误差"在公布任何一次抽样调查的结果时都应说明抽样误差的大小,不管是比例、均值还是其它形式。抽样误差告诉我们,样本离总体的实际值可能有多远。我们将在第5章和第6章的参数估计和假设检验中再次提到抽样误差。未响应误差另外一种影响抽样调查结果的误差是未响应误差( nonresponse error) 。未响应误差是指由于包含在样本中的一部分人未回答调查而造成的误差。这可能是由于某一选定的电话号码拨了多次也没有反应或接通后那人拒绝回答问题。邮寄调查通常比电话调查有更多的未响应误差,因为不理会一封信比不理会一个响着的电话容易得多,而且信被寄错地址的可能性也要比拨一个无人使用的电话号码的可能性大得多。有时,一次好的电话调查,通常会有85%至90%的响应率;而一次邮寄调查的响应率很少有到达50%的.对研究者来说,高拒绝率是一个很大的问题,因为他们对于被选中但未参与调查的人了解很少。于是出现许多无法回答的问题:是什么使得人们有了不响应和响应的区别 相对响应者来说,未响应者是富有还是贫穷 保守还是自由 有影响力还是缺乏影响力 如果他们响应,他们的回答会怎样影响研究结果 未响应误差我们通过一个最坏的假设情况来表明未响应误差的影响可能有多大。假定我们计划调查1200个人,却只有1000人接受了调查,这意味着我们缺了200人的数据。在1000个我们调查的响应者中,我们发现600人(或60%)赞成某事物而其余人反对它。如果我们假定另外200人也赞成,那么在1200人中就有800人赞成,比例为67%。但另一方面,如果我们假定那200人反对,那么1200人中只有600人赞成,比例为50%。因此,仅仅由于未响应误差,观测样本中60%的赞成比例有可能实际只是50%和67%之间的一个随机数。这就可能给我们的研究结论带来很大的差别。一些经验表明,在大部分情况下,未响应者和响应者并无多大差别。如果我们开始时有一个高的响应率,那么可假定未响应者也依同样的比例作出回答。但是如果响应率很低,例如不超过50%,那么不响应的影响可能会很大。响应误差如果研究者小心一点的话,由调查得来的数据是有可能避免响应误差(response error)的。响应误差是在调查过程中,由于问题的提问方式、问题所处的位置或访员的影响而使得响应者在回答问题时产生的偏差。我们在这里讨论其中的一部分(而不是全部)情况。即使所有的问题都有了回答,我们所知道的也仅仅是调查时人们告诉访员的,而未必是他们实际上做的、感觉的或想的。当我们在报纸上读到,在最近的一次调查中有55%的人认为他们的生活很幸福,那么我们应该知道这句话其实是这个意思:被调查并回答了问题的人在当时有55%对访员说他们认为生活很幸福。1.4.4 实验数据:寻找造成结果的原因收集数据的另一种办法是在实验中控制一个或多个变量并测量操纵的结果。例如,如果我们给一组植物施肥,另外一组不给施肥,那么我们就是在控制植物土壤的成分。我们可以测量像增长率、成活率等变量。实验数据(experimental data)是指在实验中控制实验对象而收集到的变量的数据。实验是检验变量间因果关系的一种方法。在实验中,研究者试图控制某一情形的所有相关方面,操纵少数感兴趣的变量,然后观察实验结果。1.5 数据阵/数据文件数据表通常叫做数据阵或数据文件。表1.2是一个根据抽样调查得来的数据生成的小数据阵的例子。 表1.2一次抽样调查的原始数据序号 年龄 性别 态度1 20 男 反对2 23 男 赞成3 17 女 反对4 38 女 中立5 25 女 赞成6 43 男 赞成7 38 男 中立8 51 女 赞成9 35 男 赞成10 39 女 反对1.5 数据阵/数据文件在计算机分析数据时,需要把数据文件中的描述性文字转化成数字。每一个人都被分配一个身份号码作为名字。年龄变量本来就是用数字测量的,因此不需要任何转化。性别变量的两个取值是“女”或“男”,因此,“女”用数字0代替,“男”用数字1代替。当然还可以使用任何两个别的数字,比如用17代替“女”,用23代替“男”。“态度”这个值可以用三个等级数1、2和3表示反对、中立和赞成。表1.3 适合计算机处理的一次抽样调查的数据序号 年龄 性别 态度1 20 1 12 23 1 33 17 0 14 38 0 25 25 0 36 43 1 37 38 1 28 51 0 39 35 1 310 39 0 11.6 统计学和数学、统计软件的关系统计学的基础是数学,尤其是统计推断牢牢地建立于数学基础之上。但是,没有数学知识也是有可能学会统计,这是本书的讲述方式。在本教材中,我们同时使用Excel和SPSS17.0或PASW作为应用软件,这将有助于你摆脱枯燥的计算,使你能够更好的专注于对数据的分析。因此,理解计算机的输人和输出的内容比知道计算机软件如何计算重要得多。但是,我们在这里要强调的是,你要学会基本的统计思想——某些专业术语,数据如何被收集、演示、分析,结果意味着什么,及它们何时该或不该应用于实际生活——而不至于深陷于公式和计算细节的泥潭中。在使用统计软件进行数据分析时也应该特别留神,因为只要数据格式无误、选项不矛盾而且不用零作为除数,统计软件就一定给你结果,而且几乎没有任何警告。另外,统计软件输出的结果太多。即使是同样的方法,不同软件输出的内容还不一样,甚至有时同样的内容名称也不一样。这就使得使用者大伤脑筋。即使是统计学家也不一定能解释所有的输出。因此,你要明白自己是在干什么,不要在得到一堆毫无意义的垃圾之后还沾沾自喜。常用统计软件简介 (1)SPSS:这是一个很受欢迎的统计软件,它容易操作,输出漂亮,功能齐全,价格合理。它也有自己的程序语言,但基本上已经“傻瓜化”。它对于非专业统计工作者是很好的选择。2009年4月,SPSS公司被IBM收购后将其重新命名为PASW(Predictive Analytics Software,预测分析软件),不过本书仍然使用SPSS名称。(2)Excel:严格说来并不是统计软件,但作为数据表格软件有一定统计计算功能。而且凡是装有Microsoft Office的计算机,基本上都有Excel。但要注意,有时在安装Office时没有安装数据分析的功能,则必须安装该功能后才能进行数据分析。当然,画图功能是默认具备的。对于简单分析,Excel还算方便,但随着问题的深入,Excel就不那么“傻瓜”,需要使用宏命令来编程,这时就没有相应的简单选项了。多数专门一些的统计推断问题还需要其他专门的统计软件来处理。(3)SAS:这是功能非常齐全的软件,尽管价格相当不菲,但是许多公司,特别是美国制药公司偏爱使用。尽管现在已经尽量“傻瓜化”,但仍然需要一定的训练才可以进入。也可以对它编程,但对于基本统计课程则不那么方便。(4)Eviews:这是一个处理回归和时间序列等问题很方便的经济计量学软件,能够处理以时间序列为主的多种类型数据,进行包括描述统计、回归分析、传统时间序列分析等基本数据分析以及建立条件异方差、向量自回归等复杂的计量经济模型。(5)R软件:这是一个免费的,由志愿者管理的软件。其编程语言与S-plus所基于的S语言一样,使用很方便。还有不少统计学家和爱好者不断在R网站提供他们编写的各种最新方法的统计软件包和程序。它的所有计算过程和代码都是公开的,不像多数“傻瓜”软件“黑盒子”式的模块。它的函数还可以被用户按需要改写,容易举一反三。对于一般非统计工作者来说,主要问题是它没有“傻瓜化”。 展开更多...... 收起↑ 资源预览