资源简介 (共23张PPT)1统计学Statistics2第 1 章 统计、数据与计算机1.1 统计及其应用领域1.2 统计学中的几个基本概念1.3 统计学与计算机1.4 小结3第 1 章 统计、数据与计算机1.1 统计及其应用领域4统计及其应用领域无论是个人还是企业、机构还是政府,我们的行为和决策都越来越多地依赖于数据。我们关注每天的PM2.5空气质量指数与健康之间的关系;投资股票时了解宏观经济数据和公司财务信息;基于销售数据合理布置超市的商品摆放位置;根据客户的个人特征实施“精准营销”;构建大气运动规律模型,预测气象变化,指导“理性救灾”。5统计及其应用领域与此同时,各个领域都在爆炸式地创造数据。抖音短视频用户保有量过亿,日活跃用户数过千万,日新增用户数近百万;沃尔玛超市每小时收集到100万名顾客的数据,每天对1亿个关键字进行分析优化;Facebook每天更新的照片量超过1000万张,每天人们在网站上“点赞”或评论次数大约有30亿次;2017年天猫“双11”仅一天成交额就达1682亿元,全天支付总笔数达14.8亿,全天物流订单达8.12亿个,交易覆盖全球225个国家和地区。6统计及其应用领域统计学(statistics)提供的是一整套用于数据收集、整理、分析并从数据中得出结论的方法和原则,是一门关于数据的科学。统计学家萨维奇(L.J.Savage)曾经说,“统计学基本上是寄生的。靠研究其他领域内的工作而生存。这不是对统计学表示轻视,这是因为对很多寄主来说,如果没有寄生虫就会死。对有的动物来说,如果没有寄生虫就不能消化它们的食物。因此,人类奋斗的很多领域,如果没有统计学,虽然不会死亡,但一定会变得很弱。”7统计及其应用领域我国著名统计学家陈希孺院士在其出版的《数理统计学简史》中写到,“统计学不止是一种方法或技术,还含有世界观的成分——它是看待世界上万事千物的一种方法。”按照劳(C.R.Rao)的观点,“今天,统计学已发展成为一门媒介科学。它研究的对象是其他科学的逻辑和方法论——做出决策的逻辑和试验这些决策的逻辑。”无论从何种角度理解统计学,给出怎样的定义,一个不争的事实是,近代以来,统计学已经成为一门极其活跃的、被广泛应用于各个领域的独特学科。8统计及其应用领域1660年,德国人康林(Hermann Conring)首次在印刷品上使用了“statistik”一词,指政府部门记录人口出生和死亡信息的工作,成为今天统计学“statistics”这个英文单词的正式来源。经过三百多年的发展历史,统计仍然是当今世界各国政府机构保障正常工作运转的重要支柱,与此同时,统计学又被不断赋予新的内涵和责任,帮助人类寻找解决各个领域问题的有效方法和途径。9统计及其应用领域商业中,统计方法被用来预测商品的未来需求量,制订生产计划和发展有效的管理技术以获得最大的利润。医学中,统计方法被用于药效的鉴定及临床检验,由大量生物化学提供的数据信息经过统计评估用于疾病的诊断和预测。犯罪学中,统计方法被用于探索犯罪原因,研究犯罪现象与种族、职业、经济状况、年龄、性别甚至气候条件之间的联系,进而探索犯罪规律和趋势。考古学中,统计方法被用于定量评估考察对象的相似性,提供确定古代工艺品年代顺序的科学方法。文学中,统计方法被用于分析不同作者的用词习惯,测定作家风格,从而在作者版权产生争议时提供证据。10统计及其应用领域【例1.1】利用正态分布识别欺诈行为。德国在某战争期间物资特别紧缺,对面包实行配给制:政府把面粉发给指定的面包房,面包师傅烤好了面包再发给居民。有一个统计学家,怀疑他所在区域的面包师傅私扣面粉,于是就天天称自己的面包。几个月以后,他去找面包师傅,说:“政府规定配给的面包是400克,因为模具和其他因素,你做的面包可能是398、399克,也可能是401、402克,但是按照统计学的正态分布原理,这么多天的面包重量平均应该等于400克,可是你给我的面包平均重量是398克。我有理由怀疑是你使用较小的模具,私吞了面粉。”面包师傅承认确实私吞了面粉,并再三道歉保证马上更换正常的模具。又过了几个月,统计学家又去找这个面包师傅,说:“虽然这几个月你给我的面包都在400克以上,但是这可能是因为你没有私吞面粉,也可能是因为你从面包里特意挑大的给我。同样,根据正态分布原理,这么多天不可能没有低于400克的面包,所以我认为你只是特意给了我比较大的面包,而不是更换了正常的模具。我会立刻要求政府检查你的模具。”面包师傅只好当众认错道歉,接受处罚。11统计及其应用领域【例1.2】利用简单的统计量推测重要军事情报。二战期间,出于战略考虑,盟军非常希望知道德军总共制造了多少辆坦克。盟军最初通过间谍、解码和逼供等传统手段收集信息,但得出的结论与事实都相去甚远。最终,盟军找到了一个关键线索。当时,德国人在制造坦克时是墨守成规的,他们把坦克从1开始连续编号。在战争进行过程中,盟军缴获了一些敌军坦克,并记录了它们的生产编号。基于此,盟军中的统计学家创建了各种估计量的计算公式,其中一个最为简单的做法是,先找到被缴获坦克编号的平均值,并认为这个值是全部编号的中点,因此这个均值乘以2就是对德军生产的坦克总数的一个估计(当然,这是假设缴获的坦克代表了所有坦克的一个随机样本)。这种方法的各种变形被应用于二战之中,从战后发现的德军记录来看,盟军的估计值非常接近所生产的坦克的真实值,统计学家做得比间谍们更漂亮!12统计及其应用领域【例1.3】利用回归分析预见重要决策后果。1986年1月28日清晨,载有7名宇航员的美国“挑战者号”航天飞机进入发射状态。几分钟后,正当包括许多学生在内的大批美国民众观看电视新闻的直播报道时,航天飞机在毁灭性的爆炸声中化成碎片,机上的宇航员全部遇难。事故调查结果发现,发射当日清晨的低温(-0.5摄氏度)是导致航天飞机右侧固体燃料火箭推进器密封圈失效的直接原因,而这一悲剧是有机会可以避免的。因为负责制造该固体燃料发动机的塞奥科(Thiokol)公司的工程们曾通过23次飞行中发生腐蚀或泄漏事故的次数及火箭连接处的温度数据进行回归分析发现,二者之间是存在一定的统计相关性的,并在发射前一天晚上向公司董事会提交了研究报告,建议推迟发射。不幸的是,美国宇航局及塞奥科公司的高层们忽视了统计分析的客观结论,抱着投机和侥幸的心态做出最终的决策,造成了不可挽回的损失。13第 1 章 统计、数据与计算机1.2 统计学中的几个基本概念14统计学中的几个基本概念面对某些问题时,我们无法事先给出百分之百确定的答案,或者说,所有这些事件的结果无法百分之百准确地预测,这就是随机性(randomness)。在现实世界中,个体的随机性无法彻底消除。统计学正是在接受随机性的前提下,通过发展出一套科学的原则和方法,挖掘出大量随机事件中可能隐藏的规律和模式,并对其进行量化测度,从而帮助人类认识世界,做出合理决策。其中,统计学最重要的量化工具和理论基石,便是概率。概率(probability)是一个在0到1之间取值的数,描述的是某个特定事件发生的机会有多大。15统计学中的几个基本概念变量(variable)是指某一特定研究对象可以取两个或更多个可能值的特征或属性。每次观察变量记录下来的结果,就形成了数据(data)。如果变量每次的观察结果可以用数字来记录,那么这样的变量就称为定量变量(quantitative variable)或数值变量(metric variable),记录下来的数据也就相应地称为定量数据(quantitative data)或数值数据(metric data)。只能取离散的数值,其取值可以一一列举的定量变量称为离散变量(discrete variable);可以在一个或多个区间内取任何可能的值,其取值是连续不断的定量变量称为连续变量(continuous variable)。16统计学中的几个基本概念如果变量每次的观察结果记录的是文字或字符,代表的只是研究对象的某一类别或属性,这样的变量就称为定性变量(qualitative variable)或类别变量(categorical variable)。这些定性变量的观察结果就是定性数据(qualitative data)或类别数据(categorical data)。进一步地,如果变量不同的类别或属性之间没有先后顺序,就是无序类别变量;反之,则称为有序类别变量。17统计学中的几个基本概念18统计学中的几个基本概念在收集数据的过程中,我们希望研究的所有个体组成的集合就称为总体(population)。总体中的每个个体称为总体单位或单元(element)。调查时抽中的部分个体组成的子集合就称为一个样本(sample),而抽中的个体的数量就是样本的大小,即样本量(sample size)。19第 1 章 统计、数据与计算机1.3 统计学与计算机20统计学与计算机统计学的基础是数学,如何基于有限的样本数据推断总体的特征也牢牢建立于数学基础之上。然而,在数据量庞大的信息时代,脱离计算机的统计分析几乎是不可想象的。目前市面上比较常见的统计软件种类颇多,包括SAS、R、SPSS、S-Plus、Stata、EViews等等,甚至我们最熟悉的Office操作软件Excel中也包含一些基本的统计分析功能。由于开发者的初衷不同,上述软件必然具有各自的特点,选择哪款软件并没有统一的标准。作为一个辅助的计算工具,只要能帮助应用者准确快捷地完成统计分析工作,就是一个好的选择。21第 1 章 统计、数据与计算机1.4 小结22小结统计学提供的是一套用于数据收集、整理、分析并从数据中得出结论的方法和原则,是一门关于数据的科学。今天,对统计学的研究和应用已经由最初的政府部门的政策制定,扩展到自然科学、社会科学、管理、经济、工程技术、艺术、文学等各个领域。人们用变量反映某一特定研究对象可以取两个或更多个可能值的特征或属性,每次观察变量记录下来的结果,就形成了数据。依据数据表现形式的不同,可将其划分为定性数据(类别数据)和定量数据(数值数据)。23小结在收集数据的过程中,我们希望研究的所有个体组成的集合就是总体。受实际条件的限制,往往只能从总体中抽取部分个体,其组成的子集合即为样本。现代信息社会中,数据的快速积累和膨胀,对统计学的应用提出了越来越多的使命与挑战,计算机已成为不可或缺的重要辅助工具。市面上有很多统计软件可供我们选择,但在尽可能熟练掌握一门软件的同时,也要清醒地认识到,正确理解各类统计方法的基本思想和应用原理是至关重要且无法被计算机和软件所替代的。 展开更多...... 收起↑ 资源预览