资源简介 (共35张PPT)数据分析(方法与案例)统计学—基于ExcelStatistics with Excel第 1 章 数据及其来源1.1 数据与统计学1.2 数据的来源1.3 用 Excel 产生随机数Statistics & data思考一下在你的印象中,统计学是什么?你日常生活和工作中都接触过哪些数据?调查一批人的性别、职业、月收入等,这里涉及了哪些变量?如果让你在全校大学生中做一次调查,你会调查所有的学生还是抽取一部分学生做调查?假定让你从全校10000名学生中随机抽取200人,你会怎么做?你都使用过哪些软件,Excel?SPSS?R?还是其他?你认为不使用软件能做统计分析吗?1.1 数据与统计学1.1.1 什么是统计学1.1.2 变量、数据及其分类第 1 章 数据及其来源1.1.1 什么是统计学1.1 数据与统计学什么是统计学统计学(statistics)是一门分析数据的科学,它所提供的是收集数据、处理数据和分析数据的一套方法和技术,通过对数据的分析得出结论统计学研究的是来自各领域的数据,提供的是一套通用于所有学科领域的获取数据、分析数据并从数据中得出结论的原则和方法统计方法是通用于所有学科领域的,而不是为某个特定的问题领域而构造的。统计方法不是一成不变的,使用者在特定的情况下必须根据所掌握的专门知识选择使用这些方法,而且,如果需要还要进行必要的修正什么是统计学数据分析所用的方法可分为描述统计(descriptive statistics)和推断统计(inferential statistics)两大类描述统计主要是利用图表形式对数据进行汇总和展示,计算一些简单的统计量推断统计主要是根据样本信息来推断总体的特征,内容包括参数估计和假设检验两大类参数估计是利用样本信息推断所关心的总体特征假设检验则是利用样本信息判断对总体的某个假设是否成立1.1.2 变量、数据及其分类1.1 数据与统计学变量与数据变量(variable)描述所观察对象某种特征的概念,其的特点是从一次观察到下一次观察可能会出现不同结果观察一个企业的销售额,你会发现这个月和上个月有所不同;观察一只股票的结果,今天与昨天数量不一样;观察一个人的月收入,一个人和另一个人不一样;投掷一枚骰子观察其出现的点数,这次投掷的结果和下一次也不一样。这里的“企业销售额”、“股票价格”、“月收入”、“投掷一枚骰子出现的点数”等“企业销售额”、“股票价格数”、“月收入”、“投掷一枚骰子出现的点数”等 都是变量数据(data)变量的观测结果变量与数据(变量的分类)根据观测结果的特征,分为类别变量和数值变量类别变量(categorical variable)取值为事物属性或类别以及区间值的变量,也称为 “定性变量(qualitative variable)。如“人的性别”、“上市公司所属的行业”、“用户对商品满意度的评价”、“月收入的档次”等都是类别变量分为无序类别变量和有序类别变量两种无序类别变量,其取值是不可以排序有序类别变量,取值可以排序变量与数据(变量的分类)数值变量(metric variable)取值为数字的变量,也称为定量变量(quantitative variable)。例如“企业销售额”、“股票价格”、“月收入”、“投掷一枚骰子出现的点数”等这些变量的取值可以用数字来表示,都属于数值变量根据其取值的不同,可以分为离散变量(discrete variable)和连续变量(continuous variable)离散型变量是只取有限个值的变量,而且其取可以一一列举连续型变量是可以在一个或多个区间中取任何值的变量,它的取值是连续不断的变量与数据(变量的分类)变量与数据(数据的分类)数据(data):变量的观测结果与变量性对应分为:“类别数据”(categorical data)数值型数据(metric data)类别数据也称为“定性数据”或“属性数据”,有名义值类别数据和顺序值变量数据两种,其中只取两个值的类别数据也称为二值类别数据数值型数据(metric data)也称为“定量数据”。是数值变量的观察结果,用数字来表示变量与数据(数据的分类)数据的其他分类按照数据的收集方法可分为观测数据(observational data)和实验数据(experimental data)观测数据是通过调查或观测而收集到的数据,有关社会经济现象的数据几乎都是观测数据实验数据则是在实验中控制实验对象而收集到的数据,自然科学领域的大多数数据都为实验数据按照被描述的现象与时间的关系,可以将数据分为截面数据(cross-sectional data)和时间序列数据(time series data)截面数据是在相同或近似相同的时间点上收集的数据,这类数据通常是在不同的空间上获得的,用于描述现象在某一时刻的变化情况,比如,2014年我国各地区的国内生产总值(GDP)数据时间序列数据是在不同时间上收集到的数据,这类数据是按着时间顺序收集到的,用于所描述现象随时间而变化的情况。比如2000年至2015年我国的国内生产总值数据就是时间序列数据1.2 数据的来源1.2.1 数据的间接来源1.2.2 数据的直接来源第 1 章 数据及其来源1.2.1 数据的间接来源1.2 数据的来源数据的来源从数据本身看,最初都是来源于直接的调查或实验从使用者的角度看,数据主要来源于两种渠道:一是来源于直接的调查和实验,称之为一手数据;二是来源于别人调查或实验的数据,称之为二手数据数据的间接来源(二手数据)Internethttp//WWW.中国统计年鉴2001中国人口统计年鉴中国市场统计年鉴世界发展报告世界经济年检工业普查数据中国统计出版社公开出版或公开报道的数据,这类数据主要来自国家和地方的统计部门、其他管理部门和专业的调查机构等,例如,国家和地方统计部门公开的出版的各种统计年鉴通过其他渠道使用一些尚未公开的统计数据,以及广泛分布在各种报刊、杂志、图书、广播、电视传媒中的各种数据资料在网络上获取所需的各种数据资料。比如,各种金融产品的交易数据、官方统计网站的各种宏观经济数据等二手数据的特点收集容易,采集成本低作用广泛分析所要研究的问题提供研究问题的背景帮助研究者更好地定义问题检验和回答某些疑问和假设寻找研究问题的思路和途径收集二手资料在研究中应优先考虑二手数据的评估数据是谁收集的?可信度评估为什么目的而收集的?数据是怎样收集的?什么时候收集的?1.2.2 数据的直接来源1.2 数据的来源数据的直接来源(一手数据)通过调查、互联网或实验取得。已有的数据不能满足需要时,可以亲自去调查或试验比如,想了解全校学生的生活费支出状况,可以从中抽出一个由200人组成的样本,通过对样本的调查获得数据这里“全校所有学生生活费支出状况”是你所关心的总体(population),它是包含所研究的全部个体(数据)的集合。所抽取的200人就是一个样本(sample),它是从总体中抽取的一部分元素的集合。构成样本的元素的数目称为样本量(sample size),抽取200人组成一个样本,样本量就是200数据的直接来源(概率抽样方法)概率抽样(probability sampling):根据一个已知的概率来抽取样本单位,也称随机抽样特点按一定的概率以随机原则抽取样本抽取样本时使每个单位都有一定的机会被抽中每个单位被抽中的概率是已知的,或是可以计算出来的当用样本对总体目标量进行估计时,要考虑到每个样本单位被抽中的概率简单随机抽样(simple random sampling)从总体N个单位(元素)中随机地抽取n个元素作为样本,使得总体中每一个元素都有相同的机会(概率)被抽中抽取样本元素的具体方法:有放回抽样(sampling with replacement)和无放回抽样(sampling without replacement)有放回抽样:抽取一个个体记录下数据后,再把这个个体放回到原来的总体中参加下一次抽选无放回抽样:抽中的个体不再放回,再从所剩下的个体中抽取第二个元素,直到抽取个个体为止当总体数量很大时,无放回抽样可以视为有放回抽样由简单随机抽样得到的样本称为简单随机样本(simple random sample)。多数统计推断都是以简单随机样本为基础的分层抽样(stratified sampling)也称分类抽样在抽样之前先将总体的元素划分为若干层(类),然后从各个层中抽取一定数量的元素组成一个样本比如,要研究学生的生活费支出,可先将学生按地区进行分类,然后从各类中抽取一定数量的学生组成一个样本分层抽样的优点:可以使样本分布在各个层内,从而使样本在总体中的分布比较均匀,可以降低抽样误差系统抽样(systematic sampling)也称等距抽样先将总体各元素按某种顺序排列,并按某种规则确定一个随机起点,然后,每隔一定的间隔抽取一个元素,直至抽取个元素组成一个样本比如,要从全校学生中抽取一个样本,可以找到全校学生的花名册,按花名册中的学生顺序,用随机数找到一个随机起点,然后依次抽取就得到一个样本整群抽样(cluster sampling)先将总体划分成若干群,然后以群作为抽样单元从中抽取部分群组成一个样本,再对抽中的每个群中包含的所有元素进行观察比如,可以把每一个学生宿舍看作一个群,在全校学生宿舍中抽取一定数量的宿舍,然后对抽中的宿舍中每一个学生都进行调查整群抽样的误差相对要大一些用【数据分析】抽取简单随机样本如果用于抽取样本的元素是类别数据,比如,学生名单,需要先将分类数据用数字代码来表示(数值型数据不用指定代码)。然后按下列步骤操作:第1步:选择【数据】→【数据分析】,在分析工具中选择【抽样】第2步:在【输入区域】中输入代码区域(数值型数据直接输入数据区域);在【抽样方法】中单击【随机】;在【样本数】中输入需要抽样的样本量;在【输出区域】中选择抽样结果放置的区域。单击【确定】,即得到一个随机样本用Excel抽取简单随机抽样【例1—1】60个房地产类上市公司的股票代码和股票名称,随机抽取6个上市公司组成的一个样本样本序号股票代码公司名称4600322天房发展59600266北京城建55000024招商地产36000150宜华地产10002305南国置业5600665天地源31000517荣安地产47600240华业地产51000573粤宏远11600684珠江实业1.3 用Excel参数随机数1.3.1 Excel【数据分析】工具的安装1.3.2 用Excel产生随机数第 1 章 数据及其来源 Excel【数据分析】工具的安装Excel中的【数据分析】工具提供了一些常用统计方法的程序。如果你的计算机还没有安装此项功能,需要安装后才能使用。Office2010版本的具体安装步骤如下(不同版本在安装步骤上略有差异)第1步:在Excel工作表界面中点击【文件】下拉菜单,点击【选项】第2步:在弹出的对话框中点击【加载项】,并点击【分析工具库】然后点击【转到】第3步:在弹出的对话框中选择【分析工具库】,然后单击【确定】,即可完成安装用【数据分析】工具产生随机数(正态分布)第1步:将光标放在任意空白单元格。然后点击【数据】 【数据分析】第2步:在弹出的对话框中选择【随机数发生器】,单击【确定】第3步:在【变量个数】中如要产生随机变量的个数,比如,输入1,表示要产生一个变量的随机数,输入2表示要产生两个变量的随机数,等等。在【随机数个数】框中输入要产生随机数的个数,比如10。在【分布】框中选择要产生随机数的分布,比如,正态。在【参数】下的【平均数】框内输入正态分布的均值(默认为0),比如,50;在【标准偏差】框内输入正态分布的标准差(默认为1),比如,5。在【输出选项】下选择输出随机数的放置位置(默认为想新作表组),比如A1单元格。单击【确定】,即可产生随机数用【数据分析】工具产生随机数(均匀分布)第1步:将光标放在任意空白单元格。然后点击【数据】 【数据分析】第2步:在弹出的对话框中选择【随机数发生器】,单击【确定】第3步:在【变量个数】中输入要产生随机变量的个数,本例为2。在【随机数个数】框中输入15。在【分布】框中选择“均匀”。在【参数】下的【介于】框后输入1和100(默认是0~1)。在【输出选项】下选择输出随机数的放置位置(默认为想新作表组),比如A1单元格。单击【确定】,即可产生随机数用【RANDBETWEEN】函数生成个指定数之间的随机数RANDBETWEEN函数可用于生成位于两个指定数之间的一个随机数,从而产生一个简单随机样本第1步:在Excel表格界面中,直接点击【fx】命令第2步:在复选框“函数分类”中点击【全部】选项,并在“函数 名”中点击【RANDBETWEEN】选项,然后【确定】第3步:在【Bottom】输入要返回的最小整数(本例为1)在【Top】输入要返回的最大整数(本例为100)单击【确定】即可得到一个随机数(要得到多个随机数向下复制即可)结 束THANKS 展开更多...... 收起↑ 资源预览