第3章 定量数据的描述方法(课件)- 《统计学——思想、方法与应用(第二版)》同步教学(人民大学版)

资源下载
  1. 二一教育资源

第3章 定量数据的描述方法(课件)- 《统计学——思想、方法与应用(第二版)》同步教学(人民大学版)

资源简介

(共73张PPT)
统计学:思想、方法与应用
第3章定量数据的描述方法
3.1展示数据的分布
3.2定量数据的其他图形表示
3.3分布的集中位置
3.4分布的离散程度
3.5 分布形态的度量
3.6 标准得分
3.7 误用描述方法扭曲事实
学习目标
掌握统计数据的整理方法;
掌握统计图的使用;
掌握数据集中趋势的测度方法;
掌握数据离散程度的测度方法;
了解偏态与峰态指标的含义;
了解数据的标准化;
相关理论在统计软件中的应用。
股票价格是了解一个公司价值的有效数据。在拿到股票数据后,你可能希望了解股价趋向于集中到哪里,股价的变动程度以及股价的走势。
一般来说,我们获得的数据中很可能有很多变量和很多观测值。这些数据是反映个体的量,是分散的,无系统的,而且还可能存在重复、遗漏或错误。
为了使数据系统化,反映总体的特征、规律及发展趋势,这需要使用一定的方法(如一些表格、图形和汇总数字来描述)对数据进行整理和综合,便于人们的理解和使用。
这些描述的方法被称为描述统计学(descriptive statistics),也可以称为探索性数据分析(EDA,exploratory data analysis)。
对数据进行描述性分析能帮助分析人员选择适当的处理和分析方法。
3.1展示数据的分布
表3.1 1997-2001年股票价格变化的数据(单位:元)
表3.1是安然公司1997-2001年股票价格变化的数据,称作原始数据或未分组数据。
稍微搜索一下,我们可以找到最低股价变化值和最高股价变化值分别为21.06元和-17.75元(见表中加粗的数字),但这也几乎就是全部可以了解的信息了。
确定典型的股价变化值是比较困难的,要看出股价变化值趋向于集中到哪里也是困难的,更难以看出股价变化值的趋势。
一月 二月 三月 四月 五月 六月 七月 八月 九月 十月 十一月 十二月
1997 -1.44 -0.75 -0.69 -0.88 0.12 0.75 0.81 -1.75 0.69 -0.22 -0.16 0.34
1998 0.78 0.62 2.44 -0.28 2.22 -0.5 2.06 -0.88 -4.5 4.12 1.16 -0.5
1999 3.28 3.34 -1.22 0.47 5.62 -1.59 4.31 1.47 -0.72 -0.38 -3.25 0.03
2000 5.72 21.06 4.5 4.56 -1.25 -1.19 -3.12 8 9.31 1.12 -3.19 -17.75
2001 14.38 -1.08 -10.11 -12.11 5.84 -9.37 -4.74 -2.69 -10.61 -5.85 -17.16 -11.59
3.1.1 统计数据的分组
数据分组是统计数据处理的第一步,它是按照统计研究的目的,将数据分别列入不同的组内。
在分组时,如果按照性别、质量等级等定性指标分组,称为按品质标志分组,比如第二章频数表就是这种情况;如果按照数量或数值等定量指标分组,称为按数量标志分组。
本章主要是按数量标志分组。将数据按其分组标志进行分组的过程,就是次数分配形成的过程。次数分配就是观测值按其分组标志分配在各组内的次数。
3.1.1 统计数据的分组
表3.1的数据分组可以按照下列步骤进行:
第1步,确定组的个数。太多或太少的组都不能揭示数据集的基本形状,确定组数的一个有用法则是“2的k次方法则”,选择使2k 大于观测值个数(n)的最小值(k)作为组的个数。在本例中,合适组数是6。
第2步,确定组距。组距是每一组最大值与最小值之差。一般地,所有各组的组距或组宽都应该是相同的。所有组加起来必须至少覆盖从最小值到最大值的距离。确定组距的公式是 ,其中i是组距,Max是最大观测值,Min是最小观测值,k是组数。在实际中,组距大小通常四舍五入到某个简便的数,比如10或100的倍数。在这个案例中,将更乐于使用10元作为组距。
第3步,确定各组的组限。每个观测值只归入一个组,必须避免重叠的或者不清楚的组限。由于我们把组距四舍五入以得到简便的组距大小,所以我们覆盖了比需要的范围要大的范围。当然,我们应该选择简便的10的倍数作为组限。
第4步,把股价变化值分配到相应的组内,数出每组中的项目个数。在-10元~0元这一组中有26个观测值,在10元~20元这一组中有1个观测值。于是得到下表3.2。
3.1.1 统计数据的分组
组 频数
-20元~-10元 6
-10元~0元 26
0元~10元 26
10元~20元 1
20元~30元 1
股价变化值 频数 相对频数 由此得到
-20元~-10元 6 0.10 ←6/60
-10元~0元 26 0.43 26/60
0元~10元 26 0.43 26/60
10元~20元 1 0.02 1/60
20元~30元 1 0.02 1/60
总计 60 1.0000
表3.3 股价变化值的相对频数分布
表3.2 股价变化值的频数分布
3.1.2 直方图
在将统计数据整理分组和次数分配之后,已经可以初步看出数据的一些规律。为了获得更直观、更形象的印象,我们有时候还需要绘制股价变化趋势的简明图形,常用的统计图有直方图,频数折线图和茎叶图。
直方图(histogram)主要用以表示分组数据的频数分布特征,是分析总体数据分布特征最有用的工具之一。
在直方图中,把横轴分成若干通常是等距的区间(区间可以不等距,但是只有等距分组的直方图才能直观反映数据的分布特征,因此通常采用等距分组方法绘制直方图),然后计算数据在各个区间上的频数,并在各区间上画出高度与数据在相应区间的频数成比例的矩形条。这样,直方图利用一系列相邻的矩形描述频数分布。
3.1.2 直方图
做法:在SPSS中选择Graphs->Histogram。在主对话框左边列表中选定变量“股价变化值”放入Variable框。单击OK。
图3.1 安然公司股价变化值的直方图
要注意的是,如果用相对频数分布代替实际频数,那么我们会得到相同的结论,并且直方图的形状也一样。唯一的不同是量纲不同。
3.1.3 频数折线图
频数折线图(frequency polygon)类似于直方图,它以各组标志值的中点位置作为该组标志的代表,然后用折线将各组次数(即每组频数)连接起来,形成了折线图。
做法:在SPSS中选择Graphs->Line->Simple。在主对话框左边列表中选定变量”频数”放入Line Represents里面的变量框。“股票变化值”放入分类轴中,单击OK。
3.1.3 频数折线图
基于表2.3的股价变化值的频数分布得到频数折线图如下。
3.1.3 频数折线图
直方图和频数折线图都便于我们对数据的主要特征(高点,低点,集中点等等)得到直观的印象。
尽管两种图形在用途上是相似的,但是直方图的优点是用矩形条描述每一组,矩形条的高度表示每组的频数或频率。然而,频数折线图也有优于直方图的地方,它使我们能直接比较两个或多个频数分布。
3.1.4 茎叶图
茎叶图(stem-and-leaf plot)是一种可以较简练的表现数据信息的图表,类似于直方图,但包含了更多的信息。
在茎叶图中,每一个数值被分成两部分,打头的数字作为茎,尾随的数字作为叶。茎沿竖直轴线放置,叶沿水平轴线堆放。它像一片带有长短不一的叶子的茎。
茎叶图在数据量不那么大时,既显示了完全的原始数据,又显示了数据分布的形状。因此,茎叶图非常适合描述少量数据(十几个到一百多个数据)的分布,但是,当数据量很大时,茎叶图就显然不方便了。
做法:在SPSS中选择Analyze->Descriptive Statistics->Explore.,打开 Explore 主对话框,在主对话框左边列表中选定变量,单击按钮使之进入Dependent List列表框。单击Plot打开Explore:Plot子对话框,在Descriptive栏内选Stem-and-leaf项要求作茎叶图描述。
3.1.4 茎叶图
图3.3是安然公司股价变化值的茎叶图。

图3.3 安然公司股价变化值的茎叶图
这个茎叶图中茎的单位为10元,而叶子单位为1元。例如,第一行表示有2个股价变化值数值;第二行有4个股价变化值数值;最后一行为1个股价变化值等等。我们看第二行,茎表示-10,叶子中的4个数字2210代表了4个股价变化值。
3.1.5 累积频数分布
除了对数据的分布形态有所了解,有时候我们希望了解股价变化值低于0元的月份数量或者30个月的股价变化值低于多少元,累积频数分布(cumulative frequency distribution)或累积频数折线图(cumulative frequency polygon)可以帮助我们获得这样的信息。
股价变化值 频数 累积频数 由此得到
-20元~-10元 6 6
-10元~0元 26 32 ←6+26
0元~10元 26 58 ←6+26+26
10元~20元 1 59
20元~30元 1 60
3.1.5 累积频数分布
为了画出累积频数分布图,在X轴上按比例标出每组上限,在Y轴上按比例标出相应的累积频数。要想提供更多的信息,还可以在左边的纵轴上标出频数,而在右边的纵轴上标出百分数或者频率,得到下图3.4。
为了找出30个月的股价变化值低于多少,我们在左边纵轴上找到频数为30的点。然后我们从这个点做一条水平线到折线图,再从折线图做垂线到X轴并读出股价变化值,大约是-5元左右,因此我们估计30个月的股价变化值低于-5元。

3.2定量数据的其他图形表示
3.2.1 线图
线图(line chart)经常用来描述时间序列数据,用以反映某些指标或变量随时间的变化趋势,有时候也称为时间序列图(time series plot)。
时间序列图事实上只不过是一个后面将要介绍的散点图,它以度量值为纵轴,以度量值发生的时间或者次序为横轴建立。时间序列图揭示了所监控的变化量(如销售额)的趋势和变化。
做法:在SPSS中选择Graphs->line,再选择Simple,在Data in Chart Are中选择Values of individual cases,然后在主对话框左边列表中把sales放到Line Represent框中,分类标签选为年月,单击OK;在SPSS中选择Analyze->Time Series->Seasonal Decomposition,在Variable(s)(变量)处选择sales。单击OK;或者在Excel中使用“插入图表”工具按钮,选择线图。

3.2.1 线图
图3.5 安然公司从1997年1月到2001年12月的销售数据

3.2.2 箱线图
箱线图(box plot, box-and-whisker plot)是一个常用的描述数据的统计图,又称为箱图、盒型图、盒子图等等。
其绘制方法是:先根据上四分位数QU、下四分位数QL和中位数Me画出中间的箱子,箱子的长度为四分位数间距IQR =QU- QL。箱线图上下的两条线的长度则可以有不同的选择。
以上面的线为例,通常的选择为:如果没有数据值大于QU+1.5*IQR,那么该线以数据最大值为端点,否则,线的上端点为上四分位数加上1.5倍的箱子长度,比该端点大的数值则分别在其上方按照其实际值点出。如果数据处于QU+1.5*IQR至QU+3*IQR的范围内用圆圈标出,超出了QU+3*IQR的用星号标出。下面的线也类似。由QL至QL-1.5*IQR区间内的最小值向箱子的底部连线;QL-1.5*IQR至QL-3*IQR的范围内用圆圈标出,小于QL-3*IQR的用星号标出。

3.2.2 箱线图
我们画出安然公司股价变化值的箱线图,见图3.8。
做法:在SPSS中选择Analyze->Descriptive Statistics->Explore,打开 Explore 主对话框,在主对话框左边列表中选定变量,单击按钮使之进入Dependent List列表框。单击Plot...按钮打开[Explore:Plot]子对话框,在Boxplot栏内选Factor levels together项要求按组别进行箱线图绘制。
从图中可以看出,不仅可以得到很多关于数据的信息(包括上下四分位数,中位数,极值,数据分布的范围和形式等等),还可以发现有6个月份的股价变化值分别落在在QU+1.5*IQR至QU+3*IQR内以及QL-1.5*IQR至QL-3*IQR的范围内,这6个月份的观测号是44、45、51、52、57、60(圆圈旁边的数字数据的序号)。实际上,这两个员工的股价变化值在3000元以上,远高于员工的平均股价变化值。还有2个月份的股价变化值超出了QU+3*IQR,2个月份的股价变化值小于QL-3*IQR,这4个月份的观测号是38、49、48、59(星号旁边的数字数据的序号)。

3.3.3 散点图
对于两个定量变量之间的关系可以用散点图(scatter plot)来描述。散点图是一个简单但能很好的描述两个变量之间关系的工具。在散点图中,每一个点代表一个观测值,而它的横坐标和纵坐标则分别代表其相应于两个变量的取值。
从下面散点图中可以看出,随着每年的国内生产总值增长,税收收入也在增长。
在SPSS中选择菜单Graphs→Scatter,打开Scatterplot子对话框,单击Simple Scatter图形,按Define,打开Simple Scatterplot子对话框,将变量GDP,税收分别放入XAxis和YAxis框,按OK键按钮执行。

3.3.3 散点图
散点图有很多变种,也有三维散点图,也有几个散点图画在一起的。在多元回归分析中我们经常采用这样的散点图。
在SPSS中选择菜单Graphs→Scatter,打开Scatterplot子对话框,单击Matrix Scatter图形,按Define,打开Matrixe Scatterplot子对话框,将变量都放入Matrix Variables框,按OK键按钮执行,得到结果。

3.3 分布的集中位置
大量的数字既繁琐又不直观;需要对数据做人们时间和耐心所允许的简化
我们可以用“平均”,“差距”或百分比等来概括大量数字。
由于定性变量主要是计数,比较简单,常用的概括就是比例或百分比。下面主要介绍关于定量变量的数字描述。

3.3 分布的集中位置
可用少量所谓汇总统计量或概括统计量(summary statistic)来描述定量变量的数据。
这些数字是从样本数据得来的,因而也是样本的函数。
任何样本的函数,只要不包含总体的未知参数,都称为统计量(statistic)。
样本的随机性决定统计量的随机性(统计量也是随机变量)

3.3 分布的集中位置
概括统计量经常对应于总体的无法观测到的某些参数。
这时,统计量可作为这些参数的估计。一些统计量还可以用来检验样本和假设的总体是否一致。
注:一些统计量前面有时加上“样本”二字,以区别于总体的同名参数。如“样本均值”和“样本标准差”,以区别于总体均值和总体标准差;但在不会混淆时可以只说“均值”和“标准差”。
数据的“位置”
数据有位置吗?
这里三个数据的位置一样吗?
“位置”一般是关于数据中某变量观测值的“中心位置”或者数据分布的中心(center或center tendency)。
和这种“位置”有关的统计量就称为位置统计量(location statistic)。
位置统计量不一定都是描述“中心”了,比如后面要讲的k百分位数(k%分位数)。
数据的“位置”

3.3.1 众数
软饮料 频数 频率%
可口可乐 19 38
雪 碧 13 26
杏仁露 8 16
新骑士 5 10
醒 目 5 10
总 计 50 100
Mo=可口可乐
样本中出现最多的数目,称为众数(mode), Mo
50次购买软饮料的频数
某企业工人按日产量分组
日产量(件) 人数 比重%
8 10 4
9 30 12
10 60 24
11 70 28
12 50 20
13 22 8.8
14 8 3.2
合计 250 100.0

3.3.1 众数
下面的图形象的说明了众数是观测值的重点。
众数一般用来描述分类变量,特别是那些有许多个值的分类变量。
例如,你可能发现,在某一地区学历的众数是硕士生,对事物的态度的众数是中立,在每年进行的福布斯世界富豪排名中,因为美国富豪数量最多,因此按国籍分类的话众数是美国。

3.3.1 众数
在样本的观测值没有重复的时候(这多出现在连续变量的情况),众数就没有意义了。
有时,一个变量有两个值经常出现,这样它就有两个众数,这就叫做二众数分布(bimodal distribution) 。
当一个变量有两个众数时,这个变量的观测值常常是由来自两个群体的数据混合组成的。例如一个班级中学生的身高的直方图就可能是二众分布,因为这些学生中有男生也有女生。
3.3.1 众数
众数有一些优点。
从图表(如条形图)中很容易获得一个变量的众数。
对于分类变量,它是描述平均值的一个最好办法。
对于一个有二众数分布且中间值只有很少观测值的变量,取两个众数比取一个仅有几个观测值的中间值包含更多的信息。
另外,众数具有不受极端大值或者极端小值影响的优点。在某些情况下,众数是一个较好的代表值。比如,当要了解大多数家庭的收入状况时,我们可以用到众数。再比如,在编制物价指数时,农贸市场上某种商品的价格常以很多摊位报价的众数值为代表。
众数也存在着一些缺陷。
一个变量的众数值只能传递这个数据集中的信息的很少一部分。因此只用众数,数据集中的信息就不能被很好地使用。
另外众数可以告诉我们,这个值出现的次数比其它的值出现的次数多,但它并未告诉我们它较别的数值多的程度。一个由100人组成的群体,无论它有51个女人(和49个男人)或者99个女人(和1个男人),其性别变量的众数都是女人。这两种情况是非常不同的,但是众数并不能区分它们。

3.3.2 中位数
另一个关于中心位置的统计量是中位数(median),在介绍箱线图时已出现过,通常记为Me。
一般来说,房价和许多其它的经济变量常常是用中位数(median)来描的,因为价格是一个度量变量且有较高和较低之分。不像分类变量,价格的值可以从小到大排序,排序后其中间值即是中位数的值。当房价的中位数是每平方米10000元时,一半的房价低于这个数另一半房价高于这个数。在这个例子中,中位数与其它房子的价格没有关系。
下面的图形象的说明了中位数是观测值的中心。

3.3.2 中位数
(样本)中位数(median) 是数据按照大小排列之后位于中间的那个数(如果样本量为奇数),或者中间两个数目的平均(如果样本量为偶数)。
由于中位数不易被极端值影响,所以中位数比均值稳健(robust)。

3.3.2 中位数
如何寻找中位数呢?
假设一个有5个学生的小组,他们的身高分别为: 158厘米、160厘米、168厘米、163厘米以及170厘米,在这个数据集有奇数个观测值,中间的数是第三个观测值,有两个观测值比它小而另两个比它大。这样其中位数就是163厘米 (本章末尾的有关公式说明了如何在奇数个观测中寻找中位数) 。
如果此时增加一个学生,其身高为165厘米,此时这个数据集中没有一个观测值可以将其恰好分为两个相等的部分。但对任何一个163到165厘米之间的学生来说,都有三个学生的身高比他高,三个学生比他矮。一般地,我们在这种情况下取两个中间值的中点作为中位数。163和165厘米的中点是1164厘米,这也是这六个学生的身高的中位数 (本章末尾的有关公式说明了如何在偶数个观测值中寻找中位数)。
3.3.2 中位数
何时使用中位数呢?
当一个数据的直方图显示出是非对称或非正态分布时,我们常常使用中位数,尤其是房价和收入数据。
房子的价格数据就是一个典型的非对称分布。大部分房子的价格在中间部位,但通常也有几个房子的价格特别高,于是直方图的右侧有一个"尾巴"。
职工的收入数据也是一个典型的非对称分布。
3.3.2 中位数
中位数的一些优点。
首先中位数只需要很少量的计算。
其次,中位数很好地代表了一组观测值的中点,特别是当直方图显示出这是一个偏斜分布时。
另外,中位数对极端值不敏感,在某些情况下这将是一种优点。中位数不易受极端值影响的性质称为稳健性(robust)。
中位数具有唯一性,一组数据只有一个中位数。
中位数还有这样一个性质,就是数据值与中位数之差的绝对值之和最小,也就是说,如果用其他任何数值(比如均值、众数等)代替中位数,其绝对值之和都大于数据值与中位数之差绝对值的和。这个性质表明中位数与数据值的距离最短。例如,在若干个连锁店间选择仓库或商品配送中心就可以利用这一性质,因而在工程设计中有应用价值。
定性数据也可以计算中位数。举一个简单的例子,假设对一个新的学习方法,一个人认为很好、一个认为好、一个认为一般,则回答的中位数就是“好”。一般的回答在好以上,一般在好以下。
3.3.2 中位数
中位数也有一些缺点:
除了中间值,中位数并未利用其它观测值。这样它就没有利用数据中的所有信息。
中位数对极端值不敏感,这在某些情况下是一种缺点。

3.3.3 均值
对中心位置(central location)或集中趋势(center tendency)的描述,最常用的是均值(mean),记为 。为了求出均值,需要将所有观测值的值相加并且用观测值的个数来除(在本章末给出了均值的计算公式)。
如果我们根据观测值的大小把它们放在跷跷板上,则跷跷板会在均值处达到衡。对于安然公司股票变化数据,均值为-0.37。我们可以想象一下,假如每个股票变化数据都一样重要,并且按照它们的数值的大小排在一个水平的木板上,则杠杆会在0处达到平衡。下面的图形象的说明了均值是观测值的重心。

3.3.3 均值
均值具有以下的重要性质:
一组数据只有一个样本均值,样本均值具有唯一性。
均值对变量的每一个观测值都加以利用。这就意味着比起众数、中位数,它会获得更多的信息。以后我们会说明,比起中位数与众数来,从均值中更容易获得信息。
每一数值相对于均值的偏离之和总是为0,均值是唯一一个具有此性质的集中趋势的度量方法。因此,我们可以将均值视作为一组数据的重心或平衡点。

3.3.3 均值
当数据集有极端值时,我们最好不使用均值。
例如,假设5家企业的年销售额分别为62.9万元、61.6万元、62.5万元、60.8万元和120万元。可得均值为73.56万元。很明显,这一数值对该小组并不具有代表性,120万元过度的影响了均值。
但小观测值与大观测值数量大致相同时,均值则是很好的统计量,因为小的观测值与大的观测值相互抵消了。
如果数据的分布是不对称的,我们最好使用中位数而不是均值,这因为中位数对极值并不敏感。为了决定对一个数据集是使用均值还是中位数,最好两种都算出来。如果它们的值很接近,则我们使用均值,如果它们有很大的不同,则我们使用中位数。
有时候还需要使用加权平均数。加权平均数是算术平均数的一种特殊形式。它应用在下面的情况中:如果数据已经分组得到了频数分布,一些观测可能具有相同的数值,此时一个较为简便的计算均值的方法是计算加权平均数。也就是说,我们将每个观测值与它出现的次数相乘。用 来代表加权平均数。
3.3.3 均值
小时数 灯泡数f 组中值x
43-48 2 45.5
48-53 1 50.5
53-58 2 55.2
58-63 21 60.5
63-68 28 65.5
68-73 28 70.5
73-78 33 75.5
78-83 26 80.5
83-88 21 85.5
88-93 19 90.5
93-98 10 95.5
98-103 6 100.5
103-108 2 105.5
108-113 0 110.5
113-118 1 115.5
200只灯泡使用寿命频数分布表

3.3.4 众数、中位数和均值间的关系
左偏
右偏
对称
三者的近似关系
3.3.5 几何平均数
n个正数的几何平均数被定义为这n个值的乘积的n次方根,其计算公式可以表示为:
其中 (i=1,2,…,n)是百分比。如果 相应的权重为 ,则得到加权几何平均数,计算公式为:
3.3.6 切尾均值
切尾均值(trimmed mean)是将观测值两端的个别极大或极小值切去,然后再对中间的观测值进行平均。
切尾均值现已广泛应用于电视大奖赛、体育比赛及需要由人们进行综合评价的竞赛项目,我们在电视中所熟悉的“去掉一个最高分,去掉一个最低分,最后得分是×分”就是利用切尾均值方法进行的评估。
式中:n表示观测值个数,
表示切尾系数,

是观测值经过派对后由小到大形成的顺序统计量值。
3.3.6 切尾均值
例如某次比赛共有11名评委,对某位歌手的给分分别是 9.22、9.25、9.20、9.30、9.65、9.30、9.27、9.20、9.28、9.25、9.24经整理,顺序统计量为9.20、9.20、9.22、9.24、9.25、9.25、9.27、9.28、9.30、9.30、9.65,如去掉一个最高分,去掉一个最低分,取 =1/11,则由公式计算可得切尾均值=9.26。这个平均得分避免了9.65 分这个极端高分的影响。
改变 值可以选择数据集中趋势的测度值。
切尾均值是综合了均值和中位数两种计量优点的一种新的对集中趋势测度的计量。
当 =0时,切尾均值等于均值:当 接近1/2时,切尾均值接近于或等于中位数。

上下四分位数(或分别称为第一四分位数和第三四分位数,first quantile, third quantile)则分别位于(按大小排列的)数据的上下四分之一的地方。
3.3.7分位数
回答类别 频数 频率% 累积次数
向上 向下
非常不满意 不满意 一般 满意 非常满意 24 108 93 45 30 8 36 31 15 10 24 132 225 270 300 300
276
168
75
30
合 计 300 100 - -
QL=不满意
QU=满意
Me=一般
甲城市家庭对住房状况的评价
四分位数
一般地还称上四分位数为75百分位数(75 pecentile,有75%的观测值小于它),下四分位数为25百分位数(有25%的观测值小于它)。
一般地,k百分位数(k-pecentile)意味着有k%的观测值小于它。
如果令a=k%,则k百分位数也称为a分位数(a-quantile)。
百分位数
Mo=可口可乐
甲商店
乙商店
Mo=可口可乐
0
10
20
可口可乐
雪碧

仁露

骑士
醒目
0
10
20
可口可乐
雪碧

仁露

骑士
醒目
两商店饮料购买频数的众数都是可口可乐,但数据的离散程度不同。
3.4 分布的离散程度
这两个数据“胖瘦”一样吗?
3.4 分布的离散程度
数据中数目的分散程度由尺度统计量(scale statistic)来描述。
尺度统计量是描述数据散布,即描述集中与分散程度或变化(spread或variability)的度量。统计中有许多尺度统计量。一般来说,数据越分散,尺度统计量的值越大。
3.4 分布的离散程度
从前面两个高三男生身高数据的箱线图。左边的数据平均要高些,但右边的数据散布范围要小得多。
极差(range)是极大值和极小值之间的差。
前面两个高三男生身高数据的极差分别为50cm和32cm。
箱线图盒子的长度为两个四分位数之差,称为四分位数极差或四分位间距(interquantile range)。它描述了中间半数观测值的散布情况。
极差和四分位极差实际上各自只依赖于两个值,信息量太少。
3.4.1极差和四分位差
QU=85
QL=67
小时数 灯泡数 累积
43-48 2 2
48-53 1 3
53-58 2 5
58-63 21 26
63-68 28 54
68-73 28 82
73-78 33 115
78-83 26 141
83-88 21 162
88-93 19 181
93-98 10 191
98-103 6 197
103-108 2 199
108-113 0 199
113-118 1 200
200只灯泡使用寿命频数分布表
四分位差与箱线图
50% 的观测值集中于盒子之内。盒子越窄,表明集中程度越高,即离散程度越低。
四分位差
另一个常用的尺度统计量为(样本)标准差(standard deviation)。度量样本中各数值到均值距离的一种平均。
标准差实际上是方差(variance)的平方根。如果记样本中的观测值为x1,…,xn,则样本方差为
3.4.2标准差和方差
观测值的大小大致不超过均值加减4个标准差的范围。
两个均值一样,但右边的要“胖”些,方差为左边的一倍
3.4.2标准差和方差
3.4.3均值的标准误差
对不同的样本,样本均值通常也是不同的。重复产生的各均值的差异是多大呢?它们是否比个体观测的差异小或相同呢?
为了区别这两种标准差,由原始观测值算出的叫做标准差(standard deviation),由一组均值算出的叫做标准误差(standard error,s.e.)或均值的标准差(standard error of mean)。
3.4.3均值的标准误差
均值的标准误差比观测值的标准差小,这就是说,均值的变化比变量原始观测值的变化小。
在60个安然股票价格变化的例子中,从多个样本中得到的均值的标准误差是0.8。这个例子中的标准差是6.3。显然,均值的标准误差比观测值的标准差小很多。
均值的标准误差是一个很有用的统计量。在安然股票的例子中,两倍的标准误差是1.6。加减两倍的均值的标准误差可以得到一个长度为3.2的区间。如果我们有足够的样本和样本均值,那么大部分的样本的均值会落在这个3.2的区间之中。
3.4.4 变异系数
当进行两个或多个数据集变异程度的比较时,如果均值相同,可以直接利用标准差来比较。
但是如果均值不同时,比较其变异程度还能采用标准差吗?
假设有一群大象和一群小老鼠,现在想知道大象家族的体重差异大还是老鼠家族的体重大?显然,大象的体重远远高于老鼠,此时要比较各自体重差异就不能采用标准差,而需采用标准差与平均数的比值(相对值)来比较。
3.4.4 变异系数
变异系数(coefficient of variation),记为CV,计算公式为
那么何时使用变异系数呢?一般的,如果数据具有以下特点之一,就可以使用变异系数。
数据具有不同的单位(比如工资和矿工的天数)
数据具有相同的单位,但是均值相差甚远(比如大象和老鼠的体重)
偏度计算公式
α3>0正偏(右偏);
α3<0 负偏(左偏);
α3=0对称 ;
α3 越大,偏态程度越大。
3.5分布形态的描述:偏度
分组 组中值 频率
5以下 5-10 10-15 15-20 20-25 25-30 30-35 35-40 40-45 45-50 50以上 2.5 7.5 12.5 17.5 22.5 27.5 32.5 37.5 42.5 47.5 52.5 2.28 12.45 20.35 19.52 14.93 10.35 6.56 4.13 2.68 1.81 4.91 -154.64
-336.46
-144.87
-11.84
0.18
23.16
89.02
171.43
250.72
320.74
1481.81
合计 - 100 1689.25
我国乡村家庭收入数据
3.5分布形态的描述:偏度
峰度计算公式
α4>3 尖顶峰;
α4 =3 正态峰 ;
α4<3 平顶峰。
3.5分布形态的描述:峰度
分组 组中值 频率
5以下 5-10 10-15 15-20 20-25 25-30 30-35 35-40 40-45 45-50 50以上 2.5 7.5 12.5 17.5 22.5 27.5 32.5 37.5 42.5 47.5 52.5 2.28 12.45 20.35 19.52 14.93 10.35 6.56 4.13 2.68 1.81 4.91 2927.15
4686.51
1293.53
46.52
0.20
140.62
985.49
2755.00
5282.94
8361.98
46041.33
合计 - 100 72521.25
我国乡村家庭收入数据
3.5分布形态的描述:峰度
3.6数据的标准得分
标准得分含义的图示
xi (一班分数)
58.67
69.1
78.53
87.96
97.39
Zi (标准得分)
-2.00
-1.00
0
1.00
2.00
虽然这种均值和标准差不同的数据不能够直接比较,但是可以把它们进行标准化,再比较标准化后的数据。一个标准化的方法是把某样本原始观测值(亦称得分,score)和该样本均值之差除以该样本的标准差;得到的度量称为标准得分(standard score,又称为z-score)
在我们的例子中,王二的标准得分为(90-78.53)/9.43=1.22,而张三的标准得分为(82-70.19)/7=1.69。
显然如果两个班级平均水平差不多,张三的成绩应该优于王二的成绩;这是在标准化之前的数据中不易看到的。
3.6数据的标准得分
可以看出,原始数据是在各自的均值附近,而散布也不一样。但它们的标准得分则在0周围散布,而且散布也差不多。实际上,任何样本经过这样的标准化后,就都变换成均值为0、方差为1的样本。标准化后不同样本观测值的比较只有相对意义,没有绝对意义。
3.6数据的标准得分
3.7 误用描述方法扭曲事实
一个图形可能“胜于千言”,但是图形也能夸张信息或扭曲事实。
事实上,无论是无意识的还是不道德统计行为的结果,统计图形(例如直方图、条形图、时间序列图等等)是很容易受到扭曲的。
3.7.1图形的曲解
某行业季度销售额数据如下图所示。
某行业季度销售额数据(单位:百万元)
(a)中以100(百万元)为纵轴单位,看上去四个季度的销售额差不多。实际上,如果以25(百万元)作为纵轴单位,同样的数据在(b)中就不难看出一、二、三季度的销售额不断增加,第四季度锐减。
3.7.1图形的曲解
美国《纽约邮报》(New York Post)1981年4月刊登了如图2.18所示的统计图,并配上《纽约邮报》发行量在惊人地攀升的标题。
美国《纽约邮报》和《新闻报》的发行量
猛一看图(a),《纽约邮报》(Post)和《新闻报》(News)的发行量正在接近,似乎已经没有什么差别。仔细观察的话,你会发现左边图中有两处错误。一是纵轴的发行量是从500 000为起点,而不是0;二是纵轴从800 000直接就跳到1 500 000,数据间断又没有注明,就人为地造成两种报刊发行量接近的错觉。正确的画法如图(b)所示。
3.7.2易引起误解的汇总数字描述统计
利用数值描述方法也会扭曲数据信息。
假设你正考虑分析销售行业的纳税情况。询问了两个同事——一个资格较老的同事和一个年轻同事,得到两个答复:
答复A:资格老的同事说该行业的“一般企业”的纳税额为875000元。
答复B:资格年轻的同事说该行业的“一般企业”的纳税额为750000元。
你会相信哪个答案呢?
之所以存在混淆,是因为“一般企业”没有定义清楚。假设这四种企业的纳税额是:三个规模小的企业的平均纳税额为750000元,而一个规模大的企业的纳税额为1250000元。这样,
可以看出,资格老的职员说的是四个企业的平均值,而年轻的职员说的是中位数。
3.7.2易引起误解的汇总数字描述统计
因为没有说明用什么测量集中趋势,这使得你收到的信息被扭曲了。
基于我们前面对于均值和中位数的讨论,或许中位数应该是描述职员“平均”纳税额最好的度量。
当所报道的集中趋势度量只有一个时,在样本中会发生另一种信息的扭曲。 当集中趋势的测度和变异程度的测度都具备时,我们才能对数据集有准确的了解。
SPSS操作
由 Descriptive Statistics 计算(标准得分)
由 Frequencies 计算(均值、众数、中位数等等)
由 Explore 计算
特别的,在Explore中能得到统计量和统计图.
具体操作是:选择分析->描述统计->探索,再把你关心的变量选入到因变量列表;并在输出中点击两者都;然后在统计量和绘制中进行选择,可以同时得到所选择的变量的众多汇总统计量(其中有一些本章没有介绍)以及茎叶图、直方图、箱线图等。

展开更多......

收起↑

资源预览