资源简介 (共39张PPT)统计学:思想、方法与应用欢迎交流新浪微博http:///qingyuanliu第2章分类数据的描述方法2.1 数据分析的三个原则2.2 频数表2.3 统计图2.4 列联表学习目标用频数表描述数据的分布;用条形图、饼图、百分条图等图形来展示数据;用列联表分析两个分类指标之间的关系;相关理论在统计软件中的应用;相应统计分析结果的解读。在收集好数据之后,我们必须在数据中寻找所包含的信息。虽然我们在电子表格或其他数据文件中可以直接看到数据,但是数据如此之多,以至于我们无法把他们全部理解。因此,我们必须使用一些方法从数据中提取信息,并转化成可用的形式。数据分析包括三种形式:为数据画一个图,制作一个表或者计算一些我们感兴趣的东西。这可以帮助我们对数据进行简化。简化使得理解数据和从数据中提取信息变得容易了。但是数据简化有一个不足之处,就是难以从简化的形式中恢复原始数据,因此,当我们分析数据时,几乎总会丢失某些信息。2.1数据分析的三个原则一幅好图胜千言。数据分析有三个原则:1、绘制一个图。图像可以帮助你看到从数据表里看不到的信息,有助于你选择分析的方法,帮你明确思考隐藏在数据背后的模式和关系。2、绘制一个图。精心设计的图像在分析工作中很重要。它能够展现重要的特征和模式,有时候可以揭示出你意想不到的事情:值得注意的(可能是错误的)数据或意想不到的模式。3、绘制一个图。使用一个精心挑选的图像是向其他人汇报你的数据分析结果的最佳方式。2.2频数表频数表(frequency table)或频数分布表(frequency distribution table)可以帮助了解变量取值的分布状况。频数表是遵循既不重叠又不遗漏的原则,按变量(数据特征)的取值归类分组,把总体的所有单位按组归并排列,其各个组别所包含的数据数目(频数)的汇总表格。简而言之,频数表包括两个要素:总体按其标志所分的组和各组所分布的单位数量。 2.2频数表表2.1是KEEN网站的访问者使用的搜索引擎的频数表, “Direct”表示直接输入网址访问。该表给出了搜索引擎的类别名称,每个类别的访问数量以及合计数量。表2.1 访问KEEN网站的访问者使用的搜索引擎的频数表搜索引擎 访问量Google 50629Direct 22173Yahoo 7272MSN 3166SnapLink 946其他 8987总计 93173 2.2频数表表2.2 是访问KEEN网站的访问者使用的搜索引擎的相对频数表,表中展示了每个类别的访问比例。通过这种方式,我们可以描述分类变量的分布。表2.2相对频数表搜索引擎 访问量Google 54.34%Direct 23.80%Yahoo 7.80%MSN 3.40%SnapLink 1.02%其他 9.65%总计 100%2.3统计图如果想获得更生动的展示,我们可以使用统计图。统计图是用几何图形或具体事物的形象来表现统计数据的一种形式。统计图既可以节省大量文字叙述,又可便于数据的对比分析与积累。利用统计图表现统计数据,能更为鲜明醒目、一目了然、形象具体地显示现象之间的相互关系。按照图形的形式,统计图大体上可以分为几何图、象形图和统计地图三种。2.3统计图(1)几何图。几何图是利用几何的形和线来表明统计数据的图形,包括条形图、饼图等。(2)象形图。象形图是以表示现象本身形象的长度、大小、多少来表示数值大小的一种图形。例如用油桶的大小表示的某地1990年、2000年和2005年三年的原油产量如左图所示:(3)统计地图。统计地图是用不同的颜色或纹理表示变量或某种指标在地域上的分布特征及规律,用以显示不同地域事物数量的分布情况。例如可以利用颜色的深浅来表示某地区各县某种产品的生产情况。如右图所示:2.3.1面积原则在得到频数表之后,我们就可以按照数据分析的三个原则来对数据进行绘图。但是不能随便做图,因为一个糟糕的图像反而会歪曲我们对数据的认识。例如,尽管大部分的人都是通过Google来访问KEEN网站,但是图2.1展示的情况是浏览者似乎全部是通过Google来访问KEEN网站。问题出在哪里呢?图2.1 一个容易让人迷惑的图2.3.1面积原则图2.1中的凉鞋的长度对应着频数表中的数据,但是我们的眼睛更容易被凉鞋的“面积”或者“体积”迷惑。通过Google来访问KEEN网站的人数是直接输入网址来访问的人数的2倍多,代表通过Google来访问KEEN网站的凉鞋的长度就是代表直接输入网址来访问的2倍多,但是前者的面积是后者的4倍多,于是我们从这个图上就会有错误的认识。获得最佳数据展示的一个基础原则就是面积原则,即图像一部分所占的面积应该与数据的量级对应。2.3.2条形图和柱形图分类数据的一个常用统计图是条形图(bar chart,bar plot, bar graph)。条形图是用等宽直条的长短来表示各个相互独立的指标大小的图形,适用于相互独立的数据(数据有明确分组,不连续)。条形图可以描述那些已经用频数或频率汇总了的定性变量。一个坐标轴代表定性变量的各个取值,在每个变量位置的条的长度和其所代表的水平的频数或频率成比例。条形图分为单式和复式两种,单式适用于只有一组观察数据,复式适用于有若干组观察数据。条形图有很多变种。比如,纵轴和横轴可以互换,这决定条形是垂直放置(柱形图)还是水平放置。条形图还可以描述离散定量变量数据的频数、频率或概率分布。2.3.2条形图和柱形图图2.2是通过搜索引擎访问的条形图,该图遵守了面积原则。做法:在Excel中使用“插入图表”工具按钮,选择柱形图或条形图。图2.2 通过搜索引擎访问的条形图2.3.2条形图和柱形图如果我们想了解搜索引擎的频率,还可以画出相对频数条形图(relative frequency bar chart),如下图2.3所示。图2.3 通过搜索引擎访问的相对频数的条形图2.3.3帕累托图帕累托图(pareto chart)是以意大利经济学家V.帕累托(1848---1923年)的名字命名的,又称主次因素分析、排列图。帕累托图是根据“关键的少数和次要的多数”的原理而制做的。根据表2.1中不同类型搜索引擎的频数分布表绘制的帕累托图如图2.8所示。 图2.8不同类型搜索引擎的频数分布表绘制的帕累托图 该帕累托图表明:对网站的访问主要途径依靠Google和Direct,KEEN公司需要在这两个途径上进行加强和改进。2.3.4饼图饼图(pie chart)又叫圆形图,是一个圆面积为100%,由许多扇形组成的圆,各个扇形的大小比例等于变量各个水平(或类别)的频率或比例,即表示了不同组成部分的相对重要性。饼图对描述定类尺度的数据特别有用。Excel中使用“插入图表”工具按钮,选择饼图。饼图比条形图简单,描述比例较直观。但是当变量太多时,饼图就不那么好看了。2.3.4饼图图2.8是搜索引擎访问的相对频数表的饼图。饼图中列出了每个类别的名称、频数和频率。从饼图可以比较不同类别之间的差异。但是,有时候我们不容易看出不同类别之间的差异。比如,从饼图能看出通过Yahoo访问量大还是通过其他方式访问的量大?这很难讲,因为这两块的面积看起来似乎一样大。而这个比较在条形图中是很容易看出来的,在条形图2.2中我们很容易看出来自于Yahoo的访问量较小。2.4 列联表为了了解不同地区或市场对这款新凉鞋款式的接受程度,调查了5个国家769名顾客,收集了两个变量:态度和国家,数据见表2.5。这些变量每个都有两个或更多的可能取值,这些取值称为变量的水平。表2.5中对新凉鞋的态度就有“完全赞成、有些赞成、既不反对也不赞成、有些不赞成、完全不赞成、不知道”六个水平,国家类别包括了五个国家,表示该变量有5个水平。为了分析的方便,我们往往用水平用符号或数字代码来表示这些变量,例如:对新凉鞋的六种态度就可以用代码1、2、3、4、5、6表示;五个国家可以用代码1、2、3、4、5或者A、B、C、D、E表示。 国家(country) 态度(attitude) 频数(count)中国 完全赞成 52中国 有些赞成 58中国 既不反对也不赞成 25中国 有些不赞成 12中国 完全不赞成 3中国 不知道 1法国 完全赞成 35法国 有些赞成 48法国 既不反对也不赞成 40法国 有些不赞成 21法国 完全不赞成 9法国 不知道 2印度 完全赞成 96印度 有些赞成 28印度 既不反对也不赞成 13印度 有些不赞成 7印度 完全不赞成 10印度 不知道 0英国 完全赞成 21英国 有些赞成 41英国 既不反对也不赞成 50英国 有些不赞成 23英国 完全不赞成 18英国 不知道 3美国 完全赞成 31美国 有些赞成 48美国 既不反对也不赞成 45美国 有些不赞成 19美国 完全不赞成 10美国 不知道 32.4 列联表根据表2.5,整理得到这些顾客对新凉鞋的态度如下表2.6:表2.6 对新凉鞋的接受态度的调查数据表对新凉鞋的态度 计数 相对频数完全赞成 235 30.44%有些赞成 223 28.89%既不反对也不赞成 173 22.41%有些不赞成 82 10.62%完全不赞成 50 6.48%不知道 9 1.17%总计 772 100.00%2.4 列联表对表2.6,可以通过前面介绍的饼图和条形图来了解顾客对新凉鞋款式的接受状况。下面的饼图反映出有一半的顾客赞成新款式(包括有些赞成和完全赞成两部分)。2.4 列联表不同国家的顾客对该鞋款式的态度是怎么样的,有没有区别?换句话说,对该鞋新款式的态度是否随着国家的改变而变化。为了获得答案,我们需要把根据两个分类变量(即“对新凉鞋的态度”和“国家”)汇总得到的数据放在一个二维列联表里面,见表2.7。2.4 列联表表2.7 对新凉鞋的接受态度的调查数据表(列联表)对新凉鞋的态度完全赞成 有些赞成 既不反对也不赞成 有些不赞成 完全不赞成 不知道 总计国家 中国 52 58 25 12 3 1 151法国 35 48 40 21 9 2 154印度 96 28 13 7 10 0 154英国 21 41 50 23 18 3 156美国 31 48 45 19 10 3 156总计 235 223 173 82 50 9 7722.4 列联表列联表(contingency table)是由两个或两个以上变量进行交叉分类得到的频数分布表。列联表中间的各个变量不同水平的交汇处,就是这种水平组合出现的频数或计数(count)。比如表2.7中的“中国”这一行的数字52,表明有52名中国顾客完全赞成新凉鞋的款式。构成列联表的变量都是定性变量或定序变量。一个 r 行 c 列的列联表称为 r×c 列联表,一般的把2×2的二维列联表又称为交叉表(cross table)。列联表可以有很多维。维数多的叫做高维列联表。2.4 列联表注意到表2.7还展示了每一行人数的总和及每一列的总和,分别放在最后一列和最后一行中。实际上,最后一行就是表2.6中的数据,即对新凉鞋态度的频数分布。列联表的最后一列反应的是变量“国家”的频数分布。在统计上就把列联表的这两部分数据称为对应变量的边际分布(marginal distribution)。2.4 列联表我们可能还想知道哪个国家的顾客更赞成新凉鞋的款式,哪个国家的顾客更反对新凉鞋的款式,或者哪个国家的顾客觉得无所谓?比如,我们看完全赞成这一列,我们可以看到印度赞成人数为96人,英国赞成人数仅21人,我们能否认为相对于印度的顾客,英国顾客不太赞成新凉鞋的款式呢?对这类问题的回答可以采用百分数。2.4 列联表列联表中有三种百分数,用列联表中的数据除以最后一列的数据得到行百分数(row percent),例如,在中国顾客中,完全赞成的比例(行百分数)为52/151=34.44%。用列联表中的数据除以最后一行的数据得到列百分数(column percent),例如,在完全赞成的顾客中,中国顾客的占比(列百分数)为52/235=22.13%。而用列联表中的数据除以总的顾客数772得到总的百分数(total percent),例如。在中国顾客中完全赞成的人数占总人数的比例为52/772=6.74%。2.4 列联表表2.8 给出了每个数据的三种百分数的列联表国家* 态度 交叉制表 态度 合计完全赞成 有些赞成 既不反对也不赞成 有些不赞成 完全不赞成 不知道国家 中国 计数 52 58 25 12 3 1 151国家 中的 % 34.44% 38.41% 16.56% 7.95% 1.99% 0.66% 100.00%态度 中的 % 22.13% 26.01% 14.45% 14.63% 6.00% 11.11% 19.56%总数的 % 6.74% 7.51% 3.24% 1.55% 0.39% 0.13% 19.56%法国 计数 35 48 40 21 9 2 155国家 中的 % 22.58% 30.97% 25.81% 13.55% 5.81% 1.29% 100.00%态度 中的 % 14.89% 21.52% 23.12% 25.61% 18.00% 22.22% 20.08%总数的 % 4.50% 6.20% 5.20% 2.70% 1.20% 0.30% 20.08%印度 计数 96 28 13 7 10 0 154国家 中的 % 62.34% 18.18% 8.44% 4.55% 6.49% 0.00% 100.00%态度 中的 % 40.85% 12.56% 7.51% 8.54% 20.00% 0.00% 19.95%总数的 % 12.44% 3.63% 1.68% 0.91% 1.30% 0.00% 19.95%英国 计数 21 41 50 23 18 3 156国家 中的 % 13.46% 26.28% 32.05% 14.74% 11.54% 1.92% 100.00%态度 中的 % 8.94% 18.39% 28.90% 28.05% 36.00% 33.33% 20.21%总数的 % 2.72% 5.31% 6.48% 2.98% 2.33% 0.39% 20.21%美国 计数 31 48 45 19 10 3 156国家 中的 % 19.87% 30.77% 28.85% 12.18% 6.41% 1.92% 100.00%态度 中的 % 13.19% 21.52% 26.01% 23.17% 20.00% 33.33% 20.21%总数的 % 4.02% 6.22% 5.83% 2.46% 1.30% 0.39% 20.21%合计 计数 235 223 173 82 50 900.00% 772国家 中的 % 30.44% 28.89% 22.41% 10.62% 6.48% 1.17% 100.00%态度 中的 % 100.00% 100.00% 100.00% 100.00% 100.00% 100.00% 100.00%总数的 % 30.44% 28.89% 22.41% 10.62% 6.48% 1.17% 100.00%2.4 列联表为了更便于理解,我们可以把对应于总的百分数的这部分数据单独拿出来,见表2.9。表2.9 展示总的百分数的列联表对新凉鞋的态度完全赞成 有些赞成 既不反对也不赞成 有些不赞成 完全不赞成 不知道 总计国家 中国 6.74% 7.51% 3.24% 1.55% 0.39% 0.13% 19.56%法国 4.53% 6.22% 5.18% 2.72% 1.17% 0.26% 19.95%印度 12.44% 3.63% 1.68% 0.91% 1.30% 0.00% 19.95%英国 2.72% 5.31% 6.48% 2.98% 2.33% 0.39% 20.21%美国 4.02% 6.22% 5.83% 2.46% 1.30% 0.39% 20.21%总计 30.44% 28.89% 22.41% 10.62% 6.48% 1.17% 100.00%2.4 列联表使用列联表更感兴趣的问题是了解变量之间有没有关联。比如,我们希望知道中国人完全赞成新款式的比例与美国人完全赞成新款式的比例有没有区别,换句话说,被调查着对新款式的赞成是否依赖于被调查者所在的国家。可以从两方面看这个问题。首先,每个国家的对新凉鞋态度的分布是怎样的,这需要看表2.8的行百分数,于是得到表2.10。2.4 列联表表2.10 以国家的两个取值(中国和美国)的条件的对新凉鞋态度的条件分布态度 合计完全赞成 有些赞成 既不反对也不赞成 有些不赞成 完全不赞成 不知道中国 计数国家 中的 % 52 58 25 12 3 1 15134.4% 38.4% 16.6% 7.9% 2.0% .7% 100.0%美国 计数国家 中的 % 31 48 45 19 10 3 15519.9% 30.8% 28.8% 12.2% 6.4% 1.9% 100.0%2.4 列联表分别看表2.10的每一行,我们可以在选中国家的前提下得到对新凉鞋态度的条件分布。每一行的百分数之和都为100%,根据被调查者的回答分配百分数。实际上,我们可以把被调查者限制为在中国的顾客,这样可以了解他们的态度是如何分布的,这样的分布称为条件分布(conditional distribution),因为它表示了那些调查在满足一个条件的前提下得到的感兴趣的一个变量的分布。2.4 列联表我们可以使用饼图比较两个条件分布,见图2.13。从图中可以看出,中国新款式赞成的比例高于美国。图2.13 中国和美国分别关于新凉鞋款式的态度调查的饼图2.4 列联表要了解每一行的百分数的变化,还可以通过条形图进行观察,这也是展示条件分布的一种方式。图2.14 中国和美国分别关于新凉鞋款式的态度调查的并排的条形图2.4 列联表在列联表里还有一种情况是,如果一个变量的分布对于另一个变量的所有取值保持不变,则我们可以说这个两个变量是独立的(independent),这表明这些变量之间没有关联。2.4 列联表列联表中的一个经典例子就是著名的泰坦尼克号邮轮的海难数据。该数据有4个定性变量:(1) 仓位等级(Class):分一等舱(1st)、二等舱(2nd)、三等舱(3rd)、船员(Crew)四个水平;(2) 性别(Sex):有男(Male)、女(Female) 两个水平;(3) 年龄:有儿童(Child)、成年人(Adult)两个水平;(4) 是否生还(Survived):分否(No)、是(Yes)两个水平。2.4 列联表该数据最简单的表格是两维的表格。下面是基于性别与否生还两个变量得到的2×2表格。从表中可以看出男性生还的人数比女性多23个,但男性死亡的比女性多1138个。是否生还否 是性别 男性 1364 367女性 126 3442.4 列联表如果把四个变量都选入,就得到4×2×2×2表。显然这样的表格看起来就罗唆多了。仓位登记 一等舱 二等舱 三等舱 四等舱性别 年龄 是否生还 否 是 否 是 否 是 否 是男性 儿童 0 5 0 11 35 13 0 0成年人 118 57 154 14 387 75 670 192女性 儿童 0 1 0 12 17 14 0 0成年人 4 140 13 80 89 76 3 20 展开更多...... 收起↑ 资源预览