资源简介 (共47张PPT)统 计 学第三章 数据的描述1——数据的直观显示第三章 数据的描述1----数据的直观显示§1 用统计表描述数据§2 用统计图描述数据§1 用统计表描述数据§1.1 统计表的构成§1.2 统计表的类型§1.3 统计表的编制规则§1.4 数据的统计表描述§1.1 统计表的构成统计表一般是由四个主要部分构成:表头,行标题,列标题,数据资料,必要时需要在统计表的下方加上表外附加。§1.2 统计表的类型1.简单表行标题或列标题中的变量指标未经过任何分类,只是反映各变量的名称或按时间顺序简单排列。也称一览表。表3-2 2011年我国主要宏观经济运行指标主要宏观经济指标 单位 数值国内生产总值 亿元 472881.6就业人数 万人 76420居民消费价格指数 —— 105.4农村居民家庭人均纯收入 元 6977.3城镇居民家庭人均可支配收入 元 21809.8资料来源:中国国家统计局网站《2012年统计年鉴》§1.2 统计表的类型2.分组表行标题或列标题中的变量指标按照一定标志进行了分类,也称简单分组表。它可以揭示出现象的不同类型的特征,研究现象的内部结构。表3-3 2003-2011年我国黄金和外汇储备年份 黄金储备(万盎司) 外汇储备(亿美元)2003 1929 4032.512004 1929 6099.322005 1929 8188.722006 1929 10663.42007 1929 15282.492008 1929 19460.32009 3389 23991.522010 3389 28473.382011 3389 31811.48资料来源:《2012年中国统计年鉴》§1.2 统计表的类型3.复合表行标题或列标题中的变量指标按照两个或两个以上的标志层叠分类所形成的统计表。表3-4 2006-2011年主要年份国内生产总值及其构成 单位:亿元年 份 国内生产总 值第一产业 第二产业 第三产业工 业 建筑业2006 216314.4 24040 103719.5 91310.94 12408.61 88554.882007 265810.3 28627 125831.4 110534.9 15296.48 111351.92008 314045.4 33702 149003.4 130260.2 18743.2 1313402009 340902.8 35226 157638.8 135239.9 22398.83 1480382010 401512.8 40533.6 187383.2 160722.2 26660.98 1735962011 472881.6 47486.21 220412.8 188470.2 31942.66 204982.5资料来源:《2012年中国统计年鉴》§1.2 统计表的类型4.交叉表行标题和列标题中的变量指标同时采用分类的形式来表示,使得数据依据行或列变量分类结果在交叉的单元格中显示。表3-5 某项调查被访问者受教育水平和性别分布交叉表受教育水平 性别 合计人数(人) 百分比(%)男 女小学及以下 100 140 240 8初中 500 460 960 32高中 600 630 1230 41大学及以上 260 310 570 19合计 1460 1540 3000 100§1.3 统计表的编制规则编制统计表的基本指导原则:“简练、美观、科学、实用”表头结构计量单位线条数据表外附加§1.4 数据的统计表描述§1.4.1 定性变量的统计表描述定性变量包括分类变量和顺序变量两种类型。分类变量的取值是对事物的一种分类,而顺序变量的取值是对事物的分类排序。在整理和描述定性变量时,需要根据分类变量和顺序变量的取值进行统计分组,同时计算每一组对应的频数。§1.4.1 定性变量的统计表描述分类变量频数(frequencey)是指落在某一特定类别(或组)中的数据个数。频率或比例(proportion)把各类的频数与全部频数之和求比值得到。频数分布(frequency distribution)和频率分布把各个类别及其相应的频数或频率全部列出,并用统计表的形式表现出来形成。§1.4.1 定性变量的统计表描述例如:假设某项调查中3000名被访问者按性别分类(组)后,即可整理得到男性和女性的人数,从而得到每一类的频数、频率以及比例分布表:表3-7 某项调查3000名被访问者按性别分组性别 频数(人) 频率 百分比例(%)男 1460 0.4867 48.67女 1540 0.5133 51.33§1.4.1 定性变量的统计表描述顺序变量累积的方法向上累积:从顺序变量取值的最小一方,向最大一方累加。向下累积:从顺序变量取值的最大一方,向最小一方累加。累积频数:将顺序变量各个取值的观测频数逐级累加起来得到的频数。累积频率或累积百分比将顺序变量各取值所对应频数的百分比累加起来得到的百分比,§1.4.1 定性变量的统计表描述例如:假设某项调查中3000名被访问者按照受教育水平高低可分为四大类时,除了可以得到每一类所对应的频数、比例分布表,还可计算累积频数或频率分布表:表3-8 被访者受教育水平累积分布表受教育水平 人数(人) 百分比(%) 向上累积 向下累积频数(人) 频率(%) 频数(人) 频率(%)小学及以下 240 8 240 8 3000 100初中 960 32 1200 40 2760 92高中 1230 41 2430 81 1800 60大学及以上 570 19 3000 100 570 19合计 3000 100§1.4.2 定量变量的统计表描述对于定量变量,通常采用统计分组,得到每一组所对应的频数、频率或比例表,用来对数据特征进行描述。统计分组按照分组标志的不同可分为:单变量分组组距分组§1.4.2 定量变量的统计表描述单变量分组:把每一变量取值都作为分组标志。这种方法适用于离散型变量,且变量取值较少时的情形。例如:某项调查中100名调查员每人调查的有效问卷数。表3-9 100名调查员的有效问卷数95 101 103 105 107 108 110 111 114 115115 116 116 121 122 122 124 124 125 125125 126 126 128 128 131 131 132 133 133134 134 135 135 135 136 136 136 137 138139 139 140 140 142 142 142 143 143 144144 144 145 145 145 145 147 147 147 148152 153 153 153 154 154 154 154 155 155155 155 156 156 159 160 161 163 163 163163 165 166 166 166 167 171 171 171 174175 177 178 179 180 182 182 188 191 196§1.4.2 定量变量的统计表描述对于有效问卷数处于130到150份之间的调查员根据其问卷数进行单变量分组,得到分组表:表3-10 调查员按有效问卷数单变量分组问卷数 频数 问卷数 频数131 2 139 2132 1 140 2133 2 142 3134 2 143 2135 3 144 3136 3 145 4137 1 147 3138 1 148 1§1.4.2 定量变量的统计表描述单变量分组会使得分组过细,组数过多,不利于观察数据分布的特征和规律。对于连续型变量也无法采用单变量分组方式。在连续型变量或变量取值较多的情况下,通常采用组距分组。§1.4.2 定量变量的统计表描述组距分组将全部变量取值划分为若干个区间,并将这一区间值作为分组标志1.确定组数:按照经验公式来确定组数n:为数据个数,对结果四舍五入取整即可得到经验分组数。2.确定各组的组距:组距是一组的上限与下限数值的差。当采用等距分组时,组距=(最大值-最小值)÷组数。定量变量进行统计分组表描述时遵循“不重不漏”原则,为此,对于组距分组,采用“上组限不在组内”原则。1.4.2 定量变量的统计表描述根据分组结果整理频数分布表:表3-11 100调查员按有效问卷数组距分组表分组(份) 频数(人) 频率(%)90-100 1 1100-110 5 5110-120 7 7120-130 12 12130-140 17 17140-150 18 18150-160 15 15160-170 11 11170-180 8 8180-190 4 4190-200 2 2合计 100 100§2 用统计图描述数据§2.1 统计图§2.2 定性变量的图示§2.3 定量变量的图示§2.4 趋势的图示§2.5 如何制作好的统计图§2.1 统计图统计图是以图形形象地表现统计数据的一种形式。统计图的分类,根据描述统计变量的个数单变量统计图 双变量统计图 多变量统计图统计图的分类,根据描述统计变量的性质和外形特征:条形图,饼图,环形图,直方图,折线图,箱线图,线图,散点图§2.2 定性变量的图示1.条形图条形图(bar graph)可用于显示分类变量和顺序变量取值的频数或频率分布。用宽度相同的条形的高度或长短来表示频数的多少或频率的大小。条形图可以横置或纵置,纵置时也称为柱形(column graph)。根据图形描述的定性变量的个数,条形图有单式、复式等形式。§2.2 定性变量的图示单式条形图复式条形图图3-1 2011年我国人口中男女比例图图3-2 1949年和2011年我国人口中男女比例图§2.2 定性变量的图示2.饼图饼图(pie chart)可用于显示分类变量和顺序变量取值所对应的频数或频率分布。用圆形及圆内扇形的面积来表示数值的大小。可用于表示分类变量中各组频数所占的比例,即相对大小。对于研究结构性问题十分有用。§2.2 定性变量的图示图3-3 2011年我国人口中男女比例图§2.2 定性变量的图示3.环形图环形图(doughnut chart)可以同时绘制多个总体或样本的数据系列。每一个总体或样本的数据系列为一个环。环形图可显示多个总体或样本各部分所占的相应比例。有利于进行比较研究。§2.2 定性变量的图示图3-4 1949年和2011年我国人口中男女比例图§2.3 定量变量的图示定量变量也称为数值型变量。按照数据的取值类型,分为:连续性变量和离散型变量用来描述定性变量取值的图示法都能够用来描述定性变量的数值。此外,还可以采用直方图、折线图、箱线图、茎叶图等来进行描述。§2.3 定量变量的图示1.直方图直方图(Histogram)是根据定量变量的取值范围来显示观测频数的图。常用于显示连续型变量在取值区间内的频数分布。用矩形的宽度和高度(即面积)来表示频数的分布。§2.3 定量变量的图示图3-5 100名调查员的有效问卷数分布直方图§2.3 定量变量的图示直方图与条形图的不同:(1)条形图是用条形的长度(横置时)表示各类别频数的多少,其宽度(表示类别)则是固定的;直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或频率,宽度表示各组的组距,因此,其高度与宽度均有意义。(2)由于分组数据具有连续性,直方图的各矩形通常是连续排列,而条形图则是分开排列。(3)条形图主要用于展示分类数据,而直方图主要用于展示数值型数据。§2.3 定量变量的图示2.折线图折线图也称频数多边形图,是在直方图的基础上,把直方图顶部的中点(即组中值)用直线连接起来形成的。§2.3 定量变量的图示图3-6 100名调查员的有效问卷数分布折线图§2.3 定量变量的图示当数据所分的组数很多时,组距会越来越小,这时所绘制的折线图就会越来越光滑,逐渐形成一条平滑的曲线,即频数分布曲线。常见的频数分布曲线主要有:正态分布,偏态分布,J形分布,U形分布正态分布偏态分布右偏(正偏)左偏(负偏)§2.3 定量变量的图示J型分布U型分布§2.3 定量变量的图示3.箱线图箱线图(box plot)主要用来反映原始数据的分布特征。它由一组数据的最大值、最小值、中位数、上下四分位数这个五个特征数值组成。箱线图不能够反映出每一个原始数据的信息,但却提供了简明有效的视图。§2.3 定量变量的图示图3-8 按性别区分的男女学生外语成绩箱线图§2.4 趋势的图示当我们需要考虑定量变量取值在不同时间截面上的分布特征、或者两个定量变量的取值所表现出的相关趋势时,就需要借助趋势图进行描述。§2.4 趋势的图示1.线图线图(line plot)在直角平面坐标中主要用来描述定量变量取值随时间变化的特征,即时间序列数据的趋势特征,因此也可以称为时间序列图。§2.4 趋势的图示我国2003年到2011年我国外汇储备情况图3-9 2003年—2011年我国外汇储备§2.4 趋势的图示2.散点图散点图(scatter plot)是用二维直角平面坐标展示两个定量变量取值随时间变化表现出的趋势,主要用来观察变量间的相关关系。用坐标横轴代表变量 ,纵轴代表变量 ,两个变量的每组数据 在坐标系中用一个点表示。§2.4 趋势的图示图3-10 1998-2007年国内生产总值和货运周转量散点图§2.5 如何制作好的统计图“图优性”是指图形能够在最短的时间内,用最少的笔墨,在最小的空间里,给观众最多的思想。一个好图应具备的基本特征:(1)显示数据;(2)注意力集中在图形的内容上,而不是制作程序;(3)避免歪曲事实;(4)强调数据之间的比较;(5)服务于一个明确的目的;(6)有对图形的统计描述和文字说明。§2.5 如何制作好的统计图Tufte提出了五种鉴别图形好坏的标准(1)好图应当精心设计,有助于洞察问题的实质;(2)好图应当使复杂的观点得到简明、确切、高效的阐述;(3)好图应当能以最少的笔墨提供最大的信息(4)好图应当是多维的;(5)好图应当表述数据的真实情况。§2.5 如何制作好的统计图你能看出他们的问题吗?我国主要年份社会消费品零售额按行业划分构成§2.5 如何制作好的统计图1999年-2008年我国社会消费品零售总额及其增速 展开更多...... 收起↑ 资源预览