第三章 数据的描述 课件(共47张PPT)- 《《统计学(第二版) 》同步教学(人民大学版)

资源下载
  1. 二一教育资源

第三章 数据的描述 课件(共47张PPT)- 《《统计学(第二版) 》同步教学(人民大学版)

资源简介

(共47张PPT)
统 计 学
第三章 数据的描述1——数据的直观显示
第三章 数据的描述1----数据的直观显示
§1 用统计表描述数据
§2 用统计图描述数据
§1 用统计表描述数据
§1.1 统计表的构成
§1.2 统计表的类型
§1.3 统计表的编制规则
§1.4 数据的统计表描述
§1.1 统计表的构成
统计表一般是由四个主要部分构成:表头,行标题,列标题,数据资料,必要时需要在统计表的下方加上表外附加。
§1.2 统计表的类型
1.简单表
行标题或列标题中的变量指标未经过任何分类,只是反映各变量的名称或按时间顺序简单排列。也称一览表。
表3-2 2011年我国主要宏观经济运行指标
主要宏观经济指标 单位 数值
国内生产总值 亿元 472881.6
就业人数 万人 76420
居民消费价格指数 —— 105.4
农村居民家庭人均纯收入 元 6977.3
城镇居民家庭人均可支配收入 元 21809.8
资料来源:中国国家统计局网站《2012年统计年鉴》
§1.2 统计表的类型
2.分组表
行标题或列标题中的变量指标按照一定标志进行了分类,也称简单分组表。它可以揭示出现象的不同类型的特征,研究现象的内部结构。
表3-3 2003-2011年我国黄金和外汇储备
年份 黄金储备(万盎司) 外汇储备(亿美元)
2003 1929 4032.51
2004 1929 6099.32
2005 1929 8188.72
2006 1929 10663.4
2007 1929 15282.49
2008 1929 19460.3
2009 3389 23991.52
2010 3389 28473.38
2011 3389 31811.48
资料来源:《2012年中国统计年鉴》
§1.2 统计表的类型
3.复合表
行标题或列标题中的变量指标按照两个或两个以上的标志层叠分类所形成的统计表。
表3-4 2006-2011年主要年份国内生产总值及其构成 单位:亿元
年 份 国内生产总 值
第一产业 第二产业 第三产业
工 业 建筑业
2006 216314.4 24040 103719.5 91310.94 12408.61 88554.88
2007 265810.3 28627 125831.4 110534.9 15296.48 111351.9
2008 314045.4 33702 149003.4 130260.2 18743.2 131340
2009 340902.8 35226 157638.8 135239.9 22398.83 148038
2010 401512.8 40533.6 187383.2 160722.2 26660.98 173596
2011 472881.6 47486.21 220412.8 188470.2 31942.66 204982.5
资料来源:《2012年中国统计年鉴》
§1.2 统计表的类型
4.交叉表
行标题和列标题中的变量指标同时采用分类的形式来表示,使得数据依据行或列变量分类结果在交叉的单元格中显示。
表3-5 某项调查被访问者受教育水平和性别分布交叉表
受教育水平 性别 合计人数(人) 百分比(%)
男 女
小学及以下 100 140 240 8
初中 500 460 960 32
高中 600 630 1230 41
大学及以上 260 310 570 19
合计 1460 1540 3000 100
§1.3 统计表的编制规则
编制统计表的基本指导原则:“简练、美观、科学、实用”
表头
结构
计量单位
线条
数据
表外附加
§1.4 数据的统计表描述
§1.4.1 定性变量的统计表描述
定性变量包括分类变量和顺序变量两种类型。分类变量的取值是对事物的一种分类,而顺序变量的取值是对事物的分类排序。在整理和描述定性变量时,需要根据分类变量和顺序变量的取值进行统计分组,同时计算每一组对应的频数。
§1.4.1 定性变量的统计表描述
分类变量
频数(frequencey)
是指落在某一特定类别(或组)中的数据个数。
频率或比例(proportion)
把各类的频数与全部频数之和求比值得到。
频数分布(frequency distribution)和频率分布
把各个类别及其相应的频数或频率全部列出,并用统计表的形式表现出来形成。
§1.4.1 定性变量的统计表描述
例如:假设某项调查中3000名被访问者按性别分类(组)后,即可整理得到男性和女性的人数,从而得到每一类的频数、频率以及比例分布表:
表3-7 某项调查3000名被访问者按性别分组
性别 频数(人) 频率 百分比例(%)
男 1460 0.4867 48.67
女 1540 0.5133 51.33
§1.4.1 定性变量的统计表描述
顺序变量
累积的方法
向上累积:从顺序变量取值的最小一方,向最大一方累加。
向下累积:从顺序变量取值的最大一方,向最小一方累加。
累积频数:
将顺序变量各个取值的观测频数逐级累加起来得到的频数。
累积频率或累积百分比
将顺序变量各取值所对应频数的百分比累加起来得到的百分比,
§1.4.1 定性变量的统计表描述
例如:假设某项调查中3000名被访问者按照受教育水平高低可分为四大类时,除了可以得到每一类所对应的频数、比例分布表,还可计算累积频数或频率分布表:
表3-8 被访者受教育水平累积分布表
受教育水平 人数
(人) 百分比
(%) 向上累积 向下累积
频数(人) 频率(%) 频数(人) 频率(%)
小学及以下 240 8 240 8 3000 100
初中 960 32 1200 40 2760 92
高中 1230 41 2430 81 1800 60
大学及以上 570 19 3000 100 570 19
合计 3000 100
§1.4.2 定量变量的统计表描述
对于定量变量,通常采用统计分组,得到每一组所对应的频数、频率或比例表,用来对数据特征进行描述。
统计分组按照分组标志的不同可分为:
单变量分组
组距分组
§1.4.2 定量变量的统计表描述
单变量分组:
把每一变量取值都作为分组标志。这种方法适用于离散型变量,且变量取值较少时的情形。
例如:某项调查中100名调查员每人调查的有效问卷数。
表3-9 100名调查员的有效问卷数
95 101 103 105 107 108 110 111 114 115
115 116 116 121 122 122 124 124 125 125
125 126 126 128 128 131 131 132 133 133
134 134 135 135 135 136 136 136 137 138
139 139 140 140 142 142 142 143 143 144
144 144 145 145 145 145 147 147 147 148
152 153 153 153 154 154 154 154 155 155
155 155 156 156 159 160 161 163 163 163
163 165 166 166 166 167 171 171 171 174
175 177 178 179 180 182 182 188 191 196
§1.4.2 定量变量的统计表描述
对于有效问卷数处于130到150份之间的调查员根据其问卷数进行单变量分组,得到分组表:
表3-10 调查员按有效问卷数单变量分组
问卷数 频数 问卷数 频数
131 2 139 2
132 1 140 2
133 2 142 3
134 2 143 2
135 3 144 3
136 3 145 4
137 1 147 3
138 1 148 1
§1.4.2 定量变量的统计表描述
单变量分组会使得分组过细,组数过多,不利于观察数据分布的特征和规律。
对于连续型变量也无法采用单变量分组方式。在连续型变量或变量取值较多的情况下,通常采用组距分组。
§1.4.2 定量变量的统计表描述
组距分组
将全部变量取值划分为若干个区间,并将这一区间值作为分组标志
1.确定组数:
按照经验公式来确定组数n:
为数据个数,对结果四舍五入取整即可得到经验分组数。
2.确定各组的组距:
组距是一组的上限与下限数值的差。
当采用等距分组时,组距=(最大值-最小值)÷组数。
定量变量进行统计分组表描述时遵循“不重不漏”原则,为此,对于组距分组,采用“上组限不在组内”原则。
1.4.2 定量变量的统计表描述
根据分组结果整理频数分布表:
表3-11 100调查员按有效问卷数组距分组表
分组(份) 频数(人) 频率(%)
90-100 1 1
100-110 5 5
110-120 7 7
120-130 12 12
130-140 17 17
140-150 18 18
150-160 15 15
160-170 11 11
170-180 8 8
180-190 4 4
190-200 2 2
合计 100 100
§2 用统计图描述数据
§2.1 统计图
§2.2 定性变量的图示
§2.3 定量变量的图示
§2.4 趋势的图示
§2.5 如何制作好的统计图
§2.1 统计图
统计图是以图形形象地表现统计数据的一种形式。
统计图的分类,根据描述统计变量的个数
单变量统计图 双变量统计图 多变量统计图
统计图的分类,根据描述统计变量的性质和外形特征:
条形图,饼图,环形图,直方图,折线图,箱线图,线图,散点图
§2.2 定性变量的图示
1.条形图
条形图(bar graph)可用于显示分类变量和顺序变量取值的频数或频率分布。
用宽度相同的条形的高度或长短来表示频数的多少或频率的大小。
条形图可以横置或纵置,纵置时也称为柱形(column graph)。
根据图形描述的定性变量的个数,条形图有单式、复式等形式。
§2.2 定性变量的图示
单式条形图
复式条形图
图3-1 2011年我国人口中男女比例图
图3-2 1949年和2011年我国人口中男女比例图
§2.2 定性变量的图示
2.饼图
饼图(pie chart)可用于显示分类变量和顺序变量取值所对应的频数或频率分布。
用圆形及圆内扇形的面积来表示数值的大小。
可用于表示分类变量中各组频数所占的比例,即相对大小。
对于研究结构性问题十分有用。
§2.2 定性变量的图示
图3-3 2011年我国人口中男女比例图
§2.2 定性变量的图示
3.环形图
环形图(doughnut chart)可以同时绘制多个总体或样本的数据系列。
每一个总体或样本的数据系列为一个环。
环形图可显示多个总体或样本各部分所占的相应比例。
有利于进行比较研究。
§2.2 定性变量的图示
图3-4 1949年和2011年我国人口中男女比例图
§2.3 定量变量的图示
定量变量也称为数值型变量。
按照数据的取值类型,分为:连续性变量和离散型变量
用来描述定性变量取值的图示法都能够用来描述定性变量的数值。
此外,还可以采用直方图、折线图、箱线图、茎叶图等来进行描述。
§2.3 定量变量的图示
1.直方图
直方图(Histogram)是根据定量变量的取值范围来显示观测频数的图。
常用于显示连续型变量在取值区间内的频数分布。
用矩形的宽度和高度(即面积)来表示频数的分布。
§2.3 定量变量的图示
图3-5 100名调查员的有效问卷数分布直方图
§2.3 定量变量的图示
直方图与条形图的不同:
(1)条形图是用条形的长度(横置时)表示各类别频数的多少,其宽度(表示类别)则是固定的;直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或频率,宽度表示各组的组距,因此,其高度与宽度均有意义。
(2)由于分组数据具有连续性,直方图的各矩形通常是连续排列,而条形图则是分开排列。
(3)条形图主要用于展示分类数据,而直方图主要用于展示数值型数据。
§2.3 定量变量的图示
2.折线图
折线图也称频数多边形图,是在直方图的基础上,把直方图顶部的中点(即组中值)用直线连接起来形成的。
§2.3 定量变量的图示
图3-6 100名调查员的有效问卷数分布折线图
§2.3 定量变量的图示
当数据所分的组数很多时,组距会越来越小,这时所绘制的折线图就会越来越光滑,逐渐形成一条平滑的曲线,即频数分布曲线。
常见的频数分布曲线主要有:正态分布,偏态分布,J形分布,U形分布
正态分布
偏态分布
右偏(正偏)
左偏(负偏)
§2.3 定量变量的图示
J型分布
U型分布
§2.3 定量变量的图示
3.箱线图
箱线图(box plot)主要用来反映原始数据的分布特征。
它由一组数据的最大值、最小值、中位数、上下四分位数这个五个特征数值组成。
箱线图不能够反映出每一个原始数据的信息,但却提供了简明有效的视图。
§2.3 定量变量的图示
图3-8 按性别区分的男女学生外语成绩箱线图
§2.4 趋势的图示
当我们需要考虑定量变量取值在不同时间截面上的分布特征、或者两个定量变量的取值所表现出的相关趋势时,就需要借助趋势图进行描述。
§2.4 趋势的图示
1.线图
线图(line plot)在直角平面坐标中主要用来描述定量变量取值随时间变化的特征,即时间序列数据的趋势特征,因此也可以称为时间序列图。
§2.4 趋势的图示
我国2003年到2011年我国外汇储备情况
图3-9 2003年—2011年我国外汇储备
§2.4 趋势的图示
2.散点图
散点图(scatter plot)是用二维直角平面坐标展示两个定量变量取值随时间变化表现出的趋势,主要用来观察变量间的相关关系。
用坐标横轴代表变量 ,纵轴代表变量 ,两个变量的每组数据 在坐标系中用一个点表示。
§2.4 趋势的图示
图3-10 1998-2007年国内生产总值和货运周转量散点图
§2.5 如何制作好的统计图
“图优性”
是指图形能够在最短的时间内,用最少的笔墨,在最小的空间里,给观众最多的思想。
一个好图应具备的基本特征:
(1)显示数据;
(2)注意力集中在图形的内容上,而不是制作程序;
(3)避免歪曲事实;
(4)强调数据之间的比较;
(5)服务于一个明确的目的;
(6)有对图形的统计描述和文字说明。
§2.5 如何制作好的统计图
Tufte提出了五种鉴别图形好坏的标准
(1)好图应当精心设计,有助于洞察问题的实质;
(2)好图应当使复杂的观点得到简明、确切、高效的阐述;
(3)好图应当能以最少的笔墨提供最大的信息
(4)好图应当是多维的;
(5)好图应当表述数据的真实情况。
§2.5 如何制作好的统计图
你能看出他们的问题吗?
我国主要年份社会消费品零售额按行业划分构成
§2.5 如何制作好的统计图
1999年-2008年我国社会消费品零售总额及其增速

展开更多......

收起↑

资源预览