第2章数据收集与显示 课件(共44张PPT)-《统计学-理论、案例、实训》同步教学(电工版)

资源下载
  1. 二一教育资源

第2章数据收集与显示 课件(共44张PPT)-《统计学-理论、案例、实训》同步教学(电工版)

资源简介

(共44张PPT)
第2章 数据收集与显示
第一节 数据的计量
第二节 数据的收集
第三节 数据的显示
学习目标
认识数据的计量尺度和数据类型
了解数据的搜集和数据的质量要求
掌握统计分组原理和频数分布数列编制
掌握茎叶图和箱线图的制作方法
掌握统计表和统计图的使用
第一节 数据的计量
一、数据的计量尺度
二、数据的类型
数据的计量尺度
定类尺度
定序尺度
定距尺度
定比尺度
数据的计量尺度
定类尺度
(Nominal scale)
也称列名尺度或分类尺度
计量层次最低
对事物进行平行的分类
各类别可以指定数字代码表示
使用时必须符合类别穷尽和互斥的要求
数据表现为“类别”
具有=或 的数学特性
定序尺度
(Ordinal scale)
也称顺序尺度
对事物分类的同时给出各类别的顺序
比定类尺度精确
未测量出类别之间的准确差值
数据表现为“类别”,但有序
具有>或<的数学特性
定距尺度
(Interval scale)
也称间隔尺度
对事物的准确测度
比定序尺度精确
数据表现为“数值”
没有绝对零点
具有 + 或 - 的数学特性
定比尺度
(Ratio scale)
也称比率尺度
对事物的准确测度
与定距尺度处于同一层次
数据表现为“数值”
有绝对零点
具有 或 的数学特性
四种计量尺度的比较
四种计量尺度的比较
定类尺度 定序尺度 定距尺度 定比尺度
分类( = ,≠ ) 排序( < ,> ) 间距( + ,- ) 比值( × ,÷ ) √ √ √ √ √ √ √



计量尺度
数学特性
“√”表示该尺度所具有的特性
数据的类型
1.定类数据:由定类尺度计量形成
2.定序数据:由定序尺度计量形成
3.定距数据:由定距尺度计量形成
4.定比数据:由定比尺度计量形成
与数据计量尺度相对应,数据也有四种:定类数据、定序数据、定距数据、定比数据
不同计量层次、不同数据类型与不同统计分析方法比较
测量尺度 数据类型 一般案例 适用的统计分析方法
描述统计方法 推断统计方法
定类尺度 类型数据 单位性质 比例、众数、 异众比率 列联表分析、
卡方检验等
定序尺度 顺序数据 质量等级 比例、中位数、 四分位差 计算等级相关系数
等非参数分析
定距尺度 数值型数据 温度 全距、均值、 标准差 积差相关系数、t检验、
ANOVA回归、因子分析
定比尺度 数值型数据 重量 几何均值、 调和平均数 变异系数
第二节 数据的搜集
一、数据的直接获取
二、数据的间接获取
数据的直接获取
统计报表制度
普查
重点调查
典型调查
抽样调查
统计报表制度
(system of statistical report)
按照国家有关法规的规定,自上而下地统一布置,自下而上地逐级提供统计资料
资料来源于基层单位的原始记录
主要特点:制度化、规范性、层次性、周期性
广泛应用于我国各级政府部门、企事业单位
局限性:时滞性
普查
(census)
为特定目的专门组织的非经常性全面调查
通常是一次性或周期性的
一般需要规定统一的标准调查时间
数据的规范化程度较高
应用范围比较狭窄
总体
重点调查
(major survey)
在调查对象中选择一部分重点单位进行调查,借以了解总体基本情况的一种非全面调查
重点单位:在总体中具有举足轻重地位的单位,这些单位数虽少,但它们调查的标志值在总体标志值中占有绝大比重
典型调查
(typical survey )
根据调查的目的和要求,在对研究对象进行全面分析的基础上,有意识地选择部分有代表性的单位进行调查,是一种非全面调查
选典方式:
(1)近似的估计总体的数值,可“划类选典”
(2)了解总体的一般数量表现,可“择中选典”
(3)研究成功的经验或失败的教训,可“优劣选典”
抽样调查
(sampling survey)
1. 从总体中随机抽取一部分单位作为样本进行调查,并根据样本调查结果来推断总体特征的数据收集方法
总体







随机样本


2. 具有经济性、时 效性强、适应面广、准确性高等特点
数据的间接获取
Internet
http//WWW.
中国统计年鉴2010
中国人口统计年鉴
中国市场统计年鉴
世界发展报告
世界经济年检
工业普查数据
中国统计出版社
统计部门和政府部门公布的有关资料,如各类统计年鉴
各类经济信息中心、信息咨询机构、专业调查机构等提供的数据
各类专业期刊、报纸、书籍所提供的资料
各种会议,如博览会、展销会、交易会及专业性、学术性研讨会上交流的有关资料
从互联网或图书馆查阅到的相关资料
第三节 数据的显示
一、数据的审核
二、统计分组与频数分布
三、统计表与统计图
Excel
数据的审核
直接来源数据的审核:完整性、准确性
间接来源数据的审核 :完整性、准确性、适用性和时效性
统计分组
按照统计研究的目的,将数据分别列入不同的组内
形式:
品质标志分组:按列名尺度和顺序尺度对总体的性质和属性进行分组
数量标志分组:按间隔尺度和比例尺度对总体的数量特征进行分组
单项式分组
数列中每个组的变量值都只有一个,即一个变量值为一组
适用于变异幅度不太大的离散型变量
组距分组
(要点)
将变量值的一个区间作为一组
适合于连续变量
适合于变量值较多的情况
需要遵循“不重不漏”的原则
可采用等距分组,也可采用不等距分组
~
~
~
~
~
组距分组
(步骤)
确定组数:组数的确定应以能够显示数据的分布特征和规律为目的
确定组距:组距是一个组的上限与下限之差,可根据全部数据的最大值和最小值及所分的组数来确定,即
组距=( 最大值 - 最小值)÷ 组数
确定组限:最小组的下限略低于或等于最小变量值,最大组上限略高于或等于最大变量值。若采取连续型分组数列,重叠组限的归组:“上限不在内原则”
统计出各组的频数并整理成频数分布表
组距分组
(几个概念)
1. 下限(low limit) :一个组的最小值
2. 上限(upper limit) :一个组的最大值
3. 组距(class width) :上限与下限之差
4. 组中值(class midpoint) :下限与上限之间的中点值
开口组组中值
开口组的使用:当数据中存在少数极值时,为了不让数列组数太多,则考虑采用开口组
开口组组中值
假定:以相邻组的组距作为开口组组距
频数分布的类型
对称分布
右偏分布
左偏分布
正J型分布
反J型分布
U型分布
几种常见的频数分布
统计表
2008年全国分行业增加值 (表头:总标题)
项 目 增加值
纵栏标题(纵标目)
数字资料
产值 (亿元) 比重 (%)
横行标题(横标目) 第一产业 34000.0 11.31
第二产业 146183.4 48.62
第三产业 120486.6 40.07
合 计 300670.0 100
资料来源:《中国统计年鉴2010》,北京:中国统计出版社 (表脚)
定性数据的图示
条形图
饼图
环形图
累计频数分布图
条形图
(bar Chart)
用宽度相同的条形的高度或长短来表示各类别数据
各类别可放在纵轴,称为条形图,可以放在横轴,称为柱状图(column chart)
条形图有单式、复式和叠加等形式
世界上部分国家的互联网普及率条形图
饼图
(pie Chart)
用圆形及圆内扇形的角度来表示数值大小的图形,主要用于表示一个样本(或总体)中各组成部分的数据占全部数据的比例
用于研究结构问题
企业法人单位的所有制结构饼图
环形图
(doughnut chart)
环形图中间有一个“空洞”,样本或总体中的每一部分数据用环中的一段表示
与饼图类似,但环形图则可以同时绘制多个样本或总体的数据系列,每一个样本或总体的数据系列为一个环
用于结构比较研究
某届亚运会上中国、日本和韩国的奖牌构成环形图
累计频数图
(cumulative frequency chart)
根据累计频数或累计频率绘制
定性数据中只有定序数据分组才能作累计频数图
有“向上累计”与“向下累计”之分
学生成绩累计频数图
定量数据的图示
直方图
折线图
曲线图
茎叶图
箱线图
累计频数图
Excel
直方图
(histogram)
用于展示分组数据分布的一种图形
用矩形的宽度和高度来表示频数分布
本质上是用矩形的面积来表示频数分布
在直角坐标中,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就形成了一个矩形,即直方图
直方图下的总面积等于1
折线图
(frequency polygon)
折线图也称频数多边形图
是在直方图的基础上,把直方图顶部的中点(组中值)用直线连接起来,再把原来的直方图抹掉
折线图的两个终点要与横轴相交,具体的做法是
第一个矩形的顶部中点通过竖边中点(即该组频数一半的位置)连接到横轴,最后一个矩形顶部中点与其竖边中点连接到横轴
折线图下所围成的面积与直方图的面积相等,二者所表示的频数分布是一致的
茎叶图
(stem-and-leaf plot)
用于显示未分组的原始数据的分布
由“茎”和“叶”两部分构成,其图形是由数字组成的
以该组数据的高位数值作树茎,低位数字作树叶
树叶上只保留最后一位数字
茎叶图类似于横置的直方图,但又有区别
直方图可观察一组数据的分布状况,但没有给出具体的数值
茎叶图既能给出数据的分布状况,又能给出每一个原始数值,保留了原始数据的信息
直方图适用于大批量数据,茎叶图适用于小批量数据
茎叶图
(例题分析)
第一列给出每个茎上叶子的频数
第二列是“茎”,第三列是“叶”
上端标出了1个极端值30
下端标出茎的宽度10、每个叶代表一个数据(案例)
SPSS自动将每个茎重复了一次,使分布的细节看的更清楚一些。当然,在数据较少时茎的数值也可以不重复
50名学生统计学考试成绩茎叶图
箱线图
(box plot)
用于显示未分组的原始数据的分布
箱线图是由一组数据的最大值(maximum)、最小值(minimum)、中位数(median)、两个四分位数(quartiles)这5个值绘制而成的
中位数是一组数据排序后处于中间位置上的变量值
四分位数是一组数据排序后处在数据25%位置和75%位置上的两个分位数值
绘制方法
首先找出一组数据的5个特征值,即最大值、最小值、中位数Me和两个四分位数(下四分位数QL和上四分位数QU)
连接两个四分位数画出箱子,再将两个极值点与箱子相连接
箱线图
(构成)
中位数
4
6
8
10
12
Q
75%
Q
25%
X
Max
X
Min
Median/Quart./Range箱线图
分布的形状与箱线图
不同分布的箱线图
对称分布
左偏分布
右偏分布
累计频数图
(cumulative frequency chart)
50名学生统计学考试成绩累计频数分布图
本章小结
数据的计量尺度
数据的类型
统计数据的来源
统计数据的质量
统计数据的整理
统计表与统计图

展开更多......

收起↑

资源预览