第3章 数据的整理 课件(共61张PPT)-《统计学基础与应用》同步教学(高教版)

资源下载
  1. 二一教育资源

第3章 数据的整理 课件(共61张PPT)-《统计学基础与应用》同步教学(高教版)

资源简介

(共61张PPT)
*
工作任务
任务1:对本组所得到的调查结果进行数据的整理,并用图表表现汇总结果,写出数据整理的报告。
*
主要内容
3.1 数据的审核及预处理
3.2 数据的分组
3.3 数据的汇总
3.4 数据汇总结果的图表表示
*
3.1 数据的审核及预处理
3.1.1 数据的审核
3.1.2 数据的预处理
*
3.1.1 数据的审核
准确性
完整性
及时性(时效性)
*
3.1.2 数据的预处理
编码:问卷以编号,给变量值以数字代码,如A-1,B-2,C-3
排序:将数据按一定顺序排列,如升序或降序,便于研究者浏览数据从而发现数据分布的明显特征和趋势。
筛选:将符合某种特定条件的数据筛选出来,通过筛选可以剔除明显有错误的数据。
数据加权、变量重新计算并定义等处理方式。
*
3.2 数据的分组
数据整理的关键是数据的分组。由于总体单位存在的差异性,因此,可以对统计总体进行分组,而同一组的总体单位在某一标志上又存在“同质性”。
通过数据的分组,可以发现总体分布的特点和规律性。
通过数据的分组,可以认识现象之间质的差别。
通过数据的分组,可以反映总体内部结构的动态变化。
通过数据的分组,可以分析现象之间的依存关系。
*
3.2.1 什么是数据的分组
所谓分组是根据研究的目的,将总体按照某一标志划分为若干个组成部分的统计方法。
例如:将全班同学按性别分为两组,一组为男生,一组为女生。
*
3.2.2 数据分组的方法
数据的分组关键是如何选择分组标志。在选择分组标志时要遵循以下的原则:
1.根据研究的目的和任务选择
2.选择反映最本质特征的标志
3.选择分组标志时,考虑历史和经济条件
历史和经济条件的变化
*
3.2.3数据分组的类型
*
3.3 数据的汇总
3.3.1 手工汇总
3.3.2 机械汇总
*
3.3.1 手工汇总
1.划记法。按照事先分好的组用正字划记,计算各组的单位数和合计数。
2.过录法。将调查数据先过录到事先设计好的整理表上,并计算出合计数,然后再将结果填入正式的汇总表中。
3.折叠法。将所有调查表中需要汇总的项目和数值折在边上,一张接一张叠在一起进行汇总计算。
4.卡片法。将每个总体单位需要汇总的项目和数值摘录到事先准备好的卡片上,然后根据卡片进行分组和汇总计算。
*
3.3.2 机械汇总
*
3.4 数据汇总结果的图、表表现
3.4.1 汇总表的编制
3.4.2 统计图的绘制
*
汇总数据的表现方式
如何表现数据
文字描述
1
表格呈现
2
图表表示
3
北京市第六次人口普查数据显示,常住人口1961.2万人,其中,男性1012.6万人,占51.6%;女性为948.6万人,占48.4%。
*
表 格 呈 现
北京市第六次人口普查性别构成
*
图 表 表 示
*
3.4.1 汇总表的编制
汇总表在统计工作中是用的最多的一种数据表现形式,按数据的不同类型,可以分为品质型数据的汇总表和数值型数据的汇总表,汇总表又称为次数分布表或分布数列。
在编制时,由于品质型数据容易确定界限,较容易编制,数值型数据由于数量界限不易确定,编制起来相对复杂和困难。
汇总表主要包括分组和次数两个部分,通常在绘制时,还增加一行合计和一列频率(或称比例、比重)
*
1.品质数列
*
北京市第六次人口普查性别构成
2.变量数列
单项变量数列
组距变量数列
*
单项变量数列
单项式数列是指一个数值代表一个组的变量数列。
应用情形:一般是按离散型变量分组且变量值变动幅度小,个数不多的时候采用,有时连续型变量也可采用单项式数列编制,如年龄是连续型变量,当年龄变动幅度较小时,也可以编制单项变量数列。
*
单项变量数列示例
*
组距变量数列
组距变量数列是指变量值变动的范围代表一个组。
应用情形:如按离散型变量分组且变量值变动幅度很大、个数很多时采用;而连续型变量分组时由于不能一一列举变量值,通常编制组距变量数列。
组距变量数列按每组的组距是否相等,又分为等距变量数列和不等距变量数列。
*
组距变量数列示例
*
(1)组距变量数列的有关概念
组限
组距
组中值
*
组 限
组限即各组的界限。如60-70分这一组,60分和70分就是组限。组限分为上限和下限,上限是每组的最大值,下限是每组的最小值。如果该组的组限都齐全,称为闭口组,如60-70分这一组,如果该组的组限不齐全,表现为缺上限或缺下限,称为开口组,如60分以下这组。
在划分连续型变量的组限时,由于连续型变量两个整数间有小数,为避免遗漏通常采用重叠分组,在计算重叠组限的次数时采用“上限不在内”的原则。例如60-70分,70-80分,70分重叠,在计数时,70分计入70-80这一组。
在划分离散型变量的组限时,相邻组的组限应间断,但在实际中为求简便有时也采用重叠分组。
*
组 距
组距:每组的下限和上限之间的距离。即组距=上限—下限。
例如:60—70分这一组的组距为10分。
*
组中值
组中值是每组下限与上限的中点值。组中值=(上限+下限)/2
在开口组中因缺少下限或上限,计算时采用如下公式:
缺下限组的组中值=该组上限—相邻组组距/2
缺上限组的组中值=该组下限+相邻组组距/2
组中值是为了反映各组变量值的一般水平,是各组的代表值。利用组中值的前提是假定各组变量值的分布是均匀的或对称的,但实际上大多数数值并非如下,因此,组中值只是一个近似值。
*
(2)如何编制变量数列
手工编制
*
借助计算机Excel编制
1.排大小,算全距
R=92-31=61
*
2.定形式(单项、组距变量数列)
数值多,变动幅度大,选择组距变量数列
*
3.定组距i和组数k,(i=R/k)
此为关键步骤,一般5-10组,个数少3-4组也可。
一凭经验判断:如对成绩的通常分组;
二凭经验公式:k=1+3.322logn(斯德吉斯H.A.Sturges组数公式)
*
组数的确定
组距取整:尽可能取5或10的整数倍。
i=R/k
组距的确定
4.定组限
【1】最好用整数表示,组距是5,10,…,100,…,则每组的下限最好是它们的倍数;
【2】最小组的下限要略低于最小变量值,最大组的上限要略高于最大变量值;
【3】连续型变量,通常采用重叠分组(按年龄有分组时不重叠 ),离散型重叠不重叠均可。
*
5. 算次数,编数列
根据每组的组限,计算次数,按统计表的绘制格式编制数列。
注意:计算次数时,上组限不在组内,如70-80组,80分不计算在内,计算在80-90分的组。
*
组距变量数列编制结果
*
累计频数或频率
*
向上累计:以变量值小的组为下,变量值大的组为上,即由60分以下的组向90-100分的组累计。
向下累计:由变量值最大的一组逐组累计,即由90-100分的组向60分以下的组累计。
3.4.2 统计图的绘制
*
1.选择适合图表
2.制作规范图表
3.设计美化图表
1.选择合适图表
有哪些图表呢?
没有菜单怎么点菜,给个图表菜单L K
咋选合适图表呢?
什么是合适的?
*
(1)Excel为您提供的图表菜单
我们哥几个是家常菜,经常被选,堪称图表界的“宫保鸡丁”!所以排在前面。
翠花,上菜单!
*
图表类型总结—三大菜系
*
(2)如何选择图表类型
例:地区销售百分比
地区



西
A公司
13%
35%
27%
25%
B公司
39%
6%
27%
28%
*
*
1
2
3
4
西



目的 最重要
*
图表选择建议索引指南
*
2.制作规范图表
*
(1)规范图表的五要素
*
(2)Excel制作图表的流程
*
3.设计美化图表
—浓妆淡抹总相宜
*
测试一下你的图表IQ?
准备一张纸、一支笔还有你聪明的大脑,
*
图表IQ测试-01
*
问题01:哪个图更容易确定是哪类美国股票占有更大的份额?
A
B
图表IQ测试-02
*
问题02:哪个线形图更容易阅读?
A
B
图表IQ测试-03
*
问题03:这两种表更容易阅读?
A
B
图表IQ测试-04
*
问题04:哪个图形更容易判断于基于时间的变化趋势?
A
B
图表IQ测试-05
*
问题05:哪个图在误导我们?
A
B
图表IQ测试-06
*
问题06:哪个地图更容易找到与正增长率的地区呢 ?
A
B
图表IQ测试-07
*
问题07:哪些图形更容易确定旅行费用构成 ?
A
B
图表IQ测试-08
*
问题08:哪个图标签更易于阅读呢 ?
A
B
图表IQ测试-09
*
问题09:哪个图比较容易看?
A
B
图表IQ测试-10
*
问题10:哪个表,您可以看到表现欠佳的地区更快?
A
B
图表IQ测试答案
*
来源:http://www./files/GraphDesignIQ.html
恭喜全部答对10个题目的同学,现在的问题是:
下次您在做图表时候,能自觉应用这些知识吗?
问题答案
1、B 2、A 3、B 4、B 5、A
6、A 7、B 8、A 9、B 10、A
本章小结
*
重点

展开更多......

收起↑

资源预览