第二章 数据的搜集 课件(共25张PPT)- 《《统计学(第二版) 》同步教学(人民大学版)

资源下载
  1. 二一教育资源

第二章 数据的搜集 课件(共25张PPT)- 《《统计学(第二版) 》同步教学(人民大学版)

资源简介

(共25张PPT)
统 计 学
第2章 数据的搜集
第二章 数据的搜集
§1 数据的来源
§2 数据的误差
§3 数据文件
2
§1 数据的来源
§1.1 数据的间接来源
§1.2 数据的直接来源
3
§1.1 数据的间接来源
二手数据(间接来源的数据)
使用其他人调查或者实验得到的数据,对与研究变量相关的原有信息进行重新加工、整理,使之成为我们进行统计分析可以使用的数据,我们把这些数据称为二手数据。
二手数据搜集的范围
系统外部
系统内部
二手数据的优势与局限性
4
§1.1 数据的间接来源
二手数据的评估
数据是谁搜集的?(WHO)
为什么目的而搜集的?(WHAT)
数据是怎样搜集的?(HOW)
何时搜集的?(WHEN)
5
§1.1 数据的间接来源
二手数据的使用
使用二手数据,要注意数据的定义、统计口径和计算方法,避免数据的错用、误用和滥用。
在引用二手数据时,应注明数据的来源,以尊重他人的劳动成果。
6
§1.2 数据的直接来源
§1.2.1 调查数据
普查
统计报表
抽样调查
简单随机抽样
分层抽样
系统抽样
整群抽样
多阶段抽样
7
简单随机抽样
简单随机抽样
也称纯随机抽样,是从总体中随机地、一个一个地抽取n个单元构成 样本。在每次抽选中,所有未入样的待选单元入选样本的概率相等。
简单随机样本也可以一次同时从总体中抽出。
8
分层抽样
分层抽样
将抽样单位按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本。
分层抽样保证了样本中包含有各种特征的个体,样本的结构与总体的结构比较相近,从而可以提高样本的代表性。此外,这种抽样方式既可以对总体参数进行估计,也可以对各层的目标量进行估计。
9
系统抽样
系统抽样
将总体中所有单位按一定顺序排列,在规定的范围内随机地抽取一个单位作为初始单位,然后按事先规定好的规则确定其他样本单位。
系统抽样的主要优点是操作简便。
10
整群抽样
整群抽样
抽样时直接抽取群,然后对选中群中的所有单位全部实施调查。
整群抽样的优点是,只需要每个群的名单,而不必具有总体中每个个体的名单,减化了工作量,也减少了调查费用。
整群抽样的缺点在于,其估计精度较差。
11
多阶段抽样
多阶段抽样
首先抽群,但并不是调查群内的所有单位,而是再进行一步抽样,从选中的群中抽取出若干个单位进行调查。
多阶段抽样的分类
二阶段抽样
三阶段抽样
……………
多阶段抽样
多阶段抽样保证样本单元分布相对集中,节约调查费用。
12
§1.2.2 实验数据
实验数据
实验数据指在实验中控制实验对象而搜集到的变量的数据。
实验是检验变量间因果关系的一种方法。
在实验中,研究人员控制某一情形的所有相关方面,操纵少数感兴趣的变量,然后观察实验的结果。
13
§1.2.2 实验数据
1. 实验法的有关问题:实验组和对照组的选择
实验组和对照组
受试对象
反应变量和解释变量
处理
英国海军的实验
实验组和对照组的产生应遵循随机原则
一个好的实验,实验组和对照组的产生不仅应该是随机的,而且应该是匹配的。
14
§1.2.2 实验数据
2. 对人做实验时产生的问题
◆ 人的问题
◆ 心理学问题
◆ 道德问题
15
§1.2.2 实验数据
3. 实验法案例——地中海贫血症
随机指派
实验组(152个病人)
处理1:羟基脲
对照组(147个病人)
处理2:安慰剂
比较剧痛发作情形
16
§2 数据的误差
§2.1 抽样误差
§2.2 未响应误差
§2.3 响应误差
17
§2.1 抽样误差
抽样误差
抽样误差是由抽样的随机性引起的样本结果与总体真值之间的误差。
只要采用概率抽样,抽样误差就不可避免。
抽样不是针对某个具体样本的检测结果与总体真实结果的差异而言,它描述的是所有样本可能的结果与总体真值之间的平均性差异。
18
§2.1 抽样误差
抽样误差大小的影响因素
样本量的大小:样本量越大,抽样误差越小。
总体的变异性:总体的变异性越大,即各单位之间的差异越大,抽样误差也就越大。
在公布任何一次抽样调查的结果时,负责任的报告都应说明抽样误差的大小。
19
§2.2 未响应误差
未响应误差
非抽样误差中的一种。它是指由于种种原因,包含在样本中的一部分人未对调查做出反应或回答,而造成的误差。
未响应误差是随机的
可以通过增大样本量的方式解决
未响应误差是系统性的
预防
采取补救措施
20
§2.3 响应误差
响应误差
指在调查过程中,由于问题的提问方式、问题所处的位置、访员的影响或受访者自身的原因 ,而使受访者在回答问题时产生的误差。相应误差也是非抽样误差中的一种。
响应误差的类型
问题的措辞
问题所处的位置
访员的影响
受访者的影响
21
§3 数据文件
数据
由一些变量和它们的观测值所组成。
数据文件
将数据以表格的形式录入计算机,这样的一个数据表通常叫做数
据阵或数据文件。
文件由行和列组成。一般行代表样本单位,每一行称为一个观测
值。列表示不同的变量,每一列为一个变量的不同观测值。
22
§3 数据文件
原始数据文件的一般格式
23
§3 数据文件
编码
男——1 女——0
可口可乐——1 百事可乐——0
知道——1 不知道——0
24
§3 数据文件
编码后数据文件的一般格式
25

展开更多......

收起↑

资源预览