7.1抽样推断基础 课件(共26张PPT)-《基础统计第六版》同步教学(高教版)

资源下载
  1. 二一教育资源

7.1抽样推断基础 课件(共26张PPT)-《基础统计第六版》同步教学(高教版)

资源简介

(共26张PPT)
第七章 抽样推断
《基础统计》
第七章 抽样推断
前几章的分析方法是建立在已有全面资料的基础之上。但在统计实践活动中,我们常常会遇到某些资料的局限性,即只能掌握部分资料,但又希望了解总体状况,因此,推断统计应运而生。抽样推断是统计推断的一个重要内容。
《基础统计》
“十三五”职业教育
国家规划教材
抽样推断
§3 抽样组织与误差控制
§1 抽样推断基础
§2 统计估计和推算
§4 显著性假设检验
第一节 抽样推断基础
01
抽样推断的意义
02
抽样推断中的基本概念
03
抽样推断的理论依据
第一节
一、抽样推断的意义
(一)抽样推断的概念和作用
抽 样
推 断
指按照随机原则,从总体中抽取一部分单位组成样本,根据样本调查资料计算特征值,对总体特征值做出具有一定可靠程度的估计,以认识总体数量特征为目的的统计方法。
抽样推断的特点
01. 以部分特征值推断整体特征值
02. 按照随机原则抽选被调查单位
03. 抽样误差可以事先计算和控制
抽样推断的作用
01. 解决无法或难以全面调查的问题
02. 可以补充或修正全面调查的数据
03. 可以节省调查费用和调查时间
第一节
一、抽样推断的意义
(二)抽样推断的研究内容
随机抽样
是指按随机的原则从总体中抽取部分单位构成样本的过程。随机抽样的中心是抽样调查方案的设计,主要包括抽样技术和试验设计两项重要内容。
统计估计
是根据样本的特性来对总体的分布函数、分布参数或数字特征等进行推测估算。其基本思想是对不同的估计问题构造不同的函数,进而对总体作出推算和分析。
假设检验
是指根据经验或不成熟的认识,对总体的有关分布函数、分布参数或数字特征等信息作出某种假设,再利用样本与总体的关系来对假设的可靠性作出判断。
第一节
二、抽样推断中的基本概念
(一)样本及相关概念
样本 和
样本单位
也称子样、抽样总体,是指总体推断中,在总体中抽取一定数量的个体(总体单位)构成的对总体具有代表性的集合体。构成样本的每一个单位称为样本单位,也是总体单位。
样本容量
是指一个样本中所包含的个体单位数量,一般用 n 表示。样本容量的大小与推断估计的准确性有着直接的联系,其值越大估计量的代表性误差就越小,反之,则误差越大。
样本个数
是指在一个抽样方案中所有可能被抽取的样本的总量,确切地说它是样本的可能个数,其具体数值随抽样的方式而表现不同。
例如:假设总体有A、B、C、D四个单位,现纯随机可重复抽取2个单位组成样本,则有16个样本(即 Nn=4×4=16)。
第一节
二、抽样推断中的基本概念
(一)样本及相关概念
样本统计量
是指反映样本特征的数值,简称为统计量。统计量一方面表示样本自身的分布状况和特征;另一方面又是总体对应指标的估计依据,一定程度上反映了总体的分布状况和类型。
样本统计量的对应指标是总体指标(或称“全及指标”),反映总体特征的数值。
假设有一样本,其各单位的取值分别为x1、x2、…、xn,则有如下常见的统计量:
样本均值:
样本方差:
样本方差的分母在数理统计学中叫做 自由度,即能够自由取值的变量的数目。容量为n的样本,在任何统计量都没有确定时,其自由度为n;在计算方差时由于样本均值已定,其自由度为 n-1。
第一节
二、抽样推断中的基本概念
特征值 样本(抽样总体) 总体(全及总体)
单位容量
平均数
成 数
平均数标准差
平均数方差
成数标准差
成数方差
(一)样本及相关概念
样本统计量

总体指标
常用符号
第一节
二、抽样推断中的基本概念
(二)随机变量与概率分布
1. 随机变量与随机向量
抽样推断以随机原则抽选样本单位,概率论是描述随机性问题的最好工具。在概率论中将样本里各单位量化的某种标志称为随机变量。
将多个同类的随机变量构成一个集合就叫做随机向量。
在抽样推断中由n个单位组成的样本就构成了一个集合,该集合中的各单位的某种标志值用x1、x2、…、xn来表示,就可以看作是n个随机变量组成的同分布的 n 维随机向量。其中每一个随机变量xi 的可能取值(即变量值)会有多个或无穷多个,但在一次抽样中只能获取其中的一个值。
随机变量根据其量化特征分为离散型和连续型两类。
第一节
二、抽样推断中的基本概念
(二)随机变量与概率分布
2. 概率及其属性
概 率
是指某随机事件发生或出现的可能性的概念,即在随机变量中某种变量值出现的可能性或机会。
样本中某标志值出现的频数和频率是确定的。对于总体来说,可能的样本个数很多,因此,在随机抽样分析时,某标志可能出现的频数和频率是随机的。
频数与频率
确定性与随机性
随着样本容量的增大,各标志出现的频率值将以总体的频率真值为极限,该极限就是统计概率。
样本容量
与统计概率
第一节
二、抽样推断中的基本概念
(二)随机变量与概率分布
2. 概率及其属性
为研究某工厂的产品质量情况,采用随机抽样检查,各次检查的数量(即样本容量)不同,其结果记录如表7.1所示。
抽查件数 5 10 50 100 300 600 1000 5000 10000
合格频数 5 8 44 91 272 542 899 4510 8999
合格频率 1 0.8 0.88 0.91 0.907 0.892 0.899 0.902 0.8997
表7.1 各次质量抽查结果
表中数据显示:随着样本单位数的扩大,其合格率稳定地趋向0.9左右。即合格频率总是围绕着一个固定常数p=0.9摆动。可见p可以表明一次检查中合格品出现的可能性,即概率。




第一节
二、抽样推断中的基本概念
(二)随机变量与概率分布
2. 概率及其属性
统计概率定义:在大量重复试验中,事件A发生的频率稳定地接近于一个固定的常数p,它表明事件A出现的可能性大小,则称此常数p为事件A发生的概率,记为P(A), 即:
(1)必然会发生的事件的概率为1;
(2)不可能发生的事件的概率为0;
(3)任何随机事件A的概率为不大于1的非负实数,即0<P(A)<1;
(4)如果α代表非A事件发生的概率,则A事件发生的概率为1-α,即:
p=P(A)=1-α。
概率就是频率的稳定中心
概率 具有如下性质
第一节
二、抽样推断中的基本概念
(二)随机变量与概率分布
3. 统计量的概率分布
例1 假设一个由5人(A,B,C,D,E)构成的总体,他们的日产量分别是12,14,16,18,20件;现从5人中随机抽取2人进行平均产量的调查,并用它来推断总体平均数。这样,可能的样本个数共有 52=25 个,每个可能样本被抽取的概率都为1/25 。 将各样本的平均数和与之对应的概率依次排列,便构成了样本平均数的概率分布表。见表7.2所示。
是指与样本统计量的各种可能取值相对应的概率构成的分布数列。它是联接样本统计量与总体统计指标的重要桥梁,是统计推断的重要理论依据。
统计量的
概率分布
第一节
二、抽样推断中的基本概念
所 有 可 能 的 样 本 样 本 平均数 各组 样本数 概率 累 计
概 率
(1) (2) (3) (4) (5)
(A,A) 12 1 1/25 1/25
(A,B) (B,A) 13 2 2/25 3/25
(A,C) (B,B) (C,A) 14 3 3/25 6/25
(A,D) (B,C) (C,B) (D,A) 15 4 4/25 10/25
(A,E) (B,D) (C,C) (D,B) (E,A) 16 5 5/25 15/25
(B,E) (C,D) (D,C) (E,B) 17 4 4/25 19/25
(C,E) (D,D) (E,C) 18 3 3/25 22/25
(D,E) (E,D) 19 2 2/25 24/25
(E,E) 20 1 1/25 25/25
(二)随机变量与概率分布
3. 统计量的概率分布
表7.2 样本平均数(人均产量)的概率分布表
样本平均数——均值的随机变量;
各组样本数——各种平均水平的可能样本数;
概率——各种均值在一次抽样中可能被抽到的概率,它等于所有可能样本范围内的频率;
累计概率”——各组均值及以下水平在一次抽样中被抽取的概率分布。
表7.2中:
第一节
二、抽样推断中的基本概念
(三)随机变量的常用特征值
(1)离散型随机变量的数学期望
如果离散型随机变量X有概率函数:
样本的数学期望实质上就是总体的平均值
随机变量的数学期望指随机变量以概率为权数的加权算术平均数
1. 数学期望
(2)连续性随机变量的数学期望
第一节
二、抽样推断中的基本概念
(三)随机变量的常用特征值
2. 方差
随机变量的方差是其标准差的平方,它是随机变量与其数学期望的离差平方的数学期望。因其计算上的方便,方差较标准差应用更广。常用D(X)或σ2表示方差。
(1)离散型随机变量的方差计算公式:
(2)连续型随机变量的方差计算公式:
第一节
三、抽样推断的理论依据
抽样推断是通过样本对总体进行估算,这样,统计量与被估算的总体指标之间的关系,就是估算的关键。这两者的关系主要通过统计量的分布来反映,并且因样本量的大小而有所差别。
随机变量的正态分布
小样本统计量的分布规律
大样本统计量的分布规律
第一节
三、抽样推断的理论依据
(一)随机变量的正态分布
正态分布反应正常情况下绝大多数事件的分布规律,所以也叫常态分布。随机变量X如果服从正态分布,则简记作X~N(μ,σ2 ),其中μ是X的期望值,σ 2是X的方差。其分布图形如图7.1所示:
p
p
(a)普通正态分布 
(b)标准正态分布
图 7.1 两种正态分布图
第一节
三、抽样推断的理论依据
(一)随机变量的正态分布
(1)正态分布的概率分布曲线关于X=μ为对称轴的钟形分布;
1. 普通正态分布(主要特征)
(2)概率分布曲线在μ-σ和μ+σ 处是拐点,即在X<(μ-σ)和X>(μ+σ) 区间是凹形的(凸向横轴);在(μ-σ)(3)概率分布曲线向±∞延伸,并以横轴为渐近线。这样,在概率分布曲线和横轴构成的封闭区间的面积就是1(即概率的总和为100%)。
(4)变量值X在区间[μ-σ, μ+σ]的概率等于68.26%;在[μ-1.96σ, μ +1.96σ]的概率为95%;在[μ-2σ, μ +2σ]的概率为95.45%;在[μ-3σ, μ +3σ]的概率为99.73%。
p
第一节
三、抽样推断的理论依据
(一)随机变量的正态分布
2. 标准正态分布
当正态分布的两个参数μ=0和σ2=1时,就叫做标准正态分布,简记作u~N(0,1)。
【均值分布定理1】 如果样本中的某随机变量来自正态总体,只要数学期望μ和方差σ2存在,则样本平均数的所有可能值构成的随机变量也服从数学期望为μ,方差为σ2/n的正态分布。样本平均数构成的随机变量经标准化后将服从标准正态分布。即:
标准正态分布转化公式:
p
第一节
三、抽样推断的理论依据
(二)小样本统计量的分布规律
1. 小样本均值的分布律 ——
t分布形态上与标准正态分布很类似,是关于 t=0 的对称分布,其概率分布曲线与正态分布相比,一般中心部分比正态分布低、两边比正态分布高,且取值也是在-∞到+∞之间。对于不同的自由度都有相应的t分布值,并且随着样本容量的增大,其自由度的增加到一定量(n>30)时,t分布就近似于标准正态分布N(0,1)。t分布一般简记作t~t(n),t分布与标准正态分布的比较如右图所示:
α
P
t分布
正态分布
【均值分布定理2】如果从均值为 μ,方差未知的正态分布总体中随机抽取n个单位组成样本,则所有可能的样本平均数构成的随机变量在标准化时,由于采用样本的标准差 s替代总体的标准差 σ,这时标准化的统计量 t 将服从于自由度为 n-1 的t分布。即:
第一节
三、抽样推断的理论依据
(二)小样本统计量的分布律
2. 小样本方差的分布律 ——
分布是一个以自由度n为参数的分布族,自由度的大小决定分布形状, 即不同的自由度有不同的卡方分布。
分布是个非对称分布,随自由度的增大,卡方分布渐变为对称形分布,当自由度达到相当大时,卡方分布接近于正态分布。
卡方分布族图
【方差分布定理】 设来自一般正态总体的随机样本,其样本方差为s2,总体的方差为σ2,则统计量:
服从自由度为n-1的χ2分布,简记为:
“方差分布定理”为总体方差的推断提供了理论依据
χα2   χ2
P
n=4
n=8
n=15
n=25
α
0
第一节
三、抽样推断的理论依据
(二)小样本统计量的分布律
3. 方差比的分布律 ——
公式表示具有自由度为 n-1和 m-1的F分布。其中0<F<+∞,n-1为F统计量的分子的自由度数目,m-1为 F统计量的分母的自由度数目;F分布的曲线图与 χ2 分布非常相似, 其概率值及临界值可以通过计算或查表求得。
【方差比分布定理】 来自总体 的两个容量分别为n和m的相互独立的样本,其样本方差分别记为 ,则构成统计量F有:
第一节
三、抽样推断的理论依据
(三)大样本统计量的分布规律
1. 大数定律
2. 中心极限定律
大数定律是指一切关于大量随机现象的平均结果具有稳定性。
本质意义在于:尽管单个随机现象的具体表现不可避免地引起随机偏差,但在大量随机现象共同作用时,由于这些随机偏差互相抵消、补偿和拉平,致使总的平均结果趋于稳定。
大数定理说明,在抽样推断中,当样本容量足够大时(即大样本),样本统计量的数值以总体对应指标为极限。这为统计推断提供了最基本的理论依据。
中心极限定理是指在一定的条件下,大量相互独立的随机现象的概率分布以正态分布为极限。因正态分布在概率论中占有中心地位,所以把以正态分布为极限的定理叫做中心极限定理。
结果稳定
正态分布

谢 谢
同学们的聆听
7-01
抽样推断基础
讲授完毕

展开更多......

收起↑

资源预览