项目七 抽样推断分析 课件(共54张PPT)《统计学基础》同步教学(电子工业版)

资源下载
  1. 二一教育资源

项目七 抽样推断分析 课件(共54张PPT)《统计学基础》同步教学(电子工业版)

资源简介

(共54张PPT)
单元一 认识抽样推断
单元二 运用参数估计分析
单元三 确定样本容量
单元四 EXCEL在抽样推断中的应用
项目七 抽样推断分析
项目七导学
单元一
认识抽样推断
一、抽样推断的含义和特点
(一)抽样推断的含义
抽样推断又称抽样估计,是按照随机原则,从全部研究总体中抽取一部分单位进行调查,并依据所获得的数据对总体的某一数量特征做出具有一定可靠程度的估计与推断,从而认识总体的一种统计方法。
Page (二)抽样推断的特点及作用抽样推断的特点1.抽样推断是建立在随机抽样的基础上2.抽样推断伴随着一定的误差,但是误差可以事先计算和加以控制;3.抽样推断结果具有一定的可靠程度(概率估计)1.可以用来了解不能进行全面调查现象的资料抽样推断的作用2.节省人财物力3.可以进行抽检、质量控制4.可以对总体参数进行假设检验二、抽样推断的几个基本概念(一)总体及样本(二)样本容量和样本个数(三)重复抽样和不重复抽样(五)参数与统计量(四)抽样框与抽样单元总体 随机样本 (一)总体和样本(一)总体和样本1、总体:又称全及总体,是所要认识的对象的全体,简称总体,也叫母体。它是调查对象范围内具有某种共同性质或特征的许多单位的集合体。全及总体的单位数通常用N来表示,N总是很大的数,所有要进行抽样调查与推断。2、样本:又称子样或抽样总体。它是从总体中随机抽取出来,代表总体的那部分调查单位的集合体。样本的单位数通常用n表示(n也成为样本容量),相对N来说,n是很小的数。思考1:对于某一研究问题,总体是唯一的,样本唯一吗?(二)样本容量和样本可能个数样本容量:是指一个样本所包含的单位数n。样本可能个数:又称样本个数, 是在一定的抽样方法和样本容量下从总体抽取的所有可能的样本个数。一般来说,样本单位数达到或超过30个称为大样本,而在30个以下称为小样本。社会经济统计的抽样推断多属于大样本,科学实验的抽样则多属小样本。)全部样本的可能数目和样本容量、抽样方法有关。思考2:从总体单位数N=100的总体中随机抽取容量为10的样本,样本可能数目为多少?类推——从N中随机抽取容量为n的样本,样本可能数目为多少?(三)重复抽样和不重复抽样1、重复抽样也称重置抽样、放回抽样、回置抽样。它是指从总体N个单位中随机抽取容量为n的样本时,每次从总体中抽取一个单位,把结果登记下来后重新放回,再从总体中抽取下一个样本单位。在这种抽样方式中,同一单位可能有多次被重复抽取的机会。例如2、不重复抽样也称不重置抽样、不放回抽样、不回置抽样。它是指从总体N个单位中随机抽取容量为n的样本时,每次从总体中抽取一个单位,不再放回去,下一次则从剩下的总体单位中继续进行抽取,如此反复构成一个样本。就是说,每个总体单位只能被抽取一次,从总体中每抽取一次,总体就少一个单位,因此,先后抽出来的各个单位被抽中机会是不相等的。例如重复抽样总体有A、B、C、D4个单位,要从中随机抽取2个单位构成样本。可先从4个单位中取一个,结果登记后放回,然后再从相同的4个中取一个,就构成一个样本。全部可能抽取的样本数目为4×4==16个。它们是:AA,AB,AC,AD,BA,BB,BC,BD,CA,CB,CC,CD,DA,DB,DC,DD。一般地说,从总体N个单位中,随机抽取n个单位构成样本,则样本可能数目为 个。不重复抽样前例中,用不重复抽样的方法从中抽两个单位构成样本,则全部可能抽取得样本共有4×3=12个,它们是:AB,AC,AD,BA,BC,BD,CA,CB,CD,DA,DB,DC。一般地讲,从总体N个单位中,随机不重复抽取n个单位构成一样本,则样本可能数目为?由此知:在相同的样本容量的要求下,不重复抽样的样本可能数目比重复抽样为少。在实际工作中,一般多采用不重复抽样,但有些调查如公交车辆乘客情况的调查,商场顾客流量情况的调查只宜用重复抽样。N(N-1)(N-2)……(N-n+1)个。(四)抽样框和抽样单元抽样框:又称抽样结构,是指对可以选为样本的总体单位列出名册或排序编号,以确定总体的抽样范围和结构。抽样单元:构成抽样框的单元称为抽样单元。抽样时,抽取的不是具体的总体中某个单元,而是抽取它的编号,我们是从抽样框中进行抽取的,因此1)抽样框必须是有有序的编号;2)抽样框中的抽样单元必须“不重不漏”(五)参数和统计量参数:反映总体数量特征的指标称为参数。也叫总体指标或母体参数。由于全及总体是唯一确定的,所以根据全及总体计算的全及指标也是唯一确定的。抽统计量:又称为抽样指标,由样本总体各单位标志值或标志特征计算的,反映样本数量特征的综合指标。它是用来估计全体指标的。在一个调查总体中,参数是唯一确定的量,是一个未知量;是需要通过样本指标(统计量)来推断的。常用的参数有总体平均值、总体方差、标志差、总体成数、总体成数方差、总体成数标准差。用相应的小写字母表示与总体对应的统计量。参数和统计量的计算公式变量总体总体平均数总体标准差总体方差参数(总体指标)统计量(样本指标)参数和统计量的相关公式属性总体总体成数总体成数标准差总体成数方差参数(总体指标)统计量三、几种基本的抽样方式1.简单随机抽样2.分层抽样3.等距抽样4.整群抽样四、抽样误差及抽样误差的可靠程度
(一)抽样误差
抽样误差是抽样推断产生的误差,是样本指标与总体指标之间的离差。
样本平均数与总体平均数的绝对离差(即 );
样本成数与总体成数的绝对离差(即 )。
抽样误差的大小受什么影响?
思考:抽样误差越大越好还是越小越好?
影响抽样误差的因素
1.样本容量大小;
2.总体各单位标志值的差异程度;
3.抽样的方法;
4.抽样调查的组织形式。
差异越大,抽样误差越大
单位数越多,抽样误差越小
重复抽样的抽样误差比不重复抽样的大
简单随机抽样的抽样误差最大
(二)抽样平均误差是反映抽样误差的一般水平(平均数);通常用样本平均数(或样本成数)的标准差来表示,用符号 表示。因为抽样有重复抽样和不重复抽样,所以抽样平均误差分两种:样本平均数的抽样平均误差例题:
某工厂有1500个工人,用简单随机重复抽样的方法
抽出50个工人作为样本,调查其工资水平资料如下
月平均工资 524 534 540 550 560 580 600 660
工人数 4 6 9 10 8 6 4 3
计算样本平均数和抽样平均误差
解:先列表
x f xf
524 4 2096 1296 5184
534 6 3204 676 4056
540 9 4860 400 3600
550 10 5500 100 1000
560 8 4480 0 0
580 6 3480 400 2400
600 4 2400 1600 6400
660 3 1980 10000 30000
50 28000 52640
计算平均数即平均工资:
样本成数的抽样平均误差例题:
某钢铁厂生产某种钢管,现从该厂某月生产的500根产品中抽取一个容量为100根的样本。已知一级品率为60%,试求样本一级品率的抽样平均误差。
解:已知p=60% 、n=100、N=500
(三)抽样极限误差(抽样允许误差)抽样极限误差是指样本指标和总体参数之间抽样误差可能的最大范围。用符号 表示。抽样极限误差通常需要以抽样平均误差为标准单位来衡量。抽样极限误差 除以抽样平均误差 得相对数t.t是测量估计可靠程度的一个参数,称为抽样估计的概率度。(四)抽样误差的概率度t这个公式表明,在抽样平均误差μ一定的条件下,概率度t越大,则抽样误差范围 越大,反之t越小,抽样误差范围 越小。我们可以计算抽样统计量和总体参数的误差不超过一定区间范围(置信区间)内的概率,这种概率就称之为抽样估计的可靠程度,也称为置信度(即总体参数落在一定区间范围的概率把握程度)。用P表示,它是概率度t的函数(P=F(t))。在实际应用中,我们所研究的总体大部分为正态总体,根据“正态分布概率表”,已知概率度t可查得相应的概率保证程度F(t);相反,已知概率保证程度F(t)也可查得相应的概率度t。现将几个常用的对应数值列于下表。概率度t概率F(t) (%)1.002.003.001.641.962.5868.2795.4599.7390.0095.0099.00(五)抽样估计的可靠程度F(t)常用概率度与概率保证度表从抽样极限误差的计算公式看,极限误差 与概率度t和抽样平均误差 三者之间存在如下关系:1、在 保持不变的情况下,增大t值,把握程度P相应增加,误差范围 也随之扩大,这时估计的精确度 将降低;反之,要提高估计的精确度,就得缩t值,此时把握程度也会相应降低。2、在t保持不变的情况下,抽样平均误差 小,则误差范围就小,估计的精确度就高;反之,抽样平均误差 大,误差范围 就大,估计的精确度就低。抽样估计的可靠程度大,抽样极限误差大,估计的精度低;抽样估计的可靠程度小,抽样极限误差小,估计的精度高;1.样本容量n。在其他条件不变的情况下,样本容量越大,抽样误差则越小。当样本容量大到等于总体单位数N时,则统计量和总体参数完全重合;反之,样本容量愈小,抽样误差愈大。2.总体标志的变异程度。总体标志变动程度越大,抽样误差就越大,反之,总体标志变化程度越小,则抽样误差越小。3.抽样的组织方式和抽样方法。在相同条件下,重复抽样的误差大于不重复抽样的误差。(六)影响抽样误差的因素单元二
运用参数估计分析
一、点估计
点估计是以样本统计量的取值直接作为总体参数的估计值的一种估计方法。如:用样本均值 直接作为总体均值 的估计值,用样本方差 作为总体方差 的估计值,用样本乘数 作为总体成数 的估计值等等。即有点估计的基本公式:
点估计的特点:
1)优点是简便易行,原理直观,常为实际工作采用。
2)不足之处是没有表明抽样估计的误差,更没有表明误差在一定范围内的概率保证程度有多大。
二、区间估计区间估计区间估计是依照一定的概率保证程度,用样本估计值估计总体参数一个区间范围的方法。区间估计与点估计的区别:1)点估计是一个确切的估计值,而区间估计是区间范围,根据概率度的要求区间范围可宽可窄;2)点估计无法回答估计值落在某区间的概率保证程度,而区间估计可以回答待估参数落在估计区间的把握程度。二、区间估计(一)总体平均数的估计区间(置信区间)(二)总体成数的估计区间(置信区间)(一)总体平均数的估计区间(置信区间)1.正态总体、总体方差已知或者非正态总体、大样本时总体均值μ的区间估计当总体服从正态分布,且总体方差已知,或者总体是非正态总体但抽选的样本为大样本(n>=30)时,可以证明抽选自总体的样本的样本均值服从均值为,方差为的正态分布在显著性水平a下,总体均值在1-a的置信度下的置信区间为:(1)若抽样方式为不重复抽样,则上述情况总体均值的置信区间为:(2)若总体方差未知,可以用样本方差 代替:(一)总体平均数的估计区间(置信区间)2.正态总体、总体方差 未知,小样本时总体均值μ的区间估计当总体服从正态分布,且总体方差未知,且样本为小样本时,用样本方差 代替。此时新的统计量是服从自由度为n-1的t分布,记为:在显著性水平a下,总体均值在1-a的置信度下的置信区间为:(1)若抽样方式为不重复抽样,则上述情况总体均值的置信区间为:(2)若总体方差未知,可以用样本方差 代替:[例] :总体均值的区间估计
要估计S乡粮食亩产量和总产量,从该乡1万亩粮食作物中
抽取200亩,求得其平均亩产量为400公斤。如果确定抽样极
限误差为5公斤,试估计该乡粮食平均亩产量和总产量的置
信区间。
所以该乡粮食平均亩产量的区间落在400±5公斤的范围内,即在395~405公斤之间。
粮食总产量在10000×(400±5)公斤,即在395~405万公斤之间
[例]对一批某型号的电子元件进行耐用性能检查,按重复随机抽样的资料分组列表如下,要求估计耐用时数的允许误差范围=10.5小时,试估计该批电子元件的平均耐用时数(见下表)。耐用时数组中值抽样检查结果(只)900以下900—950950—10001000—10501050—11001100—11501150—12001200以上875925975102510751125117512251263543931合计—100第一步,计算第二步,根据给定的=10.5小时,计算总体平均数的上下限:下限= =1055.5–10.5=1045(小时)上限= =1055.5+10.5=1066(小时)第三步,根据 , 查正态分布概率表得概率F(t)=95.66%。(可靠程度)推断的结论是:以95.66%的概率保证程度,估计该批电子元件的耐用时数在1045—1066小时之间。(二)总体成数的区间估计(置信区间)在大样本情况(np>5,n(1-p)>5)下,根据中心极限定理可以证明样本乘数近似服从正态分布。即与样本均值的区间估计一样,在显著性水平在显著性水平a下,总体成数P在1-a的置信度下的置信区间为:例5:总体成数的区间估计
要估计某高校10000名在校生的近视率,现随机从中抽取400名,计算的近视率为80%,如果确定允许误差范围为4%,试估计该高校在校生近视率所在的置信区间。
该校学生近视率的区间落在80%±4%的范围内,即在76%~84%之间。
某灯泡厂某月生产5000000个灯泡,在进行质量检查中,随机抽取500个进行检验,检查500个灯泡中不合格产品占0.4%,试在0.6827概率保证下,估计全部产品中不合格率的取值范围。
例6:
p=0.4%
概率保证程度为0.6827时,t=1
该批灯泡的不合格率取值范围在0.12%~0.68%之间。
单元三
确定样本容量
Page 1.在一定的抽样允许误差条件下,样本容量太大,则会增大工作量,造成人力、财力和时间的浪费。2.样本容量太小,会导致抽样误差增大,抽样的准确程度得不得保证。抽样推断时,样本容量为多大合适?(一)平均数样本容量的确定
1.对于重复抽样:
2.对于不重复抽样:
由于
由于
(二)成数样本容量的确定
1.对于重复抽样:
2.对于不重复抽样:
由于
由于
练习2:对某批成品按重复抽样方法抽选200件检查,其中废
品8件,又知样本容量为成品总量的(1/20)。以95%的把握
程度估计该批成品的废品率范围。
练习3:从全校近万名学生中,随机抽取一部分学生测得其平
均身高160厘米。根据以往经验学生身高的标准差为3厘米,
现要求抽样允许误差最大不超过0.6厘米,则至少应抽多少学生(重复抽样)?
练习4:某电子元件厂日产10000只元件,经多次一般测试一
等品率为92%,现拟采用随机抽样方式进行抽检,如要求误
差范围在2%之内,可靠程度95.45%,试求需要抽取多少只
电子元件?
单元四
EXCEL在抽样推断中的应用
一、EXCEL在抽取样本中的应用第一步,对总体编号,即编制抽样框;第二步,将编号输入Excel中建立数据库;第三步,单击“数据”菜单,选择“数据分析”选项卡,在“数据分析”对话框中的“分析工具”列表中选择“抽样”,点击“确定”,打开“抽样”对话框。在“输入区域”中输入编号所在的单元格地址,在“样本数”文本框中输入样本量n,在“输出区域”中输入单元格如U1。第四步,单击“确定”,即可得到随机抽取的样本编号。第五步,根据样本编号整理对应的样本。二、Excel在抽样极限误差计算中的应用
一、利用“CONFIDENCE”函数计算允许误差(极限误差)
该函数适用于大样本数据。
插入>函数>统计>选“CONFIDENCE”>设置“CONFIDENCE”对话框,其中ALPHA框中输入a值,即1-置信度”>得出允许误差
(二)利用“NORMSINV”(正态)、“TINV”(t分布、小样本)函数先计算概率度,然后计算允许误差(极限误差)
插入>函数>统计>选择“NORM.S.INV”函数> “NORM.S.INV”对话框。
插入>函数>统计>选择“T.INV.2T”>函数“T.INV.2T”对话框。
第二步:在对话框中的“Probability”文本框中输入“显著性水平/2”,单击确定按钮,计算概率度, 然后根据公式计算抽样极限误差。
三、EXCEL在区间估计中的应用在EXCEL中,对总体均值和总体成数的区间估计主要使用“CONFIDENCE”函数、“NORMSINV”、“TINV”函数。一、总体均值的区间估计(一)利用“CONFIDENCE”函数计算允许误差(极限误差)该函数适用于大样本数据。插入>函数>统计>选“CONFIDENCE”>设置“CONFIDENCE”对话框其中ALPHA框中输入a值,即1-置信度”>得出允许误差(二)利用“NORMSINV”(正态)、“TINV”(t分布)函数计算概率度,然后计算允许误差(极限误差)【项目小结】1、抽样推断。抽样推断是按照随机原则,从全部研究总体中抽取一部分单位进行调查,并依据抽样调查所获得的数据对总体的某一数量特征(总体参数)做出具有一定可靠程度的估计与推断的一种统计分析方法。2、几种基本的抽样方式。抽样有概率抽样和非概率抽样,关于概率抽样(主要采用的抽样方式)又分为简单随机抽样、分层抽样、等距抽样、整群抽样。3、抽样误差。抽样误差是样本的统计量与总体的参数之间存在的差距。抽样误差不是由人为因素造成的登记性误差,而是进行抽样调查时所固有的误差。4、抽样平均误差(Average error of sampling) 是所有可能样本的统计量与相应的总体参数的平均离差,通常用符号来表示。表示样本平均数的抽样平均误差;表示样本成数的抽样平均误差。5、抽样极限误差。是以一定的可靠程度(P=F(t))保证抽样误差不超过某一给定的范围。6、参数估计:点估计、区间估计7、样本容量。平均数的必要样本容量:重复抽样——不重复抽样——成数的必要样本容量;重复抽样——不重复抽样——

展开更多......

收起↑

资源预览