资源简介 (共53张PPT)第四章 抽样与抽样分布《统计学原理与应用》提纲 (Outline)4.1 问题的提出4.2 抽样与抽样方法4.3 抽样分布4.4 中心极限定理及其应用4.5 单样本统计量的抽样分布4.6 双样本统计量的抽样分布4.1 问题的提出在多数情况下,人们无法完全把握了解全部总体,只能依据总体有限的数据和信息判断总体特征,但显然利用样本进行总体特征推断具有一定的风险。因此,统计学一个重要的研究内容为抽样和抽样方法。即样本推断总体特征的科学性。4.2 抽样与抽样方法一、抽样与统计量抽样又称取样,从想要研究的总体(所有个体组成)中抽取一部分个体(即样品单位)。设 是取自某总体的一个容量为n的样本,假如样本函数 中不含任何未知的参数,则称Q为统计量。4.2 抽样与抽样方法二、抽样方法(一)概率抽样(Probability Sampling)1. 简单随机抽样2. 系统抽样3. 分层抽样4. 整群抽样(二)非概率抽样(Non-probability Sampling)4.2 抽样与抽样方法【例4.1】 抽样方法举例设有1000个电子元器件需要进行产品质量检验,它们分别装在20个包装箱中,每只箱内各装有50个元器件。如果想从该批产品中抽取100个作质量测试检验,请分别设计4种不同的概率抽样方案进行抽样检验。(1)简单抽样。将20个箱子中所有元器件全部放在一起,混合均匀,将所有产品从1~1000逐一编号,然后利用随机数生成器从中抽取编号毫无规律的100个产品组成样本。(2)系统抽样。将20个箱子中所有元器件全部放在一起,混合均匀,并将所有产品从1~1000逐一编号,然后对0,1,2,3,4,5,6,7,8,9十个数随机抽样一个数,最后抽取产品编号个位数与先前获得的随机数相同的产品组成样本。(3)分层抽样。在20箱元器件中,对每个箱子分别随机抽取5个产品共100个产品组成样本。(4)整群抽样。先从20箱元器件随机抽取2箱,然后对这2箱内的100个产品进行全数检验,即把这2箱产品作为“整群”,由它们组成100个产品样本。4.2 抽样与抽样方法1. 界定总体2. 制定抽样框3. 决定抽样方案4. 实际抽取样本5. 评估样本质量三、抽样的一般程序4.2 抽样与抽样方法4.3 抽样分布一、抽样分布的概念(一)抽样变异 (Sampling Variablity)随着样本选取的不同、统计量构造的方法不同,由此获得的统计量可能出现差异,这种差异我们称为抽样变异。(二)抽样分布(Sampling Distribution)简单的说,统计量的分布就是抽样分布。但其精确定义是将来自于总体样本容量给定的所有不同可能样本统计量的值所形成的分布称为抽样分布。4.3 抽样分布二、四大重要分布图4.1 正态分布的密度函数4.3 抽样分布4.3 抽样分布图4.2 不同自由度的 分布密度函数4.3 抽样分布分布具有如下重要性质(1) 分布只取正值,与正态分布不同。(2) 分布是非对称分布,其偏度取决于自由度的大小,自由度越小越右偏。(3) 分布具有渐近性,随着自由度增大,分布逐渐对称,接近正态分布。(4) 分布的数学期望为其自由度k、方差为2 k。(5) 分布具有可加性。(6)如果来自方差为 2的一个正态分布的N个观测值的样本方差为s2,则可以证明: 。 此性质将用于估计总体未知参数方差。设Z服从标准正态分布,X服从自由度为k的 分布并且两者相互独立,于是随机变量:服从自由度为k的t分布。对于来自正态总体的样本,对样本均值进行标准以得到。它是一个均值为0,方差为1的标准正态分布,又由于服从自由度为N-1的分布,因此有:4.3 抽样分布图4.3 t分布(虚线)和标准正态分布(实线)密度函数T 分布具有如下重要性质:(1)t分布也是对称分布。(2)t分布具有渐近性,随着自由度k的增加,方差收敛于1,当自由度很大时,它趋近于正态分布。(3)t分布的随机变量期望值为0,方差为。4.3 抽样分布4.3 抽样分布F分布是统计学中又一种重要概率分布。如果两个服从 分布的随机变量相互独立,其自由度分别为k1和k2,则服从自由度为(k1 , k2)的F分布,其中k1 和k2分别为分子自由度和分母自由度。图4.4 同自由度的F分布密度函数4.3 抽样分布F分布具有如下重要性质:(1)F分布与 分布类似,只取非负值(2)F分布也是非对称分布。(3)F分布具有渐近性,即随自由度逐渐增大,F分布逐渐对称,接近正态分布。(4)设服从自由度的F分布,即 ,其数学期望和方差分别是(5)F分布和t分布具有重要关系,t分布变量的平方服从分子自由度为1,分母自由度为k的F分布,即(6)F分布和分布也具有重要关系。当k2无限大时,F的分母收敛为1,这时F分布与 分布存在如下关系 ,即 变量与其自由度之比近似为分子自由度为k1,分母自由度很大的F分布。4.4 中心极限定理及其应用一、中心极限定理(Central Limit Theorem)设从均值为μ、方差σ2(有限)的任意一个总体中抽取样本量为n的样本,当n充分大时,样本均值 x的抽样分布近似于均值为μ、方差为σ2/n的一个正态分布,即 x 近似于正态分布N(μ,σ2/n)。4.4 中心极限定理及其应用一、中心极限定理(Central Limit Theorem)样本容量越大, x 的抽样分布近似于正态分布的程度越高。由中心极限定理的表述可知, x 的抽样分布的标准差会随着样本容量n的增大而变小,这使得当样本容量增加时,利用样本统计量(如 x )在估计总体参数(如 μ)时将更加准确。4.4中心极限定理及其应用二、理论意义中心极限定理是推断统计分析的基础。在实际调查和推断中,有了中心极限定理和足够大(一般要求n≥30)的随机样本,就可以利用正态分布的性质进行各种推断性统计分析。说明:统计学中的n≥30为大样本,n<30为小样本只是一种经验说法,对n具体的要求需要依据总体接近正态分布的程度来确定,总体分布偏离正态越远,对样本量n的要求就越大。4.4 中心极限定理及其应用三、中心极限定理应用【例4.2】 食品包装净含量检验食品包装质量管理中一项重要内容便于对袋装食品净含量进行检验,许多袋装食品的净含量都标明净重为545克(即均值μ),误差为±10克(即标准差σ 为10)。质量技术监督部门通常根据36袋食品作为样本来检验产品的净含量,以确定该产品在数量上是否达到质量规定标准。问如果样本平均净含量小于或等于540克的概率是多少?4.4 中心极限定理及其应用三、中心极限定理应用【解】虽然该袋装食品净含量的总体分布未知,利用中心极限定理依然可得按36袋食品抽样的样本平均净含量的抽样分布近似为正态分布,而且这个抽样分布的均值与总体均值是相同的。抽样分布的标准差由下面表达式给出:(克)4.4 中心极限定理及其应用三、中心极限定理应用对于36袋食品的样本来说,质量技术监督部门检验得到的平均净含量小于或等于520克的概率P计算式为:4.4 中心极限定理及其应用质量技术监督部门检测到的样本均值小于或等于540克的概率仅为0.0082。如果36袋食品平均净含量真的小于或等于540克,那么质量技术监督部门有充分的证据怀疑该批次食品净含量是不足的,因为如此小概率事件竟然发生不一定是一种巧合现象。4.5 单样本统计量的抽样分布在推断性统计分析中,遇到最为常见的问题便是对总体的重要数字特征如数学期望μ、方差σ2以及具有某一特征的总体比例π进行估计和检验,为此我们需要充分把握和估计这些重要特征的样本抽样分布的形式和特征。4.5 单样本统计量的抽样分布一、样本均值的抽样分布(一)样本均值 x 抽样分布的形式利用样本均值推断总体均值。在此过程中,我们需要回答的是在抽样过程中总体分布的形式、总体特征μ与σ2以及样本容量n对样本均值 x 的抽样分布特性产生多大的影响。为此我们先讨论当样本容量改变时,样本均值的形态究竟发生怎样的变化。4.5 单样本统计量的抽样分布(一)样本均值 x 抽样分布的形式对同一总体的房价数据作两组65个样本的重复抽样,设定样本容量分别为10和30,对两组65个样本的均值做抽样分布图如下图所示:(a)n=10(b)n=304.5 单样本统计量的抽样分布(一)样本均值 x 抽样分布的形式与容量n=10的65个样本均值分布图(图(a))相比,样本容量更大的样本均值分布更近似于正态分布。图(a)与(b)对比显示, x 抽样分布的形式与样本容量n的大小有关。由中心极限定理可知:当n充分大时,样本均值 x 的抽样分布近似于均值为μ、方差为σ2的一个正态分布,即 x 近似于正态分布N(μ,σ2/n),且样本容量越大, x 的抽样分布越近似于正态分布的程度越高。4.5 单样本统计量的抽样分布(一)样本均值 x 抽样分布的形式如果原有总体本身是正态分布,那么无论样本容量大小,样本均值的抽样分布都服从正态分布。此结论来源于相互独立正态分布的可加性,即来自于正态分布总体,每一服从正态分布且相互之间独立,从而由下式计算的样本均值:也为正态分布。4.5 单样本统计量的抽样分布(二)样本均值 x 抽样分布的特征两大重要特征:均值和方差两大特征既与总体分布的均值和方差有关,也与抽样时的样本容量有关,实际还与抽样方式有关(究竟是重复抽样还是非重复抽样)。通过数学证明,无论是重复抽样还是非重复抽样,样本均值 x 的均值(记为E( x ))与总体均值相等,即:E( x )=μ。4.5 单样本统计量的抽样分布(二)样本均值 x 抽样分布的特征样本均值 x 的方差(记为 )与抽样方法有关。在重复抽样下,样本均值 x 的方差为总体方差σ2的1/n,即:即 x ~N(μ, )4.5 单样本统计量的抽样分布(二)样本均值 x 抽样分布的特征在非重复抽样下,样本均值 x 的方差 为:即 x ~N(μ, )当总体单位个数N足够大时, 接近于1,这使得在重复抽样与非重复抽样下得到的样本均值 x 的方差没有太大差异;对无限总体而言,重复抽样与非重复抽样下的样本均值 的方差完全一样。4.5 单样本统计量的抽样分布二、样本比例的抽样分布(一)样本比例类似于总体均值,总体比例π往往也是未知的,也需要通过抽样来进行估计和推断。设从某一总体抽样容量为n的一个样本,样本中具有某中特性的个体数量为n0,则样本具有该特性的比例p计算为:样本比例p的抽样分布是样本所有可能取值的概率分布。4.5 单样本统计量的抽样分布(二)样本比例p性质(1)当样本容量很大且总体比例π与0和1相差较大时,样本比例p的抽样分布近似于一正态分布,即:(2)样本比例p的数学期望 等于总体比例π ,即 。4.5 单样本统计量的抽样分布(二)样本比例p性质(3)在重复抽样和非重复抽样不同方式下,样本比例p的方差(记为σ2p)分别为:(4)进一步,当n·p≥10和n·(1-p)≥10时, 近似正态分布的程度更高。4.5 单样本统计量的抽样分布三、样本方差的抽样分布只讨论当总体分布为正态分布时,样本方差的分布。样本方差s2的计算公式为:随着样本选择的不同,s2也是随机变化的,当重复抽取容量为n的样本时,所有不同样本方差值所形成的随机分布称为样本方差的抽样分布。4.5 单样本统计量的抽样分布三、样本方差的抽样分布可以证明,对于来自于总体分布为正态分布的随机抽样时,比值 的抽样分布服从自由度为(n-1)的 分布,即:4.5 单样本统计量的抽样分布【例4.3】 样本方差抽样分布的应用案例食品包装质量管理中对袋装食品净含量进行检验。许多标准袋装食品的净含量都标明净重为545克(即均值μ),误差为±10克(即标准差σ为10)。质量技术监督部门通常根据36袋食品作为样本来检验产品的净含量,以确定该产品在数量上是否达到质量规定标准。问在抽取的36袋样本中其标准差大于13克的概率是多少(假定袋装食品净含量总体服从正态分布)。【解】对于来自于总体分布为正态分布的随机抽样时, 比值 的抽样分布服从自由度为(n-1)的 分布,即:,于是4.5 单样本统计量的抽样分布4.5 单样本统计量的抽样分布根据自由度为35的 分布表,可得P( >59.15)=0.0065,即P(S>13) =P( >59.15)=0.0065,即是说随机抽取36袋食品其标准差大于13克的可能性大约是0.65%,不超过0.7%。4.5 单样本统计量的抽样分布例4.2 样本方差抽样分布的应用案例当样本容量n≥30时, 分布趋于正态分布。由数理统计学理论可以证明,若χ服从自由度为n-1的 分布( n>30),则 近似于一标准正态分布,即z~N(0,1) 。在本例中,样本容量为36,样本方差服从一自由度为35的 分布,因此有:4.6 双样本统计量的抽样分布在统计应用中,我们时常要分析不同总体分布的特征差异,由样本统计量的比较推断总体特征的比较,如两个样本均值之差 、两个样本比例之差、两个样本方差比 等。要比较两个样本特征值的大小区别,那么就必须掌握两个样本统计量的抽样分布。4.6 双样本统计量的抽样分布假定从总体1中重复抽取容量为n1的样本,其均值为 x1 ,从总体2中重复抽取容量为n2的样本,其均值为 x2 。当两个总体均为正态分布或者两个样本容量都充分大时(一般要求n1≥30,n2 ≥30),这时由中心极限定理可得到两个样本均值 x1 和 x2 分别服从下列两个正态分布:(一)两样本均值之差的抽样分布4.6 双样本统计量的抽样分布由正态分布的性质可得: 也服从正态分布,即:且在样本抽样时,我们给出的是重复抽样,对于非重复抽样,差别仅在样本均值对应抽样正态概率分布的方差上,如果总体足够大时,方差差别甚小。(一)两样本均值之差的抽样分布4.6 双样本统计量的抽样分布设两个相互独立的总体均服从二项式分布,现从总体1中重复抽取容量为n1的样本,满足某一特性的样本比例为p1 ,从总体2中重复抽取容量为n2的样本,满足某一特性的样本比例为p2 。假定两个样本容量都充分大时,即n1·π1≥5,n2·π2≥5),则p1 和p2 分别服从下列两个正态分布:(二)两样本比例之差的抽样分布由正态分布的性质可得:p1-p2也服从正态分布,即:且(二)两样本比例之差的抽样分布4.6 双样本统计量的抽样分布【例4.4】 两样本比例之差抽样分布的应用案例4.6 双样本统计量的抽样分布企业有若干条生产同一产品的生产流水线,为了检验保证企业产品质量的稳定性,需对不同流水线上的产品质量进行抽样检验。根据已有检验,过去A、B两条生产线上的产品合格率分别达到98.5%和98%,现从A、B两条生产线上分别独立抽取容量皆为400的产品作为抽检样本,试估算这两个样本中产品不合格率相差不超过0.5%的概率。例4.6 两样本比例之差抽样分布的应用案例4.6 双样本统计量的抽样分布【解】根据题意,该企业A、B两条生产线上的产品不合格率分别为π1=0.015,π2=0.02;随机独立抽样的样本容量分别为n1=400,n2=400。由此可计算n1·π1=400×0.015=6,n2·π2=400×0.02=8 。于是两样本比例之差p1-p2近似于下列正态分布:例4.6 两样本比例之差抽样分布的应用案例4.6 双样本统计量的抽样分布两个样本中产品不合格率相差不超过0.5%的概率可表示为计算 它由两部分组成,一部分是另一部分是例4.6 两样本比例之差抽样分布的应用案例4.6 双样本统计量的抽样分布根据标准正态分布表,,因此这两个样本产品不合格率相差不超过0.5%的概率为0.5 - 0.14 = 0.36。4.6 双样本统计量的抽样分布设两个相互独立的总体均为正态分布即现分别独立从这两个总体中随机抽取容量为n1和n2的样本,这两个样本的方差 与总体方差 相应的比分别服从如下 分布,即:(三)两样本比例之差的抽样分布4.6 双样本统计量的抽样分布那么由 分布的性质可知:利用上式和F分布的特征估计 的概率分布,从而再利用样本方差 的值即可估算在给定置信水平上的 值。(三)两样本比例之差的抽样分布 展开更多...... 收起↑ 资源预览