资源简介 (共68张PPT)第 5 章 统计量及其概率分布5.1 概率与随机变量5.2 随机变量的概率分布5.3 样本统计量的概率分布probability思考一下如果天气预报说明天降雨的概率是60%,你上班会带雨伞吗?某城市的小汽车是按摇号配售,如果你参加一个摇号周期的摇号,结果只有两种可能:摇中、没摇中,摇中或没摇中的概率分布是什么?你认为全校学社的月生活费支出数据的分布大概是什么形状?从一个班级50个学生中随机抽取10人组成一个样本,能抽取多少个这样的样本?5.1 概率与随机变量5.1.1 什么是概率5.1.2 随机变量及其概括性度量第 5 章 统计量及其概率分布5.1.1 什么是概率5.1 概率与随机变量什么是概率?(probability)概率是对事件发生的可能性大小的度量明天降水的概率是80%。这里的80%就是对降水这一事件发生的可能性大小的一种数值度量你购买一只股票明天上涨的可能性是30%,这也是一个概率一个介于0和1之间的一个值事件A的概率记为P(A)怎样获得概率?重复试验获得概率当试验的次数很多时,概率P(A)可以由所观察到的事件A发生次数(频数)的比例来逼近在相同条件下,重复进行n次试验,事件A发生了m次,则事件A发生的概率可以写为用类似的比例来逼近一家餐馆将生存5年的概率,可以用已经生存了5年的类似餐馆所占的比例作为所求概率一个近似值主观概率5.1.2 随机变量及其概括性度量5.1 概率与随机变量什么是随机变量?(random variables)描述特定试验一切可能出现的结果变量,其取值事先不能确定,具有随机性投掷两枚硬币出现正面的数量一座写字楼,每平方米的出租价格一个消费者对某一特定品牌饮料的偏好一般用 X,Y,Z 来表示根据取值情况的不同分为离散型随机变量和连续型随机变量离散型随机变量(discrete random variables)随机变量 X 取有限个值或所有取值都可以逐个列举出来 x1 , x2,…以确定的概率取这些不同的值离散型随机变量的一些例子试验 随机变量 可能的取值抽查100个产品 一家餐馆营业一天 电脑公司一个月的销售 销售一辆汽车 取到次品的个数 顾客数 销售量 顾客性别 0,1,2, …,1000,1,2, …0,1, 2,…男性为0,女性为1连续型随机变量(continuous random variables)可以取一个或多个区间中任何值所有可能取值不可以逐个列举出来,而是取数轴上某一区间内的任意点连续型随机变量的一些例子试验 随机变量 可能的取值抽查一批电子元件 新建一座住宅楼 测量一个产品的长度 使用寿命(小时) 半年后完工的百分比 测量误差(cm) X 00 X 100X 0离散型随机变量的期望值(expected value)描述离散型随机变量平均取值的统计量离散型随机变量X的所有可能取值xi与其取相对应的概率 pi 乘积之和记为 或E(X),计算公式为离散型随机变量的方差(variance)随机变量X的每一个取值与期望值的离差平方和的数学期望,记为 2 或D(X)描述离散型随机变量取值的分散程度计算公式为方差的平方根称为标准差,记为 或 D(X)离散型数学期望和方差(例题分析)【例4—1】一家电脑配件供应商声称,他所提供的配件100个中拥有次品的个数及概率如下表。求该供应商次品数的数学期望和标准差次品数X = xi 0 1 2 3概率P(X=xi) pi 0.75 0.12 0.08 0.05连续型随机变量的期望和方差连续型随机变量的期望值方差5.2 随机变量的概率分布5.2.1 正态分布5.2.2 二项分布5.2.3 分布、分布和分布第 5 章 统计量及其概率分布5.2.1 二项分布5.2 随机变量的概率分布离散型随机变量的概率分布列出离散型随机变量X的所有可能取值列出随机变量取这些值的概率通常用下面的表格来表示X = xi x1 ,x2 ,… ,xnP(X =xi)=pi p1 ,p2 ,… ,pnP(X =xi)=pi称为离散型随机变量的概率函数pi 0 ;常见的有二项分布、泊松分布、超几何分布等二项试验(Bernoulli试验)二项分布建立在Bernoulli试验基础上贝努里试验满足下列条件一次试验只有两个可能结果,即“成功”和“失败”“成功”是指我们感兴趣的某种特征一次试验“成功”的概率为p ,失败的概率为q =1- p,且概率p对每次试验都是相同的试验是相互独立的,并可以重复进行n次在n次试验中,“成功”的次数对应一个离散型随机变量X二项分布(Binomial distribution)重复进行 n 次试验,出现“成功”的次数的概率分布称为二项分布,记为X~B(n,p)设X为 n 次重复试验中出现成功的次数,X 取 x 的概率为二项分布(期望值和方差)期望值 =E(X) = np方差 2 =D(X) = npq0.00.20.40.6012345XP(X)n = 5 p = 0.50.20.40.6012345XP(X)n = 5 p = 0.1二项分布(例题分析)【例5—2】已知一批产品的次品率为4%,从中任意有放回地抽取5个。求5个产品中(1) 没有次品的概率是多少?(2) 恰好有1个次品的概率是多少?(3) 有3个以下次品的概率是多少?用【BINOM.DIST】函数计算二项分布概率第1步:将光标放在任意空白单元格。然后点击【公式】,点击插入函数【】。第2步:在【选择类别】中选择【统计】,并在【选择函数】中点击【BINOM.DIST】,单击【确定】。第3步:在【Number_s】后输入试验成功次数。在【Trials】后输入试验总次数。在【Probability_s】后输入每次试验的成功概率。在【Cumulative】后输入0(或FALSE),表示计算成功次数恰好等于指定数值的概率;输入1(或TRUE)表示计算成功次数小于或等于指定数值的累积概率。单击【确定】5.2.2 正态分布5.2 随机变量的概率分布连续型随机变量的概率分布连续型随机变量可以取某一区间或整个实数轴上的任意一个值它取任何一个特定的值的概率都等于0不能列出每一个值及其相应的概率通常研究它取某一区间值的概率用概率密度函数的形式和分布函数的形式来描述正态分布(normal distribution)由C.F.高斯(Carl Friedrich Gauss,1777—1855)作为描述误差相对频数分布的模型而提出描述连续型随机变量的最重要的分布许多现象都可以由正态分布来描述可用于近似离散型随机变量的分布例如: 二项分布经典统计推断的基础概率密度函数f(x) = 随机变量 X 的频数 = 正态随机变量X的均值 = 正态随机变量X的方差 = 3.1415926; e = 2.71828x = 随机变量的取值 (- < x < + ) 和 对正态曲线的影响正态分布函数的性质图形是关于x= 对称钟形曲线,且峰值在x= 处均值 和标准差 一旦确定,分布的具体形式也惟一确定,不同参数正态分布构成一个完整的“正态分布族”均值 可取实数轴上的任意数值,决定正态曲线的具体位置;标准差决定曲线的“陡峭”或“扁平”程度。 越大,正态曲线扁平; 越小,正态曲线越高陡峭当X的取值向横轴左右两个方向无限延伸时,曲线的两个尾端也无限渐近横轴,理论上永远不会与之相交正态随机变量在特定区间上的取值概率由正态曲线下的面积给出,而且其曲线下的总面积等于1正态分布的常用概率标准正态分布(standardize normal distribution)标准正态分布的概率密度函数随机变量具有均值为0,标准差为1的正态分布任何一个一般的正态分布,可通过下面的线性变换转化为标准正态分布标准正态分布的分布函数用Excel绘制标准正态分布曲线第1步:在工作表的第1列A3:A63输入应一个等差数列,初始值为“-3”,步长为“0.1”,终值为“3”,作为标准化后的标准正态变量的值第2步:在单元格B1输入标准正态变量的均值0,在单元格D1输入标准正态变量的标准差1第3步:在单元格B3输入公式“=A3*$D$1+$B$1”,并将其复制到B4:B63区域,作为未作标准化变换的正态变量的值第4步:在单元格C3输入公式“=NORMDIST(B3,$B$1,$D$1,0)”,并将其复制到C4:C63区域,作为与B4:B63区域正态变量的值相对应的正态分布概率密度函数的结果第5步:将B3:B63作为横坐标、C3:C63作为纵坐标,绘制折线图,即可得到标准正态分布图计算正态分布的概率【例5—3】计算正态分布的概率及给定累积概率时正态分布的分为点。已知,计算和。已知,计算和。已知,计算累积概率为 0.025 时,标准正态分布函数的反函数值;计算累积概率为 0.95 时,标准正态分布函数的反函数值。(1)=0.02140(2)0.022750.933193(3)-1.959961.644854用【NORM.DIST】函数计算一般正态分布概率第1步:将光标放在任意空白单元格。然后点击【公式】,点击插入函数【】第2步:在【选择类别】中选择【统计】,并在【选择函数】中点击【BINOM.DIST】,单击【确定】第3步:在【X】后输入正态分布函数计算的区间点(即X值)。在【Mean】后输入正态分布的均值 。在【Standard_dev】后输入正态分布的标准差。在【Cumulative】后输入1(或TRUE)表示计算事件出现次数小于或等于指定数值的累积概率。单击【确定】用【NORM.S.DIST】函数计算标准正态分布概率第1步:将光标放在任意空白单元格。然后点击【公式】,点击插入函数【】第2步:在【选择类别】中选择【统计】,并在【选择函数】中点击【NORM.S.DIST】,单击【确定】第3步:在【Z】后输入标准正态随机变量Z的值。在【cumulative】后数日1(或TRUE)。单击【确定】用【NORM.S.INV】函数计算累积概率为时标准正态分布的反函数值第1步:将光标放在任意空白单元格。然后点击【公式】,点击插入函数【】第2步:在【选择类别】中选择【统计】,并在【选择函数】中点击【NORM.S.INV】,单击【确定】第3步:在【Probability】后输入给定的概率值。单击【确定5.2.3 分布、分布和分布5.2 随机变量的概率分布由阿贝(Abbe) 于1863年首先给出,后来由海尔墨特(Hermert)和卡·皮尔逊(K·Pearson) 分别于1875年和1900年推导出来n个独立标准正态随机变量平方和的分布称为具有n个自由度的分布,记为。设为标准正态随机变量,令,则服从自由度为1的 2分布,即。一般地,对于n个独立标准正态随机变量,则随机变量的分布为具有n个自由度的分布,记为c2-分布( 2-distribution)分布的变量值始终为正分布的形状取决于其自由度n的大小,通常为不对称的正偏分布,但随着自由度的增大逐渐趋于对称期望为:E( 2)=n,方差为:D( 2)=2n(n为自由度)可加性:若U和V为两个独立的 2分布随机变量,U~ 2(n1),V~ 2(n2),则U+V这一随机变量服从自由度为n1+n2的 2分布c2-分布(性质和特点)不同自由度的c2-分布c2-分布函数(用Excel计算c2分布的概率)函数 语法 参数的含义 返回结果CHISQ.DIST CHISQ.DIST(x,Deg_freedom,cumulative) x为值。Deg_freedom为自由度,cumulative为逻辑值,累积分布函数使用TRUE,概率密度函数使用FALSE。 左尾概率CHISQ.DIST.RT CHISQ.DIST(x,Deg_freedom) 同上 右尾概率CHISQ.INV CHISQ.INV(probability, Deg_freedom) probability为分布的累积概率 左尾值CHISQ.INV.RT CHISQ.INV.RT (probability, Deg_freedom) 同上 右尾值c2-分布函数(例题分析)【例5—4】计算:(1)自由度为15,值小于10的概率;(2)自由度为25,值大于30的概率;(3)自由度为10,累积概率为0.05时分布左尾的值。(4)自由度为10,右尾概率为0.025时分布右尾的值。解:(1)由【CHISQ.DIST】函数得:(2)由【CHISQ.DIST.RT】函数得:0.011921(3)由【CHISQ.INV】函数得:3.940299(4)由【CHISQ.INV.RT】函数得:20.48318右尾概率为的右尾值显然等于累积概率为的左尾值。即。假定计算自由度为10,右尾概率时的右尾值,t分布(t-distribution)的提出者是William Gosset,由于他经常用笔名“student”发表文章,用t表示样本均值经标准化后的新随机变量,因此称为t分布,也被称为学生t分布(student’s t)设随机变量,,且Z与X独立,则称为自由度为n的t分布,记为t分布是类似于标准正态分布的一种对称分布,但它的分布曲线通常要比标准正态分布曲线平坦和分散。一个特定的t分布依赖于称之为自由度的参数。随着自由度的增大,t分布也逐渐趋于标准正态分布t 分布(t distribution)t-分布(t-distribution)t 分布函数函数 语法 参数的含义 返回结果T.DIST T.DIST(X, Deg_freedom, cumulative) X为 值,Deg_freedom为自由度,cumulative为逻辑值,累积分布函数使用TRUE,概率密度函数使用FALSE 左尾概率T.DIST.RT T.DIST.RT(X, Deg_freedom) 同上 右尾概率T.DIST.2T T.DIST.2T(X, Deg_freedom) 同上 双尾概率T.INV T.INV(probability Deg_freedom) probability为t分布的双尾概率 左尾t值T.INV.2T T.INV.2T (probability Deg_freedom) 同上 双尾t值t-分布(用Excel计算t分布的概率和反函数值)【例5—5】计算:(1)自由度为10,t值小于-2的概率;(2)自由度为15,t值大于3的概率;(3)自由度为12,t值等于2.5的双尾概率;(4)自由度为25,t分布累积概率为0.025时的左尾t值;(5)自由度为20,右尾概率为0.05时的双尾t值。解:(1)。(2)。(3)(4)T.INV(0.025,25)= -2.05954。(5)T.INV.2T(0.05,20)= 2.085963。为纪念统计学家费希尔(R.A.Fisher) 以其姓氏的第一个字母来命名则设若U为服从自由度为n1的 2分布,即U~ 2(n1),V为服从自由度为n2的 2分布,即V~ 2(n2),且U和V相互独立,则称F为服从自由度n1和n2的F分布,记为F-分布(F distribution)不同自由度的F分布F 分布函数函数 语法 参数的含义 返回结果F.DIST F.DIST(x,Deg_freedom1,Deg_freedom2,cumulative) x为F值,Deg_freedom1为分子自由度,Deg_freedom2为分母自由度,cumulative为逻辑值,累积分布函数使用TRUE,概率密度函数使用FALSE。 左尾概率F.DIST.RT F.DIST.RT(x,Deg_freedom1,Deg_freedom2) 同上 右尾概率F.INV F.INV(probability,Deg_freedom1,Deg_freedom2 probability为F分布的累积概 左尾F值F.INV.RT F.INV(probability,Deg_freedom1,Deg_freedom2) 同上 右尾F值F-分布(例题分析)【例5—6】计算:(1)分子自由度为10,分母自由度为8,F值小于3的概率;(2)分子自由度为18,分母自由度为15,F值大于2.5的概率;(3)分子自由度为25,分母自由度为20,F分布累积概率为0.05时的左尾F值;(4)分子自由度为25,分母自由度为20,F分布累积概率为0.05时的右尾F值。解:(1)。(2)。(3)。(4)。5.3 样本统计量的概率分布5.3.1 统计量及其分布5.3.2 样本均值的分布5.3.3 其他统计量的分布其他5.3.4 统计量的标准误第 5 章 统计量及其概率分布5.3.1 统计量及其分布5.3 样本统计量的概率分布参数和统计量参数(parameter)描述总体特征的概括性数字度量,是研究者想要了解的总体的某种特征值一个总体的参数:总体均值( )、标准差( )、总体比例( )。 总体参数通常用希腊字母表示统计量(statistic)用来描述样本特征的概括性数字度量,它是根据样本数据计算出来的一些量,是样本的函数一个总体参数推断时的统计量:样本均值( x )、样本标准差(s)、样本比例(p)等样本统计量通常用小写英文字母来表示在重复选取容量为n的样本时,由该统计量的所有可能取值形成的相对频数分布,也称抽样分布随机变量是 样本统计量样本均值, 样本比例,样本方差等结果来自容量相同的所有可能样本提供了样本统计量长远而稳定的信息,是进行推断的理论基础,也是抽样推断科学性的重要依据统计量的概率分布(抽样分布—sampling distribution)5.3.2 样本均值的分布5.3 样本统计量的概率分布在重复选取容量为n的样本时,由样本均值的所有可能取值形成的相对频数分布一种理论概率分布推断总体均值 的理论基础样本均值的分布样本均值的分布(例题分析)【例5—7】设一个总体含有5个元素,取值分别为:、。从该总体中采取重复抽样方法抽取样本量为n=2的所有可能样本,写出样本均值的概率分布总体分布14230.1.2.3均值和方差样本均值的分布与总体分布的比较(例题分析) = 6 σ2 =8总体分布样本均值分布中心极限定理(central limit theorem)从均值为 ,方差为 2的一个任意总体中抽取容量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为μ、方差为σ2/n的正态分布样本均值的分布样本均值的期望值和方差样本均值的分布(样本均值的期望值与方差) 抽样分布与总体分布及样本量的关系5.3.3 其他统计量的分布5.3 样本统计量的概率分布总体(或样本)中具有某种属性的单位与全部单位总数之比不同性别的人与全部人数之比合格品(或不合格品) 与全部产品总数之比总体比例可表示为样本比例可表示为样本比例的分布(proportion)在重复选取容量为n的样本时,由样本比例的所有可能取值形成的相对频数分布一种理论概率分布当样本容量很大时,样本比例的抽样分布可用正态分布近似,即样本比例的分布样本方差是如何分布的呢?统计证明,对于来自正态总体的简单随机样本,比值服从自由度为的分布,即样本方差的分布5.3.4 统计量的标准误5.3 样本统计量的概率分布统计量的标准误差(standard error)样本统计量的抽样分布的标准差,称为统计量的标准误,也称为标准误差衡量统计量的离散程度,测度了用样本统计量估计总体参数的精确程度样本均值和样本比例的标准误差分别为估计的标准误差(standard error of estimation)当计算标准误时涉及的总体参数未知时,用样本统计量代替计算的标准误,称为估计的标准误以样本均值为例:当总体标准差 未知时,可用样本标准差s代替,则在重复抽样条件下,样本均值的估计标准误为结 束THANKS 展开更多...... 收起↑ 资源预览