第4章 概率 课件(共61张PPT)- 《统计学——思想、方法与应用(第二版)》同步教学(人民大学版)

资源下载
  1. 二一教育资源

第4章 概率 课件(共61张PPT)- 《统计学——思想、方法与应用(第二版)》同步教学(人民大学版)

资源简介

(共61张PPT)
统计学:思想、方法与应用
第4章 概率
4.1 什么是概率
4.2 怎样求概率
4.3 概率的计算
4.4 离散随机变量的分布
4.5 连续随机变量的分布
4.6 使用概率来检验假设
学习目标
阐述概率的定义;
了解概率的三种计算方法;
掌握概率的运算规律;
区分离散随机变量和连续随机变量以及相应的分布;
利用概率进行决策分析。
在生活中经常会遇到这样一些关于不确定性的问题,比如:
(1)在新产品上市前,经销商需要知道顾客是否会购买这种产品。为了降低风险,经销商通常进行市场调查,如随机抽取500人进行调查,询问他们对新产品的反应以及可能的建议。
(2)汽车行业最近竞争很激烈。企业为确保达到汽车整车性能检测标准,需要从生产的汽车中选取一些样本进行检测。显然,如果所有汽车都接受检测,那么就没有用于销售的汽车了。于是随机抽取若干辆汽车进行检测,根据检测结果,可得知汽车性能是否达标。
(3)在经济危机的情况下,是否可以购买新的汽车或房子呢?
有关概率的问题在日常生活和在统计课中一样是经常出现的。这一章中我们将讨论概率在统计中的意义以及我们如何应用它来进行统计分析。
4.1 什么是概率
概率与某事件发生的机会、可能性或确定程度有关。
概率(probability)就是一个数字。介于0和1之间,描述一个事件发生的经常性。
小概率(接近零)的事件很少发生,而大概率(接近1)的事件则经常发生。
例如:一个人中一次彩票一等奖的概率很小;一年中至少有一场飓风袭击我国沿海地区的概率就很大,因为在大部分年份中都多于一场飓风发生。
4.1 什么是概率
与概率有关的术语还有试验、结果和事件。
试验(experiment)是导致所有可能观测中有且仅有一个出现的过程。在统计学中一个试验有两个或两个以上的结果,发生哪一个都是不确定的。
结果(outcome)是指一个试验的特定结果。例如,抛硬币是一个试验,你可以观察抛硬币,但你不知道将会出现“正面”或是“反面”,因为一个结果是“正面”,另一个是“反面”。
一个试验的结果组成的集合称之为事件(event)。
我们用两个例子来描述试验、结果与事件。在掷一枚骰子的试验中,有6种可能的结果,因为有1到6个点数,但是有很多可能的事件;又例如,在计算世界500强企业中的CEO年龄超过60岁的人数时,可能的结果从0到总的人数,该试验中有很多可能的事件。
4.2 怎样求概率
4.2.1利用等可能性事件求概率
古典概率(classical probability):如果试验有n种可能的结果,一个有k种结果的子集为有利的,那么k/n就是这个有利事件出现的概率。
对于掷骰子的问题,出现一面的结果是k = 1,而n=6种可能的结果,则出现某一面的概率是1/6。对于一副扑克牌有k = 13个红桃及n=52张牌,则抽出红桃或其它某一花色的概率是13/52 = 1/4 = 0.25。
4.2.2使用相对频数的方法
事件并不一定是等可能的,或者人们对于其出现的可能性一无所知。
这时就要靠观察它在大量重复试验中出现的频率来估计它出现的概率。
它约等于事件出现的频数k除以重复试验的次数n,该比值k/n称为相对频数(relative frequency)或频率。
4.2.2使用相对频数的方法
例如,假定想知道某个服装店橱窗设计吸引注意力的概率,可以观察有多少过往的人在它面前逗留观看。
如果观察了500人(相当于500次试验),有12个人在该橱窗前逗留,那么可以大致地说,该橱窗吸引行人的概率近似地为相对频数k/n=12/500。
试验次数n越大则该值越接近于想得到的概率。
很多事件无法进行长期重复试验。因此这种通过相对频数获得概率的方法也并不是万能的。虽然如此,用相对频数来确定概率的方法是很常用的。
4.2.3利用主观概率的方法
一些概率既不能由等可能性来计算,也不可能从试验得出。比如,你今年想学开车概率、你五年内去欧洲旅游的概率等
这种概率称为主观概率(subjective probability)。
可以说,主观概率是一次事件的概率。或为基于所掌握的信息,某人对某事件发生的自信程度。
4.3 概率的计算
在掷骰子中,得到6点的概率是1/6,而得到5点的概率也是1/6。
那么掷一次骰子得到5或者6的概率是多少呢?
在掷10次骰子中有一半或以上的次数得到5或6的概率又是多少呢?
读者很快就可能很快会得到答案。但再复杂一些,也许就不简单了。
4.3 概率的计算
如果今天下雨的概率是10%,则今天不下雨的概率就是90%。
如果你中奖的概率是0.0001,那么不中奖的概率就是1-0.0001=0.9999。
这种如果一个不出现,则另一个肯定出现的两个事件称为互补事件(complementary events,或者互余事件或对立事件)。如果一个事件记为A,那么另一个记为AC(称为A的余集或补集)。
互补事件的概率之和为1,即P(A)+P(AC)=1,或者P(AC)=1-P(A)。
赌博时常常爱用优势或赔率(odds)来形容输赢的可能。它是互补事件概率之比,即P(A)/P(AC)=P(A)/[1-P(A)]来表示。
4.3.1概率的加法
如果两个事件不可能同时发生,那么至少其中之一发生的概率为这两个概率的和。
比如“掷一次骰子得到3或者6点”的概率是“得到3点”的概率与“得到6点”的概率之和,即1/6+1/6=1/3。
但如果两个事件可能同时发生时这样做就不对了。
假定掷骰子时,一个事件A为“得到偶数点”(有3种可能:2、4、6点),另一个事件B为“得到大于或等于3点”(有4种可能:3、4、5、6点);
事件A的概率等于3/6=1/2,即P(A)=1/2。而事件B的概率为P(B)=4/6=2/3。但是,“得到大于或等于3点或者偶数点”的事件的概率就不是P(A)+P(B)=1/2+2/3=7/6了;
4.3.1概率的加法
这显然多出来了。概率怎么能够大于1呢?
按照中学时关于集合的记号,该事件称为A和B的并,记为A∪B。刚才多出来的部分就是A和B的共同部分A∩B(称为A和B的交)的概率(这个概率算了两遍);
它为“得到既是偶数,又大于等于3”的部分,即4和6两点。出现事件4或者6的概率为1/6+1/6=1/3。
于是应该把算重了的概率减去。这样“得到大于或等于3点或者偶数点”的事件A∪B的概率就是P(A∪B)=P(A)+P(B)-P(A∩B)= 1/2+2/3-1/3=5/6。
这种P(A∪B)=P(A)+P(B)-P(A∩B)的公式也适用于两个不可能同时发生的事件;但因为那时P(A∩B)=0,所以只剩下P(A∪B)=P(A)+P(B)了。
4.3.1概率的加法
这种交等于空集(A∩B=F,这里F表示空集或空事件)的事件为两个不可能同时发生的事件,称为互不相容事件(mutually exclusive events)。
4.3.2概率的乘法
如果你有一个固定电话和一个手机,假定固定电话出毛病的概率为0.01,而手机出问题的概率为0.05,
那么,两个电话同时出毛病的概率是多少呢?
马上会猜出,是0.01×0.05=0.0005。
但是这种乘法法则,即P(A∩B)=P(A)P(B),仅仅在两个事件独立(independent)时才成立。
4.3.2概率的乘法
如果事件不独立则需要引进条件概率(conditional probability)。
比如三个人抽签,而只有一个人能够抽中,因此每个人抽中的机会是1/3。
假定用A1、A2和A3分别代表这三个人抽中的事件,那么,P(A1)=P(A2)=P(A3)=1/3。
但是由于一个人抽中,其他人就不可能抽中,
所以,这三个事件不独立。刚才的乘法规则不成立;
这时,P(A1∩A3)=P(A1∩A2)=P(A2∩A3)=0;如错误照搬乘法规则会得到错误的(1/3)2=1/9。
4.3.2概率的乘法
但是可以计算条件概率,比如第一个人抽到(事件A1),则在这个条件下其他两个人抽到的概率都为0;记为P(A2|A1)=P(A3|A1)=0。
如第一个人没有抽到(事件A1C),那么其他两人抽到的概率均为1/2,记为P(A2|A1C)=P(A3|A1C )=1/2。
4.3.2概率的乘法
一般地,在一个事件B已经发生的情况下,事件A发生的条件概率定义为(贝叶斯公式)
离散型随机变量与连续型随机变量
试验 随机变量 可能的取值
抽查100个产品 取到次品的个数 0,1,2,…,100
一家餐馆营业一天 顾客数 0,1,2,…
抽查一批电子原件 使用寿命 X 0
新建一座住宅楼 半年完成工程的百分比 0 X 100
分布
随机变量取一切可能值或范围的概率或概率的规律称为概率分布(probability distribution,简称分布)。
概率分布可以用各种图或表来表示;一些可以用公式来表示。
概率分布是关于总体的概念。有了概率分布就等于知道了总体。
前面介绍过的样本均值、样本标准差和样本方差等样本特征的概念是相应的总体特征的反映。
我们也有描述变量“位置”的总体均值、总体中位数、总体百分位数以及描述变量分散(集中)程度的总体标准差和总体方差等概念。
4.4 离散随机变量的分布
离散变量只取离散的值,比如骰子的点数、网站点击数、顾客人数等等。每一种取值都有某种概率。各种取值点的概率总和应该是1。
当然离散变量不不仅仅限于取非负整数值。
一般来说,某离散随机变量的每一个可能取值xi都相应于取该值的概率p(xi),这些概率应该满足关系
最简单的离散分布应该是基于可重复的有两结果(比如成功和失败)的相同独立试验(每次试验成功概率相同)的分布,例如抛硬币。
比如用p代表得到硬币正面的概率,那么1-p则是得到反面的概率。
如果知道p,这个抛硬币的试验的概率分布也就都知道了。
4.4.1二项分布
这种有两个可能结果的试验有两个特点:
一是各次试验互相独立,
二是每次试验得到一种结果的概率不变(这里是得到正面的概率总是p)。
类似于抛硬币的仅有两种结果的重复独立试验被称为Bernoulli试验(Bernoulli trials)。
4.4.1二项分布
下面试验可看成为Bernoulli试验:
每一个进入某商场的顾客是否购买某商品
每个被调查者是否认可某种产品
每一个新出婴儿的性别。
根据这种简单试验的分布,可以得到基于这个试验的更加复杂事件的概率。
为了方便,人们通常称Bernoulli试验的两种结果为“成功”和“失败”。
4.4.1二项分布
和Bernoulli试验相关的最常见的问题是:如果进行n次Bernoulli试验,每次成功的概率为p,那么成功k次的概率是多少?
这个概率的分布就是所谓的二项分布(binomial distribution)。
这个分布有两个参数,一个是试验次数n,另一个是每次试验成功的概率p。
基于此,二项分布用符号B(n,p)或Bin(n,p)表示。
由于n和p可以根据实际情况取各种不同的值,因此二项分布是一族分布,族内的分布以这两个参数来区分。
4.4.1二项分布
一般公式。下面p(k)代表在n次Bernoulli试验中成功的次数的概率,p为每次试验成功的概率。有
这里
为二项式系数,或记为
4.4.1二项分布
九个二项分布B(5,p)
(p=0.1到0.9)的概率分布图
另一个常用离散分布是Poisson分布(翻译成“泊松分布”或“普阿松分布”)。
它可以认为是衡量某种事件在一定期间出现的数目的概率。
比如说在一定时间内顾客的人数、打入电话总机电话的个数、放射性物质放射出来并到达某区域的粒子数等等。
4.4.2 Poisson分布
在不同条件下,同样事件在单位时间中出现同等数目的概率不尽相同。
比如中午和晚上某商店在10分钟内出现5个顾客的概率就不一定相同。
因此,Poisson分布也是一个分布族。族中不同成员的区别在于事件出现数目的均值l不一样。
4.4.2 Poisson分布
参数为l的Poisson分布变量的概率分布为(p(k)表示Poisson变量等于k的概率)
4.4.2 Poisson分布
参数为3、6、10的Poisson分布(只标出了20之内的部分)
这里点间的连线没有意义,仅仅为读者容易识别而画,因为Poisson变量仅取非负整数值
假定有一批500个产品,而其中有5个次品。假定该产品的质量检查采取随机抽取20个产品进行检查。如果抽到的20个产品中含有2个或更多不合格产品,则整个500个产品将会被退回。
这时,人们想知道,该批产品被退回的概率是多少?
这种概率就满足超几何分布(hypergeometric distribution)。
4.4.3 超几何分布
取连续值的变量,如高度、长度、重量、时间、距离等等;它们被称为连续变量(continuous variable)。
换言之,一个随机变量如果能够在一区间(无论这个区间多么小)内取任何值,则该变量称为在此区间内是连续的,其分布称为连续型概率分布。
它们的概率分布很难准确地用离散变量概率的条形图表示。
4.5 连续变量的分布
想象连续变量观测值的直方图;如果其纵坐标为相对频数,那么所有这些矩形条的高度和为1;完全可以重新设置量纲,使得这些矩形条的面积和为1。
不断增加观测值及直方图的矩形条的数目,直方图就会越来越像一条光滑曲线,其下面的面积和为1。
该曲线即所谓概率密度函数(probability density function,pdf),简称密度函数或密度。下图为这样形成的密度曲线。
4.5 连续变量的分布
逐渐增加矩形条数目的直方图和一个形状类似的密度曲线。
连续变量落入某个区间的概率就是概率密度函数的曲线在这个区间上所覆盖的面积;因此,理论上,这个概率就是密度函数在这个区间上的积分。
对于连续变量,取某个特定值的概率都是零,而只有变量取值于某个(或若干个)区间的概率才可能大于0。
连续变量密度函数曲线(这里用f表示)下面覆盖的总面积为1,即
4.5 连续变量的分布
4.5.1均匀分布
均匀分布(uniform distribution)是最简单的连续型分布。它的取值范围是一个区间,比如(a, b)。
均匀分布随机变量X取值在该区间的一个子区间的概率等于该子区间宽度与区间(a, b)宽度b-a之比,例如,假设区间(a, b)为(0,1)区间,那么X落入(0.2, 0.5)的概率为(0.5-0.2)/(1-0)=0.3。
4.5.1均匀分布
下图展示了在区间(0,1)上的均匀分布的密度函数。
近似地服从正态分布(normal distribution,又叫高斯分布,Gaussian distribution)。的变量很常见,象测量误差、商品的重量或尺寸、某年龄人群的身高和体重等等。
在一定条件下,许多不是正态分布的样本均值在样本量很大时,也可用正态分布来近似。
4.5.2 正态分布
正态分布的密度曲线是一个对称的钟型曲线(最高点在均值处)。正态分布也是一族分布,各种正态分布根据它们的均值和标准差不同而有区别。
一个正态分布用N(m,s2) 表示;其中m为均值,而s2为方差(标准差的平方) 。也常用N(m,s)来表示,这里s为标准差。
4.5.2 正态分布
标准差为1的正态分布N(0, 1)称为标准正态分布(standard normal distribution)
标准正态分布的密度函数用f(x)表示。
任何具有正态分布N(m,s2)的随机变量X都可以用简单的变换(减去其均值m,再除以标准差s):Z=(X-m)/s,而成为标准正态随机变量。这种变换和标准得分的意义类似。
4.5.2 正态分布
两条正态分布的密度曲线。左边是N(-2,0.52)分布,右边是N(0, 1)分布
当然,和所有连续变量一样,正态变量落在某个区间的概率就等于在这个区间上,密度曲线下面的面积。
比如,标准正态分布变量落在区间(0.51,1.57)中的概率,就是在标准正态密度曲线下面在0.51和1.57之间的面积。
很容易得到这个面积等于0.24682;也就是说,标准正态变量在区间(0.51,1.57)中的概率等于0.24682。如果密度函数为f(x),那么这个面积为积分
4.5.2 正态分布
标准正态变量在区间(0.51, 1.57)中的概率
对于连续型随机变量X,a下侧分位数(又称为a分位数,a-quantile)定义为数xa,它满足关系
这里的a又称为下(左)侧尾概率(lower/left tail probability)
4.5.2 正态分布
而a上侧分位数(又称a上分位数,a-upper quantile)定义为数xa,它满足关系
这里的a也称为上(右)侧尾概率(upper/right tail probability)。
4.5.2 正态分布
通常用za表示标准正态分布的a上侧分位数,即对于标准正态分布变量Z,有P(Z>za)=a。
下图表示了0.05上侧分位数za=z0.05及相应的尾概率(a=0.05)。有些书用符号z1-a而不是za;因此在看参考文献时要注意符号的定义。
4.5.2 正态分布
N(0,1)分布右侧尾概率P(z>za)=a的示意图
正态变量的样本均值也是正态变量,能利用减去其均值再除以其(总体)标准差来得到标准正态变量。
但用样本标准差来代替未知的总体标准差时,得到的结果分布就不再是标准正态分布了。它的密度曲线看上去有些象标准正态分布,但是中间瘦一些,而且尾巴长一些。这种分布称为t-分布(t-distribution,或学生分布,Student’s t)。
4.5.3 t-分布
不同的样本量通过标准化所产生的t分布也不同, 这样就形成一族分布。
t分布族中的成员是以自由度来区分的。这里的自由度等于样本量减去1(如果样本量为n,刚才定义的t分布的自由度为n-1)。
由于产生t分布的方式很多,简单说自由度就是样本量减1是不准确的。自由度甚至不一定是整数。
4.5.3 t-分布
标准正态分布和t(1)分布的密度图
通常用ta表示t分布相应于右侧尾概率a的t变量的a上侧分位数,即对于t分布变量T,有P(T>ta)=a。在突出自由度时,也用tn,a,也有用t1-a或tn,1-a表示的。
下图表示了自由度为2的t(2)分布右边的尾概率(a=0.05)。
4.5.3 t-分布
t(2)分布右侧尾概率P(t>ta)=a的示意图
一个由正态变量导出的分布是c2-分布(chi-square distribution,也翻译为卡方分布)。该分布在一些检验中会用到。
n个独立正态变量平方和称为有n个自由度的c2-分布,记为c2(n)。c2-分布为一族分布, 成员由自由度区分。
由于c2-分布变量为正态变量的平方和,它不会取负值。
4.5.4 c2-分布
自由度为2、3、5的c2-分布密度曲线图
F-分布变量为两个c2-分布变量(在除以它们各自自由度之后)的比;
而两个c2-分布的自由度则为F-分布的自由度,因此,F-分布有两个自由度;第一个自由度等于在分子上的c2-分布的自由度,第二个自由度等于在分母的c2-分布的自由度。
4.5.5 F-分布
自由度为(3,20)和(50,20)的F-分布密度曲线图
判明一个事情的真伪,需要用事实说话。在统计中事实总是来源于数据。
假定某药厂声称该厂生产的某种药品有60%的疗效。但是当实际调查了100名使用该药物的患者之后,发现有40名患者服后有效。
这个数据是否支持药厂的说法呢?药厂所支持的模型实际上是一个参数为0.6的Bernoulli试验模型。100名患者的服药,实际上等于进行了100次试验。这就是二项分布B(100,0.6)模型。
4.6使用概率来检验假设
由于使用了药厂的0.6成功概率。这个模型是基于药厂的观点的。
可以基于这个模型计算100名患者中有少于或等于40名患者治疗有效的概率。
通过计算(或查表,后面会详细描述)易得,在药厂观点正确的假定下,这个概率为0.000042。这说明,如果药厂正确,那么只有40名患者有效这个事实是个小概率事件,即“少于或等于40名患者有效”的可能性只有大约十万分之四。
4.6使用概率来检验假设
这样在药厂的观点和事实之间有了矛盾。是事实准确还是药厂准确呢?
显然人们一般不会认为药厂的说法可以接受。这样,就利用小概率事件来拒绝了药厂的说法。
这种用小概率事件对假定的模型进行判断是后面要介绍的假设检验的基础。
4.6使用概率来检验假设

展开更多......

收起↑

资源预览