资源简介 【配套新教材】(11)概率与统计——2023届高考数学一轮复习巧刷易混易错【知识点梳理】1.名称 定义 符号表示包含关系 若事件A发生,则事件B一定发生,这时称事件B包含事件A(或事件A包含于事件B) (或)相等关系 如果事件B包含事件A,事件A也包含事件B,即且,则称事件A与事件B相等 A=B并事件 (和事件) 事件A与事件B至少有一个发生,这样的一个事件中的样本点或者在事件A中,或者在事件B中,则称这个事件为事件A与事件B的并事件(或和事件) (或)交事件 (积事件) 事件A与事件B同时发生,这样的一个事件中的样本点既在事件A中,也在事件B中,则称这样的一个事件为事件A与事件B的交事件(或积事件) (或)互斥事件 若为不可能事件,那么称事件A与事件B互斥对立事件 若为不可能事件,为必然事件,那么称事件A与事件B互为对立事件 且(U为全集)2.古典概率模型:我们将具有以下两个特征的试验称为古典概型试验,其数学模型称为古典概率模型,简称古典概率:(1)有限性:样本空间的样本点只有有限个;(2)等可能性:每个样本点发生的可能性相等.3.古典概型的概率公式(1)在基本事件总数为n的古典概型中,每个基本事件发生的概率都是相等的,即每个基本事件发生的概率都是.(2)对于古典概型,任何事件的概率为.4.离散型随机变量的分布列(1)如果随机试验的结果可以用一个变量来表示,那么这样的变量叫做随机变量,按一定次序一一列出,这样的随机变量叫做离散型随机变量.(2)一般地,若离散型随机变量X可能取的不同值为取每一个值的概率,则下表称为随机变量X的概率分布列,简称为X的分布列.X … …P … …5.离散型随机变量的分布列的性质根据概率的性质,离散型随机变量的分布列具有如下性质:(1);(2);(3).6.常见的离散型随机变量的概率分布模型(1)两点分布若随机变量X的分布列为X 0 1P p则称X服从两点分布.(2)超几何分布一般地,在含有M件次品的N件产品中任取n件,其中恰有X件次品,则,其中,且,称分布列X 0 1 … mP …为超几何分布.7.离散型随机变量的均值与方差若离散型随机变量X的分布列为X … …P … …(1)均值称为随机变量X的均值或数学期望,它反映了离散型随机变量取值的平均水平.(2)方差称为随机变量X的方差,它刻画了随机变量X与其均值的平均偏离程度,并称为随机变量X的标准差,记为.8.均值与方差的性质(1).(2).9.两点分布的均值、方差若X服从两点分布,则.10.条件概率及其性质(1)一般地,设A,B为两个事件,且,称为在事件A发生的条件下,事件B发生的概率.(2)条件概率的性质:(i);(ii)如果B和C是两个互斥事件,则.11.全概率公式一般地,设是一组两两互斥的事件,,且,则对任意的事件,有,称此公式为全概率公式.12.相互独立事件(1)对于事件A、B,若A的发生与B的发生互不影响,则称A、B是相互独立事件.(2)若A与B相互独立,则,.(3)若A与B相互独立,则A与,与B,与也都相互独立.(4)若,则A与B相互独立.13.独立重复试验与二项分布独立重复试验 二项分布定义 一般地,在相同条件下重复做的n次试验称为n次独立重复试验(也叫n重伯努利试验) 一般地,在n次独立重复试验(n重伯努利试验)中,设事件A发生的次数为X,在每次试验中事件A发生的概率为p,此时称随机变量X服从二项分布,记作计算公式 用表示第i次试验结果,则 在n次独立重复试验中,事件A恰好发生k次的概率为14.二项分布的均值与方差:若,则,.15.正态曲线的定义函数(其中实数和为参数)的图象为正态分布密度曲线,简称正态曲线.16.正态曲线的特点(1)曲线位于x轴上方且与x轴不相交;(2)曲线是单峰的,它关于直线对称;(3)曲线在处达到峰值;(4)曲线与x轴之间的面积为1;(5)当一定时,曲线随着的变化而沿x轴移动;(6)当一定时,曲线的形状由确定,越小,曲线越“瘦高”;越大,曲线越“矮胖”.17.正态分布的定义及表示如果对于任何实数,随机变量X满足,则称X的分布为正态分布,记作.18.简单随机抽样(1)定义:一般地,设一个总体含有N(N为正整数)个个体,从中逐个不放回地抽取n()个个体作为样本,如果每次抽取时各个个体被抽到的机会都相等,就把这种抽样方法叫做简单随机抽样.(2)最常用的简单随机抽样方法有两种:随机数法和抽签法.19.分层抽样(1)定义:一般地,在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样方法是分层抽样.(2)应用范围:总体是由差异明显的几个部分组成的.(3)分层抽样的关键是根据样本特征的差异进行分层,实质是等比例抽样,抽样比 .20.频率分布表与频率分布直方图频率分布表与频率分布直方图的绘制步骤如下:(1)求极差,即求一组数据中最大值与最小值的差;(2)决定组距与组数;(3)将数据分组;(4)列频率分布表,落在各小组内的数据的个数叫做频数,每小组的频数与样本容量的比值叫做这一小组的频率,计算各小组的频率,列出频率分布表;(5)画频率分布直方图,依据频率分布表画出频率分布直方图,其中纵坐标(小长方形的高)表示频率与组距的比值,其相应组距上的频率等于该组上的小长方形的面积,即每个小长方形的面积.各个小长方形面积的总和等于1.21.频率分布折线图和总体密度曲线(1)频率分布折线图:连接频率分布直方图中各小长方形上端的中点,就得到频率分布折线图.(2)总体密度曲线:随着样本容量的增加,作频率分布直方图时所分的组数增加,组距减小,相应的频率分布折线图会越来越接近于一条光滑曲线,统计中称这条光滑曲线为总体密度曲线.22.用样本的数字特征估计总体的数字特征数字特征 样本数据 频率分布直方图众数 出现次数最多的数据 取最高的小长方形底边中点的横坐标中位数 将数据按大小依次排列,处在最中间位置的一个数据(或最中间两个数据的平均数) 把频率分布直方图划分为左右两个面积相等的部分,分界线与x轴交点的横坐标平均数 样本数据的算术平均数 每个小长方形的面积乘小长方形底边中点的横坐标之和方差和标准差反映了数据波动程度的大小.方差:;标准差:.23.百分位数(1)把100个样本数据按从小到大排序,得到第p个和第p+1个数据分别为.可以发现,区间内的任意一个数,都能把样本数据分成符合要求的两部分.一般地,我们取这两个数的平均数,并称此数为这组数据的第p百分位数,或p%分位数.(2)一般地,一组数据的第p百分位数是这样一个值,它使得这组数据中至少有p%的数据小于或等于这个值,且至少有的数据大于或等于这个值.(3)四分位数常用的分位数有第25百分位数,第50百分位数(即中位数),第75百分位数.这三个分位数把一组由小到大排列后的数据分成四等份,因此称为四分位数.其中第25百分位数也称为第一四分位数或下四分位数等,第75百分位数也称为第三四分位数或上四分位数等.24.变量间的相关关系(1)常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系.与函数关系不同,相关关系是一种非确定性关系.(2)在散点图中,点散布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点散布在从左上角到右下角的区域内,两个变量的相关关系称为负相关.25.两个变量的线性相关(1)从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这条直线叫做回归直线.(2)回归直线方程①最小二乘法:通过求的最小值而得到回归直线的方法,即使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法.②回归方程:方程是两个具有线性相关关系的变量的一组数据的回归方程,其中是待定参数.,其中称为样本点的中心.(3)相关系数r①;②当时,表明两个变量正相关;当时,表明两个变量负相关.r的绝对值越接近于1,表明两个变量的线性相关性越强;r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.当r的绝对值大于或等于0.75时,认为两个变量有很强的线性相关关系.(4)回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法.在线性回归模型中,因变量y的值由自变量x和随机误差e共同确定,即自变量x只能解释部分y的变化,在统计中,我们把自变量x称为解释变量,因变量y称为预报变量.26.分类变量:变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.27.列联表:列出两个分类变量的频数表,称为列联表.假设有两个分类变量X和Y,它们的可能取值分别为和,其样本频数列联表(称为2×2列联表)为:总计a bc d总计可构造一个随机变量,其中为样本容量.28.独立性检验利用独立性假设、随机变量来确定是否有一定把握认为“两个分类变量有关系”的方法称为两个分类变量的独立性检验.两个分类变量X和Y是否有关系的判断标准:统计学研究表明:当时,认为X与Y无关;当时,有95%的把握说X与Y有关;当时,有99%的把握说X与Y有关;当时,有99.9%的把握说X与Y有关.【提升练习】1.某校进行了一次创新作文大赛,共有100名同学参赛,经过评判,这100名参赛者的得分都在之间,其得分的频率分布直方图如图,则下列结论错误的是( )A.得分在之间的共有40人B.从这100名参赛者中随机选取1人,其得分在的概率为0.5C.估计得分的众数为55D.这100名参赛者得分的中位数为652.某单位派出甲、乙等5名志愿者进入富强等4个社区宣讲十九届六中全会精神,每名志愿者只去1个社区,每个社区至少有1名志愿者,则在甲去富强社区宣讲的条件下,乙不去富强社区宣讲的概率为( )A. B. C. D.3.甲、乙两人参加“社会主义价值观”知识竞赛,甲、乙两人能荣获一等奖的概率分别为和,甲、乙两人是否获得一等奖相互独立,则这两个人中恰有一人获得一等奖的概率为( )A. B. C. D.4.某校课题小组为了研究高一学生数学成绩和物理成绩的线性相关关系,在高一第二学期期中考试后随机抽取了5名同学(记为1,2,3,4,5)数学成绩和物理成绩(满分均为100分)如表所示:学生代号 1 2 3 4 5数学成绩x 74 76 76 76 78物理成绩y 75 75 76 77 77则y关于x的线性回归方程为( )A. B. C. D.5.设随机变量,已知,则( )A.0.037 B.0.074 C.0.926 D.0.9756. (多选)在某次高中学科竞赛中,4000名考生的参赛成绩统计如图所示,60分以下视为不及格,若同一组中数据用该组区间的中点值作代表,则下列说法中正确的是( )A.成绩在内的考生人数最多B.不及格的考生人数为1000C.考生竞赛成绩的平均分约为70.5分D.考生竞赛成绩的中位数为75分7. (多选)从甲袋中摸出1个红球的概率是,从乙袋中摸出1个红球的概率是.从甲袋、乙袋各摸出1个球,则下列结论正确的是( )A.2个球都是红球的概率为B.2个球不都是红球的概率为C.至少有1个红球的概率为D.2个球中恰有1个红球的概率为8.某校对高三年级1600名男女学生的视力状况进行调查,现用分层随机抽样的方法抽取一个容量是200的样本,已知样本中女生比男生少10人,则该校高三年级的女生人数是________.9.甲、乙两支篮球队进行一局比赛,甲获胜的概率为0.6,若采用三局两胜制举行一次比赛,现采用随机模拟的方法估计乙获胜的概率.先利用计算器或计算机生成0到9之间取整数值的随机数,用0,1,2,3,4,5表示甲获胜;6,7,8,9表示乙获胜,这样能体现甲获胜的概率为0.6.因为采用三局两胜制,所以每3个随机数作为一组.例如,产生30组随机数:034 743 738 636 964 736 614 698 637 162332 616 804 560 111 410 959 774 246 762428 114 572 042 533 237 322 707 360 751据此估计乙获胜的概率为__________.10.购买某种意外伤害保险,每个投保人一年度向保险公司交纳保险费20元,若被保险人在购买保险的一年度内出险,可获得赔偿金50万元.已知该保险每一份保单需要赔付的概率为,某保险公司一年能销售10万份保单,且每份保单之间相互独立,则一年度内该保险公司此项保险业务需要赔付的概率约为___________;一年度内盈利的期望为_________万元.(参考数据:)11.2021年5月22日10时40分,“祝融号”火星车已安全驶离着陆平台,到达火星表面,开始巡视探测.为了增强学生的科技意识,某学校进行了一次专题讲座,讲座结束后,进行了一次专题测试(满分:100分),其中理科学生有600名学生参与测试,其得分都在内,得分情况绘制成频率分布直方图如下,在区间的频率依次构成等差数列.若规定得分不低于80分者为优秀,文科生有400名学生参与测试,其中得分优秀的学生有50名.(1)若以每组数据的中间值代替本组数据,求理科学生得分的平均值;(2)请根据所给数据完成下面的列联表,并说明是否有99.9%以上的把握认为,得分是否优秀与文理科有关?优秀 不优秀 合计理科生文科生合计 1000附:,其中.0.050 0.010 0.0013.841 6.635 10.82812.垃圾是人类日常生活和生产中产生的废弃物,由于排出量大,成分复杂多样,且具有污染性,所以需要无害化、减量化处理.某市为调查产生的垃圾数量,采用简单随机抽样的方法抽取20个县城进行了分析,得到样本数据,其中和分别表示第i个县城的人口(单位:万人)和该县年垃圾产生总量(单位:吨),并计算得,.(1)请用相关系数说明该组数据中y与x之间的关系可用线性回归模型进行拟合;(2)求y关于x的线性回归方程;(3)某科研机构研发了两款垃圾处理机器,其中甲款机器每台售价100万元,乙款机器每台售价80万元,下表是以往两款垃圾处理机器的使用年限统计表:1年 2年 3年 4年 总计甲款 5 20 15 10 50乙款 15 20 10 5 50根据以往经验可知,某县城每年可获得政府支持的垃圾处理费用为50万元,若仅考虑购买机器的成本和每台机器的使用年限(使用年限均为整年),以频率估计概率,该县城选择购买一台哪款垃圾处理机器更划算 参考公式:相关系数,对于一组具有线性相关关系的数据,其回归直线的斜率和截距的最小二乘估计分别为:.答案以及解析1.答案:D解析:根据频率和为1,计算,解得,得分在的频率是0.40,估计得分在的有(人),A正确;得分在的频率为0.5,可得这100名参赛者中随机选取一人,得分在的概率为0.5,B正确;根据频率分布直方图知,最高的小矩形对应的底边中点为,即估计得分众数为55,C正确;中位数的估计值为,解得,故D错,故选D.2.答案:A解析:甲去富强社区宣讲的事件记作A,甲去富强社区宣讲,乙不去富强社区宣讲的事件记作B.方法一:甲去富强社区宣讲有(种)情况,其中乙不去富强社区宣讲有(种)情况.根据古典概型的概率计算公式,得.故选A.方法二:由已知条件,得,,根据条件概率公式,得.故选A.3.答案:D解析:根据题意,恰有一人获得一等奖就是甲获得乙没获得或甲没获得乙获得,则所求概率是,故选D4.答案:C解析:由表格中的数据,可得,,即数据的样本中心,因为满足回归直线方程,结合选项可得,即y关于x的线性回归方程为:,故选:C.5.答案:C解析:,故选C.6.答案:ABC解析:由频率分布直方图可得,成绩在内的频率最高,因此考生人数最多,故A正确;由频率分布直方图可得,成绩在内的频率为,因此不及格的人数为,故B正确;C选项,由频率分布直方图可得,平均分约为(分),故C正确;因为成绩在内的频率为,在内的频率为0.3,所以中位数为,故D错误.故选ABC.7.答案:ACD解析:设“从甲袋中摸出1个红球”为事件,“从乙袋中摸出1个红球为事件”,则,,且,独立.对于A选项,2个球都是红球为,其概率为,故A正确;对于B选项,“2个球不都是红球”是“2个球都是红球”的对立事件,其概率为,故B错误;对于C选项,2个球中至少有1个红球的概率为,故C正确;对于D选项,2个球中恰有1个红球的概率为,故D正确.故选ACD.8.答案:760解析:设样本中女生有x人,则男生有人,所以,得,设该校高三年级的女生有y人,则由分层随机抽样的定义可知,解得.9.答案:0.367解析:产生30组随机数,就相当于做了30次试验.如果6,7,8,9中恰有2个或3个数出现,就表示乙获胜,它们分别是738,636,964,736,698,637,616,959,774,762,707.共11个.所以采用三局两胜制,乙获胜的概率约为.10.答案:0.63;150解析:本题考查离散型随机变量的期望.根据题意,设该保险业务需要赔付为事件A,该保险每一份保单需要赔付的概率为,则每一份保单不需要赔付的概率为,则10万份保单都不需要赔付的概率,则保险业务需要赔付的概率.一年度内盈利的期望(万元).11.答案:(1)理科学生得分的平均值为73分.(2)表格见解析,有99.9%以上的把握认为得分是否优秀与文理科有关.解析:(1)由第三、二、四组的频率依次构成等差数列可得.又频率分布直方图中所有小矩形面积之和为1,则,解得,理科学生得分的平均值为(分).(2)理科学生优秀的人数为,补全2×2列联表如表所示,优秀 不优秀 合计理科生 150 450 600文科生 50 350 400合计 200 800 1000,有99.9%以上的把握认为得分是否优秀与文理科有关.12.答案:(1)(2)(3) 甲款解析:(1)由题意知相关系数,因为y与x的相关系数接近1,所以y与x之间具有较强的线性相关关系,可用线性回归模型进行拟合.(2),,所以.(3)以频率估计概率,购买一台甲款垃圾处理机器节约政府支持的垃圾处理费用X(单位:万元)的分布列为:X -50 0 50 100P 0.1 0.4 0.3 0.2(万元).购买一台乙款垃圾处理机器节约政府支持的垃圾处理费用Y(单位:万元)的分布列为:Y -30 20 70 120P 0.3 0.4 0.2 0.1(万元).因为,所以该县城选择购买一台甲款垃圾处理机器更划算. 展开更多...... 收起↑ 资源预览