资源简介 统计与概率【知识点讲解】一、随机抽样1.样本、样本量我们把从总体中抽取的那部分个体称为样本,样本中包含的个体数称为样本容量,简称样本量。调查样本获得的变量值称为样本的观测数据,简称样本数据。例1.下列调查中,调查方式选择合理的是( )A.了解某市高一年级学生的身高情况,选择普查B.了解长征运载火箭的设备零件质量情况,选择抽样调查C.了解一批待售袋装牛奶的细菌数是否达标,选择普查D.了解病人血液中血脂的含量,选择抽样调查【答案】D【详解】AC的总量太大,不适合普查,AC不正确;火箭的设备零件质量情况应该选择普查,B不正确;病人血液中血脂的含量应选择抽样调查,D正确.2.简单随机抽样(1)定义一般地,设一个总体含有N(N为正整数)个个体,从中逐个抽取n(1≤n<N)个个体作为样本,如果抽取是放回的,且每次抽取时总体内的各个个体被抽到的概率都相等,我们把这样的抽样方法叫做放回简单随机抽样;如果抽取是不放回的,且每次抽取时总体内未进入样本的各个个体被抽到的概率都相等,我们把这样的抽样方法叫做不放回简单随机抽样.放回简单随机抽样和不放回简单随机抽样统称为简单随机抽样(2)常用方法:抽签法、随机数法。例2.对50件样品进行编号01,02,……,50,在如下随机数表中,指定从2行第3组第一个数开始,从左往右抽取两个数字,抽取5个编号,则抽到的第3个编号是( )48628 50089 38155 69882 27761 7390353666 08912 48395 32616 34905 6364000620 79613 29901 92364 38659 64526A.48 B.24 C.26 D.49【答案】C【详解】按随机数表法,从随机数表从2行第3组第一个数开始,从左往右抽取两个数字,则编号依次为48,39,26,16,34,则抽到的第3个编号是26,故选:C3.分层随机抽样(1)定义一般地,按一个或多个变量把总体划分成若干个子总体,每个个体属于且仅属于一个子总体,在每个子总体中独立地进行简单随机抽样,再把所有子总体中抽取的样本合在一起作为总样本,这样的抽样方法称为分层随机抽样,每一个子总体称为层。在分层随机抽样中,如果每层样本量都与层的大小成比例,那么称这种样本量的分配方式为比例分配。(2)总体平均数比例分配的分层随机抽样中,总体平均数 。例3.某区域大型城市 中型城市 小型城市的数量之比为,为了解该区域城市的空气质量情况,现用比例分配的分层抽样方法抽取一个容量为的样本.在样本中,中型城市比大型城市多4个,比小型城市多8个,则( )A.24 B.28 C.32 D.36【答案】A【详解】根据分成抽样等比例关系可设抽取的大中小型城市的数量分别为,则,解得,所以.二、常用统计图表1.频率分布直方图(1)画法第一步:求极差,决定组数和组距,组距= ;第二步:分组,通常对组内数值所在区间取左闭右开区间,最后一组取闭区间;第三步:登记频数,计算频率,列出频率分布表。(2)特点①纵轴表示,即小长方形的高=;②小长方形的面积=组距×=频率;③各小长方形的面积的总和等于1.例4.某品牌家电公司从其全部200名销售员工中随机抽出50名调查销售情况,销售额都在区间(单位:百万元)内,将其分成5组:,,,,,并整理得到如下的频率分布直方图,下列说法正确的是( )A.频率分布直方图中a的值为0.07B.估计全部销售员工销售额的众数与中位数均为15C.估计全部销售员工中销售额在17百万元以上的有12人D.估计全部销售员工销售额的第20百分位数约为10.5【答案】D【详解】由频率分布直方图可知,解得,所以A错误,由频率分布直方图可知众数为15,因为前2组的频率和为,前3组的频率和为,所以中位数在第3组,设中位数为,则,解得,所以B错误,由频率分布直方图可知销售额在17百万元以上的频率为,所以全部销售员工中销售额在17百万元以上的约有人,所以C错误,因为第1组的频率为,前2组的频率和为,所以第20百分位数在第2组,设第20百分位数为,则,解得,所以全部销售员工销售额的第20百分位数约为10.5,所以D正确,2.条形图建立直角坐标系,用横轴(横轴上的数字)表示样本数据类型,用纵轴上的单位长度表示一定的数量,根据每个样本(或某个范围内的样本)的数量多少画出长短不同的等宽矩形,然后把这些矩形按照一定的顺序排列起来,这样一种表达和分析数据的统计图称为条形图;3.折线图建立直角坐标系,用横轴上的数字表示样本值,用纵轴上的单位长度表示一定的数量,根据样本值和数量的多少描出相应各点,然后把各点用线段顺次连接,得到一条折线,用这种折线表示出样本数据的情况,这样的一种表示和分析数据的统计图称为折线图;例5.如图是民航部门统计的2021年春运期间12个城市售出的往返机票的平均价格以及相比去年同期变化幅度的数据统计图表,根据图表,下面叙述不正确的是( )A.深圳的变化幅度最小,北京的平均价格最高B.天津和重庆的春运期间往返机票价格同去年相比有所上升C.平均价格的涨幅从高到低居于前三位的城市为天津、西安、厦门D.平均价格从高到低居于前三位的城市为北京、深圳、广州【答案】C【详解】从折线图看,深圳的涨幅最接近,从条形图看,北京的平均价格最高,故A正确;从折线图看,天津和重庆的的涨幅均为正值,故B正确;从折线图看,平均价格的涨幅从高到低居于前三位的城市为天津、西安、南京,故C错误;从条形图看,平均价格从高到低居于前三位的城市为北京、深圳、广州,故D正确.4.扇形图用一个圆表示总体,圆中各扇形分别代表总体中的不同部分,每个扇形的大小反映所表示的那部分占总体的百分比的大小,这样的一种表示和分析数据的统计图称为扇形图.例6.南丁格尔玫瑰图是由近代护理学和护士教育创始人南丁格尔(Florence Nightingale 1820-1910)设计的,图中每个扇形圆心角都是相等的,半径长短表示数量大小.某机构统计了近几年中国知识付费用户数量(单位:亿人次),并绘制成南丁格尔玫瑰图如下,根据此图,下列说法错误的是( )A.2015年至2022年,知识付费用户数量逐年增加B.2016年至2022年,知识付费用户数量逐年增加量2018年最多C.2022年知识付费用户数量超过2015年知识付费用户数量的10倍D.2016年至2022年,知识付费用户数量的逐年增加量逐年递增【答案】D【详解】对于A,由图可知,2015年至2022年,知识付费用户数量逐年增加,故A正确;对于BD,知识付费用户数量的逐年增加量分别为:2016年,;2017年,;2018年,;2019年,;2020年,; 2021年,;2022年,,可知知识付费用户数量逐年增加量2018年最多,故B正确,D错误;对于C,由,即2022年知识付费用户数量超过2015年知识付费用户数量的10倍,故C正确;三、用样本的数字特征估计总体1.百分位数(1)一般地,一组数据的第 百分位数是这样一个值,它使得这组数据中至少有 的数据小于或等于这个值,且至少有 的数据大于或等于这个值。例7.某校从参加高一年级期中考试的学生中随机抽取10名学生,统计他们的数学成绩如下:(满分:100分)学生 A B C D E F G H I J成绩(分) 82 81 65 78 68 75 96 90 88 72由此可知,这10名学生期中考试数学成绩的分位数是( )分.A.81 B.82 C.85 D.88【答案】D【详解】10名学生期中考试数学成绩由小到大排列为,因为,故这10名学生期中考试数学成绩的分位数为88,(2)四分位数常用的分位数有第25百分位数,第50百分位数(即中位数),第75百分位数。这三个分位数把一组由小到大排列后的数据分成四等份,因此称为四分位数。其中第25百分位数也称为第一四分位数或下四分位数,第75百分位数也称为第三四分位数或上四分位数。例8.按从小到大顺序排列的9个数据:10,16,25,33,39,43,m,65,70,若这组数据的第一四分位数与第三四分位数的和是73,则m等于( )A.40 B.48 C.50 D.57【答案】B【详解】对于已知个数据:,,第一四分位数为,,第三四分位数为,,解得.2.总体集中趋势的估计(1)中位数:将一组数据按大小依次排列,处于最中间位置的一个数据(或最中间两个数据的平均数)叫做这组数据的中位数.(2)众数:一组数据中出现次数最多的数据叫做这组数据的众数.(3)平均数:一组数据的算术平均数即为这组数据的平均数,n个数据x1,x2,…,xn的平均数 =(x1+x2+…+xn).4.总体离散程度的估计(1)假设一组数据是 , , , ,用 表示这组数据的平均数,则我们称 为这组数据的方差。有时为了计算方差的方便,我们还把方差写成 的形式。我们对方差开平方,取它的算术平方根 ,称为这组数据的标准差。(2)方差和标准差反映了数据波动程度的大小。方差: 。标准差: 。补充:①若数据x1,x2,…,xn的平均数为,则mx1+a,mx2+a,mx3+a,…,mxn+a的平均数是m+a;②若数据x1,x2,…,xn的方差为s2,则数据ax1+b,ax2+b,…,axn+b的方差为a2s2.四、变量的相关关系及回归模型1.变量的相关关系(1)定义:两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系。(2)散点图每个编号下的成对样本数据都可用直角坐标系中的点表示出来,由这些点组成了统计图。我们把这样的统计图叫做散点图。(3)正相关、负相关、线性相关如果从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势,我们就称这两个变量正相关;如果当一个变量的值增加时,另一个变量的相应值呈现减少的趋势,则称这两个变量负相关。一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,我们就称这两个变量线性相关。一般地,如果两个变量具有相关性,但不是线性相关,那么我们就称这两个变量非线性相关或曲线相关。2.样本相关系数(1)定义: ,我们称 为变量 和变量 的样本相关系数。当 时,称成对样本数据正相关。这时,当其中一个数据的值变小时,另一个数据的值通常也变小;当其中一个数据的值变大时,另一个数据的值通常也变大。当 时,称成对样本数据负相关。这时,当其中一个数据的值变小时,另一个数据的值通常会变大;当其中一个数据的值变大时,另一个数据的值通常会变小。(2)线性相关的程度样本相关系数 的取值范围为 。样本相关系数 的绝对值大小可以反映成对样本数据之间线性相关的程度:当 越接近1时,成对样本数据的线性相关程度越强;当 越接近0时,成对样本数据的线性相关程度越弱。例9.相关变量x,y的散点图如图所示,现对这两个变量进行线性相关分析.方案一:根据图中所有数据,得到回归直线方程,相关系数为;方案二:剔除点,根据剩下的数据得到回归直线方程,相关系数为.则( )A. B.C. D.【答案】D【详解】由散点图可知这两个变量为负相关,所以.因为剔除点后,剩下点的数据更具有线性相关性,更接近1,所以 .例10.对三组数据进行统计,获得以下散点图,关于其相关系数依次是,,,则它们的大小关系是( )A. B. C. D.【答案】A【详解】解:由散点图可知,图一两个变量成正相关,且线性相关性较强,故,图二两个变量成负相关,且线性相关性较强,故,图三两个变量线性相关性较弱,故,所以;(3)残差分析①对于响应变量 ,通过观测得到的数据称为观测值,通过经验回归方程得到的 称为预测值,观测值减去预测值称为残差。残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析。②残差的散点图若残差比较均匀地分布在以取值为0的横轴为对称轴的水平带状区域内,则满足一元线性回归模型对随机误差的假设。③决定系数 。在 表达式中, 与经验回归方程无关,残差平方和 与经验回归方程有关。因此 越大,表示残差平方和越小,即模型的拟合效果越好; 越小,表示残差平方和越大,即模型的拟合效果越差。例11.在对10个同类工场的研究后,某工场获得投入与纯利润的简单随机样本数据(,2,…,10),x,y,分别表示第i个工场的投入(单位:万元)和纯利润(单位:万元).第i个工场 1 2 3 4 5 6 7 8 9 10投入/万元 32 31 33 36 37 38 39 43 45 46纯利润/万元 25 30 34 37 39 41 42 44 48 50参考数据:,,,,,.(1)请用相关系数说明该组数据中y与x之间的线性相关程度;(2)求y关于x的经验回归方程(精确到0.01);(3)现有甲、乙两种大型机器供工场选择,甲型机器价位是60万元,乙型机器价位是50万元,下表是甲、乙两种大型机器各30台的使用年限(整年)统计表:1年 2年 3年 4年 合计甲型/台 3 12 9 6 30乙型/台 6 12 9 3 30据以往经验可知,每年使用任一型号都可获利润30万元,若仅考虑购置成本和每台机器的使用年限(使用年限均为整年),以频率估计概率,该工场选择买哪一款型号机器更划算?参考公式:相关系数,对于一组具有线性相关关系的数据(,2,…,n),其回归直线的斜率和截距的最小二乘估计公式分别为,.【答案】(1)y与x之间具有较强的线性相关关系;(2);(3)该工场应选择购买乙型号机器更划算.【解析】(1)依题意知,,,且相关系数,因为y与x的相关系数接近于1,所以y与x之间具有较强的线性相关关系.(2)依题意知,,,所以y关于x的经验回归方程为.(3)以频率估计概率,购买一台甲型号机器的利润X(单位:万元)的概率分布列为:X -30 0 30 60P 0.1 0.4 0.3 0.2(万元)购买一台乙型号机器的利润Y(单位:万元)的概率分布列为:Y -20 10 40 70P 0.2 0.4 0.3 0.1(万元)因为,所以该工场应选择购买乙型号机器更划算.五、列联表与独立性检验1.分类变量与列联表(1)分类变量在讨论问题时,为了表述方便,我们经常会使用一种特殊的随机变量,以区别不同的现象或性质,这类随机变量称为分类变量。分类变量的取值可以用实数表示。(2) 列联表列出的两个分类变量的频数表,称为列联表。2.独立性检验(1)零假设以 为样本空间的古典概型。设 和 为定义在 上,取值于 的成对分类变量。:分类变量 和 独立。通常称 为零假设或原假设。(2) 公式假定我们通过简单随机抽样得到了 和 的抽样数据列联表。对于任何小概率值 ,可以找到相应的正实数 ,使得后面关系成立: 。我们称 为 的临界值,这个临界值就可作为判断 大小的标准。概率值 越小,临界值 越大。(3)独立性检验基于小概率值 的检验规则是:当 时,我们就推断 不成立,即认为 和 不独立,该推断犯错误的概率不超过 ;当 时,我们没有充分证据推断 不成立,可以认为 和 独立。这种利用 的取值推断分类变量 和 是否独立的方法称为 独立性检验,读作“卡方独立性检验”,简称独立性检验。例12.2021年4月22日,一则“清华大学要求从2019级学生开始,游泳达到一定标准才能毕业”的消息在体育界和教育界引起了巨大反响.游泳作为一项重要的求生技能和运动项目受到很多人的喜爱.其实,已有不少高校将游泳列为必修内容.某中学为了解2020届高三学生的性别和喜爱游泳是否有关,对100名高三学生进行了问卷调查,得到如下列联表:喜欢游泳 不喜欢游泳 总计男生 10女生 20总计已知在这100人中随机抽取1人,抽到喜欢游泳的学生的概率为.(1)请将上述列联表补充完整;(2)判断是否有99.9%的把握认为喜欢游泳与性别有关.附:,0.05 0.025 0.01 0.005 0.0013.841 5.024 6.635 7.879 10.828【答案】(1)答案见解析(2)有99.9%的把握认为喜欢游泳与性别有关【解析】(1)因为在100人中随机抽取1人抽到喜欢游泳的学生的概率为,所以喜欢游泳的学生人数为.其中女生有20人,男生有40人,列联表补充如下:喜欢游泳 不喜欢游泳 合计男生 40 10 50女生 20 30 50合计 60 40 100(2)因为,所以有99.9%的把握认为喜欢游泳与性别有关.六、随机事件的概率与古典概型1.随机事件(1)一般地,随机试验中的每个随机事件都可以用这个试验的样本空间的子集来表示,将样本空间 的子集称为随机事件,简称事件。(2)只包含一个样本点的事件称为基本事件。(3)随机事件一般用大写字母 , , , 表示,在每次试验中,当且仅当 中某个样本点出现时,称为事件 发生。(4)在样本空间 中,每次试验总有一个样本点发生,所以 总会发生,称 为必然事件,空集 不包含任何样本点,在每次试验中都不会发生,称 为不可能事件。2.频率与概率(1)事件的概率对随机事件发生可能性大小的度量(数值)称为事件的概率,事件 的概率用 表示。(2)频率的稳定性一般地,随着试验次数 的增大,频率偏离概率的幅度会缩小,即事件 发生的频率 会逐渐稳定于事件 发生的概率 。我们称频率的这个性质为频率的稳定性。因此,我们可以用频率 估计概率 。3.事件的关系和运算名称 条件 结论 符号表示包含 关系 若A发生,则B一定发生 事件B包含事件A(或事件A包含于事件B) B A(或 A B)相等 关系 若B A且A B 事件A与事件B相等 A=B并(和) 事件 A发生或B发生(事件A与事件B至少有一个发生) 事件A与事件B的并事件(或和事件) A∪B(或A+B)交(积) 事件 A发生且B发生(事件A与事件B同时发生) 事件A与事件B的交事件(或积事件) A∩B(或AB)互斥 事件 A∩B为不可能事件 事件A与事件B互斥(或互不相容) A∩B= 对立 事件 A∩B为不可能事件,A∪B为必然事件 事件A与事件B互为对立 A∩B= ,A∪B=Ω独立 事件 在一个随机试验中两个事件A,B是否发生互不影响 事件A与事件B相互独立 P(AB)=P(A)P(B)4.概率的基本性质(1)对任意的事件 ,都有0≤P(A)≤1 。(2)必然事件的概率为1,不可能事件的概率为0,即 , 。(3) 如果事件 与事件 互斥,那么 。(4)如果事件 与事件 互为对立事件,那么 , 。(5)如果 ,那么 ≤ 。(6)设 , 是一个随机试验中的两个事件,我们有 。5.基本事件的特点(1)任何两个基本事件是互斥的。(2)任何事件(除不可能事件)都可以表示成基本事件的和。6.古典概型具有以下两个特征的概率模型称为古典概率模型,简称古典概型。(1)有限性:样本空间的样本点只有有限个。(2)等可能性:每个样本点发生的可能性相等。(3)古典概型的概率公式一般地,设试验 是古典概型,样本空间 包含 个样本点,事件 包含其中的 个样本点,则定义事件 的概率 = ,其中 和 分别表示事件 和样本空间 包含的样本点个数。七、事件的相互独立性与条件概率1.两个事件相互独立的定义对任意两个事件 与 ,如果 成立,则称事件 与事件 相互独立,简称为独立。例13.如图是一个古典概型的样本空间及事件A和事件B,其中,,,,则( )A. B.C.事件A与B互斥 D.事件A与B相互独立【答案】ABD【详解】,,,故正确,正确;与不互斥,故C错误;,事件A与相互独立,故D正确.2.独立事件的性质(1)必然事件 ,不可能事件 都与任意事件相互独立。(2)如果事件 与 相互独立,那么 与 , 与 , 与 也都相互独立。(3)如果 , , , 相互独立,那么 。3.条件概率的概念(1)条件概率的概念一般地,设 , 为两个随机事件,且 ,我们称 为在事件 发生的条件下,事件 发生的条件概率,简称条件概率。(2)条件概率公式① 。② , 表示事件 与 积事件的概率。(3)条件概率的性质① , 。②如果 和 是两个互斥事件,则 。③设 和 互为对立事件,则 。④概率的乘法公式:对任意两个事件 与 ,若 ,则例14.一个箱子中有大小形状完全相同的3个黑球和5个白球,从中取出2个球,下列几个命题中正确的是( )A.若是不放回地抽取,则取出2个黑球和取出2个白球是对立事件B.若是不放回地抽取,则第2次取出黑球的概率小于第1次取出黑球的概率C.若是有放回地抽取,则取出1个黑球1个白球的概率为D.若是有放回地抽取,则在至少取出1个白球的条件下,第2次取出白球的概率是【答案】CD【详解】对于A,不放回地抽取两个球,包括两个都是黑球、两个都是白球和一个黑球一个白球,共3种情况,所以取出两个黑球和取出两个白球不是对立事件,所以A错误;对于B,不放回地抽取,第2次取到黑球的概率为,第1次取得黑球的概率为,所以第2次取到黑球的概率等于第1次取到黑球的概率,所以B错误;对于C,有放回地抽取,取出1个黑球1个白球包括第1次为黑球第2次为白球、第1次为白球第2次为黑球,所以所求概率为,所以C正确,对于D,有放回地抽取,至少取出一个白球的条件下,第2次取出白球包括第1次黑球第2次白球、第1次白球第2次白球,所以所求概率为,4.全概率公式一般地,设 , , , 是一组两两互斥的事件, ,且 , , , , ,则对任意的事件 ,有 。我们称其为全概率公式。八、离散型随机变量及其分布列1.随机变量(1)定义式:一般地,对于随机试验样本空间 中的每个样本点 ,都有唯一的实数 与之对应,我们称 为随机变量。(2)性质:①取值依赖于样本点;②所有可能取值是明确的。(3)离散型随机变量变量可能取值为有限个或可以一一列举的随机变量,我们称为离散型随机变量。通常用大写英文字母表示随机变量,例如 , , ;用小写英文字母表示随机变量的取值,例如 , , 。2.离散型随机变量的分布列(1)一般地,设离散型随机变量 的可能取值为 , , , ,我们称 取每一个值 的概率 , , , , 为 的概率分布列,简称分布列。(2)表示方法:①公式法;②列表法;③图形法。3.离散型随机变量的均值(1)随机变量的数字特征类似于研究一组数据的均值和方差,我们也可以研究离散型随机变量的均值和方差,它们统称为随机变量的数字特征。(2)随机变量的均值(期望)①称为随机变量 的均值或数学期望,数学期望简称期望。②一般地,如果随机变量 服从两点分布( 分布),那么 。(3)均值的性质设 的分布列为 , , , , 。① 。 ② 。③ 。4.离散型随机变量的方差(1)方差、标准差= 为随机变量 的方差,有时也记为 ,并称 为随机变量 的标准差,记为 。②公式: 。(2)方差的性质: 。例15.已知两组数据,第一组,,…,和第二组,,…,,,其中,,第一组数据不全相同,则这两组数据相比,下列说法正确的是( )A.平均数一定相等 B.中位数一定相等C.极差一定相等 D.第一组数据的方差大于第二组数据的方差【答案】ACD【详解】对于A,因为,所以,所以,所以,,所以,所以A正确,对于B,因为第一组数的中位数为,第二组数的中位数为,,但不一定等于,所以两组数的中位数不一定相等,所以B错误,对于C,由选项A的计算可知,,所以第一组数据的最大值和最小值与第二组数据的最大值和最小值分别相等,所以两组数据有极差相等,所以C正确,对于D,第一组数据的方差为,第二组数据的方差为,所以,即第一组数据的方差大于第二组数据的方差,所以D正确九、二项分布、超几何分布与正态分布1.二项分布(1) 重伯努利试验①我们把只包含两个可能结果的试验叫做伯努利试验。②我们将一个伯努利试验独立地重复进行 次所组成的随机试验称为 重伯努利试验。显然, 重伯努利试验具有如下共同特征:同一个伯努利试验重复做 次;各次试验的结果相互独立。(2)二项分布①一般地,在 重伯努利试验中,设每次试验中事件 发生的概率为 ,用 表示事件 发生的次数,则 的分布列为 , , , , , 。如果随机变量 的分布列具有上式的形式,则称随机变量 服从二项分布,记作 。② 。(3)二项分布的均值与方差如果 ,那么 , 。2.超几何分布(1)超几何分布一般地,假设一批产品共有 件,其中有 件次品。从 件产品中随机抽取 件(不放回),用 表示抽取的 件产品中的次品数,则 的分布列为 , , , , , 。其中 , , , , , , 。如果随机变量 的分布列具有上式的形式,那么称随机变量 服从超几何分布。(2)超几何分布的均值设随机变量 服从超几何分布,则 可以解释为从包含 件次品的 件产品中,不放回地随机抽取 件产品中的次品数。令 ,则 是 件产品的次品率,而 是抽取的 件产品的次品率,则 ,即 = 。3.正态分布(1)定义:若随机变量 的概率分布密度函数为 , ,其中 , 为参数,则称随机变量 服从正态分布,记为 。特别地,当 , 时,称随机变量 服从标准正态分布。(2)正态曲线的特点①曲线是单峰的,它关于直线 对称。②曲线在 处达到峰值 。③当 无限增大时,曲线无限接近 轴。(3) 原则① ;② ;③ 。(4)正态分布的均值与方差若 ,则 , 。例16.随机变量服从正态分布,则标准差为( )A.2 B.4 C.10 D.14【答案】A【详解】因为服从正态分布可知:方差为4,故标准差为2,【对点训练】一、单选题1.中国古典乐器一般按“八音”分类,这是我国最早按乐器的制造材料来对乐器进行分类的方法,最早见于《周礼·春官·大师》.八音分为“金、石、七、革、丝、木、匏、竹”,其中“金、石、木、革”为打击乐器,“土、匏、竹”为吹奏乐器,“丝”为弹拨乐器.现从“金、石、土、革、丝”中任取“两音”,则“两音”中含“丝”的概率为( )A. B. C. D.2.已知,,,,从以上四个函数中任意取两个函数相乘得到新函数,那么所得新函数为偶函数的概率为( )A. B. C. D.3.孪生素数猜想是希尔伯特在1900年国际数学家大会的报告上第8个问题中提出的,其可以描述为:存在无穷多个素数p使得是素数,素数p、称为孪生素数.2013年5月,华人数学家张益唐证明了这一猜想的一个弱化形式,在孪生素数猜想的证明道路上前进了一大步.若从20以内的素数中任取两个,则其中能构成孪生素数的概率为( )A. B. C. D.4.某兴趣小组有男生20人,女生10人,从中抽取一个容量为5的样本,恰好抽到2名男生和3名女生,则①该抽样可能是系统抽样;②该抽样可能是随机抽样:③该抽样一定不是分层抽样;④本次抽样中每个人被抽到的概率都是.其中说法正确的为A.①②③ B.②③ C.②③④ D.③④5.某种产品的广告费支出与销售额(单位:万元)之间有如表关系,与的线性回归方程为,当广告支出5万元时,随机误差的效应(残差)为2 4 5 6 830 40 60 50 70A.10 B.20 C.30 D.406.某市期末教学质量检测,甲、乙、丙三科考试成绩近似服从正态分布,则由如图曲线可得下列说法中正确的是( )A.甲学科总体的均值最小B.乙学科总体的方差及均值都居中C.丙学科总体的方差最大D.甲、乙、丙的总体的均值不相同7.甲、乙两人玩说“数字游戏”如果甲说的数字记为,乙说的数字记为,且,若,差的绝对值不超过1,则称甲、乙“心有灵犀”那么甲、乙“心有灵犀”的概率是( )A. B. C. D.8.从集合中随机选取一个元素,中随机选取一个元素,则事件“”的概率是( )A. B. C. D.9.现在,很多人都喜欢骑“共享单车”,但也有很多市民并不认可.为了调查人们对这种交通方式的认可度,某同学从交通拥堵不严重的城市和交通拥堵严重的城市分别随机调查了20名市民,得到如下列联表:总计认可 13 5 18不认可 7 15 22总计 20 20 40附:.0.1 0.05 0.010 0.0052.706 3.841 6.635 7.879根据表中的数据,下列说法中正确的是( )A.没有95%以上的把握认为“是否认可与城市的拥堵情况有关”B.有99%以上的把握认为“是否认可与城市的拥堵情况有关”C.可以在犯错误的概率不超过0.01的前提下认为“是否认可与城市的拥堵情况有关”D.可以在犯错误的概率不超过0.05的前提下认为“是否认可与城市的拥堵情况有关”10.甲袋里有5只白球,7只红球,乙袋里有4只白球,2只红球,从两个袋中任取一袋,然后从所取到的袋中任取一球,则取到的球是白球的概率为( )A. B. C. D.11.某轮船公司的质检部要对一批轮胎的宽度(单位:)进行质检,若从这批轮胎中随机选取个,至少有个轮胎的宽度在内,则称这批轮胎基本合格.已知这批轮胎的宽度分别为、、、、,则这批轮胎基本合格的概率为( )A. B. C. D.12.设离散型随机变量的概率分布列如下,则下列各式中成立的是-1 0 1 2 3P 0.10 0.10 0.20 0.40A. B. C. D.13.甲乙两艘轮船都要在某个泊位停靠6小时,假定他们在一昼夜的时间段中随机地到达,试求这两艘船中至少有一艘在停泊位时必须等待的概率A. B. C. D.14.某班男女生各10名同学最近一周平均每天的锻炼时间(单位:分钟)用茎叶图记录如下:假设每名同学最近一周平均每天的锻炼时间是互相独立的.①男生每天锻炼的时间差别小,女生每天锻炼的时间差别大;②从平均值分析,男生每天锻炼的时间比女生多;③男生平均每天锻炼时间的标准差大于女生平均每天锻炼时间的标准差;④从10个男生中任选一人,平均每天的锻炼时间超过65分钟的概率比同样条件下女生锻炼时间超过65分钟的概率大.其中符合茎叶图所给数据的结论是( )A.①②③ B.②③④ C.①②④ D.①③④二、多选题15.下列说法中正确的有( )A.将一组数据中的每一个数据都加上或减去同一个常数后,方差不变;B.设有一个线性回归方程,变量增加1个单位时,平均增加5个单位;C.设具有相关关系的两个变量,的相关系数为,则越接近于0,和之间的线性相关程度越弱;D.在一个列联表中,由计算得的值,在的前提下,的值越大,判断两个变量间有关联的把握就越大.16.某校拟从甲、乙两名同学中选一人参加疫情知识问答竞赛,于是抽取了甲、乙两人最近同时参加校内竞赛的十次成绩,将统计情况绘制成如图所示的折线图.根据该折线图,下面结论正确的是( )A.甲从第二次到第三次成绩的上升速率要小于乙从第六次到第七次的上升速率B.乙的成绩的极差为8C.甲的成绩的中位数为7D.甲的成绩的方差大于乙的成绩的方差17.如图是某市5月1日至10日PM2.5的日均值(单位:μg/m3)变化的折线图,关于PM2.5日均值说法错误的是( )A.这10天日均值的83%分位数为78;B.这10天的日均值的中位数为41;C.前5天的日均值的方差大于后5天的日均值的方差;D.前5天的日均值的极差小于后5天的日均值的极差.18.下列说法错误的是( )A.设有一个回归方程,变量x增加1个单位时,y平均减少5个单位B.在某项测量中,测量结果,若,则C.对分类变量X与Y的随机变量的观测值k来说,k越小,判断“X与Y有关系”的把握程度越大D.若计算得,经查临界值表知,则在100个生活不规律的人中大约有95人患胃病19.某电子商务平台每年都会举行“年货节”商业促销狂欢活动,现统计了该平台从2012年到2020年共9年“年货节”期间的销售额(单位:亿元)并作出散点图,将销售额看成以年份序号(2012年作为第1年)的函数.运用excel软件,分别选择回归直线和三次函数回归曲线进行拟合,效果如下图,则下列说法正确的是( )A.销售额与年份序号呈正相关关系B.销售额与年份序号线性相关不显著C.三次函数回归曲线的拟合效果好于回归直线的拟合效果D.根据三次函数回归曲线可以预测2021年“年货节”期间的销售额约为8454亿元20.已知随机变量服从正态分布(参考数据:若,则),则( )A.的方差为 B.C. D.21.下列说法正确的是( )A.某高中为了解在校学生对参加某项社会实践活动的意向,拟采用分层抽样的方法从该校三个年级的学生中抽取一个容量为60的样本,已知该校高一、高二,高三年级学生之比为,则应从高二年级中抽取20名学生B.线性回归方程对应的直线至少经过其样本数据点中的一个点C.命题“,”的否定是“,"D.方差描述了一组数据围绕平均数波动的大小,方差越大,数据的离散程度越大,方差越小,数据的离散程度越小22.下列关于说法正确的是( )A.抛掷均匀硬币一次,出现正面的次数是随机变量B.某人射击时命中的概率为,此人射击三次命中的次数服从两点分布C.小赵.小钱.小孙.小李到4个景点旅游,每人只去一个景点,设事件“4个人去的景点不相同”,事件“小赵独自去一个景点”,则D.已知随机变量服从两点分布,且,,令,则23.有甲、乙两种报纸供市民订阅,记事件为“只订甲报纸”,事件为“至少订一种报纸”,事件为“至多订一种报纸”,事件为“一种报纸也不订”.下列命题正确的是( )A.与是互斥事件 B.与是互斥事件,且是对立事件C.与不是互斥事件 D.与是互斥事件24.近年,随着人工智能,AIoT,云计算等技术的推动,全球数据量正在无限制地扩展和增加.国际数据公司IDC统计了2016~2020年全球每年产生的数据量及其增速,所得结果如图所示,根据该统计图,下列说法正确的是( )A.2016~2020年,全球每年产生的数据量在持续增加B.2016~2020年,全球数据量的年平均增长率持续下降C.2016~2020年,全球每年产生的数据量的平均数为33.7D.2015年,全球产生的数据量超过1525.下列结论正确的是( )A.若,,,则B.抛掷一枚质地均匀的骰子,表示“朝上面的点数”,则C.将一枚质地均匀的硬币连续抛掷次,表示“正面朝上”出现的次数,则D.若,则当时,取得最大值三、填空题26.若将逐项展开得,则出现的概率为,x出现的概率为,如果将逐项展开,那么出现的概率为 .27.为了考查某种小麦的长势,从中抽取10株麦苗,测得苗高(单位:cm)为16,9,14,11,12,10,16,8,17,19,则这组数据的极差是______.28.将一个质地均匀的骰子(一种各个面上分别标有1,2,3,4,5,6个点的正方体玩具)先后抛掷2次,则出现向上的点数之和大于10的概率为_______.29.甲、乙、丙三名同学竞选班长、团支书、学习委员三个职位,每人只竞选一个职位,设事件A为“三人竞选职位都不同”,B为“甲独自竞选一个职位”,则P(A|B)=________.30.从1,2,3,4,5中任取两个不同的数,其中一个作为对数的底数a,另一个作为对数的真数b.则的概率为______.31.已知随机事件,有概率,,条件概率,则______.32.欧阳修在《卖油翁》中写道:“(翁)乃取一葫芦置于地,以钱覆其口,徐以杓酌油沥之,自钱孔入,而钱不湿”,可见卖油翁的技艺之高超,若铜钱直径26mm,中间有边长为8mm的正方形小孔,随机向铜钱上滴一滴油(油滴大小忽略不计),则油滴恰好落入正方形小孔中的概率是______.33.若随机变量 ,且 ,则=_________.().34.已知一组数据为,,,,,,则该组数据的方差是_________.35.已知定义在区间上的单调函数满足:对任意的,都有,则在上随机取一个实数x,使得的值不小于4的概率为__________.36.某年级共有210名同学参加数学期中考试,随机抽取10名同学成绩如下:则总体标准差的估计值为 (结果精确到0.01).37.人们为了解一支股票未来一定时期内价格的变化,往往会去分析影响股票价格的基本因素,比如利率的变化.现假设人们经分析估计利率下调的概率为50%,利率不变的概率为40%,利率上调时股票不会上涨.根据经验,人们估计,在利率下调的情况下,该支股票价格上涨的概率为70%.而在利率不变的情况下,其价格上涨的概率为40%,则该支股票将上涨的概率为______.38.将标有,,,,,的张卡片放入个不同的信封中,每个信封均放张,则其中标号为,的卡片恰好放入同一信封的概率为_________.39.排球比赛采用5局3胜制,现有甲乙两队进行排球比赛.甲队赢得每局比赛的概率均为,则甲队赢得比赛的概率为___________.四、双空题40.某校象棋社团开展竞赛活动,比赛中双方有一人获胜或者双方和棋则比赛结束.根据以往比赛结果,在一局比赛中,甲战胜乙的概率是,两人和棋的概率是,则乙战胜甲的概率是______;甲乙两人比赛2局,每局胜方记3分,负方记0分,和棋双方各记1分,则甲得分不少于2分的概率是______.41.在一个容量为5的样本中,数据均为整数,己测出其平均数为10,但墨水污损了两个数据,其中一个数据的十位数字1未污损,即9,10,11,1■,■,设前后两个污损的数字分别为a,b,则________,当这组数据的方差最大时,________.42.田忌赛马的故事出自司马迁的《史记》,话说齐王,田忌分别有上、中、下等马各一匹,赛马规则是:一场比赛需要比赛三局,每匹马都要参赛,且只能参赛一局,最后以获胜局数多者为胜.记齐王、田忌的马匹分别为和,每局比赛之间都是相互独立的.而且不会出现平局.用表示马匹与比赛时齐王获胜的概率,若,,;,,;,,.则一场比赛共有________种不向的比赛方案;在上述所有的方案中,有一种方案田忌获胜的概率最大,此概率的值为_________.43.一个口袋里有形状一样仅颜色不同的4个小球,其中白色球2个,黑色球2个.若从中随机取球,每次只取1个球,每次取球后都放回袋中,则事件“连续取球四次,恰好取到两次白球”的概率为__________;若从中一次取2个球,只取一次,记所取球中白球可能被取到的个数为ξ,则随机变量ξ的期望为_______.44.某人从甲地到乙地,乘火车 轮船 飞机的概率分别为0.2,0.4,0.4,乘火车迟到的概率为0.5,乘轮船迟到的概率为0.2,乘飞机不会迟到,则这个人迟到的概率是___________;如果这个人迟到了,他乘轮船迟到的概率是___________.45.林锋家所在小区原本是开放式小区,停车难问题一直困扰着该小区居民.今年当地政府积极进行老小区改造,通过竭力协调将闲置的空间改造成了绿色车位,受到居民的广泛称赞,如今林锋家楼下原本堆满废墟的地方已经改造成了7个绿色车位.某天中午林锋家来了四位客人,这四位客人各自驾驶一辆车,其中三辆黑色,一辆白色.此时这7个车位恰好均未使用,于是这四辆车随机规范停入这7个车位.则恰好三辆黑色车相邻停放的概率为___________;记剩余的3个空车位中相邻的车位数最大者为(若3个空车位均相邻则,若3个空车位有且仅有两个相邻则,若3个空车位均不相邻则),则的数学期望为___________.五、解答题46.共享单车的投放,方便了市民短途出行,被誉为中国“新四大发明”之一.某市为研究单车用户与年龄的相关程度,随机调查了100位成人市民,统计数据如下:不小于40岁 小于40岁 合计单车用户 12 y m非单车用户 x 32 70合计 n 50 100(1)求出列联表中字母x、y、m、n的值;(2)①从此样本中,对单车用户按年龄采取分层抽样的方法抽出5人进行深入调研,其中不小于40岁的人应抽多少人?②从独立性检验角度分析,能否有以上的把握认为该市成人市民是否为单车用户与年龄是否小于40岁有关.下面临界值表供参考:P() 0.15 0.10 0.05 0.25 0.010 0.005 0.001k 2.072 2.706 3.841 5.024 6.635 7.879 10.82847.“天宫”空间站、“嫦娥”奔月、“祝融”探火、“羲和”探月从远古神话梦想到新中国成立后的航天事业飞速发展,中国人正一步一个脚印地触摸更高更远的太空奥妙,其中,飞行器及其动力装置、附件、仪表所用到的各类材料是航天工程技术发展的决定性因素之一.某公司负责生产的型航天材料是飞行器的重要零件,该材料应用前景十分广泛,该公司为了将型航天材料进行应用改造,根据市场调研与模拟,得到应用改造投入(亿元)与产品的直接收益(亿元)的数据统计如下:x(亿元)y(亿元)经研究表明,改造投入(亿元)与产品的直接收益(亿元)具有线性相关关系.(1)根据统计表中数据,求出直接收益(亿元)关于改造投入(亿元)的回归直线方程;(2)为了鼓励科技创新,当应用改造投入不少于亿元时,国家给予公司补贴亿元,若公司收益(直接收益+国家补贴)达到亿元,估计改造投入至少达到多少亿元(精确到亿元)?参考公式:,.参考数据:,.48.2018年11月26日,南方科技大学的贺建奎团队宣布一对名为露露和娜娜的基因编辑婴儿于11月在中国健康诞生,这对双胞胎的一个基因经过修改,使她们出生后即能天然抵抗艾滋病病毒,这是世界首例免疫艾滋病的基因编辑婴儿.当即122位生物医学领域科学家联名谴责,称“此项技术早就可以做”,不做的原因是巨大的风险和伦理问题,直指这项所谓研究的生物医学伦理审查形同虚设,直接进行人体实验,只能用“疯狂”来形容.针对这件事某部门就“基因编辑婴儿”的看法随机抽取40人进行了问卷调查,其中男、女各20人,将问卷得分情况制作茎叶图如下:为便于对调查对象进一步研究,将得分高于85分的称为“类”调查对象,得分不大于85分的称为“非类”调查对象.(1)某部门想要进一步了解“类”调查对象的更多信息,将调查所得的频率视为概率.①若从“类”调查对象中抽取2人,求抽取的2人性别不同的概率;②若从“类”调查对象中抽取3人,设被抽到的3人中男、女人数差的绝对值为,求的分布列与数学期望.(2)通过问卷调查,得到如下列联表.完成列联表,并说明能否有99%的把握认为是否是“类”调查对象与性别有关?“非类”调查对象人数 “类”调查对象人数 总计男女总计,0.050 0.010 0.0013.841 6.635 10.82849.(在花卉进行硬枝扦插过程中,常需要用生根粉调节植物根系生长.现有20株使用了生根粉的花卉,在对最终“花卉存活”和“花卉死亡”进行统计的同时,也对在使用生根粉2个小时后的生根量进行了统计,这20株花卉生根量如下表所示,其中生根量在6根以下的视为“不足量”,大于等于6根为“足量”.现对该20株花卉样本进行统计,其中“花卉存活”的13株.已知“花卉存活”但生根量“不足量”的植株共1株.编号 01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17 18 19 20生根量 6 8 3 8 9 5 6 6 2 7 7 5 9 6 7 8 8 4 6 9(1)完成列联表,并判断是否可以在犯错误概率不超过1%的前提下,认为“花卉的存活”与“生根足量”有关?生根足量 生根不足量 总计花卉存活花卉死亡总计 20(2)若在该样本“生根不足量”的植株中随机抽取3株,求这3株中恰有1株“花卉存活”的概率.参考数据:50.已知一工厂生产了某种产品700件,该工厂需要对这些产品的性能进行检测现决定利用随机数表法从中抽取100件产品进行抽样检测,将700件产品按001,002,…,700进行编号(1)如果从第8行第4列的数开始向右读,请你依次写出最先检测的3件产品的编号;(下面摘取了随机数表的第7~9行)84 42 17 53 31 57 24 55 06 88 77 04 74 47 67 21 76 33 50 25 83 92 12 06 7663 01 63 78 59 16 95 55 67 19 98 10 50 71 75 12 86 73 58 07 44 39 52 38 7933 21 12 34 29 78 64 56 07 82 52 42 07 44 38 15 51 00 13 42 99 66 02 79 54(2)检测结果分为优等、合格、不合格三个等级,抽取的100件产品的安全性能和环保性能的检测结果如下表(横向和纵向分别表示安全性能和环保性能):(i)若在该样本中,产品环保性能是优等的概率为34%,求的值;(ii)若,求在安全性能不合格的产品中,环保性能为优等的件数比不合格的件数少的概率.件数 环保性能优等 合格 不合格安全性能 优等 6 20 5合格 10 18 6不合格 m 4 n51.为促进新能源汽车的推广,某市逐渐加大充电基础设施的建设,该市统计了近五年新能源汽车充电站的数量(单位:个),得到如下表格:年份编号 1 2 3 4 5年份 2016 2017 2018 2019 2020新能源汽车充电站数量/个 37 104 147 196 226(1)已知可用线性回归模型拟合与的关系,请用相关系数加以说明;(2)求关于的线性回归方程,并预测2024年该市新能源汽车充电站的数量.参考数据:,,,.参考公式:相关系数,回归方程中斜率和截距的最小二乘估计公式分别为;,.52.某电视台有一档综艺节目,其中有一个抢答环节,有甲、乙两位选手进行抢答,规则如下:若选手抢到答题权,答对得20分,答错或不答则送给对手10分.已知甲每次抢到答题权的概率为,且答对的概率为,乙抢到答题权的概率为,且答对的概率为.(1)在一轮抢答中,甲得到0分的概率;(2)若比赛进行两轮,求甲得分的分布列及其期望.53.某公司为了切实保障员工的健康安全,决定在全公司范围内举行一次专门针对某病毒的健康普查,为此需要抽验全公司人的血样进行化验,由于人数较多,检疫部门制定了下列两种可供选择的方案.方案①:将每个人的血分别化验,这时需要验次.方案②:按个人一组进行随机分组,把从每组个人抽来的血混合在一起进行检验,如果每个人的血均为阴性,则验出的结果呈阴性,这个人的血只需检验一次(这时认为每个人的血化验次);否则,若呈阳性,则需对这个人的血样再分别进行一次化验,这样,该组个人的血总共需要化验次.假设此次普查中每个人的血样化验呈阳性的概率为,且这些人之间的试验反应相互独立.(1)设方案②中,某组个人的每个人的血化验次数为,求的分布列;(2)设,,试求方案②中,分别取2、3、4时,各需化验的平均总次数;并指出在这三种分组情况下,相比方案①,化验次数最多可以平均减少多少次?(结果保留整数)54.甲、乙、丙三人分别独立的进行某项技能测试,已知甲能通过测试的概率是,甲、乙、丙三人都能通过测试的概率是,甲、乙、丙三人都不能通过测试的概率是,且乙通过测试的概率比丙大.(Ⅰ)求乙、丙两人各自通过测试的概率分别是多少;(Ⅱ)求测试结束后通过的人数的数学期望.55.美国2018年3月挑起“中美贸易争端”,剑指“中国制造2025”,中国有“缺芯”之痛.今有三个研究机构,,对某“AI芯片”做技术攻关,能攻克的概率为,能攻克的概率为,能攻克的概率为,(1)求这一技术难题被攻克的概率;(2)先假设一年后该技术难题已被攻克,上级会奖励万元.奖励规则如下:若只有1个机构攻克,则此机构获得全部奖金万元;若只有两个机构攻克,则奖金奖给此两个机构,每个机构各得万元;若三个机构均攻克,则奖金奖给三个机构,每个机构各得 万元.设,得到的奖金数为,求的分布列和数学期望.56.现有8名马拉松比赛志愿者,其中志愿者,,通晓日语,,,通晓俄语,,通晓英语,从中选出通晓日语、俄语和英语的志愿者各1名,组成一个小组.列出基本事件;求被选中的概率;求和不全被选中的概率【参考答案】1.A【详解】从“金、石、土、革、丝”中任取“两音”有(金、石),(金、土),(金、革),(金、丝),(石、土),(石、革),(石、丝),(土、革),(土、丝),(革、丝)共10个基本事件,其中含“丝”的有(金、丝),(石、丝),(土、丝),(革、丝),共个基本事件,故所求概率.2.C【详解】,,为奇函数,为偶函数,任意两个相乘得到的函数个数有6个,为:,,,,得到偶函数的个数为3个,为:,, 故概率为.3.C【详解】在20以内的素数有2,3,5,7,11,13,17,19,共8个,随机取两个,共有基本事件个,满足孪生素数的有,共4个,故概率为4.A【详解】①总体容量为30,样本容量为5,第一步对30个个体进行编号,如男生1~20,女生21~30;第二步确定分段间隔;第三步在第一段用简单随机抽样确定第一个个体编号;第四步将编号为依次抽取,即可获得整个样本.故该抽样可以是系统抽样.因此①正确.②因为总体个数不多,可以对每个个体进行编号,因此该抽样可能是简单的随机抽样,故②正确;③若总体由差异明显的几部分组成时,经常采用分层抽样的方法进行抽样,且分层抽样的比例相同,但兴趣小组有男生20人,女生10人,抽取2男3女,抽的比例不同,故③正确;④该抽样男生被抽到的概率;女生被抽到的概率,故“本次抽样中每个人被抽到的概率都是”这个说法是错误的.因此④不正确.5.A【详解】因为与的线性回归方程为,所以当时,由表格当广告支出万元时,销售额为万元,所以随机误差的效应(残差)为6.C【详解】由题中图象可知三科总体的平均数(均值)相等由正态密度曲线的性质,可知σ越大,正态曲线越扁平,σ越小,正态曲线越尖陡,故三科总体的标准差从小到大依次为甲、乙、丙.故选:C.7.D【详解】若差的绝对值不超过1,即,则有和两种情况.而基本事件总数是,从而“心有灵犀”的基本事件有(0,0),(0,1),(1,0),(1,1),(1,2),(2,1),(2,2),(2,3),(3,2),(3,3),(3,4),(4,3)(4,4)(4,5)(5,4),(5,5),(5,6),(6,5),(6,6),共19个,所以甲、乙“心有灵犀”的概率是8.C【详解】从集合中随机选取一个元素,中随机选取一个元素,则所有的可能有:共6种可能,满足事件“”的有共3种可能;根据古典概型概率计算公式可得其概率.9.D【详解】由题意,根据列联表中的数据,得,又,所以可以在犯错误的概率不超过0.05的前提下认为“是否认可与城市的拥堵情况有关”.10.C【详解】解:取出甲袋且取出白球的概率为:;取出乙袋且取出白球的概率为;所以取出白球的概率为.11.D【详解】由题意可知,轮胎的宽度为、、在内,从这批轮胎中随机选取个,所有的基本事件有:、、、、、、、、、,其中,事件“从这批轮胎中随机选取个,至少有个轮胎的宽度在内”所包含的基本事件有:、、、、、、,共个,因此,这批轮胎基本合格的概率为.12.A【详解】由题意,根据分布列的性质,可得,解得,可得,所以A正确;,所以B不正确;,所以C不正确.,所以D不正确;13.D【详解】设甲船到达的时间为,乙船到达的时间为,则所有基本事件构成的区域满足这两艘船中至少有一艘在停泊位时必须等待包含的基本事件构成的区域满足,作出对应的平面区域如图所示这两艘船中至少有一艘在停泊位时必须等待的概率为14.C【详解】解:由茎叶图知,男生每天锻炼时间差别小,女生差别大,①正确.男生平均每天锻炼时间超过65分钟的概率,女生平均每天锻炼时间超过65分钟的概率,,因此④正确.设男生、女生两组数据的平均数分别为,,标准差分别为,.,知,②正确.又根据茎叶图,男生锻炼时间较集中,女生锻炼时间较分散,∴,③错误,因此符合茎叶图所给数据的结论是①②④.故答案为:①②④15.ACD【详解】根据方差公式,可知将一组数据中的每个数据都加上或减去同一个常数后,方差恒不变.故A正确;变量增加一个单位时,平均减小5个单位,故B不正确;设具有相关关系的两个变量,的相关系数为,则越接近于,和之间的线性相关程度越弱,故C正确;在一个列联表中,由计算得的值,若,则有95%的把握判断两个变量间有相关关系,因此在的前提下,的值越大,判断两个变量间有关联的把握就越大,故D正确.16.BC【详解】A:甲第二次、第三次成绩的坐标分别为、,故上升速率,而乙第六次、第七次成绩的坐标分别为、,故上升速率,即,错误;B:乙的最高、最低成绩分别为10、2,故极差为8,正确;C:由图知:甲的成绩由低到高为,故中位数为7,正确;D:甲的平均成绩为,则;乙的平均成绩为,则,即,错误.17.BC【详解】对于选项A:将10天中的PM2.5日均值按从小到大排列为30,32,34,40,41,45,48,60,78,80,根据第80百分位数的定义可得,这10天中PM2.5日均值的第80百分位数是,由于这10天日均值的83%分位数估计值大于这10天日均值的80%分位数估计值下一个所以这10天日均值的83%分位数估计值为78,故选项A正确;对于选项B:这10天中PM2.5日均值的中位数为,故选项B错误;对于选项C:由折线图和方差的定义可知,前5天的日均值的方差小于后5天日均值的差,故选项C错误;对于选项D:前5天的日均值的极差为41﹣30=11,后5天的日均值的极差为80﹣45=35,故选项D正确.18.CD【详解】解:对于A:设有一个回归方程,变量x增加1个单位时,y平均减少5个单位,满足回归直线的性质,所以正确;对于B:若,则所对应的正态曲线关于对称,所以,因为,所以,所以,故B正确;对于C:对分类变量X与Y的随机变量的观测值k来说,k越大,判断“X与Y有关系”的把握程度越大,故C错误;对于D:根据的意义可知,有的把握认为患胃病与生活不规律有关,故D错误;19.AC【详解】根据图象可知,散点从左下到右上分布,销售额与年份序号呈正相关关系,故A正确;因为相关系数,靠近,销售额与年份序号线性相关显著,B错误.根据三次函数回归曲线的相关指数,相关指数越大,拟合效果越好,所以三次多项式回归曲线的拟合效果好于回归直线的拟合效果,C正确;由三次多项式函数,当时,亿元,D错误;20.BD【详解】由已知可得,,则的方差为,A错;,B对;因为正态密度曲线中间高,两边低,且,故,C错;,D对.21.ACD【详解】对于A,高二年级中抽取为,正确;对于B,线性回归方程对应的直线不一定经过其样本数据点中的点,故错误;对于C,否定是“,"正确;对于D,方差描述了一组数据围绕平均数波动的大小,方差越大,数据的离散程度越大,方差越小,数据的离散程度越小,正确.22.ACD【详解】对于A,抛掷均匀硬币一次,出现正面的次数可能是0,也可能是1,故出现正面的次数是随机变量,故A正确;对于B:某人射击时命中的概率为,此人射击三次命中的次数服从二项分布 而不是两点分布,故B错误;对于C:小赵、小钱、小孙、小李到4个景点旅游,每人只去一个景点,设事件“个人去的景点不相同”,事件“小赵独自去一个景点”,故 ,,所以 ,故C正确;对于D,由于,所以,又,所以,23.BC【详解】对于A选项,、事件有可能同时发生,不是互斥事件;对于B选项,与不可能同时发生,且发生的概率之和为1,是互斥事件,且是对立事件;对于C选项,与可以同时发生,不是互斥事件;对于D选项,与也可以同时发生,不是互斥事件.24.ACD【详解】对于A,由图可得2016~2020年,全球每年产生的数据量在持续增加,故A正确.对于B,2016~2017年,全球数据量的年平均增长率由增长到了,故B错误.对于C,年,全球每年产生的数据量的平均数为,故C正确.对于D,设2015年全球产生的数据量为,则,解得,故D正确.25.ABD【详解】对于A选项,由条件概率公式可得,则,所以,事件、相互独立,则,A对;对于B选项,由题意,,则,B对;对于C选项,由题意可知,所以,,C错;对于D选项,设最大,则,所以,,解得,,则,即当时,取得最大值,D对.26.【详解】将逐项展开,共有项,其中出现的项数为,所以出现的概率为27.11【详解】苗高数据中最大的为19,最小的为8,所以极差为,28.【详解】所有的基本事件可能如下:共有36种,点数之和大于10的有(5,6),(6,5),(6,6),共3种,所求概率为:P=.故答案为29.【详解】由题三名同学竞选三个职位,共有种情况,其中事件B的情况有种,事件A和事件B共同发生的情况有种,所以,,所以.30.【详解】的所有可能取值为,,共种,满足的为,,共种,所以的概率为.31.0.82【详解】∵,∴,.由乘法公式得.∴.32.【详解】由题意可知,正方形小孔的面积为,铜钱的半径为,铜钱的面积为,因此,随机向铜钱上滴一滴油(油滴大小忽略不计),则油恰好落入孔中的概率是.33.7.564【详解】∵ ,且∴∴34.【详解】由题意首先求得平均数,然后求解方差即可.由题意,该组数据的平均数为,所以该组数据的方差.35.【详解】依题知,是上的单调函数,所以可以设(其中a为常数),即,,即,得,故,由得,因此所求概率为.36.17.60【详解】由题意,先计算本组数据的平均数,所以这组数据的总体方差是所以总体标准差是.37.【详解】记为事件“利率下调”,那么即为“利率不变”,记为事件“股票价格上涨”依题设知,于是所以该支股票将上涨的概率为.38.【详解】解:由题意,将标有,,,,,的张卡片放入个不同的信封中,若每个信封均放张,共有种,先从个信封中选一个放,有种不同的选法,再从剩下的个数中选两个放一个信封有种,余下放入最后一个信封,所以标号为,的卡片放入同一信封共有种,所以概率.39.【详解】解:依题意甲队赢得比赛的可能情形为、、,则甲队赢得比赛的概率40. 【详解】由题意,在一局比赛中,甲战胜乙的概率是,两人和棋的概率是,则乙战胜甲的概率是;由甲乙两人比赛2局,每局胜方记3分,负方记0分,和棋双方各记1分,设甲得分不少于2分为事件,则事件表示乙胜或甲负且甲乙和,可得,所以甲得分不少于2分的概率是.41. 10 9【详解】解:设这组数据的最后2个分别是:,,则,得:,故,故,当最大取9时,最大是,这组数据的方差最大的时候被污损了两个数据分别是19,1.42. 6 0.819【详解】假设齐王马匹的出场顺序不动为,则田忌的马匹有种不同的比赛方案,故所有的比赛方案有6种,即,,,,,.齐王的上等马对田忌的下等马,齐王的中等马对田忌的上等马,齐王的下等马对田忌的中等马时,田忌获胜的概率最大,即采用方案.记田忌三局全胜和恰胜两局的概率分别为,,,.所以概率值为.43. 1【详解】由题可得每一次取到白球的概率为,连续取球四次,恰好取到两次白球的概率为,随机变量的可能取值为0,1,2,则,,,.故答案为:;1.44. ## 【详解】解:设事件表示“乘火车”,事件表示“乘轮船”,事件表示“乘飞机”,事件表示“迟到”,则,,,,由全概率公式,可得这个人迟到的概率,如果这个人迟到了,由贝叶斯公式可得他乘轮船迟到的概率.故答案为:;.45. 【详解】记“恰好三辆黑色车相邻停放”为事件M,则.随机变量的取值为1,2,3,则;;,故.46.(1),,,(2)①2人,②不能【详解】解:(1)由图表可得:,,,,即,,,,(2)①因为单车用户为30人,不小于40岁的为12人,共抽5人,故不小于40岁的应抽人;②,故不能有以上的把握认为该市成人市民是否为单车用户与年龄是否小于40岁有关.47.(1);(2)亿元.【解析】(1)解:因为,,,,故所求回归直线方程为.(2)解:由题得,解得,由,符合国家给予公司补贴政策,所以公司收益达到亿元,估计改造投入至少达到亿元.48.(1)①,②分布列见解析,;(2)列联表见解析,有99%的把握认为是“类”调查对象与性别有关.【详解】解:(1)①40人中得分高于85分的一共有16人,其中男性12人,女性4人,从“类”调查对象中抽取2人,则抽到性别不同的概率为.1 3②的取值可以是1,3,其中表示2男1女或2女1男,则,,∴;(2)由茎叶图可知,类调查对象中男性12人,女性4人,非类调查对象中男性8人,女性16人.列联表如下:“非类”调查对象人数 “类”调查对象人数 总计男 8 12 20女 16 5 20总计 24 16 40∴,∴有99%的把握认为是“类”调查对象与性别有关.49.(1)见解析,不能在犯错误概率不超过1%的前提下,认为“花卉的存活”与“生根足量”有关(2)【详解】解: (1) 由题意可得“花卉存活”的13株,“花卉死亡”的7株;“生根足量”的15株,“生根不足量”的5株,填写列联表如下: 生根足量 生根不足量 总计花卉存活 12 1 13花卉死亡 3 4 7总计 15 5 20.所以不能在犯错误概率不超过1%的前提下,认为“花卉的存活”与“生根足量”有关(2)样本中“生根不足量”有5株,其中“花卉死亡”的有4株, 存活的1株.设事件A:抽取的3株中恰有1株存活记存活的花卉为a,花卉的植株分别为.则选取的3株有以下情况:,,,共10种. 其中恰有一株花卉存活的情况有6种. 所以.50.(1) 163,567,199 ;(2)(i) (ii).【详解】(1)依题意,最先检测的三件产品的编号为163,567,199;(2) (i)由,得.,(ii)由题意: 且,所以满足条件的有:共12组,且每组出现的可能性相同,其中环保性能为优等的件数比不合格的件数少有共4组,所以环保性能为优等的件数比不合格的件数少的概率为.51.(1)答案见解析;(2);预测2024年该市新能源汽车充电站的数量为424个.【详解】解:(1)由已知数据得,,,,所以.因为与的相关系数近似为0.9,接近1,说明与的线性相关程度相当高,从而可以用线性回归模型拟合与的关系.(2)由(1)得,,放所求线性回归方程为.将2024年对应的年份编号代人回归方程得,故预测2024年该市新能源汽车充电站的数量为424个.52.(1);(2)分布列见解析,期望为.【详解】(1)P=(2)设甲得分为X,X的可能取值为0,10,20,30,40P(X=0)= P(X=10)=P(X=20)= P(X=30)=P(X=40)=.53.(1)答案见解析;(2)时,总次数为690次;时,总次数为604次;时,总次数为594次;406次.【详解】(1)设每个人的血呈阴性反应的概率为,则.则个人的血混合后呈阴性反应的概率为,呈阳性反应的概率为.依题意可知个人的每个人的血化验次数可能为、,即当时,概率;当时,概率,则的分布列为:(2)方案②中:结合(1)知每个人的平均化验次数为:,时,,此时1000人需要化验的总次数为690次;时,,此时1000人需要化验的总次数为604次;时,,此时1000人需要化验的次数总为594次,即时化验次数最多,时次数居中,时化验次数最少,而采用方案①则需化验1000次,故在这三种分组情况下,相比方案①,当时化验次数最多可以平均减少次.54.(Ⅰ)乙、丙两人各自通过测试的概率分别是、.(Ⅱ)【详解】解(Ⅰ)设乙、丙两人各自通过测试的概率分别是、依题意得:即或(舍去)所以乙、丙两人各自通过测试的概率分别是、.(Ⅱ)因为,所以=55.(1);(2)分布列见解析,.【详解】(1)记这一技术难题被攻克的事件为;.(2)的可能取值为:0,,,;;;的分布列:0.56.(1)见解析;(2);(3)【详解】现有8名马拉松比赛志愿者,其中志愿者,,通晓日语,,,通晓俄语,,通晓英语,从中选出通晓日语、俄语和英语的志愿者各1名,组成一个小组.基本事件空间,,,,,,,,,,,,,,,,,,共18个基本事件.由于每个基本事件被选中的机会相等,这些基本事件是等可能发生的,用M表示“被选中”,则,,,,,,含有6个基本事件,被选中的概率.用N表示“和不全被选中”,则表示“和全被选中”,,,,含有3个基本事件,和不全被选中的概率.2023 届高考数学一轮复习——统计与概率统计与概率【知识点讲解】一、随机抽样1.样本、样本量我们把从总体中抽取的那部分个体称为样本,样本中包含的个体数称为样本容量,简称样本量。调查样本获得的变量值称为样本的观测数据,简称样本数据。例 1.下列调查中,调查方式选择合理的是( )A.了解某市高一年级学生的身高情况,选择普查B.了解长征运载火箭的设备零件质量情况,选择抽样调查C.了解一批待售袋装牛奶的细菌数是否达标,选择普查D.了解病人血液中血脂的含量,选择抽样调查【答案】D【详解】AC的总量太大,不适合普查,AC 不正确;火箭的设备零件质量情况应该选择普查,B 不正确;病人血液中血脂的含量应选择抽样调查,D正确.2.简单随机抽样(1)定义一般地,设一个总体含有 N(N 为正整数)个个体,从中逐个抽取 n(1≤n<N)个个体作为样本,如果抽取是放回的,且每次抽取时总体内的各个个体被抽到的概率都相等,我们把这样的抽样方法叫做放回简单随机抽样;如果抽取是不放回的,且每次抽取时总体内未进入样本的各个个体被抽到的概率都相等,我们把这样的抽样方法叫做不放回简单随机抽样.放回简单随机抽样和不放回简单随机抽样统称为简单随机抽样(2)常用方法:抽签法、随机数法。例 2.对 50件样品进行编号 01,02,……,50,在如下随机数表中,指定从 2 行第 3组第一个数开始,从左往右抽取两个数字,抽取 5 个编号,则抽到的第 3个编号是( )第 1 页 共 64 页2023 届高考数学一轮复习——统计与概率48628 50089 38155 69882 27761 7390353666 08912 48395 32616 34905 6364000620 79613 29901 92364 38659 64526A.48 B.24 C.26 D.49【答案】C【详解】按随机数表法,从随机数表从 2行第 3 组第一个数开始,从左往右抽取两个数字,则编号依次为 48,39,26,16,34,则抽到的第 3个编号是 26,故选:C3.分层随机抽样(1)定义一般地,按一个或多个变量把总体划分成若干个子总体,每个个体属于且仅属于一个子总体,在每个子总体中独立地进行简单随机抽样,再把所有子总体中抽取的样本合在一起作为总样本,这样的抽样方法称为分层随机抽样,每一个子总体称为层。在分层随机抽样中,如果每层样本量都与层的大小成比例,那么称这种样本量的分配方式为比例分配。(2)总体平均数比例分配的分层随机抽样中, 总体平均数 = + = + = 。 + + + + 例 3.某区域大型城市 中型城市 小型城市的数量之比为 2 :m :1,为了解该区域城市的空气质量情况,现用比例分配的分层抽样方法抽取一个容量为n的样本.在样本中,中型城市比大型城市多 4个,比小型城市多 8 个,则n ( )A.24 B.28 C.32 D.36【答案】A【详解】根据分成抽样等比例关系可设抽取的大中小型城市的数量分别为2x,mx, x, mx 2x 4 x 4则 mx x 8 ,解得 m 3,所以n 2x mx x 24 . 第 2 页 共 64 页2023 届高考数学一轮复习——统计与概率二、常用统计图表1.频率分布直方图(1)画法极差第一步:求极差,决定组数和组距,组距= ;组数第二步:分组,通常对组内数值所在区间取左闭右开区间,最后一组取闭区间;第三步:登记频数,计算频率,列出频率分布表。(2)特点频率 频率①纵轴表示 ,即小长方形的高= ;组距 组距频率②小长方形的面积=组距× =频率;组距③各小长方形的面积的总和等于 1.例 4.某品牌家电公司从其全部 200名销售员工中随机抽出 50 名调查销售情况,销售额都在区间 5,25 (单位:百万元)内,将其分成 5 组: 5,9 , 9,13 , 13,17 , 17,21 , 21,25 ,并整理得到如下的频率分布直方图,下列说法正确的是( )A.频率分布直方图中 a的值为 0.07B.估计全部销售员工销售额的众数与中位数均为 15C.估计全部销售员工中销售额在 17 百万元以上的有 12人D.估计全部销售员工销售额的第 20百分位数约为 10.5【答案】D【详解】由频率分布直方图可知 4 (0.02 a 0.09 0.03 0.03) 1,解得a 0.08,所以 A错误,由频率分布直方图可知众数为 15,第 3 页 共 64 页2023 届高考数学一轮复习——统计与概率因为前 2组的频率和为4 0.02 4 0.08 0.4 0.5,前 3组的频率和为4 0.02 4 0.08 4 0.09 0.76 0.5,所以中位数在第 3组,设中位数为 x,则0.4 0.09(x 13) 0.5,解得 x 14.1,所以 B错误,由频率分布直方图可知销售额在 17百万元以上的频率为 4 (0.03 0.03) 0.24,所以全部销售员工中销售额在 17百万元以上的约有0.24 200 48人,所以 C 错误,因为第 1组的频率为0.08,前 2 组的频率和为 0.4,所以第 20百分位数在第 2 组,设第 20百分位数为 y,则 4 0.02 0.08(y 9) 0.2,解得 y 10.5,所以全部销售员工销售额的第 20百分位数约为 10.5,所以 D 正确,2.条形图建立直角坐标系,用横轴(横轴上的数字)表示样本数据类型,用纵轴上的单位长度表示一定的数量,根据每个样本(或某个范围内的样本)的数量多少画出长短不同的等宽矩形,然后把这些矩形按照一定的顺序排列起来,这样一种表达和分析数据的统计图称为条形图;3.折线图建立直角坐标系,用横轴上的数字表示样本值,用纵轴上的单位长度表示一定的数量,根据样本值和数量的多少描出相应各点,然后把各点用线段顺次连接,得到一条折线,用这种折线表示出样本数据的情况,这样的一种表示和分析数据的统计图称为折线图;例 5.如图是民航部门统计的 2021年春运期间 12 个城市售出的往返机票的平均价格以及相比去年同期变化幅度的数据统计图表,根据图表,下面叙述不正确的是( )第 4 页 共 64 页2023 届高考数学一轮复习——统计与概率A.深圳的变化幅度最小,北京的平均价格最高B.天津和重庆的春运期间往返机票价格同去年相比有所上升C.平均价格的涨幅从高到低居于前三位的城市为天津、西安、厦门D.平均价格从高到低居于前三位的城市为北京、深圳、广州【答案】C【详解】从折线图看,深圳的涨幅最接近0%,从条形图看,北京的平均价格最高,故 A正确;从折线图看,天津和重庆的的涨幅均为正值,故 B 正确;从折线图看,平均价格的涨幅从高到低居于前三位的城市为天津、西安、南京,故 C错误;从条形图看,平均价格从高到低居于前三位的城市为北京、深圳、广州,故 D正确.4.扇形图用一个圆表示总体,圆中各扇形分别代表总体中的不同部分,每个扇形的大小反映所表示的那部分占总体的百分比的大小,这样的一种表示和分析数据的统计图称为扇形图.例 6.南丁格尔玫瑰图是由近代护理学和护士教育创始人南丁格尔(FlorenceNightingale 1820-1910)设计的,图中每个扇形圆心角都是相等的,半径长短表示数量大小.某机构统计了近几年中国知识付费用户数量(单位:亿人次),并绘制成南丁格尔玫瑰图如下,根据此图,下列说法错误的是( )第 5 页 共 64 页2023 届高考数学一轮复习——统计与概率A.2015年至 2022年,知识付费用户数量逐年增加B.2016年至 2022年,知识付费用户数量逐年增加量 2018年最多C.2022 年知识付费用户数量超过 2015 年知识付费用户数量的 10倍D.2016年至 2022年,知识付费用户数量的逐年增加量逐年递增【答案】D【详解】对于 A,由图可知,2015年至 2022年,知识付费用户数量逐年增加,故 A 正确;对于 BD,知识付费用户数量的逐年增加量分别为:2016年,0.96 0.48 0.48;2017年,1.88 0.96 0.92;2018年, 2.95 1.88 1.07;2019年,3.56 2.95 0.61;2020年,4.15 3.56 0.59; 2021年,4.77 4.15 0.62;2022年,5.27 4.77 0.5,可知知识付费用户数量逐年增加量 2018年最多,故 B 正确,D错误;对于 C,由5.27 0.48 10,即 2022年知识付费用户数量超过 2015年知识付费用户数量的 10倍,故 C 正确;三、用样本的数字特征估计总体1.百分位数(1)一般地,一组数据的第 百分位数是这样一个值,它使得这组数据中至少有 % 的数据小于或等于这个值,且至少有 100 % 的数据大于或等于这个值。例 7.某校从参加高一年级期中考试的学生中随机抽取 10 名学生,统计他们的数学成绩如下:(满分:100分)学生 A B C D E F G H I J成绩(分) 82 81 65 78 68 75 96 90 88 72由此可知,这 10名学生期中考试数学成绩的75%分位数是( )分.A.81 B.82 C.85 D.88【答案】D【详解】10 名学生期中考试数学成绩由小到大排列为65,68,72,75,78,81,82,88,90,96 ,因为10 75%=7.5,故这 10名学生期中考试数学成绩的75%分位数为 88,第 6 页 共 64 页2023 届高考数学一轮复习——统计与概率(2)四分位数常用的分位数有第 25 百分位数,第 50 百分位数(即中位数),第 75 百分位数。这三个分位数把一组由小到大排列后的数据分成四等份,因此称为四分位数。其中第 25 百分位数也称为第一四分位数或下四分位数,第 75 百分位数也称为第三四分位数或上四分位数。例 8.按从小到大顺序排列的 9 个数据:10,16,25,33,39,43,m,65,70,若这组数据的第一四分位数与第三四分位数的和是 73,则 m等于( )A.40 B.48 C.50 D.57【答案】B【详解】对于已知9个数据:10,16,25,33,39, 43,m, 65,70, 9 25% 2.25, 第一四分位数为25, 9 75% 6.75, 第三四分位数为m, 25 m 73,解得m 48 .2.总体集中趋势的估计(1)中位数:将一组数据按大小依次排列,处于最中间位置的一个数据(或最中间两个数据的平均数)叫做这组数据的中位数.(2)众数:一组数据中出现次数最多的数据叫做这组数据的众数.(3)平均数:一组数据的算术平均数即为这组数据的平均数,1n 个数据 x1,x2,…,x xn的平均数 = (x1+x2+…+xn).n4.总体离散程度的估计 (1)假设一组数据是 1 , 2 ,… , ,用 表示这组数据的平均数,则我1 2们称 =1 为这组数据的方差。有时为了计算方差的方便,我们还 1 把方差写成 2 2 =1 的形式。我们对方差开平方,取它的算术平方根 1 2