资源简介 第4讲 大题专攻——成对数据的统计分析备|考|领|航一、考情分析高频考点 高考预测回归分析及预测 高考对本讲内容的考查往往以实际问题为背景,考查经验回归方程的求解与运用、独立性检验等问题,常与概率综合考查,难度中等独立性检验二、真题感悟1.(2024·全国甲卷理17题)(独立性检验)某工厂进行生产线智能化升级改造.升级改造后,从该工厂甲、乙两个车间的产品中随机抽取150件进行检验,数据如下:优级品 合格品 不合格品 总计甲车间 26 24 0 50乙车间 70 28 2 100总计 96 52 2 150(1)填写如下列联表:优级品 非优级品甲车间乙车间能否有95%的把握认为甲、乙两车间产品的优级品率存在差异?能否有99%的把握认为甲、乙两车间产品的优级品率存在差异?(2)已知升级改造前该工厂产品的优级品率p=0.5.设为升级改造后抽取的n件产品的优级品率,如果>p+1.65,则认为该工厂产品的优级品率提高了.根据抽取的150件产品的数据,能否认为生产线智能化升级改造后,该工厂产品的优级品率提高了?(≈12.247)附:K2=,P(K2≥k) 0.050 0.010 0.001k 3.841 6.635 10.828.2.(2022·全国乙卷理19题)(回归分析、样本相关系数)某地经过多年的环境治理,已将荒山改造成了绿水青山.为估计一林区某种树木的总材积量,随机选取了10棵这种树木,测量每棵树的根部横截面积(单位:m2)和材积量(单位:m3),得到如下数据:样本号i 1 2 3 4 5 6 7 8 9 10 总和根部横截 面积xi 0.04 0.06 0.04 0.08 0.08 0.05 0.05 0.07 0.07 0.06 0.6材积量yi 0.25 0.40 0.22 0.54 0.51 0.34 0.36 0.46 0.42 0.40 3.9并计算得=0.038,=1.615 8,xiyi=0.247 4.(1)估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量;(2)求该林区这种树木的根部横截面积与材积量的样本相关系数(精确到0.01);(3)现测量了该林区所有这种树木的根部横截面积,并得到所有这种树木的根部横截面积总和为186 m2.已知树木的材积量与其根部横截面积近似成正比.利用以上数据给出该林区这种树木的总材积量的估计值.附:相关系数r=,≈1.377.重|难|排|查1.求经验回归方程(1)收集样本数据,设为(xi,yi)(i=1,2,…,n)(数据一般由题目给出);(2)作出散点图,确定x,y具有线性相关关系(也可用样本相关系数r判断);(3)把数据制成表格,并列出xi,yi,xiyi,;(4)计算,,,xiyi;(5)代入公式计算,的值;(6)确定经验回归方程=x+;(7)利用决定系数R2或残差分析判断拟合效果.2.独立性检验的一般步骤(1)根据样本数据列出2×2列联表;(2)计算随机变量χ2的观测值,查表确定临界值xα;(3)如果χ2≥xα,就推断“X与Y不独立”,这种推断犯错误的概率不超过P(χ2≥xα);否则不能推断“X与Y不独立”,或者在样本数据中没有发现足够证据支持结论“X与Y不独立”.回归分析及预测【例1】 (2024·郑州第三次质量检测)按照《中华人民共和国环境保护法》的规定,每年生态环境部都会会同国家发展改革委等部门共同编制《中国生态环境状况公报》,并向社会公开发布.下表是2020—2024年五年《中国生态环境状况公报》中酸雨区面积约占国土面积的百分比(yi%): 年份 年份代码 2020年 2021年 2022年 2023年 2024年xi 1 2 3 4 5yi 6.4 5.5 5.0 4.8 3.8(1)求2020—2024年年份代码xi与yi的样本相关系数(精确到0.01);(2)请用样本相关系数说明该组数据中y与x之间的关系可用一元线性回归模型进行描述,并求出y关于x的经验回归方程;(3)预测2028年的酸雨区面积占国土面积的百分比.附:样本相关系数r=,≈6.经验回归直线的斜率和截距的最小二乘法估计分别为:=,=-,xiyi=70.6,=113.69.感悟提升 回归分析通常用来判断两组数据之间的关系,解此类题时要清楚:(1)若两个变量呈现线性相关关系,可直接通过计算公式求回归方程;(2)若两个变量呈现非线性相关关系,解题时可利用化归与转化思想,通过恰当的变换,将其转化为线性相关关系,再求回归方程;(3)利用回归方程可以进行预测与估计,但要注意回归方程表示的是两组数据之间的相关关系,并不是函数关系,所以利用该方程求出的值是估计值,而不是一个确定的值. (2024·温州二模)红旗淀粉厂2024年之前只生产食品淀粉,下表为年投入资金x(万元)与年收益y(万元)的8组数据:x 10 20 30 40 50 60 70 80y 12.8 16.5 19 20.9 21.5 21.9 23 25.4(1)用y=bln x+a模拟生产食品淀粉年收益y与年投入资金x的关系,求出回归方程;(2)为响应国家“加快调整产业结构”的号召,该企业又自主研发出一种药用淀粉,预计其收益为投入的10%.2024年该企业计划投入200万元用于生产两种淀粉,求年收益的最大值.(精确到0.1万元)附:①经验回归直线=v+中斜率和截距的最小二乘估计分别为:=,=-·.②yi ln xi (ln xi)2 yiln xi161 29 20 400 109 603③ln 2≈0.7,ln 5≈1.6.独立性检验【例2】 (2024·保定二模)某青少年跳水队共有100人,在强化训练前、后,教练组对他们进行了成绩测试,分别得到如图1所示的强化训练前的频率分布直方图,如图2所示的强化训练后的频率分布直方图.(1)根据图中数据,估计强化训练后的平均成绩(同一组中的数据用该组区间的中点值作代表)与成绩的中位数(中位数精确到0.01);(2)我们规定得分80分以上(含80分)的为“优秀”,低于80分的为“非优秀”.强化训练 是否优秀 合计优秀人数 非优秀人数强化训练前强化训练后合计将上面的表格补充完整,依据小概率值α=0.005的独立性检验,能否据此推断跳水运动员是否优秀与强化训练有关?感悟提升解决独立性检验问题的关键是过好三关(1)假设关:假设两个分类变量无关;(2)公式关:把相关数据代入独立性检验公式求χ2的观测值;(3)对比关:将求出的χ2的观测值与临界值比对,进行准确判断. (2024·开封第三次质量检测)某学校有A,B两家餐厅,A餐厅有2种套餐选择,B餐厅有4种套餐选择,且这6种套餐各不相同.A餐厅距离教学楼相比于B餐厅要近很多,经调查发现,100名不同性别的学生选择餐厅用餐的情况如下:男 女在A餐厅用餐 40 20在B餐厅用餐 15 25(1)以题中所给频率作为概率,求某天甲、乙两名同学选择同一套餐用餐的概率;(2)依据小概率值α=0.005的独立性检验,能否认为性别与选择餐厅之间有关联?附:χ2=.α 0.05 0.01 0.005 0.001xα 3.841 6.635 7.879 10.8284 / 4专题六 概率与统计第1讲 小题研透——计数原理与统计初步【锁定高考·明方向】真题感悟1.C 对于A,根据频数分布表可知,6+12+18=36<50,所以亩产量的中位数不小于1 050 kg, 故A错误;对于B,亩产量不低于1 100 kg的频数为24+10=34,所以低于1 100 kg的稻田占比为=66%,故B错误;对于C,稻田亩产量的极差最大为1 200-900=300,最小为1 150-950=200,故C正确;对于D,由频数分布表可得,平均值为×(6×925+12×975+18×1 025+30×1 075+24×1 125+10×1 175)=1 067,故D错误.故选C.2.BD 若该组样本数据为1,2,3,4,5,8,则2,3,4,5的平均数为,1,2,3,4,5,8的平均数为,两组数据的平均数不相等,故A错误;不妨设x1≤x2≤x3≤x4≤x5≤x6,则x2,x3,x4,x5的中位数等于x1,x2,x3,x4,x5,x6的中位数,故B正确;若该组样本数据为1,2,2,2,2,8,则2,2,2,2的标准差为0,而1,2,2,2,2,8的标准差大于0,故C错误;由对选项B的分析可知,x2,x3,x4,x5的极差为x5-x2,x1,x2,x3,x4,x5,x6的极差为x6-x1,且易得x6-x1≥x5-x2,故D正确.故选B、D.3.B 先将丙和丁捆在一起有种排列方式,然后将其与乙、戊排列,有种排列方式,最后将甲插入中间两空,有种排列方式,所以不同的排列方式共有=24种,故选B.4.24 112 解析:由题意知,选4个方格,每行和每列均恰有一个方格被选中,则第一列有4个方格可选,第二列有3个方格可选,第三列有2个方格可选,第四列有1个方格可选,所以共有4×3×2×1=24种选法.法一(列举法) 每种选法可标记为(a,b,c,d),a,b,c,d分别表示第一、二、三、四行的数字,则所有的可能结果为:(11,22,33,44),(11,22,43,34),(11,33,22,44),(11,33,43,24),(11,42,22,34),(11,42,33,24),(21,12,33,44),(21,12,43,34),(21,33,13,44),(21,33,43,15),(21,42,13,34),(21,42,33,15),(31,12,22,44),(31,12,43,24),(31,22,13,44),(31,22,43,15),(31,42,13,24),(31,42,22,15),(40,12,22,34),(40,12,33,24),(40,22,13,34),(40,22,33,15),(40,33,13,24),(40,33,22,15),比较可知,所选方格中,(21,33,43,15)的和最大,最大为112.法二(整体分析法) 先按列分析,每列必选出一个数,故所选4个数的十位上的数字分别为1,2,3,4.再按行分析,第一、二、三、四行个位上的数字的最大值分别为1,3,3,5,故从第一行选21,从第二行选33,从第三行选43,从第4行选15,此时个位上的数字之和最大.故选中方格中的4个数之和的最大值为21+33+43+15=112.5.5 解析:由二项式定理知( +x)10=x10-k.记ak=,k=0,1,…,10.法一 对于k=1,2,…,10,有=·=.当k≤2时,>1;当k≥3时,<1,因此a0<a1<a2,a2>a3>…>a10,所以展开式各项系数中的最大值为a2==5.法二 对于k=1,2,…,10,有ak-ak-1=(-3)=·( -)=·,当k≤2时,ak-ak-1>0;当k≥3时,ak-ak-1<0.因此有a0<a1<a2,a2>a3>…>a10,所以展开式各项系数中的最大值为a2==5.【研透高考·攻重点】【例1】 (1)C (2)D 解析:(1)根据题意,可分为两类:①当新节目插在中间的四个空隙中的一个时,有=4×2=8种方法;②当新节目插在中间的四个空隙中的两个时,有=4×3=12种方法,由分类加法计数原理得,共有8+12=20种不同的插法.故选C.(2)由题意可知,先将5人分成3组,有两类分法,第一类,各组人数分别为3,1,1,共有种分法;第二类,各组人数分别为1,2,2,共有种分法.将3组人员分配到A,B,C三个乡村学校去,共有种分法,所以不同的选派方法共有( +)=150(种).故选D.跟踪训练1.C 以A为起点时,三条路线依次连接即可到达B点.共有3×2=6种选择,自B连接到C时,在C右侧可顺时针连接或逆时针连接,共有2种选择,∴以A为起点,C为终点时,共有6×2=12种方法;同理可知,以C为起点,A为终点时,共有12种方法.∴完成该图“一笔画”的方法数为12+12=24种.2.B 法一(排除法) 从7个点中任意取3个点共有种取法,因为B,D,E,F四点共线,其中任意三点都不能构成三角形,所以共可以构成-=35-4=31(个)不同三角形,故选B.法二(分类法) 第一类:B,D,E,F四个点中一个点都不取,可构成=1(个)三角形;第二类:从B,D,E,F四个点中取1个点,在A,C,G中取2个点,可构成=12(个)三角形;第三类:从B,D,E,F四个点中取2个点,在A,C,G中取1个点,可构成=18(个)三角形.共可以构成1+12+18=31(个)三角形,故选B.【例2】 (1)AC (2)-40 解析:(1)根据二项式定理,( 2x-)8的通项为Tk+1=28-k(-1)kx8-2k,常数项为24(-1)4=1 120,故A正确;第四项的系数为28-3(-1)3=-1 792,第六项的系数为28-5(-1)5=-448,故B错误;因为n=8,所以各项的二项式系数之和为28=256,故C正确;令x=1,各项的系数之和为1,故D错误.(2)(x-2y)6的通项公式为Tr+1=x6-r(-2y)r=(-2)rx6-ryr,令r=2得,T3=(-2)2x4y2=60x4y2,此时60x4y2·2=120x4y2,令r=3得,T4=(-2)3x3y3=-160x3y3,此时-160x3y3·=-160x4y2,故x4y2的系数为120-160=-40.跟踪训练1.C 令x=0,则15=a0,∴a0=1;令x=1,则35=a0+a1+a2+a3+a4+a5,∴a1+a2+a3+a4+a5=35-1=242.故选C.2.32 -1 080 解析:由二项式定理得(3x-y+2z)5的展开式的通项公式为Tr+1=(3x-y)5-r·(2z)r,欲使得不含z,则r=0,∴T1=(3x-y)5,令x=1,y=1,则所有不含字母z的项的系数之和为25=32;含x3yz的项是·(3x)3(-y)·2z=-1 080x3yz,故其系数为-1 080.3.4 解析:由(a+b)2n的展开式的二项式系数的最大值为x,则有x=,由(a+b)2n+1的展开式的二项式系数的最大值为y,则有y=,由9x=5y,故有9=5,即9×=5×,即9×=5×,即9(n+1)=5(2n+1),解得n=4.【例3】 (1)BCD (2)2.5 解析:(1)设极差为t,由题中频率分布直方图可知,组距为1,共有12组,所以t≤1×12=12,且不是一定取等号,所以A不正确;前6组频率之和为0.02+0.04+0.1+0.14+0.2+0.2=0.7,前7组频率之和为0.7+0.1=0.8,所以75%分位数应位于[8.5,9.5)内,由8.5+1×=9,可以估计75%分位数为9,所以B正确;家庭年收入介于4.5万元至8.5万元之间的频率为0.1+0.14+0.2+0.2=0.64>0.5,所以C正确;由题中频率分布直方图可知,该地农户家庭年收入的平均值为3×0.02+4×0.04+5×0.1+6×0.14+7×0.2+8×0.2+9×0.1+10×0.1+11×0.04+(12+13+14)×0.02=7.68(万元),又7.68>6.5,所以D正确.综上,选B、C、D.(2)设样本数据x1,x2,…,x8的平均数为,则(xi-)2=2,设样本数据y1,y2,…,y8的平均数为,由yi=xi+(-1)i(i=1,2,…,8),则=,所以(yi-)2=[xi+(-1)i-]2=2+(-1)i(xi-)+1=3+(-1)ixi=3+×(-2)=2.5.跟踪训练1.ACD 对于A,这5天的最高气温的平均数为=24 ℃,最低气温的中位数为17 ℃,它们的差为7 ℃,A正确.对于B,这5天的最低气温的极差为6 ℃,B错误.对于C,这5天的最高气温的众数为26 ℃,C正确.对于D,最低气温从小到大排列为13 ℃,15 ℃,17 ℃,18 ℃,19 ℃,且5×0.4=2,所以这5天的最低气温的第40百分位数是16 ℃,D正确.故选A、C、D.2.168 27 解析:易知抽取的30名学生中,男生有20名,女生有10名,则用样本估计总体的平均值为=168,估计总体的方差为s2=×[16+(170-168)2]+×[25+(164-168)2]=27.第2讲 小题研透——概率【锁定高考·明方向】真题感悟1.A 法一 如图,左圆表示爱好滑冰的学生所占比例,右圆表示爱好滑雪的学生所占比例,A表示爱好滑冰且不爱好滑雪的学生所占比例,B表示既爱好滑冰又爱好滑雪的学生所占比例,C表示爱好滑雪且不爱好滑冰的学生所占比例,则0.6+0.5-B=0.7,所以B=0.4,C=0.5-0.4=0.1.所以若该学生爱好滑雪,则他也爱好滑冰的概率为==0.8,故选A.法二 令事件A,B分别表示该学生爱好滑冰、该学生爱好滑雪,事件C表示该学生爱好滑雪的条件下也爱好滑冰,则P(A)=0.6,P(B)=0.5,P(AB)=P(A)+P(B)-0.7=0.4,所以P(C)=P(A|B)===0.8,故选A.2.BC 法一 依题可知,=2.1,s2=0.01,所以Y~N(2.1,0.12),故P(Y>2)=P(Y>2.1-0.1)=P(Y<2.1+0.1)≈0.841 3>0.5,C正确,D错误;因为X~N(1.8,0.12),所以P(X>2)=P(X>1.8+2×0.1),因为P(X<1.8+0.1)≈0.841 3,所以P(X>1.8+0.1)≈1-0.841 3=0.158 7<0.2,而P(X>2)=P(X>1.8+2×0.1)<P(X>1.8+0.1)<0.2,B正确,A错误,故选B、C.法二 由P(Z<μ+σ)≈0.841 3,得P(μ-σ<Z<μ+σ)≈0.682 6,又Y~N(2.1,0.12),X~N(1.8,0.12),则P(X>2)=≈=0.022 8<0.5,P(Y>2)=0.5+≈0.5+0.341 3=0.841 3>0.8>0.5,故选B、C.3.ABD 对于A,因为信号的传输是相互独立的,所以采用单次传输方案依次发送1,0,1,依次收到1,0,1的概率p=(1-β)(1-α)(1-β)=(1-α)(1-β)2,则A正确;对于B,因为信号的传输是相互独立的,所以采用三次传输方案发送1,即发送3次1,依次收到1,0,1的概率p=(1-β)·β(1-β)=β(1-β)2,则B正确;对于C,因为信号的传输是相互独立的,所以采用三次传输方案发送1,译码为1包含两种情况:2次收到1,3次都收到1.而这两种情况是互斥的,所以采用三次传输方案发送1,收到译码为1的概率p=(1-β)2β+(1-β)3=3β(1-β)2+(1-β)3,则C错误;对于D,设“采用单次传输方案发送0,译码为0”为事件B,则P(B)=1-α.设采用三次传输方案发送0,收到的信号为0的次数为X,则P(X≥2)=P(X=2)+P(X=3)=(1-α)2α+(1-α)3=(1+2α)(1-α)2.又当0<α<0.5时,P(X≥2)-P(B)=(1+2α)(1-α)2-(1-α)=α(1-α)(1-2α)>0,所以采用三次传输方案译码为0的概率大于采用单次传输方案译码为0的概率,则D正确.故选A、B、D.4. 解析:甲出1一定输,所以最多得3分,要得3分,就只有一种组合1-8,3-2,5-4,7-6.得2分有三类,分别列举如下:(1)出3和出5时赢,其余输:1-6,3-2,5-4,7-8;(2)出3和出7时赢,其余输:1-4,3-2,5-8,7-6;1-8,3-2,5-6,7-4;1-6,3-2,5-8,7-4;(3)出5和出7时赢,其余输:1-2,3-8,5-4,7-6;1-4,3-8,5-2,7-6;1-8,3-4,5-2,7-6;1-6,3-8,5-2,7-4;1-8,3-6,5-2,7-4;1-6,3-8,5-4,7-2;1-8,3-6,5-4,7-2.共12种组合满足要求,而所有组合为4!,所以甲得分不小于2的概率为=.【研透高考·攻重点】【例1】 D 将5名志愿者分配到4个场馆,共有种不同的方法,其中A,B两名志愿者在同一个场馆共有种不同的方法,所以A,B两名志愿者不在同一个场馆的概率为P=1-=.故选D.跟踪训练1.C 设A表示事件“丙不是第一个出场,且甲最后出场”,B表示事件“丙不是第一个出场,且乙最后出场”.四人由随机抽签的方式确定出场次序,基本事件共有24个,事件A包含的基本事件有4个,故P(A)==,同理有P(B)=.由于事件A与事件B互斥,故丙不是第一个出场,且甲或乙最后出场的概率为P(A∪B)=P(A)+P(B)=.2.D 令6个挂件分别为A,A,B,B,C,C,则将这6个挂件分为3组有5种可能:①AB,AB,CC;②AC,AC,BB;③BC,BC,AA;④AA,BB,CC;⑤AB,BC,AC.再将这分成3组的挂件分给3位同学,有3+3+3++=21(种)情况,恰好有1位同学得到同类吉祥物挂件为分组①②③,有3+3+3=9(种)情况,所以恰好有1位同学得到同类吉祥物挂件的概率是=.故选D.【例2】 (1)A (2)BCD 解析:(1)抛掷次数为1的概率为=,点数可能为3或4,抛掷次数为2的概率为1-=,此时基本事件有(1,1),(1,2),(1,3),(1,4),(2,1),(2,2),(2,3),(2,4)共八种,其中点数之和至少为4的情况有(1,3),(1,4),(2,2),(2,3),(2,4)共五种,故抛掷骰子所得的点数之和至少为4的概率为×+×=+=.故选A.(2)对于A,∵n(A)=60,n(D)=10,n(A∪D)=70,∴n(A∪D)=n(A)+n(D),∴A与D互斥,故A错误;对于B,∵n(A∪B)=n(A)+n(B)=n(Ω),∴A与B互为对立,故B正确;对于C,∵P(A)==,P(C)==,P(A∩C)==,∴P(A∩C)=P(A)P(C)=,∴A与C相互独立,故C正确;对于D,∵n(Ω)=100,n(A)=60,n(B)=40,n(C)=20,n(A∪B)=100,n(A∩C)=12,∴n(B∩C)=8,∴P(B∩C)==,又∵P(B)==,P(C)==,∴P(B∩C)=P(B)P(C)=,∴B与C相互独立,故D正确.故选B、C、D.跟踪训练1.A 由题意得,P(A)=,P(B)=,P(AB)=,∴P(AB)=P(A)P(B),∴事件A与B相互独立,则A与也相互独立,∴P(A)=P(A)P()=P(A)(1-P(B))=×=.故选A.2.D 当n=2时,AB表示一正一反,故P(AB)=2××=,故A正确;此时P(A)=2××=,P(B)=1-P()=1-×=,P(AB)=≠=P(A)P(B),故B正确;当n=3时,A+B表示并非每次都是正面朝上,故P(A+B)=1-P()=1-××=,故C正确;此时P(AB)=3×××=,P(A)=1-P()=1-××-××=,P(B)=××+3×××=,所以P(AB)==×=P(A)P(B),故D错误.故选D.【例3】 (1)C (2)B 解析:(1)据题意,记甲击中目标为事件A,乙击中目标为事件B,目标被击中为事件C,甲、乙同时击中目标为事件D,则P(A)=,P(B)=,所以P(C)=1-P()P()=1-(1-)×(1-)=,P(DC)=P(D)=P(AB)=P(A)P(B)=×=,则在目标被击中的情况下,甲、乙同时击中目标的概率为P(D|C)===.(2)设A1,A2分别表示取得的这块芯片是由甲、乙线生产的,B表示取得的芯片为次品,甲线生产该芯片的次品率为p,则P(A1)==,P(A2)=,P(B|A1)=p,P(B|A2)=.由全概率公式得P(B)=P(A1)P(B|A1)+P(A2)P(B|A2)=p+×=0.08,解得p=.故选B.跟踪训练1. 解析:由题意知甲选到A的概率P==.记乙选择A活动为事件M,乙选了A活动再选择B活动为事件N,则P(M)==,P(MN)==,所以P(N|M)===.2. 解析:设A=“在甲盒中拿到红球”,B=“在乙盒中拿到红球”.因为甲盒中有3个红球,2个黄球,所以P(A)=,P()=1-=,又乙盒中有2个红球,1个黄球,所以P(B|A)=,P(B|)=,所以P(B)=P(AB)+P(B)=P(A)P(B|A)+P()P(B|)=×+×=.【例4】 D 因为正态密度函数为f(x)=,所以E(X)=90,所以正态曲线关于直线x=90对称,所以P(X<70)=P(X>110),又P(70≤X≤110)=0.8,所以P(X>110)==0.1,又共有50 000名学生参加这次考试,所以该市这次考试数学成绩超过110分的学生人数约为50 000×0.1=5 000,故选D.跟踪训练1.D 随机变量X服从正态分布N(2,σ2),且P(2<X≤2.5)=0.36,所以P(1.5≤X<2)=0.36,P(X<1.5)=(1-0.36×2)=0.14,所以P(X>1.5)=1-0.14=0.86,故选D.2.0.01(答案不唯一,小于等于0.02的正数即可) 解析:依题意可得μ=80,要使次品率不高于0.27%,则正品率不低于99.73%,又根据正态曲线的特征知,|ξ-80|<3σ,所以ξ∈(80-3σ,80+3σ) (79.94,80.06),所以解得σ≤0.02,故σ的一个值可以为0.01.第3讲 大题专攻——随机变量及其分布【锁定高考·明方向】真题感悟1.解:X的所有可能取值为0,1,2,且P(X=k)=,k=0,1,2,所以X的分布列为X 0 1 2PX的数学期望E(X)=0×+1×+2×=1.2.解:(1)甲、乙所在队的比赛成绩不少于5分,则甲第一阶段至少投中1次,乙第二阶段也至少投中1次,所以比赛成绩不少于5分的概率P=(1-0.63)(1-0.53)=0.686.(2)若甲参加第一阶段比赛,则甲、乙所在队的比赛成绩X的所有可能取值为0,5,10,15.P(X=0)=(1-p)3+[1-(1-p)3]·(1-q)3,P(X=5)=[1-(1-p)3]··q·(1-q)2,P(X=10)=[1-(1-p)3]··q2·(1-q),P(X=15)=[1-(1-p)3]·q3,所以E(X)=[1-(1-p)3]·[15q(1-q)2+30q2·(1-q)+15q3]=[1-(1-p)3]·15q=15pq·(p2-3p+3).若乙参加第一阶段比赛,则甲、乙所在队的比赛成绩Y的所有可能取值为0,5,10,15.同理,可得E(Y)=15pq(q2-3q+3).E(X)-E(Y)=15pq(p2-3p-q2+3q)=15pq(q-p)(3-p-q),由0<p<q≤1,得q-p>0,3-p-q=3-(p+q)>0,所以E(X)-E(Y)>0,即E(X)>E(Y).故应该由甲参加第一阶段比赛.【研透高考·攻重点】【例1】 解:(1)设一轮摸球游戏结束时摸球次数不超过3次为事件A,记第i次(i=1,2,3)摸到红球为事件Bi,则事件A=∪B1∪B1B2,显然,B1,B1B2彼此互斥,由互斥事件概率的加法公式:P(A)=P(∪B1∪B1B2)=P()+P(B1)+P(B1B2),因为每次摸到红球后放回,所以P(Bi)=,P()=,所以P(A)=+×+××=.(2)依题意,X的可能取值为2,3,4,5,P(X=2)=P()=,P(X=3)=P(B1)=×=,P(X=4)=P(B1B2)+P(B1B2B3B4)=××+()4=,P(X=5)=P(B1B2B3)=()3×=,所以一轮摸球游戏结束时,此人总得分X的分布列为X 2 3 4 5PE(X)=2×+3×+4×+5×=.跟踪训练 解:(1)记抛掷骰子的样本点为(a,b),则样本空间Ω={(a,b)|1≤a≤6,1≤b≤6,a∈N*,b∈N*},则n(Ω)=36,记事件A=“X>0”,记事件B=“X=[]=”,则A={(a,b)|1≤a≤b≤6,a∈N*,b∈N*,且[]>0},则n(A)=21.又AB={(1,1),(1,2),(1,3),(1,4),(1,5),(1,6),(2,2),(2,4),(2,6),(3,3),(3,6),(4,4),(5,5),(6,6)},则n(AB)=14,所以P(B|A)===,即在X>0的条件下,X=的概率为.(2)X的所有可能取值为0,1,2,3,4,5,6.P(X=0)==,P(X=1)==,P(X=2)==,P(X=3)==,P(X=4)=,P(X=5)=,P(X=6)=,所以X的分布列为:X 0 1 2 3 4 5 6P所以E(X)=0×+1×+2×+3×+4×+5×+6×=.【例2】 解:(1)记“从10所学校中随机选取的3所学校参与‘自由式滑雪’都超过40人”为事件A,参与“自由式滑雪”的人数超过40的学校共4所,从中随机选择3所学校的选法共=4(种),所以P(A)===.(2)参与“单板滑雪”人数在45以上的学校共4所,所以X的所有可能取值为0,1,2,3,则P(X=0)===,P(X=1)===,P(X=2)===,P(X=3)===,所以X的分布列如下表:X 0 1 2 3P所以E(X)=+2×+3×=.(3)记“小明同学在一轮测试中要想获得优秀”为事件B,则P(B)=( )2×+( )3=,由题意,小明同学在集训测试中获得“优秀”的次数服从二项分布B( n,),由题意得n≥5,得n≥,因为n∈N*,所以n的最小值为20,故至少要进行20轮测试.跟踪训练 解:(1)由题意可知:每次抛掷骰子上两级台阶的概率为=,上三级台阶的概率为=,且X的可能取值为6,7,8,9,可得(X-6)~B(3,),则有:P(X=6)=()3=,P(X=7)=××()2=,P(X=8)=×()2×=,P(X=9)=()3=,所以X的分布列为X 6 7 8 9P因为E(X-6)=3×=1,所以E(X)=7.(2)因为位于第10级台阶则认定游戏失败,无法获得奖品,结合题意可知:若学生位于第10级台阶,则抛掷3次后,学生位于第7级台阶,抛掷第4次上三级台阶,可知不能获得奖品的概率为P1=××()2×=,所以甲、乙两位学生参加游戏,恰有一人获得奖品的概率P=××(1-)=.【例3】 解:(1)记“从第1组抽取的20株鸡冠花样本中随机抽取2株,至少有1株鸡冠花的株高增量在(7,10]内”为事件A,所以P(A)==.(2)记“从第i(i=1,2,3)组的鸡冠花中各随机抽取1株,这株鸡冠花的株高增量在(7,10]内”为事件Bi,由题意可知:P(B1)=,P(B2)=,P(B3)=,X的可能取值有0,1,2,3,则有:P(X=0)=(1-)×(1-)×(1-)=,P(X=1)=×(1-)×(1-)+(1-)××(1-)+(1-)×(1-)×=,P(X=2)=××(1-)+×(1-)×+(1-)××=,P(X=3)=××=.所以X的分布列为X 0 1 2 3PX的期望E(X)=0×+1×+2×+3×=.(3)由题意可知:ζ1,ζ2,ζ3均服从两点分布,则有:ζ1的分布列为:ζ1 0 1P可得ζ1的方差D(ζ1)=×=;ζ2的分布列为:ζ2 0 1P可得ζ2的方差D(ζ2)=×=;ζ3的分布列为:ζ3 0 1P可得ζ3的方差D(ζ3)=×=;因为>>,所以D(ζ2)>D(ζ3)>D(ζ1).跟踪训练 解:(1)设ζ表示1条灯带在安全使用寿命内更换的灯珠数量,则P(ζ=5)=P(ζ=7)=P(ζ=8)=0.2,P(ζ=6)=0.4,X的取值范围是{10,11,12,13,14,15,16},P(X=10)=0.2×0.2=0.04,P(X=11)=2×0.2×0.4=0.16,P(X=12)=0.42+2×0.2×0.2=0.24,P(X=13)=2×(0.2×0.2+0.2×0.4)=0.24,P(X=14)=0.22+2×0.4×0.2=0.2,P(X=15)=2×0.2×0.2=0.08,P(X=16)=0.2×0.2=0.04,X的分布列为X 10 11 12 13 14 15 16P 0.04 0.16 0.24 0.24 0.2 0.08 0.04(2)由(1)可知P(X≥12)=0.8,P(X≥13)=0.56,故n0=13.(3)由(2)可知n0-1=12,在灯带安全使用寿命期内,当n=12时,设购买替换灯珠所需总费用为u元,当n=13时,设购买替换灯珠所需总费用为v元,则E(u)=24+0.24×4+0.2×8+0.08×12+0.04×16=28.16,E(v)=26+0.2×4+0.08×8+0.04×12=27.92,E(v)<E(u),故以购买替换灯珠所需总费用的期望值为依据,n=n0比n=n0-1的方案更优.第4讲 大题专攻——成对数据的统计分析【锁定高考·明方向】真题感悟1.解:(1)填写如下列联表:优级品 非优级品甲车间 26 24乙车间 70 30则完整的2×2列联表如下:优级品 非优级品 总计甲车间 26 24 50乙车间 70 30 100总计 96 54 150K2==4.687 5.因为K2=4.687 5>3.841,所以有95%的把握认为甲、乙两车间产品的优级品率存在差异;因为K2=4.687 5<6.635,所以没有99%的把握认为甲、乙两车间产品的优级品率存在差异.(2)由题意可知==0.64,又p+1.65=0.5+1.65×≈0.5+1.65×≈0.57,所以>p+1.65,所以能认为生产线智能化升级改造后,该工厂产品的优级品率提高了.2.解:(1)估计该林区这种树木平均一棵的根部横截面积===0.06,估计该林区这种树木平均一棵的材积量===0.39.(2)(xi-)(yi-)=xiyi-10=0.013 4,(xi-)2=-10()2=0.002,(yi-)2=-10()2=0.094 8,所以==≈0.01×1.377=0.013 77,所以样本相关系数r=≈≈0.97.(3)设该林区这种树木的总材积量的估计值为Y m3,由题意可知,该种树木的材积量与其根部横截面积近似成正比,所以=,所以Y==1 209,即该林区这种树木的总材积量的估计值为1 209 m3.【研透高考·攻重点】【例1】 解:(1)由已知可得,==3,==5.1,由题可列下表:xi- -2 -1 0 1 2yi- 1.3 0.4 -0.1 -0.3 -1.3(xi-)(yi-)=-5.9,=,=,r==≈≈-0.98.(2)由问题(1)知,y与x的样本相关系数r≈-0.98,|r|接近1,所以y与x之间具有极强的线性相关关系,可用一元线性回归模型进行描述.由问题(1)知,===-0.59,=-=5.1-(-0.59)×3=6.87,所求经验回归方程为=-0.59x+6.87.(3)令x=9,则=-0.59×9+6.87=1.56,预测2028年的酸雨区面积占国土面积的百分比为1.56%.跟踪训练 解:(1)=,=,===5,∴=-=-5×=2,∴=5ln x+2.(2)设投入食品淀粉的资金为x万元,投入药用淀粉的资金为(200-x)万元,年收益为f(x),∴f(x)=5ln x+2+(200-x)=5ln x-x+22,f'(x)=-=0 x=50,当0<x<50时,f'(x)>0,f(x)单调递增;当50<x<200时,f'(x)<0,f(x)单调递减.∴f(x)max=f(50)=5ln 50-5+22=5(2ln 5+ln 2)+17≈36.5.【例2】 解:(1)强化训练后的平均成绩约为55×0.04+65×0.16+75×0.2+85×0.32+95×0.28=81.4.由于前三列概率之和为0.04+0.16+0.2=0.4,设中位数为80+x,则0.032x=0.1,解得x=3.125,所以中位数约为83.13.(2)零假设为H0:跳水运动员是否优秀与强化训练无关.补充完整的表格为强化训练 是否优秀 合计优秀人数 非优秀人数强化训练前 40 60 100强化训练后 60 40 100合计 100 100 200则χ2==8>7.879=x0.005,根据小概率值α=0.005的独立性检验,我们推断H0不成立,即认为跳水运动员是否优秀与强化训练有关.跟踪训练 解:(1)由表中数据可得,选择A餐厅的概率为=,选择B餐厅的概率为=,设事件A1:甲、乙两名同学去A餐厅用餐,事件B1:甲、乙两名同学去B餐厅用餐,事件A:甲、乙两名同学选择同一套餐用餐,P(A1)=()2,P(B1)=()2,P(A|A1)=,P(A|B1)=,则P(A)=P(A1)P(A|A1)+P(B1)·P(A|B1)=()2×+()2×=,故甲、乙两名同学选择同一套餐的概率为.(2)根据数据可得列联表:餐厅 性别 合计男 女在A餐厅用餐 40 20 60在B餐厅用餐 15 25 40合计 55 45 100零假设为H0:认为性别与选择餐厅之间无关,根据列联表中的数据,经计算得到χ2=≈8.249>7.879=x0.005,依据小概率值α=0.005的独立性检验,可以推断H0不成立,即性别与选择餐厅之间有关,此推断犯错误的概率不大于0.005.培优点1 体育比赛与闯关【例1】 解:(1)记事件A=“甲班在项目A中获胜”,则P(A)=××+×( )2××+×( )2×( )2×=,所以甲班在项目A中获胜的概率为.(2)记事件B=“甲班在项目B中获胜”,则P(B)=( )3+×( )4+×( )5=.X的可能取值为0,1,2,则P(X=0)=P()=P()P()=×=,P(X=2)=P(AB)=P(A)P(B)=×=,P(X=1)=1-P(X=0)-P(X=2)=.所以X的分布列为X 0 1 2P故E(X)=0×+1×+2×=.所以甲班获胜的项目个数的数学期望为.跟踪训练 解析:根据题意,设甲获胜为事件A,比赛进行两局为事件B,P(A)=×+×××=,P(AB)=××=,故P(B|A)====.【例2】 解:(1)甲连胜四场的概率为.(2)根据赛制,至少需要进行四场比赛,至多需要进行五场比赛.比赛四场结束,共有三种情况:甲连胜四场的概率为;乙连胜四场的概率为;丙上场后连胜三场的概率为.所以需要进行第五场比赛的概率为1---=.(3)丙最终获胜,有两种情况:比赛四场结束且丙最终获胜的概率为;比赛五场结束且丙最终获胜,则从第二场开始的四场比赛按照丙的胜、负、轮空结果有三种情况:胜胜负胜,胜负空胜,负空胜胜,概率分别为,,.因此丙最终获胜的概率为+++=.跟踪训练 解析:比赛进行四局结束有以下两种情况:第一局甲获胜,后三局丙连胜;第一局乙获胜,后三局丙连胜,第一局甲获胜,后三局丙连胜的概率P1=×××=,第一局乙获胜,后三局丙连胜的概率P2=×××=,故比赛进行四局结束的概率P=P1+P2=+=.【例3】 解:(1)甲以11∶9赢得比赛,共计20次发球,在后4次发球中,需甲在最后一次获胜,最终甲以11∶9赢得比赛的概率为P=×( )2×( )2+( )2××=.(2)设甲累计得分为随机变量X,X的可能取值为0,1,2,3.P(X=0)=( )2×=,P(X=1)=×( )2×+( )2×=,P(X=2)=×( )2×+( )2×=,P(X=3)=( )2×=,所以随机变量X的分布列为X 0 1 2 3P所以E(X)=0×+1×+2×+3×=.跟踪训练 D 三队中选一队与丙比赛,丙输,×,例如是丙甲,若丙与乙、丁的两场比赛一赢一平,则丙只得4分,这时,甲乙、甲丁两场比赛中甲只能输,否则甲的分数不小于4分,不合题意,在甲输的情况下,乙、丁已有3分,那么它们之间的比赛无论什么情况,乙、丁中有一队得分不小于4分,不合题意.若丙全赢( 概率是( )2)时,丙得6分,其他3队分数最高为5分,这时甲乙,甲丁两场比赛中甲不能赢,否则甲的分数不小于6分,(1)若甲乙,甲丁两场比赛中甲一平一输,则一平一输的概率是( )2,如平乙,输丁,则乙丁比赛时,丁不能赢,概率是;(2)若甲乙,甲丁两场比赛中甲两场均平,概率是( )2,乙丁这场比赛无论结果如何均符合题意;(3)若甲乙,甲丁两场比赛中甲都输,概率是( )2,乙丁这场比赛只能平,概率是.综上,概率为××( )2×[×( )2×+( )2+( )2×]=,D正确.故选D.培优点2 概率与统计中的创新问题【例1】 解:(1)K2==24>6.635,所以有99%的把握认为患该疾病群体与未患该疾病群体的卫生习惯有差异.(2)①证明:R==,由题意知,证明=即可,左边==,右边==.左边=右边,故R=·.②由调查数据可知P(A|B)==,P(A|)==,且P(|B)=1-P(A|B)=,P(|)=1-P(A|)=,所以R=×=6.跟踪训练 解:(1)依题意,X1服从超几何分布,故X1的分布列为P(X1=k)=,k∈N,0≤k≤100.X1 0 1 … 99 100P …(2)①证明:由题可知Xi(i=1,2,…,20)均服从完全相同的超几何分布,所以E(X1)=E(X2)=…=E(X20),E()=E( Xi)=E( Xi)=E(Xi)=×20E(X1)=E(X1),D()=D( Xi)=D( Xi)=D(Xi)=×20D(X1)=D(X1).故E()=E(X1),D()=D(X1).②由①可知的均值E()=E(X1)=.由公式得X1的方差D(X1)=,所以D()=.依题意有解得N=1 456,M=624,所以可以估计M=624,N=1 456.【例2】 解:(1)依题意,X~B( 5,),则P(X=0)=( )5=,P(X=1)=( )4( )=,P(X=2)=( )3( )2==,P(X=3)=( )2( )3=,P(X=4)=( )( )4=,P(X=5)=( )5=,故X的分布列为:X 0 1 2 3 4 5P故E(X)=5×=.(2)设事件“Y=n”表示前n-1次试验只成功了1次,且第n次试验成功,故P(Y=n)=××( )n-2×=×( )n-2,当n为偶数时,P(AB)=P(2)+P(4)+…+P(n)=[1·( )0+3·( )2+…+(n-1)·( )n-2],令Sn=1·( )0+3·( )2+…+(n-1)·( )n-2,则Sn=1·( )2+3·( )4+…+(n-1)·( )n,两式相减得:Sn=1+2[( )2+( )4+…+( )n-2]-(n-1)·( )n,则Sn=-( )n·( +n),即P(AB)=-( +n)·( )n.当n为奇数时,同理可得P(AB)=P(2)+P(4)+…+P(n-1)=[1·( )0+3·( )2+…+(n-2)·( )n-3]=-( n+)·( )n-1,综上,P(AB)=【例3】 解:(1)∵10×(0.012+0.026+0.032+a+0.01)=1,∴a=0.02.样本平均数的估计值为50×0.12+60×0.26+70×0.32+80×0.2+90×0.1=69.(2)∵μ=69,σ=10.5.∴P(X≥90)=P(X≥μ+2σ)≈=0.022 75.∴能参加复试的人数约为40 000×0.022 75=910.(3)由题意有x2y=.答对两道题的概率P=x2(1-y)+x(1-x)y=x2+2xy-3x2y.而x2y=,∴P=x2+-.令f(x)=x2+-(0<x≤1),则f'(x)=2x-=,∴当x∈( 0,)时,f'(x)<0,f(x)在( 0,)内单调递减;当x∈( ,1]时,f'(x)>0,f(x)在( ,1]内单调递增.∴当x=时,f(x)min=.故概率P的最小值为.跟踪训练 解:(1)由题意知,X的可能取值为0,1,2,则P(X=0)==,P(X=1)==,P(X=2)==,故X的分布列为X 0 1 2P则E(X)=0×+1×+2×=.记事件A:小王已经答对一题,事件B:小王未进入决赛,则小王在已经答对一题的前提下,仍未进入决赛的概率P(B|A)====.(2)①由题意知,f(p)=p(1-p)2=3p3-6p2+3p( 0<p<),则f'(p)=3(3p-1)(p-1),令f'(p)=0,解得p=或p=1(舍),当p∈( 0,)时,f'(p)>0,当p∈( ,)时,f'(p)<0,所以f(p)在区间( 0,)内单调递增,在区间( ,)内单调递减,所以当p=时,f(p)有极大值,且f(p)的极大值为f( )=.②由题可设每名进入决赛的大学生获得的奖金为随机变量Y,则Y的可能取值为60,120,180,360,P(Y=60)=(1-p)3,P(Y=120)=p(1-p)2,P(Y=180)=p2(1-p),P(Y=360)=p3,所以E(Y)=60(1-p)3+120p(1-p)2+180p2(1-p)+360p3=60(2p3+3p+1),所以9E(Y)≥1 120,即540(2p3+3p+1)≥1 120,整理得2p3+3p-≥0,经观察可知p=是方程2p3+3p-=0的根,故2p3+3p-=2( p3-p2)+( p2-p)+( p-)=( p-)( 2p2+p+),因为2p2+p+>0恒成立,所以由2p3+3p-≥0可得p-≥0,解得p≥,又0<p<,所以p的取值范围为[,).【例4】 解:(1)①二维离散型随机变量(ξ,η)的所有可能取值为(0,0),(0,1),(0,2),(0,3),(1,0),(1,1),(1,2),(2,0),(2,1),(3,0).②由题意得0≤m+n≤3,P(ξ=m,η=n)=P(ξ=m|η=n)·P(η=n),因为P(η=n)=( )n( )3-n.P(ξ=m|η=n)=( )m·( )3-n-m=( )3-n,所以P(ξ=m,η=n)=( )3-n·( )n·( )3-n==·.(2)证明:由定义及全概率公式知:P(ξ=ai)=P{(ξ=ai)∩[(η=b1)∪(η=b2)∪…∪(η=bj)∪…]}=P{[(ξ=ai)∩(η=b1)]∪[(ξ=ai)∩(η=b2)]∪…∪[(ξ=ai)∩(η=bj)]∪…}=P[(ξ=ai)∩(η=b1)]+P[(ξ=ai)∩(η=b2)]+…+P[(ξ=ai)∩(η=bj)]+…=P[(ξ=ai)∩(η=bj)]=P(ξ=ai,η=bj)=Pij.跟踪训练 解:(1)因为X~B( 3,),所以xk=P(X=k)=( )k( )3-k=(k=0,1,2,3),因为Y~B( 3,),所以yk=P(Y=k)=( )k·( )3-k=(k=0,1,2,3),所以==23-2k(k=0,1,2,3),所以D(X||Y)=xkln=××ln 23+××ln 2+××ln 2-1+××ln 2-3=ln 2.(2)因为xk=P(X=k)=pk(1-p)2-k(k=0,1,2),y0=P(Y=0)=,y1=P(Y=1)=,y2=P(Y=2)=,所以D(X||Y)=xkln=x0ln+x1ln+x2ln=(1-p)2ln[6(1-p)2]+2p(1-p)ln[3p(1-p)]+p2ln(6p2).令f(p)=(1-p)2ln[6(1-p)2]+2p(1-p)ln[3p(1-p)]+p2ln(6p2),则f'(p)=-2(1-p)ln[6(1-p)2]-2(1-p)+(2-4p)ln[3p(1-p)]+2-4p+2pln(6p2)+2p=(-2+4p)ln 6-2ln(1-p)+2ln p+(2-4p)ln 3=2ln p-2ln(1-p)+(4p-2)ln 2,令g(p)=2ln p-2ln(1-p)+(4p-2)ln 2,则g'(p)=++4ln 2,因为0<p<1,所以g'(p)>0,故g(p)在(0,1)上单调递增,又g( )=0,所以当0<p<时,g(p)<0,即f'(p)<0,当<p<1时,g(p)>0,即f'(p)>0,所以f(p)在( 0,)上单调递减,在( ,1)上单调递增,所以f(p)min=f( )=ln.(3)证明:令φ(x)=ln x-x+1,则φ'(x)=-1=.易得当x∈(0,1)时,φ'(x)>0,当x∈(1,+∞)时,φ'(x)<0,故φ(x)在(0,1)上单调递增,在(1,+∞)上单调递减,所以 x∈(0,+∞),φ(x)≤φ(1)=0,所以ln x≤x-1,所以ln≤-1,所以ln x≥1-,所以D(X||Y)=xkln≥xk( 1-)=(xk-yk)=xk-yk=1-1=0,即D(X||Y)的值不可能为负.1 / 3第4讲 大题专攻——成对数据的统计分析备|考|领|航一、考情分析高频考点 高考预测回归分析及预测 高考对本讲内容的考查往往以实际问题为背景,考查经验回归方程的求解与运用、独立性检验等问题,常与概率综合考查,难度中等独立性检验二、真题感悟1.(2024·全国甲卷理17题)(独立性检验)某工厂进行生产线智能化升级改造.升级改造后,从该工厂甲、乙两个车间的产品中随机抽取150件进行检验,数据如下:优级品 合格品 不合格品 总计甲车间 26 24 0 50乙车间 70 28 2 100总计 96 52 2 150(1)填写如下列联表:优级品 非优级品甲车间乙车间能否有95%的把握认为甲、乙两车间产品的优级品率存在差异?能否有99%的把握认为甲、乙两车间产品的优级品率存在差异?(2)已知升级改造前该工厂产品的优级品率p=0.5.设为升级改造后抽取的n件产品的优级品率,如果>p+1.65,则认为该工厂产品的优级品率提高了.根据抽取的150件产品的数据,能否认为生产线智能化升级改造后,该工厂产品的优级品率提高了?(≈12.247)附:K2=,P(K2≥k) 0.050 0.010 0.001k 3.841 6.635 10.828.解:(1)填写如下列联表:优级品 非优级品甲车间 26 24乙车间 70 30则完整的2×2列联表如下:优级品 非优级品 总计甲车间 26 24 50乙车间 70 30 100总计 96 54 150K2==4.687 5.因为K2=4.687 5>3.841,所以有95%的把握认为甲、乙两车间产品的优级品率存在差异;因为K2=4.687 5<6.635,所以没有99%的把握认为甲、乙两车间产品的优级品率存在差异.(2)由题意可知==0.64,又p+1.65=0.5+1.65×≈0.5+1.65×≈0.57,所以>p+1.65,所以能认为生产线智能化升级改造后,该工厂产品的优级品率提高了.2.(2022·全国乙卷理19题)(回归分析、样本相关系数)某地经过多年的环境治理,已将荒山改造成了绿水青山.为估计一林区某种树木的总材积量,随机选取了10棵这种树木,测量每棵树的根部横截面积(单位:m2)和材积量(单位:m3),得到如下数据:样本号i 1 2 3 4 5 6 7 8 9 10 总和根部横截 面积xi 0.04 0.06 0.04 0.08 0.08 0.05 0.05 0.07 0.07 0.06 0.6材积量yi 0.25 0.40 0.22 0.54 0.51 0.34 0.36 0.46 0.42 0.40 3.9并计算得=0.038,=1.615 8,xiyi=0.247 4.(1)估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量;(2)求该林区这种树木的根部横截面积与材积量的样本相关系数(精确到0.01);(3)现测量了该林区所有这种树木的根部横截面积,并得到所有这种树木的根部横截面积总和为186 m2.已知树木的材积量与其根部横截面积近似成正比.利用以上数据给出该林区这种树木的总材积量的估计值.附:相关系数r=,≈1.377.解:(1)估计该林区这种树木平均一棵的根部横截面积===0.06,估计该林区这种树木平均一棵的材积量===0.39.(2)(xi-)(yi-)=xiyi-10=0.013 4,(xi-)2=-10()2=0.002,(yi-)2=-10()2=0.094 8,所以==≈0.01×1.377=0.013 77,所以样本相关系数r=≈≈0.97.(3)设该林区这种树木的总材积量的估计值为Y m3,由题意可知,该种树木的材积量与其根部横截面积近似成正比,所以=,所以Y==1 209,即该林区这种树木的总材积量的估计值为1 209 m3.重|难|排|查1.求经验回归方程(1)收集样本数据,设为(xi,yi)(i=1,2,…,n)(数据一般由题目给出);(2)作出散点图,确定x,y具有线性相关关系(也可用样本相关系数r判断);(3)把数据制成表格,并列出xi,yi,xiyi,;(4)计算,,,xiyi;(5)代入公式计算,的值;(6)确定经验回归方程=x+;(7)利用决定系数R2或残差分析判断拟合效果.2.独立性检验的一般步骤(1)根据样本数据列出2×2列联表;(2)计算随机变量χ2的观测值,查表确定临界值xα;(3)如果χ2≥xα,就推断“X与Y不独立”,这种推断犯错误的概率不超过P(χ2≥xα);否则不能推断“X与Y不独立”,或者在样本数据中没有发现足够证据支持结论“X与Y不独立”.回归分析及预测【例1】 (2024·郑州第三次质量检测)按照《中华人民共和国环境保护法》的规定,每年生态环境部都会会同国家发展改革委等部门共同编制《中国生态环境状况公报》,并向社会公开发布.下表是2020—2024年五年《中国生态环境状况公报》中酸雨区面积约占国土面积的百分比(yi%): 年份 年份代码 2020年 2021年 2022年 2023年 2024年xi 1 2 3 4 5yi 6.4 5.5 5.0 4.8 3.8(1)求2020—2024年年份代码xi与yi的样本相关系数(精确到0.01);(2)请用样本相关系数说明该组数据中y与x之间的关系可用一元线性回归模型进行描述,并求出y关于x的经验回归方程;(3)预测2028年的酸雨区面积占国土面积的百分比.附:样本相关系数r=,≈6.经验回归直线的斜率和截距的最小二乘法估计分别为:=,=-,xiyi=70.6,=113.69.解:(1)由已知可得,==3,==5.1,由题可列下表:xi- -2 -1 0 1 2yi- 1.3 0.4 -0.1 -0.3 -1.3(xi-)(yi-)=-5.9,=,=,r==≈≈-0.98.(2)由问题(1)知,y与x的样本相关系数r≈-0.98,|r|接近1,所以y与x之间具有极强的线性相关关系,可用一元线性回归模型进行描述.由问题(1)知,===-0.59,=-=5.1-(-0.59)×3=6.87,所求经验回归方程为=-0.59x+6.87.(3)令x=9,则=-0.59×9+6.87=1.56,预测2028年的酸雨区面积占国土面积的百分比为1.56%.感悟提升 回归分析通常用来判断两组数据之间的关系,解此类题时要清楚:(1)若两个变量呈现线性相关关系,可直接通过计算公式求回归方程;(2)若两个变量呈现非线性相关关系,解题时可利用化归与转化思想,通过恰当的变换,将其转化为线性相关关系,再求回归方程;(3)利用回归方程可以进行预测与估计,但要注意回归方程表示的是两组数据之间的相关关系,并不是函数关系,所以利用该方程求出的值是估计值,而不是一个确定的值. (2024·温州二模)红旗淀粉厂2024年之前只生产食品淀粉,下表为年投入资金x(万元)与年收益y(万元)的8组数据:x 10 20 30 40 50 60 70 80y 12.8 16.5 19 20.9 21.5 21.9 23 25.4(1)用y=bln x+a模拟生产食品淀粉年收益y与年投入资金x的关系,求出回归方程;(2)为响应国家“加快调整产业结构”的号召,该企业又自主研发出一种药用淀粉,预计其收益为投入的10%.2024年该企业计划投入200万元用于生产两种淀粉,求年收益的最大值.(精确到0.1万元)附:①经验回归直线=v+中斜率和截距的最小二乘估计分别为:=,=-·.②yi ln xi (ln xi)2 yiln xi161 29 20 400 109 603③ln 2≈0.7,ln 5≈1.6.解:(1)=,=,===5,∴=-=-5×=2,∴=5ln x+2.(2)设投入食品淀粉的资金为x万元,投入药用淀粉的资金为(200-x)万元,年收益为f(x),∴f(x)=5ln x+2+(200-x)=5ln x-x+22,f'(x)=-=0 x=50,当0<x<50时,f'(x)>0,f(x)单调递增;当50<x<200时,f'(x)<0,f(x)单调递减.∴f(x)max=f(50)=5ln 50-5+22=5(2ln 5+ln 2)+17≈36.5.独立性检验【例2】 (2024·保定二模)某青少年跳水队共有100人,在强化训练前、后,教练组对他们进行了成绩测试,分别得到如图1所示的强化训练前的频率分布直方图,如图2所示的强化训练后的频率分布直方图.(1)根据图中数据,估计强化训练后的平均成绩(同一组中的数据用该组区间的中点值作代表)与成绩的中位数(中位数精确到0.01);(2)我们规定得分80分以上(含80分)的为“优秀”,低于80分的为“非优秀”.强化训练 是否优秀 合计优秀人数 非优秀人数强化训练前强化训练后合计将上面的表格补充完整,依据小概率值α=0.005的独立性检验,能否据此推断跳水运动员是否优秀与强化训练有关?解:(1)强化训练后的平均成绩约为55×0.04+65×0.16+75×0.2+85×0.32+95×0.28=81.4.由于前三列概率之和为0.04+0.16+0.2=0.4,设中位数为80+x,则0.032x=0.1,解得x=3.125,所以中位数约为83.13.(2)零假设为H0:跳水运动员是否优秀与强化训练无关.补充完整的表格为强化训练 是否优秀 合计优秀人数 非优秀人数强化训练前 40 60 100强化训练后 60 40 100合计 100 100 200则χ2==8>7.879=x0.005,根据小概率值α=0.005的独立性检验,我们推断H0不成立,即认为跳水运动员是否优秀与强化训练有关.感悟提升解决独立性检验问题的关键是过好三关(1)假设关:假设两个分类变量无关;(2)公式关:把相关数据代入独立性检验公式求χ2的观测值;(3)对比关:将求出的χ2的观测值与临界值比对,进行准确判断. (2024·开封第三次质量检测)某学校有A,B两家餐厅,A餐厅有2种套餐选择,B餐厅有4种套餐选择,且这6种套餐各不相同.A餐厅距离教学楼相比于B餐厅要近很多,经调查发现,100名不同性别的学生选择餐厅用餐的情况如下:男 女在A餐厅用餐 40 20在B餐厅用餐 15 25(1)以题中所给频率作为概率,求某天甲、乙两名同学选择同一套餐用餐的概率;(2)依据小概率值α=0.005的独立性检验,能否认为性别与选择餐厅之间有关联?附:χ2=.α 0.05 0.01 0.005 0.001xα 3.841 6.635 7.879 10.828解:(1)由表中数据可得,选择A餐厅的概率为=,选择B餐厅的概率为=,设事件A1:甲、乙两名同学去A餐厅用餐,事件B1:甲、乙两名同学去B餐厅用餐,事件A:甲、乙两名同学选择同一套餐用餐,P(A1)=()2,P(B1)=()2,P(A|A1)=,P(A|B1)=,则P(A)=P(A1)P(A|A1)+P(B1)P(A|B1)=()2×+()2×=,故甲、乙两名同学选择同一套餐的概率为.(2)根据数据可得列联表:餐厅 性别 合计男 女在A餐厅用餐 40 20 60在B餐厅用餐 15 25 40合计 55 45 100零假设为H0:认为性别与选择餐厅之间无关,根据列联表中的数据,经计算得到χ2=≈8.249>7.879=x0.005,依据小概率值α=0.005的独立性检验,可以推断H0不成立,即性别与选择餐厅之间有关,此推断犯错误的概率不大于0.005.1.(2024·湘潭质量检测)2023年8月8日是我国第15个“全民健身日”,设立全民健身日(FitnessDay)是适应人民群众体育的需求,促进全民健身运动开展的需要.某学校为了提高学生的身体素质,举行了跑步竞赛活动,活动分为长跑、短跑两类项目,且该班级所有同学均参加活动,每位同学选择一项活动参加.长跑 短跑男同学 30 10女同学 a 10若采用分层随机抽样按性别从该班级中抽取6名同学,其中有男同学4名,女同学2名.(1)求a的值以及该班同学选择长跑的概率;(2)依据小概率值α=0.01的独立性检验,能否推断选择跑步项目的类别与其性别有关?附:χ2=,其中n=a+b+c+d.α 0.05 0.01 0.001xα 3.841 6.635 10.828解:(1)因为采用分层随机抽样按性别从该班级中抽取6名同学,其中有男同学4名,女同学2名,所以男女同学的比例为2∶1,则=2,故a=10,该班同学选择长跑的概率为=.(2)依题意,完善2×2列联表,如下,性别 跑步项目类别 合计长跑 短跑男同学 30 10 40女同学 10 10 20合计 40 20 60零假设为H0:选择跑步项目类别与学生性别无关,χ2===3.75<6.635=x0.01,根据小概率值α=0.01的独立性检验,没有充分证据推断出H0不成立,因此可以认为H0成立,即认为选择跑步项目类别与学生性别无关.2.(2024·石家庄质量检测)在推动电子制造业高质量发展的大环境下,某企业统筹各类资源,进行了积极的改革探索.下表是该企业每月生产的一种核心产品的产量x(3≤x≤15)(件)与相应的生产总成本y(万元)的四组对照数据.x 5 7 9 11y 200 298 431 609企业研究人员建立了y与x的两种回归模型,利用计算机算得近似结果如下:经验回归方程①:=+173;经验回归方程②:=68x-160.其中经验回归方程①的残差图如图所示(残差=观测值-预测值);(1)在下表中填写经验回归方程②的残差,根据残差分析,判断哪一个经验回归方程更适宜作为y关于x的经验回归方程,并说明理由;x 5 7 9 11y 200 298 431 609(2)从该企业在过去几年生产的该产品中随机抽取100件,优等品有60件,合格品有40件.每件优等品利润为20万元,每件合格品利润为15万元.若视频率为概率,该企业某月计划生产12件该产品,记优等品件数为X,总利润为Y.(ⅰ)求Y与X的关系式,并求E(X)和E(Y);(ⅱ)记该月的成本利润率为p,在(1)中选择的经验回归方程下,求p的估计值.(结果保留2位小数)附:成本利润率=.解:(1)经验回归方程②的残差数据如下表:x 5 7 9 11y 200 298 431 60920 -18 -21 21经验回归方程②的残差图如图所示:经验回归方程①更适宜作为y关于x的经验回归方程.(以下理由或其他合理的理由,说出一条即可得分):理由1:经验回归方程①这4个样本点的残差的绝对值都比经验回归方程②的小.理由2:经验回归方程①这4个样本的残差点落在的带状区域比经验回归方程②的带状区域更窄.理由3:经验回归方程①这4个样本的残差点比经验回归方程②的残差点更贴近x轴.(2)(ⅰ)由题意知,每件产品为优等品的概率P0==0.6,则X~B(12,0.6),因此E(X)=12×0.6=7.2,由Y=20X+15×(12-X)=5X+180,则E(Y)=5E(X)+180=216.(ⅱ)由(ⅰ)知总利润为216万元,总成本估计值=+173=749(万元),则p=≈0.29.3.(2024·湖南常德模拟)某市组织宣传小分队进行法律法规宣传,某宣传小分队记录了前9天每天普及的人数,得到下表:时间x(天) 1 2 3 4 5 6 7 8 9每天普及的人数y 80 98 129 150 203 190 258 292 310(1)从这9天的数据中任选4天的数据,以X表示4天中每天普及人数不少于240人的天数,求X的分布列和数学期望;(2)由于统计人员的疏忽,第5天的数据统计有误,如果去掉第5天的数据,试用剩下的数据求出每天普及的人数y关于天数x的经验回归方程.参考数据:=yi=190,(xi-)2=60,(yi-)2=55 482,(xi-)(yi-)=1 800.解:(1)每天普及人数不少于240人的天数为3,则X的所有可能取值为0,1,2,3,P(X=0)==,P(X=1)==,P(X=2)==,P(X=3)==,故X的分布列为X 0 1 2 3PE(X)=0×+1×+2×+3×=.(2)设原来数据的样本中心点为(,),去掉第5天的数据后样本中心点为(','),'=(1+2+3+4+6+7+8+9)=5,'=x5=5=,'=(9-y5)=(9×190-203)=,故======30,='-'=-30×5=,所以=30x+.4.(2024·河南九师联盟)PM2.5是指环境空气中直径小于或等于2.5微米的颗粒物.它能较长时间悬浮于空气中,其在空气中含量越高,说明空气污染越严重.城市中的PM2.5成分除扬尘等自然因素外,燃料的燃烧也是一个重要来源.某市环境检测部门为检测燃油车流量对空气质量的影响,在一个检测点统计每日过往的燃油车流量x(单位:辆)和空气中的PM2.5的平均浓度y(单位:μg/m3).检测人员采集了50天的数据,制成2×2列联表(部分数据缺失):PM2.5的平均浓度 燃油车日流量 合计燃油车日流量x<1 500 燃油车日流量x≥1 500PM2.5的平均浓度y<100 16 24PM2.5的平均浓度y≥100 20合计 22(1)完成上面的2×2列联表,并根据小概率值α=0.005的独立性检验,能否认为PM2.5的平均浓度小于100 μg/m3与燃油车日流量小于1 500辆有关联?(2)经计算得y与x之间的经验回归方程为=0.12x-73.86,且这50天的燃油车的日流量x的标准差Sx=249,PM2.5的平均浓度y的标准差Sy=36.若样本相关系数r满足|r|≥0.75,则判定所求经验回归方程有价值;否则判定其无价值.①判断该经验回归方程是否有价值;②若这50天的燃油车的日流量x满足=1.23×108,试求这50天的PM2.5的平均浓度y的平均数(利用四舍五入法精确到0.1).参考数据:×1.23=0.024 6,2492=62 001,≈1 548.55.解:(1)2×2列联表如下:PM2.5的平均浓度 燃油车日流量 合计燃油车日流量x<1 500 燃油车日流量x≥1 500PM2.5的平均浓度y<100 16 8 24PM2.5的平均浓度y≥100 6 20 26合计 22 28 50零假设为H0:PM2.5的平均浓度小于100 μg/m3与燃油车日流量小于1 500辆无关联.根据列联表中的数据,计算得χ2=≈9.624>7.879=x0.005,所以根据小概率值α=0.005的独立性检验,推断H0不成立,所以可以认为PM2.5的平均浓度小于100 μg/m3与燃油车日流量小于1 500辆有关联.(2)①由题意,得==0.12,得(xi-)(yi-)=0.12(xi-)2,由Sx==249,Sy==36,得r===0.12×=0.12×=0.83>0.75,所以该经验回归方程有价值.②因为Sx==249,即=249,所以=≈1 548.55,又=0.12-73.86≈0.12×1 548.55-73.86=111.966≈112.0.故可推算出这50天PM2.5平均浓度y的平均数约为112.0 μg/m3.12 / 12 展开更多...... 收起↑ 资源列表 《直通名校》专题六 第4讲 大题专攻——成对数据的统计分析(学生版 讲义)-高考数学大二轮专题复习.docx 《直通名校》专题六 第4讲 大题专攻——成对数据的统计分析(教师版讲义)-高考数学大二轮专题复习.docx 复习讲义 专题六(答案).docx