资源简介 第23讲 统计与成对数据的统计分析(时间:45分钟,满分:69分)一、单项选择题(每小题5分,共20分)1.若yi=xi+4(i=1,2,3,…,n),则数据组x1,x2,…,xn和y1,y2,…,yn( )A.有相同的平均数 B.有相同的中位数C.有相同的方差 D.有相同的众数2.(2025·山东临沂一模)甲、乙两个体育社团小组成员的某次立定跳远成绩(单位:厘米)如下:甲组:244,245,245,246,248,251,251,253,254,255,257,263;乙组:239,241,243,245,245,247,248,249,251,252.则下列说法正确的是( )A.甲组数据的第60百分位数是251B.乙组数据的中位数是245C.从甲、乙两组各随机选取一个成员,两人跳远成绩均在250厘米以上的概率为D.甲组中存在这样的成员,将他调派到乙组后,甲、乙两组的跳远平均成绩都有提高3.(2025·辽宁锦州模拟)5G技术在我国已经进入高速发展的阶段,5G手机的销量也逐渐上升.某手机商城统计了1至5月份5G手机的实际销量,如下表所示:月份x 1月 2月 3月 4月 5月销售量y(千只) 0.5 0.6 1.0 1.4 1.7若y与x线性相关,且求得经验回归方程为=0.32x+,则下列说法不正确的是( )A.由题中数据可知,=0.08B.由题中数据可知,6月份该商城5G手机的实际销量为2(千只)C.由题中数据可知,变量x和y正相关,且样本相关系数一定小于1D.若不考虑本题中的数据,经验回归直线可能不过(x1,y1),(x2,y2),…,(xn,yn)中任一个点4.(2025·T8联考)在研究性学习活动中,某位学生收集了两个变量x与y之间的几组数据如下表:x 1 2 3 4y 0 2 3 5根据上表数据所得经验回归方程为=x+.该同学又收集了两组数据x=5,y=4和x=6,y=5,利用这六组数据求得的经验回归方程为='x+',则以下结论正确的是( )A.>',>' B.<',>'C.<',<' D.>',<'二、多项选择题(每小题6分,共12分)5.(2025·浙江绍兴二模)在某校文艺汇演中,六位评委对某小品节目进行打分,得到一组分值7.7,8.1,8.2,8.7,9.4,9.5,若去掉一个最高分和一个最低分,则( )A.这组分值的极差变小B.这组分值的均值变大C.这组分值的方差变小D.这组分值的第75百分位数不变6.(2025·浙江宁波“十校”联考)已知一组样本数据xi(i=1,2,3,…,10)均为正实数,且满足x1≤x2≤x3≤…≤x10,下列说法正确的是( )A.样本数据的第80百分位数为x8B.去掉样本的一个数据,样本数据的极差可能不变C.若样本数据的频率分布直方图为单峰不对称,且在右边“拖尾”,则样本数据的平均数大于中位数D.若样本数据的方差s2=-4,则这组样本数据的平均数等于2三、填空题(每小题5分,共10分)7.(2025·山东烟台一模)已知变量x,y线性相关,其一组样本数据(xi,yi)(i=1,2,…,9)满足xi=33,用最小二乘法得到的经验回归方程为=2x-1.若增加一个数据(-3,3)后,得到修正后的经验回归直线的斜率为2.1,则数据(4,8)的残差的绝对值为 .8.(2025·湖北孝感模拟)已知一组样本数据共有8个数,其平均数为8,方差为12,将这组样本数据增加两个未知的数据构成一组新的样本数据,已知新的样本数据的平均数为9,则新的样本数据的方差最小值为 .四、解答题(15分)9.(15分)某高科技公司对其产品研发投资额x(单位:百万元)与其年销售量y(单位:千件)的数据进行统计,整理后得到如下统计表和散点图.x 1 2 3 4 5 6y 0.5 1 1.5 3 6 12z=ln y -0.7 0 0.4 1.1 1.8 2.5(1)该公司科研团队通过分析散点图的特征后,计划分别用①=x+和②=两种方案作为年销售量y关于年投资额x的回归分析模型,请根据统计表中的数据,确定方案①和②的经验回归方程;(注:系数,,,按四舍五入保留一位小数)(2)根据下表中数据,用决定系数R2(不必计算,只比较大小,R2越趋近1拟合效果越好)比较两种模型的拟合效果哪个更好,并选择拟合精度更高、更可靠的模型,预测当研发年投资额为8百万元时,产品的年销售量是多少?残差平方和 经验回归方程=x+ =(yi-)2 18.29 0.65 参考公式及数据:R2=1-,xizi=28.9,e3.5≈33.☆高考新风向(每小题6分,共12分)10.〔创新交汇〕〔多选〕若(x+1)5=a0+a1x+a2x2+a3x3+a4x4+a5x5,则下列结论正确的是( )A.a0=1B.数据a0+1,a1,a2,a3,a4,a5+3的标准差为3C.数据a0,a1,a2,a3,a4,a5的40%分位数为10D.记ai=μ,随机变量X~N(μ,σ2),P(X>44)=,则P(X<20)=11.〔创新设问〕〔多选〕已知甲、乙两组样本各有10个数据,甲、乙两组数据合并后得到一组新数据,下列说法正确的是( )A.若甲、乙两组数据的平均数都为a,则新数据的平均数等于aB.若甲、乙两组数据的极差都为b,则新数据的极差可能大于bC.若甲、乙两组数据的方差都为c,则新数据的方差可能小于cD.若甲、乙两组数据的中位数都为d,则新数据的中位数等于d第23讲 统计与成对数据的统计分析1.C 由yi=xi+4(i=1,2,3,…,n),得数据组y1,y2,…,yn的平均数、中位数和众数都相应地比数据组x1,x2,…,xn的平均数、中位数和众数大4,A、B、D错误;数据组y1,y2,…,yn与数据组x1,x2,…,xn相对于各自平均数的波动大小不变,因此两个数据组的方差相同,C正确.2.D 对于选项A,因为12×60%=7.2,所以甲组数据的第60百分位数是第8个数,即253,故A错误;对于选项B,因为10×50%=5,所以乙组数据的中位数是第5个数与第6个数的平均数,即=246,故B错误;对于选项C,甲组中跳远成绩在250厘米以上的有7人,乙组中跳远成绩在250厘米以上的有2人,所以从甲、乙两组各随机选取一个成员,两人跳远成绩均在250厘米以上的概率为×=,故C错误;对于选项D,甲组的平均成绩为×(244+245+245+246+248+251+251+253+254+255+257+263)=251厘米,乙组的平均成绩为×(239+241+243+245+245+247+248+249+251+252)=246厘米,所以将甲组中跳远成绩为248厘米的成员调派到乙组后,甲、乙两组的跳远平均成绩都有提高,故D正确.3.B 对于A,由表格可知,=×(1+2+3+4+5)=3,=×(0.5+0.6+1.0+1.4+1.7)=1.04,则=-0.32=1.04-0.32×3=0.08,故A正确;对于B,将x=6代入=0.32x+0.08,可得=2,所以6月份该商城5G手机的实际销量预测为2(千只),故B错误;对于C,因为经验回归方程为=0.32x+0.08,所以变量x和y正相关,且样本点不全在经验回归直线上,所以样本相关系数一定小于1,故C正确;对于D,经验回归直线可能不过样本点中的任何一个点,故D正确.故选B.4.D 法一 该同学收集了四组数据,由表中数据知=,=,∴==,=-×=-.又收集了两组数据(5,4)和(6,5)后,新的平均数为=,=,则'==,'=-×=-,∴>',<'.故选D.法二 如图,由图象知,增加两组数据后经验回归直线的斜率减小,即>',在y轴上的截距增大,即<'.故选D.5.AC 对于A,原来6个数据的极差为9.5-7.7=1.8,去掉一个最高分和一个最低分后这组数据的极差为9.4-8.1=1.3,极差变小了,故A正确;对于B,原来6个数据的均值为=8.6,后来这4个数据的均值为=8.6,所以均值不变,故B错误;对于C,原来6个数据的方差为[(7.7-8.6)2+(8.1-8.6)2+(8.2-8.6)2+(8.7-8.6)2+(9.4-8.6)2+(9.5-8.6)2]≈0.45,后来这4个数据的方差为[(8.1-8.6)2+(8.2-8.6)2+(8.7-8.6)2+(9.4-8.6)2]≈0.27,所以这组分值的方差变小,故C正确;对于D,因为6×75%=4.5,所以原来6个数据的第75百分位数为9.4,又4×75%=3,所以后来这4个数据的第75百分位数为=9.05,故D错误.故选A、C.6.BCD 对于A,由10×80%=8,所以样本数据的第80百分位数为,故A错误;对于B,由题意存在这样一种可能,若x1=x2≤x3≤…≤x10,则极差为x10-x1=x10-x2,若去掉x1或x2,此时样本数据的极差不变,故B正确;对于C,数据的频率分布直方图为单峰不对称,在右边“拖尾”,大致如图,由于“右拖”时最高峰偏左,中位数靠近高峰处,平均数靠近中点处,此时平均数大于中位数, 故C正确;对于D,由s2=-4=(xi-)2,则-40=(xi-)2=-2xi+10=-10,所以=4,因为xi(i=1,2,3,…,10)为正实数,所以>0,即=2,故D正确.故选B、C、D.7.0.1 解析:由题设==,则=2-1=2×-1=,增加数据(-3,3)后,==3,==6,且经验回归方程为=2.1x+,所以6=2.1×3+ =-0.3,则y=2.1x-0.3,当x=4时,=2.1×4-0.3=8.1,故残差的绝对值为|8-8.1|=0.1.8.13.6 解析:设增加的数为x,y,原来的8个数分别为a1,a2,…,a8,则a1+a2+…+a8=64,a1+a2+…+a8+x+y=90,所以x+y=26,又因为(ai-8)2=12,即(ai-8)2=96,新的样本数据的方差为[(ai-9)2+(x-9)2+(y-9)2]=[(ai-8)2-2(ai-8)+8+(x-9)2+(y-9)2]=(x2+y2-202),因为≥=13,x2+y2-202≥136,所以方差的最小值为13.6(当且仅当x=y=13时取到最小值). 9.解:(1)由题可得=×(1+2+3+4+5+6)=3.5,=×(0.5+1+1.5+3+6+12)=4,xiyi=1×0.5+2×1+3×1.5+4×3+5×6+6×12=121,=1+4+9+16+25+36=91,所以==≈2.1,=-≈4-2.1×3.5≈-3.4,方案①的经验回归方程为=2.1x-3.4.对=两边取对数得ln =x+,令=ln ,=x+是一元线性回归方程,=×(-0.7+0+0.4+1.1+1.8+2.5)=0.85,==≈0.6,=-≈0.85-0.6×3.5≈-1.3,方案②的经验回归方程为=e0.6x-1.3.(2)方案①的决定系数=1-,方案②的决定系数=1-,故<,模型②的拟合效果更好,精度更高,当研发年投资额为8百万元时,=e4.8-1.3=e3.5≈33(千件),即产品的年销售量约为33千件.10.ABD 对于选项A:令x=0,则a0=1,故A正确;对于选项B、C:因为(x+1)5的展开式的通项为Tr+1=·x5-r,即ar=,可得a0=1,a1=5,a2=10,a3=10,a4=5,a5=1,数据a0+1,a1,a2,a3,a4,a5+3为2,5,10,10,5,4,则平均数为==6,方差为s2=×[(2-6)2+(5-6)2+(10-6)2+(10-6)2+(5-6)2+(4-6)2]=9,所以标准差为3,故B正确;将数据a0,a1,a2,a3,a4,a5按升序排列为1,1,5,5,10,10,且6×40%=2.4,故40%分位数为第3个数5,故C错误;对于选项D:因为ai=1+5+10+10+5+1=32=μ,故P(X<20)=P(X>44)=,故D正确.故选A、B、D.11.ABD 设甲为x1,x2,…,x10,乙为y1,y2,…,y10,新数据为z1,z2,…,z20.对于A,因为=(z1+z2+…+z20)=(10a+10a)=a,所以A正确;对于B,设甲:1,2,…,10;乙:21,22,…,30,两组数据的极差均为9,但混合后数据的极差为29,所以B正确;对于C,因为(++…+-10)=(++…+-10)=c,所以++…+=10c+10,++…+=10c+10,=,所以新数据的方差为(++…++++…+-20)=(10c+10+10c+10-20)=c+,因为+-2=+-2×()2=≥0,所以新数据的方差一定不小于c,所以C错误;对于D,不妨设x1≤x2≤…≤x10,y1≤y2≤…≤y10,则d==,将混合后数据按从小到大排列,若x5≤y5,则x6≥y6,所以第10,11个数为y5和y6;若x5>y5,则x6<y6,所以第10,11个数为x5和x6,两种情形下,新数据的中位数都等于d,所以D正确.3 / 3第23讲 统计与成对数据的统计分析【备考指南】 高考对本部分的考查主要涉及统计图表的应用、样本的数字特征、经验回归方程的求解与应用、独立性检验等问题,考查题型大小题均可涉及,难度中等或偏下.1.若样本数据为x1,x2,…,xn,则:(1)平均数:=xi;(2)方差:s2=(xi-)2;(3)极差:最大与最小值的差;(4)第p百分位数:计算i=n×p%,若i不是整数,而大于i的比邻整数为j,则第p百分位数为第j项数据;若i是整数,则第p百分位数为第i项与第(i+1)项数据的平均数.1.(2025·江西上饶模拟)某位射击运动员的两组训练数据如下,第一组:10,7,7,8,8,9,7;第二组:10,5,5,8,9,9,10.则下列说法正确的是( )A.两组数据的平均数不相等B.第一组数据的方差大于第二组数据的方差C.两组数据的极差相等D.第一组数据的中位数小于第二组数据的中位数2.由频率分布直方图求样本的数字特征的方法(1)众数:最高的小矩形底边的中点值;(2)中位数:若x=x0将直方图分成面积相等的两部分,则x0为中位数;(3)平均数:=xipi,其中,xi为各组区间中间值,pi为相应组的频率;(4)第p百分位数:确定要求的p%分位数所在分组[A,B),由频率分布直方图可知,样本中小于A的频率为a,小于B的频率为b,所以p%分位数=A+组距×.2.(2025·湖北武汉二调)某批产品检验后的评分,由统计结果制成如图所示的频率分布直方图,下列说法中正确的是( )A.a=0.05B.评分的众数估值为70C.评分的第25百分位数估值为67.5D.评分的平均数估值为763.当r>0时,表明两个变量正相关;当r<0时,表明两个变量负相关.r的绝对值越接近于1,表明两个变量的线性相关性越强.3.(2024·天津高考3题)下列图中,线性相关系数最大的是( )4.χ2=,其中n=a+b+c+d.α 0.1 0.05 0.01 0.005 0.001xα 2.706 3.841 6.635 7.879 10.8284.某高校《统计初步》课程的教师随机调查了选择该课的学生情况,调查数据如下表:性别 非统计专业 统计专业男 13 10女 7 20为了判断是否主修统计专业与性别有无关系,根据表中的数据,计算得到χ2≈ (保留三位小数),所以判定 (填“能”或“不能”)在犯错误的概率不超过0.05的前提下,认为是否主修统计专业与性别有关.5.经验回归方程=x+一定过点(,),残差e是观测值y减去预测值所得的差.5.已知某种商品的广告费x(单位:万元)与销售额y(单位:万元)之间的对应数据如下表:x 1 3 4 5 7y 14 18 30 42 46根据表中数据得到y关于x的经验回归方程为=6x+,则当广告费为10万元时,预测销售额为 万元;此经验回归方程在样本点(5,42)处的残差是 .考点一 用样本估计总体【通性通法】 分层随机抽样的平均数与方差设第一层有m个数分别为x1,x2,…,xm,平均数为,方差为;第二层有n个数分别为y1,y2,…,yn,平均数为,方差为,则样本平均数=+;样本方差s2=·{m[+(-)2]+n[+(-)2]}.【例1】 (1)(2025·浙江温州二模)某班级有30名男生和20名女生,现调查学生周末在家学习时长(单位:小时),得到男生样本数据的平均值为8,方差为2,女生样本数据的平均值为10.5,方差为0.75,则该班级全体学生周末在家学习时长的平均值和方差s2的值分别是( )A.=9.5,s2=1.5 B.=9,s2=1.5C.=9.5,s2=3 D.=9,s2=3(2)〔多选〕市场监督管理局对9家工厂生产的甲、乙产品进行抽查评分,且得分的平均数分别为77,60,其中A工厂生产的产品得分如下表:分数 名次(按高分到低分排名)甲产品 75 4乙产品 66 6则在此次抽查评分中( )A.9家工厂甲产品得分的中位数一定小于平均数B.9家工厂乙产品得分的中位数一定大于平均数C.9家工厂甲产品得分中一定存在极端高分数(高于平均数10分以上)D.9家工厂乙产品得分中一定存在极端低分数(低于平均数10分以上)【训练1】 【瓶颈突破】 由=2,s2=4,计算出xi,(xi-2)2的值,再计算“新”数据的平均数、方差即可.(1)(2025·山东潍坊一模)若一组样本数据x1,x2,x3,x4的平均数为2,方差为4,则数据x1,x2,x3,x4,2x1+2,2x2+2,2x3+2,2x4+2的平均数和方差分别为( )A.4,14 B.4,6 C.3,14 D.3,6(2)〔多选〕我国2022年9月—2023年9月固定资产投资(不含农户)环比增速折线图如图所示,则下列说法正确的是( )A.这13个月中,我国固定资产投资(不含农户)环比增速的极差为2.75%B.这13个月中,我国固定资产投资(不含农户)环比增速的平均数为正数C.这13个月中,我国固定资产投资(不含农户)环比增速的75%分位数为0.20%D.2022年9月—12月我国固定资产投资(不含农户)环比增速的波动幅度比2023年4月—7月的波动幅度大考点二 回归分析【通性通法】 求经验回归方程的步骤【例2】 (2025·山东日照一模)近期根据中国消费者信息研究报告显示,超过40%的消费者更加频繁地使用网上购物,某网购专营店统计了2025年1月5日到9日这5天到该专营店购物的人数y和时间第x天间的数据,列表如下:x 1 2 3 4 5y 75 84 93 98 100(1)由表中给出的数据判断是否可以用线性回归模型拟合人数y和时间第x天之间的关系?若可用,估计1月10日到该专营店购物的人数;若不可用,请说明理由(人数用四舍五入法取整数,若样本相关系数|r|>0.75,则线性相关程度很高,可以用线性回归模型拟合,r精确到0.01);(2)该专营店为了吸引顾客,推出两种促销方案.方案一:购物金额每满100元可减5元;方案二:一次性购物金额超过800元可抽奖三次,每次中奖的概率均为,且每次抽奖互不影响,中奖一次打9折,中奖两次打8折,中奖三次打6折.某顾客计划在此专营店购买1 000元的商品,请从实际付款金额的数学期望的角度分析选哪种方案更优惠.参考数据:≈65.88.附:样本相关系数r=,=,=-.【通性通法】 有些非线性回归问题并不给出经验公式,这时我们可以根据(画出)已知数据的散点图,把它与学过的各种函数(幂函数、指数函数、对数函数等)的图象进行比较,挑选一种跟这些散点拟合得最好的函数,用适当的变量进行变换,如通过换元或取对数等方法,把问题化为线性回归分析问题,使之得到解决.【训练2】 2025年之前某淀粉厂只生产食品淀粉,下表为近几年年投入资金x(单位:万元)与年收益y(单位:万元)的8组数据:x 10 20 30 40 50 60 70 80y 12.8 16.5 19 20.9 21.5 21.9 23 25.4(1)用y=bln x+a模拟生产食品淀粉年收益y与年投入资金x的关系,求出非线性经验回归方程;(2)为响应国家“加快调整产业结构”的号召,该企业又自主研发出一种药用淀粉,预计其收益为投入的10%.2025年该企业计划投入200万元用于生产两种淀粉,求年收益的最大值(精确到0.1万元).附:yi ln xi (ln xi)2 yiln xi161 29 20 400 109 603ln 2≈0.7,ln 5≈1.6.考点三 独立性检验【通性通法】 独立性检验的一般步骤【例3】 (2025·全国Ⅰ卷15题)为研究某疾病与超声波检查结果的关系,从做过超声波检查的人群中随机调查了1 000人,得到如下列联表:组别 超声波检查结果 合计正常 不正常患该疾病 20 180 200未患该疾病 780 20 800合计 800 200 1 000(1)记超声波检查结果不正常者患该疾病的概率为p,求p的估计值;(2)根据小概率值α=0.001的独立性检验,分析超声波检查结果是否与患该疾病有关.【训练3】 某兴趣小组调查并统计了某班级学生期末统考中的数学成绩和建立个性化错题本的情况,用来研究这两者是否有关.若从该班级中随机抽取1名学生,设A=“抽取的学生期末统考中的数学成绩不及格”,B=“抽取的学生建立了个性化错题本”,P(A|)=,P(B|)=,P(B)=.(1)求P(A)和P(A|B);(2)若该班级共有36名学生,请列出期末统考中的数学成绩与建立个性化错题本的2×2列联表,并依据小概率值α=0.005的独立性检验,分析学生期末统考中的数学成绩与建立个性化错题本是否有关?(3)为进一步验证(2)中的判断,该兴趣小组准备在其他班级中抽取一个容量为36k的样本(假设根据新样本数据建立的列联表中,所有的数据都扩大为(2)中列联表中数据的k倍,且新列联表中的数据都为整数).若要使得依据α=0.001的独立性检验可以肯定(2)中的判断,试确定k的最小值.第23讲 统计与成对数据的统计分析【基础·回扣】1.D 2.C 3.A 4.4.844 能 5.66 6【典例·讲解】【例1】 (1)D =×8+×=+=9,s2=×[2+(9-8)2]+×[0.75+(9-10.5)2]=3.故选D.(2)ABD 对于甲、乙产品,9家工厂抽查评分从低到高的第5位是中位数,由75分是甲产品按高分到低分的第4位,即从低到高的第6位,故中位数小于等于75分,由66分是乙产品按高分到低分的第6位,即从低到高的第4位,故中位数大于等于66分,又甲、乙产品得分的平均数分别为77分、60分,A、B对;甲产品评分可以为75,75,75,75,75,75,80,81,82,此时不存在极端高分数,C错;对于乙产品,假设由低到高的前3个评分的平均分为x分,后6个评分都为66分,则3x=60×9-66×6=144,x=48,所以从低到高的前3个评分平均比66分低18分,故必存在极端低分数,D对.故选A、B、D.【训练1】 (1)A 因为一组样本数据x1,x2,x3,x4的平均数为2,方差为4,则=xi=2,可得xi=8,方差为s2=(xi-2)2=4,可得(xi-2)2=16,因此,数据x1,x2,x3,x4,2x1+2,2x2+2,2x3+2,2x4+2的平均数为=[xi+(2xi+2)]=(3xi+8)==4,方差为s'2=[(xi-4)2+(2xi+2-4)2]=[(xi-2-2)2+(2xi-4+2)2]=[(xi-2-2)2+(2xi-4+2)2]=(xi-2)2+(xi-2)+4=×16+×(8-2×4)+4=14.故选A.(2)ABD 将环比增速的13个数据按百分比从小到大排列为-0.84,-0.36,-0.14,-0.05,0.06,0.10,0.11,0.15,0.20,0.29,0.35,1.18,1.91.对于A,极差为[1.91-(-0.84)]%=2.75%,A正确;对于B,由13个数据易求得平均数为正数,B正确;对于C,13×75%=9.75,所以75%分位数为第10个数0.29%,C错误;对于D,根据折线图可知2022年9月—12月我国固定资产投资(不含农户)环比增速的波动幅度比2023年4月—7月的波动幅度大,D正确.故选A、B、D.【例2】 解:(1)由表中数据可得=3,=90,(xi-)2=10,(yi-)2=434,(xi-)(yi-)=64,所以r==≈0.97>0.75,所以可用线性回归模型拟合人数y和时间第x天之间的关系.又===6.4,则=-=90-6.4×3=70.8,所以=6.4x+70.8,令x=6,可得=109.2,所以1月10日到该专营店购物的人数约为109.(2)若选方案一,则需付款1 000-50=950(元).若选方案二,设需付款X元,则X的取值可能为600,800,900,1 000,则P(X=600)=×()3=,P(X=800)=×()2×=,P(X=900)=××()2=,P(X=1 000)=×()3=,所以E(X)=600×+800×+900×+1 000×=<950,因此选择方案二更优惠.【训练2】 解:(1)令t=ln x,===5,=-=-5×=2,∴非线性经验回归方程为=5ln x+2.(2)设2025年该企业投入食品淀粉生产m万元,预计收益w万元,w=5ln m+2+(200-m)·,0≤m≤200,w'=-=,令w'>0得0≤m<50;令w'<0得50<m≤200,∴函数w在[0,50)上单调递增,在(50,200]上单调递减.wmax=5ln 50+2+15=5×(2ln 5+ln 2)+17≈5×(2×1.6+0.7)+17=36.5.∴年收益的最大值为36.5万元.【例3】 解:(1)由题表可知,检查结果不正常者有200人,检查结果不正常者中患有该疾病的有180人,所以由样本估计总体得p==0.9.(2)零假设为H0:超声波检查结果与是否患该疾病无关.χ2==>10.828,所以依据小概率值α=0.001的独立性检验,我们推断H0不成立,即认为超声波检查结果与是否患该疾病有关.【训练3】 解:(1)因为P(A|)=,P(B|)=,P(B)=,所以P(|)=1-P(A|)=,P(|)=1-P(B|)=,P()=,由于P(|)·P()=P(|)·P(),解得P()=,所以P(A)=.P(A)=P(B)·P(A|B)+P()·P(A|),解得P(A|B)=.(2)列联表如下:个性化 错题本 期末统考中的数学成绩 合计及格 不及格建立 20 4 24未建立 4 8 12合计 24 12 36零假设为H0:期末统考中的数学成绩与建立个性化错题本无关.根据列联表中的数据,经计算得到χ2==9>7.879=x0.005.根据小概率值α=0.005的独立性检验,我们推断H0不成立,即认为期末统考中的数学成绩与建立个性化错题本有关.(3)χ'2===9k≥10.828,解得k≥.要使新列联表中的数据都为整数,则需4k∈Z.又因为4k≥≈4.8,所以4k的最小值为5,故k的最小值是.5 / 5(共68张PPT)第23讲 统计与成对数据的统计分析备考指南高考对本部分的考查主要涉及统计图表的应用、样本的数字特征、经验回归方程的求解与应用、独立性检验等问题,考查题型大小题均可涉及,难度中等或偏下.基础·回扣 诊断自测 知识回扣一典例·讲解 典例精析 强技提能二课后·训练 巩固强化 综合测评三目录 /CONTENTS基础·回扣诊断自测 知识回扣1. 某位射击运动员的两组训练数据如下,第一组:10,7,7,8,8,9,7;第二组:10,5,5,8,9,9,10.则下列说法正确的是( )A. 两组数据的平均数不相等B. 第一组数据的方差大于第二组数据的方差C. 两组数据的极差相等D. 第一组数据的中位数小于第二组数据的中位数√若样本数据为x1,x2,…,xn,则:(1)平均数: = xi;(2)方差:s2= (xi- )2;(3)极差:最大与最小值的差;(4)第p百分位数:计算i=n×p%,若i不是整数,而大于i的比邻整数为j,则第p百分位数为第j项数据;若i是整数,则第p百分位数为第i项与第(i+1)项数据的平均数.解析: A选项:第一组数据的平均数为 =8,第二组数据的平均数为 =8,所以两组数据的平均数相等,A不正确;B选项:第一组数据的方差为 [(10-8)2+(7-8)2+(7-8)2+(8-8)2+(8-8)2+(9-8)2+(7-8)2]= ,第二组数据的方差为 [(10-8)2+(5-8)2+(5-8)2+(8-8)2+(9-8)2+(9-8)2+(10-8)2]=4,所以第一组数据的方差小于第二组数据的方差,B不正确;C选项:第一组数据的极差为10-7=3,第二组数据的极差为10-5=5,所以两组数据的极差不相等,C不正确;D选项:第一组数据的中位数为8,第二组数据的中位数为9,所以第一组数据的中位数小于第二组数据的中位数,D正确.故选D.2. (2025·湖北武汉二调)某批产品检验后的评分,由统计结果制成如图所示的频率分布直方图,下列说法中正确的是( )A. a=0.05B. 评分的众数估值为70C. 评分的第25百分位数估值为67.5D. 评分的平均数估值为76√由频率分布直方图求样本的数字特征的方法(1)众数:最高的小矩形底边的中点值;(2)中位数:若x=x0将直方图分成面积相等的两部分,则x0为中位数;(3)平均数: = xipi,其中,xi为各组区间中间值,pi为相应组的频率;(4)第p百分位数:确定要求的p%分位数所在分组[A,B),由频率分布直方图可知,样本中小于A的频率为a,小于B的频率为b,所以p%分位数=A+组距× .解析: 由题意:10(2a+3a+4a+5a+6a)=1,解得a=0.005,故A错误;众数为 =75,故B错误;因为0.1+0.2=0.3,所以评分的第25百分位数估计值为60+10× =67.5,故C正确;平均数为0.1×55+0.15×95+0.2×65+0.3×75+0.25×85=76.5,故D错误.故选C.3. (2024·天津高考3题)下列图中,线性相关系数最大的是( )√当r>0时,表明两个变量正相关;当r<0时,表明两个变量负相关.r的绝对值越接近于1,表明两个变量的线性相关性越强.解析: 选项A中的散点有明显的从左下角到右上角沿直线分布的趋势,且散点集中在一条直线的附近,故选项A中的线性相关系数最大.故选A.4. 某高校《统计初步》课程的教师随机调查了选择该课的学生情况,调查数据如右表:性别 非统计专业 统计专业男 13 10女 7 20为了判断是否主修统计专业与性别有无关系,根据表中的数据,计算得到χ2≈ (保留三位小数),所以判定 (填“能”或“不能”)在犯错误的概率不超过0.05的前提下,认为是否主修统计专业与性别有关.4.844能χ2= ,其中n=a+b+c+d.α 0.1 0.05 0.01 0.005 0.001xα 2.706 3.841 6.635 7.879 10.828解析:由题意可知,χ2= ≈4.844>3.841=x0.05,所以能在犯错误的概率不超过0.05的前提下,认为是否主修统计专业与性别有关.5. 已知某种商品的广告费x(单位:万元)与销售额y(单位:万元)之间的对应数据如下表:x 1 3 4 5 7y 14 18 30 42 46根据表中数据得到y关于x的经验回归方程为 =6x+ ,则当广告费为10万元时,预测销售额为 万元;此经验回归方程在样本点(5,42)处的残差是 .666经验回归方程 = x+ 一定过点( , ),残差e是观测值y减去预测值 所得的差.解析:由题表可知, = ×(1+3+4+5+7)=4, = ×(14+18+30+42+46)=30,将(4,30)代入 =6x+ 得 =30-6×4=6,故=6x+6.当x=10时, =6×10+6=66,预测销售额为66万元.残差e=42-(6×5+6)=6.典例·讲解典例精析 强技提能考点一 用样本估计总体【例1】 (1)(2025·浙江温州二模)某班级有30名男生和20名女生,现调查学生周末在家学习时长(单位:小时),得到男生样本数据的平均值为8,方差为2,女生样本数据的平均值为10.5,方差为0.75,则该班级全体学生周末在家学习时长的平均值 和方差s2的值分别是( )A. =9.5,s2=1.5 B. =9,s2=1.5C. =9.5,s2=3 D. =9,s2=3√【通性通法】 分层随机抽样的平均数与方差设第一层有m个数分别为x1,x2,…,xm,平均数为 ,方差为 ;第二层有n个数分别为y1,y2,…,yn,平均数为 ,方差为 ,则样本平均数 = + ;样本方差s2= ·{m[+( - )2]+n[+( - )2]}.解析: = ×8+ × = + =9,s2= ×[2+(9-8)2]+ ×[0.75+(9-10.5)2]=3.故选D.(2)〔多选〕市场监督管理局对9家工厂生产的甲、乙产品进行抽查评分,且得分的平均数分别为77,60,其中A工厂生产的产品得分如下表:分数 名次(按高分到低分排名)甲产品 75 4乙产品 66 6则在此次抽查评分中( )A. 9家工厂甲产品得分的中位数一定小于平均数B. 9家工厂乙产品得分的中位数一定大于平均数C. 9家工厂甲产品得分中一定存在极端高分数(高于平均数10分以上)D. 9家工厂乙产品得分中一定存在极端低分数(低于平均数10分以上)√√√解析: 对于甲、乙产品,9家工厂抽查评分从低到高的第5位是中位数,由75分是甲产品按高分到低分的第4位,即从低到高的第6位,故中位数小于等于75分,由66分是乙产品按高分到低分的第6位,即从低到高的第4位,故中位数大于等于66分,又甲、乙产品得分的平均数分别为77分、60分,A、B对;甲产品评分可以为75,75,75,75,75,75,80,81,82,此时不存在极端高分数,C错;对于乙产品,假设由低到高的前3个评分的平均分为x分,后6个评分都为66分,则3x=60×9-66×6=144,x=48,所以从低到高的前3个评分平均比66分低18分,故必存在极端低分数,D对.故选A、B、D.【训练1】 (1)(2025·山东潍坊一模)若一组样本数据x1,x2,x3,x4的平均数为2,方差为4,则数据x1,x2,x3,x4,2x1+2,2x2+2,2x3+2,2x4+2的平均数和方差分别为( )A. 4,14 B. 4,6C. 3,14 D. 3,6√【瓶颈突破】 由 =2,s2=4,计算出 xi, (xi-2)2的值,再计算“新”数据的平均数、方差即可.解析: 因为一组样本数据x1,x2,x3,x4的平均数为2,方差为4,则= xi=2,可得 xi=8,方差为s2= (xi-2)2=4,可得(xi-2)2=16,因此,数据x1,x2,x3,x4,2x1+2,2x2+2,2x3+2,2x4+2的平均数为 = [ xi+ (2xi+2)]= (3 xi+8)==4,方差为s'2= [(xi-4)2+ (2xi+2-4)2]= [(xi-2-2)2+ (2xi-4+2)2]= [(xi-2-2)2+(2xi-4+2)2]= (xi-2)2+ (xi-2)+4= ×16+ ×(8-2×4)+4=14.故选A.(2)〔多选〕我国2022年9月—2023年9月固定资产投资(不含农户)环比增速折线图如图所示,则下列说法正确的是( )A. 这13个月中,我国固定资产投资(不含农户)环比增速的极差为2.75%B. 这13个月中,我国固定资产投资(不含农户)环比增速的平均数为正数C. 这13个月中,我国固定资产投资(不含农户)环比增速的75%分位数为0.20%D. 2022年9月—12月我国固定资产投资(不含农户)环比增速的波动幅度比2023年4月—7月的波动幅度大√√√解析: 将环比增速的13个数据按百分比从小到大排列为-0.84,-0.36,-0.14,-0.05,0.06,0.10,0.11,0.15,0.20,0.29,0.35,1.18,1.91.对于A,极差为[1.91-(-0.84)]%=2.75%,A正确;对于B,由13个数据易求得平均数为正数,B正确;对于C,13×75%=9.75,所以75%分位数为第10个数0.29%,C错误;对于D,根据折线图可知2022年9月—12月我国固定资产投资(不含农户)环比增速的波动幅度比2023年4月—7月的波动幅度大,D正确.故选A、B、D.考点二 回归分析【例2】 (2025·山东日照一模)近期根据中国消费者信息研究报告显示,超过40%的消费者更加频繁地使用网上购物,某网购专营店统计了2025年1月5日到9日这5天到该专营店购物的人数y和时间第x天间的数据,列表如下:x 1 2 3 4 5y 75 84 93 98 100(1)由表中给出的数据判断是否可以用线性回归模型拟合人数y和时间第x天之间的关系?若可用,估计1月10日到该专营店购物的人数;若不可用,请说明理由(人数用四舍五入法取整数,若样本相关系数|r|>0.75,则线性相关程度很高,可以用线性回归模型拟合,r精确到0.01);【通性通法】求经验回归方程的步骤解:由表中数据可得 =3, =90,(xi- )2=10, (yi- )2=434, (xi- )(yi- )=64,所以r= = ≈0.97>0.75,所以可用线性回归模型拟合人数y和时间第x天之间的关系.又 = = =6.4,则 = - =90-6.4×3=70.8,所以 =6.4x+70.8,令x=6,可得 =109.2,所以1月10日到该专营店购物的人数约为109.(2)该专营店为了吸引顾客,推出两种促销方案.方案一:购物金额每满100元可减5元;方案二:一次性购物金额超过800元可抽奖三次,每次中奖的概率均为 ,且每次抽奖互不影响,中奖一次打9折,中奖两次打8折,中奖三次打6折.某顾客计划在此专营店购买1 000元的商品,请从实际付款金额的数学期望的角度分析选哪种方案更优惠.参考数据: ≈65.88.附:样本相关系数r= , = ,= - .解: 若选方案一,则需付款1 000-50=950(元).若选方案二,设需付款X元,则X的取值可能为600,800,900,1 000,则P(X=600)= ×( )3= ,P(X=800)= ×( )2× =,P(X=900)= × ×( )2= ,P(X=1 000)= ×( )3= ,所以E(X)=600× +800× +900× +1 000× = <950,因此选择方案二更优惠.【训练2】 2025年之前某淀粉厂只生产食品淀粉,下表为近几年年投入资金x(单位:万元)与年收益y(单位:万元)的8组数据:x 10 20 30 40 50 60 70 80y 12.8 16.5 19 20.9 21.5 21.9 23 25.4(1)用y=bln x+a模拟生产食品淀粉年收益y与年投入资金x的关系,求出非线性经验回归方程;【通性通法】 有些非线性回归问题并不给出经验公式,这时我们可以根据(画出)已知数据的散点图,把它与学过的各种函数(幂函数、指数函数、对数函数等)的图象进行比较,挑选一种跟这些散点拟合得最好的函数,用适当的变量进行变换,如通过换元或取对数等方法,把问题化为线性回归分析问题,使之得到解决.解: 令t=ln x, = = =5,= - = -5× =2,∴非线性经验回归方程为 =5ln x+2.(2)为响应国家“加快调整产业结构”的号召,该企业又自主研发出一种药用淀粉,预计其收益为投入的10%.2025年该企业计划投入200万元用于生产两种淀粉,求年收益的最大值(精确到0.1万元).附:yi ln xi (ln xi)2 yiln xi161 29 20 400 109 603ln 2≈0.7,ln 5≈1.6.解: 设2025年该企业投入食品淀粉生产m万元,预计收益w万元,w=5ln m+2+(200-m)· ,0≤m≤200,w'= - = ,令w'>0得0≤m<50;令w'<0得50<m≤200,∴函数w在[0,50)上单调递增,在(50,200]上单调递减.wmax=5ln 50+2+15=5×(2ln 5+ln 2)+17≈5×(2×1.6+0.7)+17=36.5.∴年收益的最大值为36.5万元.考点三 独立性检验【例3】 (2025·全国Ⅰ卷15题)为研究某疾病与超声波检查结果的关系,从做过超声波检查的人群中随机调查了1 000人,得到如下列联表:组别 超声波检查结果 合计正常 不正常 患该疾病 20 180 200未患该疾病 780 20 800合计 800 200 1 000(1)记超声波检查结果不正常者患该疾病的概率为p,求p的估计值;解: 由题表可知,检查结果不正常者有200人,检查结果不正常者中患有该疾病的有180人,所以由样本估计总体得p= =0.9.【通性通法】独立性检验的一般步骤(2)根据小概率值α=0.001的独立性检验,分析超声波检查结果是否与患该疾病有关.解: 零假设为H0:超声波检查结果与是否患该疾病无关.χ2= = >10.828,所以依据小概率值α=0.001的独立性检验,我们推断H0不成立,即认为超声波检查结果与是否患该疾病有关.【训练3】 某兴趣小组调查并统计了某班级学生期末统考中的数学成绩和建立个性化错题本的情况,用来研究这两者是否有关.若从该班级中随机抽取1名学生,设A=“抽取的学生期末统考中的数学成绩不及格”,B=“抽取的学生建立了个性化错题本”,P(A| )= ,P(B| )= ,P(B)= .(1)求P(A)和P(A|B);解: 因为P(A| )= ,P(B| )= ,P(B)= ,所以P( | )=1-P(A| )= ,P( | )=1-P(B|)= ,P( )= ,由于P( | )·P( )=P( | )·P( ),解得P( )= ,所以P(A)= .P(A)=P(B)·P(A|B)+P( )·P(A| ),解得P(A|B)= .(2)若该班级共有36名学生,请列出期末统考中的数学成绩与建立个性化错题本的2×2列联表,并依据小概率值α=0.005的独立性检验,分析学生期末统考中的数学成绩与建立个性化错题本是否有关?解: 列联表如下:个性化错题本 期末统考中的数学成绩 合计及格 不及格 建立 20 4 24未建立 4 8 12合计 24 12 36零假设为H0:期末统考中的数学成绩与建立个性化错题本无关.根据列联表中的数据,经计算得到χ2= =9>7.879=x0.005.根据小概率值α=0.005的独立性检验,我们推断H0不成立,即认为期末统考中的数学成绩与建立个性化错题本有关.(3)为进一步验证(2)中的判断,该兴趣小组准备在其他班级中抽取一个容量为36k的样本(假设根据新样本数据建立的列联表中,所有的数据都扩大为(2)中列联表中数据的k倍,且新列联表中的数据都为整数).若要使得依据α=0.001的独立性检验可以肯定(2)中的判断,试确定k的最小值.解: χ'2= ==9k≥10.828,解得k≥ .要使新列联表中的数据都为整数,则需4k∈Z.又因为4k≥ ≈4.8,所以4k的最小值为5,故k的最小值是 .课后·训练(时间:45分钟,满分:69分)巩固强化 综合测评1234567891011一、单项选择题(每小题5分,共20分)1. 若yi=xi+4(i=1,2,3,…,n),则数据组x1,x2,…,xn和y1,y2,…,yn( )A. 有相同的平均数 B. 有相同的中位数C. 有相同的方差 D. 有相同的众数√解析: 由yi=xi+4(i=1,2,3,…,n),得数据组y1,y2,…,yn的平均数、中位数和众数都相应地比数据组x1,x2,…,xn的平均数、中位数和众数大4,A、B、D错误;数据组y1,y2,…,yn与数据组x1,x2,…,xn相对于各自平均数的波动大小不变,因此两个数据组的方差相同,C正确.12345678910112. (2025·山东临沂一模)甲、乙两个体育社团小组成员的某次立定跳远成绩(单位:厘米)如下:甲组:244,245,245,246,248,251,251,253,254,255,257,263;乙组:239,241,243,245,245,247,248,249,251,252.则下列说法正确的是( )A. 甲组数据的第60百分位数是251B. 乙组数据的中位数是245C. 从甲、乙两组各随机选取一个成员,两人跳远成绩均在250厘米以上的概率为D. 甲组中存在这样的成员,将他调派到乙组后,甲、乙两组的跳远平均成绩都有提高√1234567891011解析: 对于选项A,因为12×60%=7.2,所以甲组数据的第60百分位数是第8个数,即253,故A错误;对于选项B,因为10×50%=5,所以乙组数据的中位数是第5个数与第6个数的平均数,即 =246,故B错误;对于选项C,甲组中跳远成绩在250厘米以上的有7人,乙组中跳远成绩在250厘米以上的有2人,所以从甲、乙两组各随机选取一个成员,两人跳远成绩均在250厘米以上的概率为 × = ,故C错误;对于选项D,甲组的平均成绩为 ×(244+245+245+246+248+251+251+253+254+255+257+263)=251厘米,乙组的平均成绩为 ×(239+241+243+245+245+247+248+249+251+252)=246厘米,所以将甲组中跳远成绩为248厘米的成员调派到乙组后,甲、乙两组的跳远平均成绩都有提高,故D正确.12345678910113. (2025·辽宁锦州模拟)5G技术在我国已经进入高速发展的阶段,5G手机的销量也逐渐上升.某手机商城统计了1至5月份5G手机的实际销量,如下表所示:月份x 1月 2月 3月 4月 5月销售量y(千只) 0.5 0.6 1.0 1.4 1.7若y与x线性相关,且求得经验回归方程为 =0.32x+ ,则下列说法不正确的是( )A. 由题中数据可知, =0.08B. 由题中数据可知,6月份该商城5G手机的实际销量为2(千只)C. 由题中数据可知,变量x和y正相关,且样本相关系数一定小于1D. 若不考虑本题中的数据,经验回归直线可能不过(x1,y1),(x2,y2),…,(xn,yn)中任一个点√1234567891011解析: 对于A,由表格可知, = ×(1+2+3+4+5)=3, = ×(0.5+0.6+1.0+1.4+1.7)=1.04,则 = -0.32 =1.04-0.32×3=0.08,故A正确;对于B,将x=6代入 =0.32x+0.08,可得 =2,所以6月份该商城5G手机的实际销量预测为2(千只),故B错误;对于C,因为经验回归方程为 =0.32x+0.08,所以变量x和y正相关,且样本点不全在经验回归直线上,所以样本相关系数一定小于1,故C正确;对于D,经验回归直线可能不过样本点中的任何一个点,故D正确.故选B.12345678910114. (2025·T8联考)在研究性学习活动中,某位学生收集了两个变量x与y之间的几组数据如下表:x 1 2 3 4y 0 2 3 5根据上表数据所得经验回归方程为 = x+ .该同学又收集了两组数据x=5,y=4和x=6,y=5,利用这六组数据求得的经验回归方程为 = 'x+ ',则以下结论正确的是( )A. > ', > ' B. < ', > 'C. < ', < ' D. > ', < '√1234567891011解析: 法一 该同学收集了四组数据,由表中数据知 = , = ,∴ = = , = - × =- .又收集了两组数据(5,4)和(6,5)后,新的平均数为 = , = ,则 '== , '= - × =- ,∴> ', < '.故选D.1234567891011法二 如图,由图象知,增加两组数据后经验回归直线的斜率减小,即 > ',在y轴上的截距增大,即 < '.故选D.1234567891011二、多项选择题(每小题6分,共12分)5. (2025·浙江绍兴二模)在某校文艺汇演中,六位评委对某小品节目进行打分,得到一组分值7.7,8.1,8.2,8.7,9.4,9.5,若去掉一个最高分和一个最低分,则( )A. 这组分值的极差变小B. 这组分值的均值变大C. 这组分值的方差变小D. 这组分值的第75百分位数不变√√1234567891011解析: 对于A,原来6个数据的极差为9.5-7.7=1.8,去掉一个最高分和一个最低分后这组数据的极差为9.4-8.1=1.3,极差变小了,故A正确;对于B,原来6个数据的均值为 =8.6,后来这4个数据的均值为 =8.6,所以均值不变,故B错误;对于C,原来6个数据的方差为 [(7.7-8.6)2+(8.1-8.6)2+(8.2-8.6)2+(8.7-8.6)2+(9.4-8.6)2+(9.5-8.6)2]≈0.45,后来这4个数据的方差为 [(8.1-8.6)2+(8.2-8.6)2+(8.7-8.6)2+(9.4-8.6)2]≈0.27,所以这组分值的方差变小,故C正确;对于D,因为6×75%=4.5,所以原来6个数据的第75百分位数为9.4,又4×75%=3,所以后来这4个数据的第75百分位数为 =9.05,故D错误.故选A、C.12345678910116. (2025·浙江宁波“十校”联考)已知一组样本数据xi(i=1,2,3,…,10)均为正实数,且满足x1≤x2≤x3≤…≤x10,下列说法正确的是( )A. 样本数据的第80百分位数为x8B. 去掉样本的一个数据,样本数据的极差可能不变C. 若样本数据的频率分布直方图为单峰不对称,且在右边“拖尾”,则样本数据的平均数大于中位数D. 若样本数据的方差s2= -4,则这组样本数据的平均数等于2√√√1234567891011解析: 对于A,由10×80%=8,所以样本数据的第80百分位数为 ,故A错误;对于B,由题意存在这样一种可能,若x1=x2≤x3≤…≤x10,则极差为x10-x1=x10-x2,若去掉x1或x2,此时样本数据的极差不变,故B正确;对于C,数据的频率分布直方图为单峰不对称,在右边“拖尾”,大致如图,由于“右拖”时最高峰偏左,中位数靠近高峰处,平均数靠近中点处,此时平均数大于中位数, 故C正确;对于D,由s2= -4= (xi- )2,则 -40= (xi- )2= -2 xi+10 =-10 ,所以 =4,因为xi(i=1,2,3,…,10)为正实数,所以 >0,即 =2,故D正确.故选B、C、D.1234567891011三、填空题(每小题5分,共10分)7. (2025·山东烟台一模)已知变量x,y线性相关,其一组样本数据(xi,yi)(i=1,2,…,9)满足 xi=33,用最小二乘法得到的经验回归方程为 =2x-1.若增加一个数据(-3,3)后,得到修正后的经验回归直线的斜率为2.1,则数据(4,8)的残差的绝对值为 .0.1解析:由题设 = = ,则 =2 -1=2× -1= ,增加数据(-3,3)后, = =3, = =6,且经验回归方程为 =2.1x+,所以6=2.1×3+ =-0.3,则y=2.1x-0.3,当x=4时, =2.1×4-0.3=8.1,故残差的绝对值为|8-8.1|=0.1.12345678910118. (2025·湖北孝感模拟)已知一组样本数据共有8个数,其平均数为8,方差为12,将这组样本数据增加两个未知的数据构成一组新的样本数据,已知新的样本数据的平均数为9,则新的样本数据的方差最小值为 .13.61234567891011解析:设增加的数为x,y,原来的8个数分别为a1,a2,…,a8,则a1+a2+…+a8=64,a1+a2+…+a8+x+y=90,所以x+y=26,又因为(ai-8)2=12,即 (ai-8)2=96,新的样本数据的方差为[(ai-9)2+(x-9)2+(y-9)2]= [(ai-8)2-2 (ai-8)+8+(x-9)2+(y-9)2]= (x2+y2-202),因为≥ =13,x2+y2-202≥136,所以方差的最小值为13.6(当且仅当x=y=13时取到最小值).1234567891011四、解答题(15分)9. (15分)某高科技公司对其产品研发投资额x(单位:百万元)与其年销售量y(单位:千件)的数据进行统计,整理后得到如下统计表和散点图.x 1 2 3 4 5 6y 0.5 1 1.5 3 6 12z=ln y -0.7 0 0.4 1.1 1.8 2.51234567891011(1)该公司科研团队通过分析散点图的特征后,计划分别用① = x+和② = 两种方案作为年销售量y关于年投资额x的回归分析模型,请根据统计表中的数据,确定方案①和②的经验回归方程;(注:系数 , , , 按四舍五入保留一位小数)1234567891011解: 由题可得 = ×(1+2+3+4+5+6)=3.5, = ×(0.5+1+1.5+3+6+12)=4, xiyi=1×0.5+2×1+3×1.5+4×3+5×6+6×12=121, =1+4+9+16+25+36=91,所以 = = ≈2.1,1234567891011= - ≈4-2.1×3.5≈-3.4,方案①的经验回归方程为 =2.1x-3.4.对 = 两边取对数得ln = x+ ,令 =ln , = x+ 是一元线性回归方程, = ×(-0.7+0+0.4+1.1+1.8+2.5)=0.85,= = ≈0.6,= - ≈0.85-0.6×3.5≈-1.3,方案②的经验回归方程为 =e0.6x-1.3.1234567891011(2)根据下表中数据,用决定系数R2(不必计算,只比较大小,R2越趋近1拟合效果越好)比较两种模型的拟合效果哪个更好,并选择拟合精度更高、更可靠的模型,预测当研发年投资额为8百万元时,产品的年销售量是多少?残差平方和 经验回归方程 = x+ =(yi- )2 18.29 0.65参考公式及数据:R2=1- , xizi=28.9,e3.5≈33.1234567891011解: 方案①的决定系数 =1- ,方案②的决定系数 =1- ,故 < ,模型②的拟合效果更好,精度更高,当研发年投资额为8百万元时, =e4.8-1.3=e3.5≈33(千件),即产品的年销售量约为33千件.1234567891011【高考新风向】(每小题6分,共12分)10. 〔创新交汇〕〔多选〕若(x+1)5=a0+a1x+a2x2+a3x3+a4x4+a5x5,则下列结论正确的是( )A. a0=1B. 数据a0+1,a1,a2,a3,a4,a5+3的标准差为3C. 数据a0,a1,a2,a3,a4,a5的40%分位数为10D. 记 ai=μ,随机变量X~N(μ,σ2),P(X>44)= ,则P(X<20)=√√√1234567891011解析: 对于选项A:令x=0,则a0=1,故A正确;对于选项B、C:因为(x+1)5的展开式的通项为Tr+1= ·x5-r,即ar= ,可得a0=1,a1=5,a2=10,a3=10,a4=5,a5=1,数据a0+1,a1,a2,a3,a4,a5+3为2,5,10,10,5,4,则平均数为 ==6,方差为s2= ×[(2-6)2+(5-6)2+(10-6)2+(10-6)2+(5-6)2+(4-6)2]=9,所以标准差为3,故B正确;将数据a0,a1,a2,a3,a4,a5按升序排列为1,1,5,5,10,10,且6×40%=2.4,故40%分位数为第3个数5,故C错误;对于选项D:因为 ai=1+5+10+10+5+1=32=μ,故P(X<20)=P(X>44)= ,故D正确.故选A、B、D.123456789101111. 〔创新设问〕〔多选〕已知甲、乙两组样本各有10个数据,甲、乙两组数据合并后得到一组新数据,下列说法正确的是( )A. 若甲、乙两组数据的平均数都为a,则新数据的平均数等于aB. 若甲、乙两组数据的极差都为b,则新数据的极差可能大于bC. 若甲、乙两组数据的方差都为c,则新数据的方差可能小于cD. 若甲、乙两组数据的中位数都为d,则新数据的中位数等于d√√√1234567891011解析: 设甲为x1,x2,…,x10,乙为y1,y2,…,y10,新数据为z1,z2,…,z20.对于A,因为 = (z1+z2+…+z20)= (10a+10a)=a,所以A正确;对于B,设甲:1,2,…,10;乙:21,22,…,30,两组数据的极差均为9,但混合后数据的极差为29,所以B正确;对于C,因为 ( + +…+ -10 )= ( + +…+ -10 )=c,所以 + +…+ =10c+10 , + +…+=10c+10 , = ,所以新数据的方差为 ( + +…+1234567891011+ + +…+ -20 )= (10c+10 +10c+10 -20 )=c+ ,因为 + -2 = + -2×( )2= ≥0,所以新数据的方差一定不小于c,所以C错误;对于D,不妨设x1≤x2≤…≤x10,y1≤y2≤…≤y10,则d= = ,将混合后数据按从小到大排列,若x5≤y5,则x6≥y6,所以第10,11个数为y5和y6;若x5>y5,则x6<y6,所以第10,11个数为x5和x6,两种情形下,新数据的中位数都等于d,所以D正确.1234567891011THANKS演示完毕 感谢观看 展开更多...... 收起↑ 资源列表 第23讲 统计与成对数据的统计分析.docx 第23讲 统计与成对数据的统计分析.pptx 第23讲 统计与成对数据的统计分析(练习,含解析).docx