资源简介 课后限时练10 统计与成对数据的统计分析(A)1.(多选)(2023·新高考Ⅰ卷)有一组样本数据x1,x2,…,x6,其中x1是最小值,x6是最大值,则( )A.x2,x3,x4,x5的平均数等于x1,x2,…,x6的平均数B.x2,x3,x4,x5的中位数等于x1,x2,…,x6的中位数C.x2,x3,x4,x5的标准差不小于x1,x2,…,x6的标准差D.x2,x3,x4,x5的极差不大于x1,x2,…,x6的极差2.(2025·陕西汉中二模)为了满足群众健身需求,某健身房近几年陆续购买了几台A型跑步机,该型号跑步机已投入使用的时间x(单位:年)与当年所需要支出的维修费用y(单位:千元)有如下统计资料:x/年 2 3 4 5 6y/千元 2.2 3.8 5.5 6.5 7.0根据表中的数据可得到经验回归方程为y=1.23x+a,则( )A.y与x的样本相关系数r<0B.a=0.08C.表中维修费用的第60百分位数为6.5D.该型号跑步机已投入使用的时间为10年时,当年所需要支出的维修费用一定是12.38千元3.(多选)(2025·山东济南一模)为了验证牛的毛色(黑色、红色)和角(有角、无角)这两对相对性状是否相关,某学院进行了一次数据统计,并根据形成的2×2列联表,计算得到χ2≈2.727,根据小概率值α的独立性检验,则( )附:α 0.100 0.050 0.010xα 2.706 3.841 6.635A.若α=0.100,则认为“毛色”和“角”无关B.若α=0.100,则认为“毛色”和“角”有关,此推断犯错误的概率不超过10%C.若α=0.010,则认为“毛色”和“角”无关D.若α=0.010,则认为“毛色”和“角”有关,此推断犯错误的概率不超过1%4.(多选)(2025·山东青岛模拟)某次物理考试后,为分析学生的学习情况,某校从某年级中随机抽取了100名学生的成绩,整理得到如图所示的频率分布直方图.为进一步分析高分学生的成绩分布情况,计算得到这100名学生中,成绩位于[80,90)内的学生成绩方差为12,成绩位于[90,100]内的同学成绩方差为10,则( )A.a=0.005B.估计该年级成绩在80分及以上的学生成绩的平均数为86.50C.估计该年级学生成绩的中位数约为77.14D.估计该年级成绩在80分及以上的学生成绩的方差为30.255.某中学举行数学解题比赛,其中7人的比赛成绩分别为70,97,85,90,98,73,95,则这7人成绩的上四分位数是________.6.某校数学建模兴趣小组收集了一组恒温动物体重W(单位:克)与脉搏率f(单位:心跳次数/分钟)的对应数据(Wi,fi)(i=1,2,…,8),根据生物学常识和散点图得出f与W近似满足f=cWk(c,k为参数).令xi=ln Wi,yi=ln fi,计算得=8,=5,=214.由最小二乘法得经验回归方程为y=bx+7.4,则k的值为________;为判断拟合效果,通过经验回归方程求得预测值yi(i=1,2,…,8),若残差平方和(yi-i)2≈0.28,则决定系数R2≈________.7.(2025·黑龙江哈尔滨模拟)随着冬天的临近,哈尔滨这座冰雪之城,将再次成为旅游的热门目的地.为更好地提升旅游品质,我市文旅局随机选择100名青年游客对哈尔滨出行体验进行满意度评分(满分100分),80分及以上为良好等级,根据评分,制成如图所示的频率分布直方图.(1)根据频率分布直方图,求x的值并估计该评分的上四分位数;(2)若采用按比例分配的分层随机抽样的方法从评分在[70,80),[80,90)的两组中共抽取6人,再从这6人中随机抽取3人进行单独交流,求选取的3人中评分等级为良好的人数X的分布列和数学期望;(3)为进一步了解不同年龄段游客对哈尔滨出行体验的反馈,我市文旅局再次随机选择100名中老年游客进行满意度评分,发现两次调查中评分为良好等级的人数为120人.请根据小概率值α=0.001的独立性检验,分析游客的评分等级是否良好与年龄段(青年或中老年)是否有关.附:χ2=,n=a+b+c+d.α 0.05 0.01 0.001xα 3.841 6.635 10.828课后限时练10(A)1.BD [A选项,x2,x3,x4,x5的平均数不一定等于x1,x2,…,x6的平均数,A错误;B选项,x2,x3,x4,x5的中位数等于x1,x2,…,x6的中位数,B正确;C选项,设样本数据x1,x2,…,x6为0,1,2,8,9,10,可知x1,x2,…,x6的平均数是5,x2,x3,x4,x5的平均数是5,x1,x2,…,x6的方差×[(0-5)2 + (1-5)2 + (2-5)2 + (8-5)2 + (9-5)2 + (10-5)2] = ,x2,x3,x4,x5的方差×[(1-5)2 + (2-5)2 + (8-5)2 + (9-5)2] = ,∵,∴s1>s2,C错误;D选项,由题意,x1是最小值,x6是最大值,D正确.故选BD.]2.B [对于A,由y=1.23x+,得y与x正相关,样本相关系数r>0,A错误;对于B,=4,=5,则=5-1.23×4=0.08,B正确;对于C,5×60%=3,因此第60百分位数为=6,C错误;对于D,由选项B知,y=1.23x+0.08,当x=10时,y=12.38,则当年所需要支出的维修费用约为12.38千元,D错误.故选B.]3.BC [对AB,若α=0.100,因为2.706<2.727,则认为“毛色”和“角”有关,此推断犯错误的概率不超过10%,故A 错误,B 正确;对CD,若α=0.010,因为6.635>2.727,则认为“毛色”和“角”无关,故C正确,D错误.故选BC.]4.ACD [对于A选项,在频率分布直方图中,所有直方图的面积之和为1,则(2a+3a+7a+6a+2a)×10=200a=1,解得a=0.005,故A正确;对于B选项,估计成绩在80分以上的同学的成绩的平均数为×95=87.5分,故B错误;对于C选项,前两个矩形的面积之和为(2a+3a)×10=50a=0.25<0.5,前三个矩形的面积之和为(2a+3a+7a)×10=120a=0.6>0.5.设该年级学生成绩的中位数为m,则m∈(70,80),根据中位数的定义可得0.25+(m-70)×0.035=0.5,解得m≈77.14,所以,估计该年级学生成绩的中位数约为77.14,故C正确;对于D选项,估计该年级成绩在80分及以上的学生成绩的方差为[12+(87.5-85)2]+[10+(87.5-95)2]=30.25,故D正确.故选ACD.]5.97 [将7个数据从小到大排列为70,73,85,90,95,97,98,因为7×75%=5.25,所以这7人成绩的上四分位数是97.]6.-0.3 0.98 [因为f=cWk,两边取对数可得ln f=ln c+kln W,又xi=ln Wi,yi=ln fi,且经验回归直线x+7.4必过(),所以5=8+7.4,解得=-0.3,所以k=-0.3,R2=1-=0.98.]7.解:(1)由频率分布直方图可知,0.005×10+0.010×10+0.015×10+10x+0.040×10=1,解得x=0.030.因为[90,100]的频率为10×0.040=0.4>0.25,且[90,100]为最后一组,所以评分的上四分位数位于区间[90,100]中,所以上四分位数为90+×10=93.75.(2)评分在[70,80)与[80,90)两组的频率分别为0.15,0.3,所以[70,80)内抽取人数为6×=2,[80,90)内抽取人数为6×=4,故6人中评分等级为良好的有4人,由题意可知,X的可能取值为1,2,3.P(X=1)=,P(X=2)=,P(X=3)=.所以X的分布列为X 1 2 3P数学期望E(X)=1×=2.(3)青年游客评分等级良好的有(0.3+0.4)×100=70(人),所以中老年游客评分等级良好的有120-70=50(人),由上可得如下2×2列联表,单位:人评分等级 游客年龄段 合计青年 中老年良好 70 50 120非良好 30 50 80合计 100 100 200零假设为H0:游客的评分等级是否良好与年龄段无关,由表中数据可得χ2=≈8.333<10.828=x0.001,根据小概率值α=0.001的独立性检验,可知零假设H0成立,即无法认为游客的评分等级是否良好与年龄段有关.1/4课后限时练10 统计与成对数据的统计分析(B)1.经观测,长江中某鱼类的产卵数y与温度x有关,现将收集到的温度xi和产卵数yi(i=1,2,…,10)的10组观测数据做了初步处理,得到如图所示的散点图及一些统计量表.xi ti yi zi (xi-)2 (ti-)2 (ti-)(yi-) (xi-)(zi-) (xi-)(yi-)360 54.5 1 360 44 384 3 588 32 6 430表中ti=,zi=ln yi,=zi.(1)根据散点图判断,y=a+bx,y=n+m与y=c1ec2x哪一个适宜作为y与x之间的回归方程模型并求出y关于x的经验回归方程(给出判断即可,不必说明理由);(2)某兴趣小组抽取两批鱼卵,已知第一批中共有6个鱼卵,其中“死卵”有2个;第二批中共有8个鱼卵,其中“死卵”有3个.现随机挑选一批,然后从该批次中随机取出两个鱼卵,求取出“死卵”个数的分布列及均值.附:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其经验回归方程=α+ u的斜率和截距的最小二乘估计分别为β=,=-.2.(2025·江西鹰潭一模)接种疫苗是预防传染病最经济、最有效的手段,是预防疾病传播和保护群众的重要措施.为了考查一种新疫苗对预防某一疾病的效果,研究人员对一地区某种动物(数量较大)进行试验,从该试验群中随机抽查了50只,得到如下的样本数据:单位:只是否接种疫苗 是否发病 合计发病 没发病接种疫苗 7 18 25没接种疫苗 19 6 25合计 26 24 50(1)能否在犯错误的概率不超过0.001的前提下,认为接种该疫苗与预防该疾病有关?(2)从该地区此动物群中任取一只,记A表示此动物发病,表示此动物没发病,B表示此动物接种疫苗,定义事件A的优势R1=,在事件B发生的条件下A的优势R2=,利用抽样的样本数据,求的估计值.(3)若把上表中的频率视作概率,现从该地区没发病的动物中抽取3只动物,记抽取的3只动物中接种疫苗的只数为X,求随机变量X的分布列、数学期望.附:χ2=,其中n=a+b+c+d.α 0.050 0.010 0.001xα 3.841 6.635 10.828课后限时练10(B)1.解:(1)根据散点图判断,看出样本点分布在一条指数函数图象的周围,所以y=c1适宜作为y与x之间的回归方程模型.令z=ln y,则x+ln c1,则,ln c1=×36=1.4,所以x+1.4,所以y关于x的非线性经验回归方程为.(2)由题意,设随机挑选一批,取出两个鱼卵,其中“死卵”个数为ξ,则ξ的所有可能取值为0,1,2,设事件Ai=“所取两个鱼卵来自第i批”(i=1,2),所以P(A1)=P(A2)=,设事件Bj=“所取两个鱼卵有j个‘死卵’(j=0,1,2)”,由全概率公式P(ξ=0)=P(B0|A1)P(A1)+P(B0|A2)·P(A2)=,P(ξ=1)=P(B1|A1)P(A1)+P(B1|A2)·P(A2)=,P(ξ=2)=P(B2|A1)P(A1)+P(B2|A2)·P(A2)=.所以取出“死卵”个数的分布列为ξ 0 1 2P所以E(ξ)=0×.所以取出“死卵”个数的均值为.2.解:(1)零假设为H0:接种该疫苗与预防该疾病无关,则χ2=≈11.538>10.828,所以依据小概率值α=0.001的独立性检验,我们推断H0不成立,即认为接种该疫苗与预防该疾病有关,此推断犯错误的概率不大于0.001.(2)法一:由于1-P(A|B)=1-=P(|B),所以R2=,R1=,所以,由列联表中的数据可得P(B|A)=,P(B|)=,所以.法二:R1=,R2=,所以.(3)由题可知,抽取的24只没发病的动物中接种疫苗和没接种疫苗的动物分别为18只和6只,所以从没发病的动物中随机抽取1只,抽取的是接种了疫苗的动物的概率为,则由题意可知X=0,1,2,3,且X~B,所以P(X=0)=,P(X=1)=,P(X=2)=,P(X=3)=.所以随机变量X的分布列为X 0 1 2 3P所以E(X)=3×.1/2课时10 统计与成对数据的统计分析[备考指南] 样本的数字特征的计算及统计图表的分析一般以客观题为主;变量的相关性及回归分析、独立性检验问题常与函数、概率等综合命题.备考中务必注意独立性检验的原理,加强知识间的内在联系,凸显数据分析的重要性.命题点1 统计图表与数字特征【典例1】 (1)(2025·湖北武汉二模)某批产品检验后的评分,由统计结果制成如图所示的频率分布直方图,下列说法中正确的是( )A.a=0.05B.评分的众数估值为70C.评分的第25百分位数估值为67.5 D.评分的平均数估值为76(2)(多选)(2025·湖南长沙模拟)如图为2024年中国大学生使用APP偏好及目的统计图,根据统计图,下列关于2024年中国大学生使用APP的结论正确的是( )A.超过的大学生更爱使用购物类APPB.超过半数的大学生使用APP是为了学习与生活需要C.使用APP偏好情况中7个占比数字的极差是23%D.APP使用目的中6个占比数字的40%分位数是34.3%[听课记录] 反思领悟 总体估计的方法(1)统计量法:①若数据已知,常借助=,s2=(xi-)2.②若数据未知,以频率分布直方图的形式给出,则应明确频率分布直方图中各统计量的求法.(2)图表分析法:若要根据图表比较样本数据的大小,则可根据数据分布情况直观分析,大致判断平均数的范围,并依据数据的波动情况比较方差(标准差)的大小.1.(2025·浙江温州二模)某班级有30名男生和20名女生,现调查学生周末在家学习时长(单位:小时),得到男生样本数据的平均值为8,方差为2,女生样本数据的平均值为10.5,方差为0.75,则该班级全体学生周末在家学习时长的平均值和方差s2的值分别是( )A.9.5,1.5 B.9,1.5C.9.5,3 D.9,32.(多选)[教材母题改编]已知数据x1,x2,…,x6的平均数为10,方差为1,且yi=2xi+4(i=1,2,…,6),则下列说法正确的是( )A.数据y1,y2,…,y6的方差为4B.数据x1,x2,…,x6,y1,y2,…,y6的平均数为17C.数据x1,x2,…,x6,10的平均数为10,方差大于1D.若数据x1,x2,…,x6的中位数为m,75%分位数为n,则m命题点2 变量的相关性及回归分析【典例2】 (2025·湖南长沙模拟)某公司生产电动车,年广告费xi(单位:百万元)和年销售量yi(单位:百万辆)关系如图所示,令vi=ln xi(i=1,2,…,5),数据经过初步处理得:yi vi (xi -)2 (yi -)2 (vi -)2 (xi-)· (yi-) (yi- )(vi-)44 4.8 10 40.3 1.608 19.5 8.04现有①y=bx+a和②y=n ln x+m两种方案作为年销售量y关于年广告费x的回归分析模型,其中a,b,m,n均为常数.(1)请从样本相关系数的角度分析哪一个模型拟合程度更好;(精确到小数点后两位)(2)根据(1)的分析选取拟合程度更好的回归分析模型及表中数据,求出y关于x的回归方程,并预测年广告费为6百万元时,产品的年销售量是多少;(3)该公司生产的电动车毛利润为每辆200元(不含广告费、研发经费).该公司在加大广告投入的同时也加大研发经费的投入,年研发经费为年广告费的199倍.电动车的年净利润除了受年广告费和年研发经费影响外还受随机变量ξ影响,设随机变量ξ服从正态分布N(600,σ2),且满足P(ξ>800)=0.3.在(2)的条件下,求该公司年净利润的最大值大于1 000百万元的概率.(年净利润=毛利润×年销售量-年广告费-年研发经费-随机变量).附:①样本相关系数r=,经验回归方程=+x中,=,=-.②参考数据:≈8.05,≈20.1,ln 5≈1.6,ln 6≈1.8.[听课记录] 反思领悟 进行回归分析的一般思路(1)定关系:依据样本数据散点图或样本相关系数r,确定两个变量是否具有较强的相关关系.(2)算各值:分别计算xiyi的值.(3)求系数:求出,.其中b==.(4)写方程:=x+.(5)作预测:依据经验回归方程给出预测值.提醒:非线性回归分析可借助代数换元转化为线性回归分析.(多选)(2025·广东深圳一模)一组样本数据(xi,yi),i∈{1,2,3,…,100}.其中xi>1 895,xi=2×105,yi=970,求得其经验回归方程为=-0.02x+1,残差为i.对样本数据进行处理:x′i=ln (xi-1 895),得到新的数据(x′i,yi),求得其经验回归方程为y=-0.42x+2,其残差为 i.i,i分布如图所示,且~N(0,),~N(0,),则( )A.样本(xi,yi)负相关B.1=49.7C.D.处理后的决定系数变大命题点3 独立性检验【典例3】 某学校为了提高学生的身体素质,举行了跑步竞赛活动,活动分为长跑、短跑两类项目,且该班级所有同学均参加活动,每位同学选择一项活动参加.若采用分层随机抽样按性别从该班级中抽取6名同学,其中有男同学4名,女同学2名.类别 长跑 短跑男同学 30 10女同学 a 10(1)求a的值以及该班同学选择长跑的概率;(2)依据小概率值α=0.01的独立性检验,能否推断选择跑步项目的类别与学生性别有关?附:χ2=,其中n=a+b+c+d.α 0.05 0.01 0.001xα 3.841 6.635 10.828[听课记录] 反思领悟 独立性检验的一般步骤(1)根据样本数据完成2×2列联表;(2)根据公式χ2=,n=a+b+c+d,计算χ2的值;(3)查表比较χ2与临界值的大小关系,作统计判断.提醒:(1)χ2越大,两分类变量无关的可能性越小,推断犯错误的概率越小.(2)在犯错误的概率不超过0.01的前提下认为两个变量有关,并不是指两个变量无关的可能性为0.01.1.(多选)暑假结束后,为了解假期中学生锻炼身体情况,学生处对所有在校学生做问卷调查,并随机抽取了180人的调查问卷,其中男生比女生少20人,并将调查结果绘制得到等高堆积条形图.在被调查者中,下列说法正确的是( )A.男生中不经常锻炼的人数比女生中经常锻炼的人数多B.男生中经常锻炼的人数比女生中经常锻炼的人多8人C.经常锻炼者中男生的频率是不经常锻炼者中男生的频率的1.6倍左右D.根据小概率值α=0.01的独立性检验,可以认为假期是否经常锻炼与性别有关2.为研究近视是否与户外活动时长有关,某学校数学兴趣小组采用简单随机抽样的方法调查了六年级的100名学生,其中有55名同学的户外活动时间超过2小时;100名同学中近视的学生有60人,这60人中每天户外活动时间不足2小时的有35人.(1)根据所给数据,得到样本数据的分类统计结果,完成以下列联表,依据小概率值α=0.005的独立性检验,分析学生患近视与户外活动时间长短是否有关.单位:人户外活动时间 近视情况 合计近视人数 未近视人数不足2小时 35超过2小时 55合计 60(2)用频率估计概率,从已经近视的学生中采用随机抽样的方式选出1名学生,利用“物理+药物”治疗方案对该学生进行治疗.已知“物理+药物”治疗方案的治愈数据如下:在已近视的学生中,对每天户外活动时间超过2小时的学生的治愈率为,对每天户外活动时间不足2小时的治愈率为,求该近视学生被治愈的概率. 课时10 统计与成对数据的统计分析典例1 (1)C (2)AC [(1)由题意,10(2a+3a+4a+5a+6a)=1,解得a=0.005,故A错误;平均数为0.1×55+0.15×95+0.2×65+0.25×85+0.3×75=76.5,故D错误;众数为=75,故B错误;因为0.1+0.2=0.3,所以第25百分位数估计为60+10×=67.5,故C正确.故选C.(2)对于选项A,根据统计图知,偏好使用购物类APP的大学生占比为25.7%,所以选项A正确;对于选项B,根据统计图知,大学生使用APP是为了学习与生活需要的占比为34.3%+14.0%=48.3%,所以选项B错误;对于选项C,根据统计图知,使用APP偏好情况中7个占比数字的极差是25.7%-2.7%=23%,所以选项C正确;对于选项D,根据统计图知,APP使用目的中6个占比数字从小排到大分别为0.6%,8.4%,14.0%,16.3%,26.4%,34.3%,又6×40%=2.4,所以40%分位数是14.0%,故选项D错误.故选AC.]考教衔接1.D [=9,s2=×[2+(9-8)2]+×[0.75+(9-10.5)2]=3.故选D.]2.AB [对于A,数据y1,y2,…,y6的方差为22×1=4,A选项正确;对于B,数据x1,x2,…,x6,y1,y2,…,y6的平均数为=17,B选项正确;对于C,数据x1,x2,…,x6,10的平均数为=10,方差为[(x1-10)2+(x2-10)2+…+(x6-10)2+(10-10)2]=<1,C选项错误;对于D,若取数据9,9,10,10,10,12,平均数为10,方差为1,则中位数为m==10,因为6×0.75=4.5,所以75%分位数n=10,所以m=n,D选项错误.故选AB.]典例2 解:(1)设模型①和②的样本相关系数分别为r1,r2.由题意可得r1=≈0.97,r2==≈1.00.所以|r1|<|r2|,由样本相关系数的相关性质可得,模型②的拟合程度更好.(2)因为=5,又由vi=0.96,yi=8.8,得m==8.8-0.96×5=4,所以=5v+4,即非线性经验回归方程为=5ln x+4.当x=6时,=5ln 6+4≈13,因此当年广告费为6百万元时,预测产品的年销售量大概是13百万辆.(3)净利润为200×(5ln x+4)-200x-ξ,x>0,令g(x)=200×(5ln x+4)-200x-ξ,x>0,所以g'(x)=-200.可得y=g(x)在(0,5)内单调递增,在(5,+∞)上单调递减.所以g(x)max=g(5)=200×(5ln 5+4-5)-ξ≈1 400-ξ,由题意得1 400-ξ>1 000,即ξ<400,P(ξ<400)=P(ξ>800)=0.3,即该公司年净利润的最大值大于1 000百万元的概率为0.3.考教衔接 ABD [对于A,经验回归方程中-0.02<0,则样本(xi,yi)负相关,A正确;对于B,原样本均值=2×103,=9.7,由=9.7+0.02×2×103=49.7,B正确;对于C,由题图1的数据波动较大可得,C错误;对于D,由题图1的残差平方和比题图2的残差平方和大知,处理后拟合效果更好,决定系数变大,D正确.故选ABD.]典例3 解:(1)因为采用分层随机抽样按性别从该班级中抽取6名同学,其中有男同学4名,女同学2名,所以男、女同学的比例为2∶1,则=2,故a=10,所以该班同学选择长跑的概率为.(2)依题意,得到2×2列联表,如下,单位: 人性别 项目 合计长跑 短跑男 30 10 40女 10 10 20合计 40 20 60零假设为H0:选择跑步项目的类别与学生性别无关,χ2==3.75<6.635=x0.01,依据小概率值α=0.01的独立性检验,没有充分证据推断H0不成立,因此可以认为H0成立,即认为选择跑步项目的类别与学生性别无关.考教衔接1.BCD [设男生人数为x,则女生人数为x+20,由题得x+x+20=180,解得x=80,即在被调查者中,男、女生人数分别为80,100,可得到如下2×2列联表,单位:人性别 锻炼情况 合计经常锻炼 不经常锻炼男 48 32 80女 40 60 100合计 88 92 180由表可知,A显然错误;男生中经常锻炼的人数比女生中经常锻炼的人数多48-40=8,B正确;在经常锻炼者中男生的频率为≈1.6,C正确;零假设为H0:假期是否经常锻炼与性别无关,则χ2=≈7.115>6.635=x0.01,根据小概率值α=0.01的独立性检验,我们推断H0不成立,即认为假期是否经常锻炼与性别有关,此推断犯错误概率不大于0.01,D正确.故选BCD.]2.解:(1)列联表如下:单位:人户外活 动时间 近视情况 合计近视人数 未近视人数不足 2小时 35 10 45超过 2小时 25 30 55合计 60 40 100零假设为H0:学生患近视与户外活动时间长短无关.根据列联表中的数据,经计算得到χ2=≈10.774>7.879=x0.005,根据小概率值α=0.005的独立性检验,我们推断H0不成立,即认为学生患近视与户外活动时间长短有关联,此推断犯错误的概率不大于0.005.(2)设事件A=“使用‘物理+药物’治疗方案并且治愈”,事件B1=“该近视同学每天户外活动时间超过2小时”,B2=“该近视同学每天户外活动时间不足2小时”,则P(B1)=,P(B2)=,且P(A|B1)=,P(A|B2)=,则P(A)=P(B1)P(A|B1)+P(B2)P(A|B2)=,所以该近视学生使用“物理+药物”治疗方案被治愈的概率为.1/4(共100张PPT)专题三 概率与统计课时10 统计与成对数据的统计分析[备考指南] 样本的数字特征的计算及统计图表的分析一般以客观题为主;变量的相关性及回归分析、独立性检验问题常与函数、概率等综合命题.备考中务必注意独立性检验的原理,加强知识间的内在联系,凸显数据分析的重要性.命题点1 统计图表与数字特征【典例1】 (1)(2025·湖北武汉二模)某批产品检验后的评分,由统计结果制成如图所示的频率分布直方图,下列说法中正确的是( )A.a=0.05B.评分的众数估值为70C.评分的第25百分位数估值为67.5 D.评分的平均数估值为76√(2)(多选)(2025·湖南长沙模拟)如图为2024年中国大学生使用APP偏好及目的统计图,根据统计图,下列关于2024年中国大学生使用APP的结论正确的是( )A.超过的大学生更爱使用购物类APPB.超过半数的大学生使用APP是为了学习与生活需要C.使用APP偏好情况中7个占比数字的极差是23%D.APP使用目的中6个占比数字的40%分位数是34.3%√√(1)C (2)AC [(1)由题意,10(2a+3a+4a+5a+6a)=1,解得a=0.005,故A错误;平均数为0.1×55+0.15×95+0.2×65+0.25×85+0.3×75=76.5,故D错误;众数为=75,故B错误;因为0.1+0.2=0.3,所以第25百分位数估计为60+10×=67.5,故C正确.故选C.(2)对于选项A,根据统计图知,偏好使用购物类APP的大学生占比为25.7%,所以选项A正确;对于选项B,根据统计图知,大学生使用APP是为了学习与生活需要的占比为34.3%+14.0%=48.3%,所以选项B错误;对于选项C,根据统计图知,使用APP偏好情况中7个占比数字的极差是25.7%-2.7%=23%,所以选项C正确;对于选项D,根据统计图知,APP使用目的中6个占比数字从小排到大分别为0.6%,8.4%,14.0%,16.3%,26.4%,34.3%,又6×40%=2.4,所以40%分位数是14.0%,故选项D错误.故选AC.]反思领悟 总体估计的方法(1)统计量法:①若数据已知,常借助=)2.②若数据未知,以频率分布直方图的形式给出,则应明确频率分布直方图中各统计量的求法.(2)图表分析法:若要根据图表比较样本数据的大小,则可根据数据分布情况直观分析,大致判断平均数的范围,并依据数据的波动情况比较方差(标准差)的大小.1.(2025·浙江温州二模)某班级有30名男生和20名女生,现调查学生周末在家学习时长(单位:小时),得到男生样本数据的平均值为8,方差为2,女生样本数据的平均值为10.5,方差为0.75,则该班级全体学生周末在家学习时长的平均值和方差s2的值分别是( )A.9.5,1.5 B.9,1.5C.9.5,3 D.9,3√D [=×8+==9,s2=×[2+(9-8)2]+×[0.75+(9-10.5)2]=3.故选D.]2.(多选)[教材母题改编]已知数据x1,x2,…,x6的平均数为10,方差为1,且yi=2xi+4(i=1,2,…,6),则下列说法正确的是( )A.数据y1,y2,…,y6的方差为4B.数据x1,x2,…,x6,y1,y2,…,y6的平均数为17C.数据x1,x2,…,x6,10的平均数为10,方差大于1D.若数据x1,x2,…,x6的中位数为m,75%分位数为n,则m√√AB [对于A,数据y1,y2,…,y6的方差为22×1=4,A选项正确;对于B,数据x1,x2,…,x6,y1,y2,…,y6的平均数为==17,B选项正确;对于C,数据x1,x2,…,x6,10的平均数为==10,方差为[(x1-10)2+(x2-10)2+…+(x6-10)2+(10-10)2]==<1,C选项错误;对于D,若取数据9,9,10,10,10,12,平均数为10,方差为1,则中位数为m==10,因为6×0.75=4.5,所以75%分位数n=10,所以m=n,D选项错误.故选AB.]【教用·备选题】《中华人民共和国爱国主义教育法》已于2024年1月1日起施行.该法以法治方式推动和保障新时代爱国主义教育,对于传承和弘扬民族精神,凝聚力量,推进强国建设、民族复兴,意义重大而深远.某社区为了了解社区居民对《中华人民共和国爱国主义教育法》的了解,针对社区居民举办了一次关于《中华人民共和国爱国主义教育法》的知识竞赛,满分100分(95分及以上为优秀),结果优秀的有20人,按年龄分成5组,其中第一组:[20,25),第二组:[25,30),第三组:[30,35),第四组:[35,40),第五组:[40,45],得到如图所示的频率分布直方图.(1)根据频率分布直方图,估计这20人的年龄的第74百分位数;(2)在第四组和第五组中随机抽取3人,记这3人中年龄在第四组中的人数为X,求X的分布列和数学期望;(3)若第二组社区居民的年龄的平均数与方差分别为26和2,第三组社区居民的年龄的平均数与方差分别为32.5和3.75,求这20人中年龄在区间[25,35)上的所有人的年龄的方差.[解] (1)由于5×0.01+5×0.07+5×0.06=0.7<0.74,5×0.01+5×0.07+5×0.06+5×0.04=0.9>0.74,所以这20人的年龄的第74百分位数为35+=36.(2)由频率分布直方图可知,第四组的人数为20×0.04×5=4,第五组的人数为20×0.02×5=2,随机变量X的取值为1,2,3.则P(X=1)==,P(X=2)==,(X=3)==.随机变量X的分布列为X 1 2 3P所以E(X)=1×+2×+3×=2.(3)由频率分布直方图得第二组和第三组分别有7人和6人,设第二组、第三组的社区居民的年龄的平均数分别为,方差分别为,则=26,===3.75,设第二组和第三组所有社区居民的年龄平均数为,方差为s2,则===29,s2=+()2]}={7×[2+(26-29)2]+6×[3.75+(32.5-29)2]}=,因此,这20人中年龄在区间[25,35)上的所有人的年龄的方差为.命题点2 变量的相关性及回归分析【典例2】 (2025·湖南长沙模拟)某公司生产电动车,年广告费xi(单位:百万元)和年销售量yi(单位:百万辆)关系如图所示,令vi=ln xi(i=1,2,…,5),数据经过初步处理得:现有①y=bx+a和②y=n ln x+m两种方案作为年销售量y关于年广告费x的回归分析模型,其中a,b,m,n均为常数.(1)请从样本相关系数的角度分析哪一个模型拟合程度更好;(精确到小数点后两位)yi vi (xi -)2 (yi -)2 (vi -)2 (xi-)· (yi-) (yi-)(vi-)44 4.8 10 40.3 1.608 19.5 8.04(2)根据(1)的分析选取拟合程度更好的回归分析模型及表中数据,求出y关于x的回归方程,并预测年广告费为6百万元时,产品的年销售量是多少;(3)该公司生产的电动车毛利润为每辆200元(不含广告费、研发经费).该公司在加大广告投入的同时也加大研发经费的投入,年研发经费为年广告费的199倍.电动车的年净利润除了受年广告费和年研发经费影响外还受随机变量ξ影响,设随机变量ξ服从正态分布N(600,σ2),且满足P(ξ>800)=0.3.在(2)的条件下,求该公司年净利润的最大值大于1 000百万元的概率.(年净利润=毛利润×年销售量-年广告费-年研发经费-随机变量).附:①样本相关系数r=,经验回归方程=+x中,=,=-.②参考数据:≈8.05,≈20.1,ln 5≈1.6,ln 6≈1.8.[解] (1)设模型①和②的样本相关系数分别为r1,r2.由题意可得r1==≈≈0.97,r2==≈≈1.00.所以|r1|<|r2|,由样本相关系数的相关性质可得,模型②的拟合程度更好.(2)因为===5,又由=yi=8.8,得m==8.8-0.96×5=4,所以=5v+4,即非线性经验回归方程为=5ln x+4.当x=6时,=5ln 6+4≈13,因此当年广告费为6百万元时,预测产品的年销售量大概是13百万辆.(3)净利润为200×(5ln x+4)-200x-ξ,x>0,令g(x)=200×(5ln x+4)-200x-ξ,x>0,所以g′(x)=-200.可得y=g(x)在(0,5)内单调递增,在(5,+∞)上单调递减.所以g(x)max=g(5)=200×(5ln 5+4-5)-ξ≈1 400-ξ,由题意得1 400-ξ>1 000,即ξ<400,P(ξ<400)=P(ξ>800)=0.3,即该公司年净利润的最大值大于1 000百万元的概率为0.3.反思领悟 进行回归分析的一般思路(1)定关系:依据样本数据散点图或样本相关系数r,确定两个变量是否具有较强的相关关系.(2)算各值:分别计算xiyi的值.(3)求系数:求出,.其中==.(4)写方程:=x+.(5)作预测:依据经验回归方程给出预测值.提醒:非线性回归分析可借助代数换元转化为线性回归分析.(多选)(2025·广东深圳一模)一组样本数据(xi,yi),i∈{1,2,3,…,100}.其中xi>1 895,xi=2×105,yi=970,求得其经验回归方程为=-0.02x+1,残差为i.对样本数据进行处理:x′i=ln (xi-1 895),得到新的数据(x′i,yi),求得其经验回归方程为y=-0.42x+2,其残差为i.i,i分布如图所示,且~N(0,),~N(0,),则( )A.样本(xi,yi)负相关B.1=49.7C.D.处理后的决定系数变大√√√ABD [对于A,经验回归方程=-0.02x+1中-0.02<0,则样本(xi,yi)负相关,A正确;对于B,原样本均值=2×103,+1,得1=9.7+0.02×2×103=49.7,B正确;对于C,由题图1的数据波动较大可得μi比ei更集中,则,C错误;对于D,由题图1的残差平方和比题图2的残差平方和大知,处理后拟合效果更好,决定系数变大,D正确.故选ABD.]【教用·备选题】1.(2023·天津高考)调查某种群花萼长度和花瓣长度,所得数据如图所示,其中样本相关系数r=0.824 5,下列说法正确的是( )A.花瓣长度和花萼长度没有相关性B.花瓣长度和花萼长度呈现负相关 C.花瓣长度和花萼长度呈现正相关 D.若从样本中抽取一部分,则这部分的样本相关系数一定是0.824 5√C [∵样本相关系数r=0.824 5,且散点图呈左下角到右上角的带状分布,∴花瓣长度和花萼长度呈正相关.若从样本中抽取一部分,则这部分的样本相关系数不一定是0.824 5.故选C.]2.移动物联网广泛应用于生产制造、公共服务、个人消费等领域.截至2022年年底,我国移动物联网连接数达18.45亿户,成为全球主要经济体中首个实现“物超人”的国家.如图是2018-2022年移动物联网连接数w(单位:亿户)与年份代码t的散点图,其中年份2018~2022对应的t分别为1~5.(1)根据散点图推断两个变量是否线性相关,计算样本相关系数(精确到0.01),并推断它们的相关程度.(2)①假设变量x与变量Y的n对观测数据为(x1,y1),(x2,y2),…,(xn,yn),两个变量满足一元线性回归模型(随机误差ei=yi-bxi).请推导:当随机误差平方和Q=取得最小值时,参数b的最小二乘估计;②令变量x=t-,y=w-,则变量x与变量Y满足一元线性回归模型 利用①中结论求y关于x的经验回归方程,并预测2026年移动物联网连接数.附:样本相关系数r=,=76.9,=27.2,wi=60.8,≈27.7.[解] (1)由散点图可以看出样本点都集中在一条直线附近,由此推断两个变量线性相关.因为=(1+2+3+4+5)=3,所以(ti-)2=(1-3)2+(2-3)2+(3-3)2+(4-3)2+(5-3)2=10,所以r===≈≈0.98,所以这两个变量正线性相关,且相关程度很强.(2)①Q====b2-2bxiyi+,要使Q取得最小值,当且仅当b=.②由①知b====2.72,所以y关于x的经验回归方程为=2.72x,又===12.16,所以当t=9时,x=9-3=6,w=y+=2.72×6+12.16=28.48,所以预测2026年移动物联网连接数为28.48亿户.3.为了加快实现我国高水平科技自立自强,某科技公司逐年增加高科技研发投入.如图1是该公司2013年至2022年的年份代码x和年研发投入y(单位:亿元)的散点图,其中年份代码1~10分别对应年份2013~2022.根据散点图,分别用模型①y=bx+a,②y=c+d作为年研发投入y(单位:亿元)关于年份代码x的回归分析模型,并进行残差分析,得到如图2所示的残差图.结合数据,计算得到如下表所示的一些统计量的值:(xi -)2 (ti -)2 (yi-)· (xi-) (yi-)·(ti-)75 2.25 82.5 4.5 120 28.35表中ti==ti.(1)根据残差图,判断模型①和模型②哪一个更适宜作为年研发投入y(单位:亿元)关于年份代码x的回归分析模型?并说明理由.(2)(ⅰ)根据(1)中所选模型,求出y关于x的回归方程;(ⅱ)设该科技公司的年利润L(单位:亿元)和年研发投入y(单位:亿元)满足L=(111.225-y)(x∈N*且x∈),问该科技公司哪一年的年利润最大?附:对于一组数据(x1,y1),(x2,y2),…,(xn,yn),其经验回归直线=+x的斜率和截距的最小二乘估计分别为=,=-.[解] (1)根据题图2可知,模型①的残差波动性很大,说明拟合效果较差;模型②的残差波动性很小,基本分布在0的附近,说明拟合效果很好,所以选择模型②更适合.(2)(ⅰ)由题意得,t=,所以y=c+dt,所以d==75-6.3×2.25=60.825,所以y关于x的非线性经验回归方程为=60.825+6.3.(ⅱ)由题设可得L=(111.225-y)=(111.225-6.3-60.825)=-6.3x+50.4,当==4,即x=16时,年利润L有最大值,故该公司2028年的年利润最大.命题点3 独立性检验【典例3】 某学校为了提高学生的身体素质,举行了跑步竞赛活动,活动分为长跑、短跑两类项目,且该班级所有同学均参加活动,每位同学选择一项活动参加.若采用分层随机抽样按性别从该班级中抽取6名同学,其中有男同学4名,女同学2名.类别 长跑 短跑男同学 30 10女同学 a 10(1)求a的值以及该班同学选择长跑的概率;(2)依据小概率值α=0.01的独立性检验,能否推断选择跑步项目的类别与学生性别有关?附:χ2=,其中n=a+b+c+d.α 0.05 0.01 0.001xα 3.841 6.635 10.828[解] (1)因为采用分层随机抽样按性别从该班级中抽取6名同学,其中有男同学4名,女同学2名,所以男、女同学的比例为2∶1,则=2,故a=10,所以该班同学选择长跑的概率为=.(2)依题意,得到2×2列联表,如下,单位:人性别 项目 合计长跑 短跑男 30 10 40女 10 10 20合计 40 20 60零假设为H0:选择跑步项目的类别与学生性别无关,χ2==3.75<6.635=x0.01,依据小概率值α=0.01的独立性检验,没有充分证据推断H0不成立,因此可以认为H0成立,即认为选择跑步项目的类别与学生性别无关.反思领悟 独立性检验的一般步骤(1)根据样本数据完成2×2列联表;(2)根据公式χ2=,n=a+b+c+d,计算χ2的值;(3)查表比较χ2与临界值的大小关系,作统计判断.提醒:(1)χ2越大,两分类变量无关的可能性越小,推断犯错误的概率越小.(2)在犯错误的概率不超过0.01的前提下认为两个变量有关,并不是指两个变量无关的可能性为0.01.1.(多选)暑假结束后,为了解假期中学生锻炼身体情况,学生处对所有在校学生做问卷调查,并随机抽取了180人的调查问卷,其中男生比女生少20人,并将调查结果绘制得到等高堆积条形图.在被调查者中,下列说法正确的是( )A.男生中不经常锻炼的人数比女生中经常锻炼的人数多B.男生中经常锻炼的人数比女生中经常锻炼的人多8人C.经常锻炼者中男生的频率是不经常锻炼者中男生的频率的1.6倍左右D.根据小概率值α=0.01的独立性检验,可以认为假期是否经常锻炼与性别有关√√√BCD [设男生人数为x,则女生人数为x+20,由题得x+x+20=180,解得x=80,即在被调查者中,男、女生人数分别为80,100,可得到如下2×2列联表,单位:人性别 锻炼情况 合计经常锻炼 不经常锻炼男 48 32 80女 40 60 100合计 88 92 180由表可知,A显然错误;男生中经常锻炼的人数比女生中经常锻炼的人数多48-40=8,B正确;在经常锻炼者中男生的频率为,在不经常锻炼者中男生的频率为≈1.6,C正确;零假设为H0:假期是否经常锻炼与性别无关,则χ2=≈7.115>6.635=x0.01,根据小概率值α=0.01的独立性检验,我们推断H0不成立,即认为假期是否经常锻炼与性别有关,此推断犯错误概率不大于0.01,D正确.故选BCD.]2.为研究近视是否与户外活动时长有关,某学校数学兴趣小组采用简单随机抽样的方法调查了六年级的100名学生,其中有55名同学的户外活动时间超过2小时;100名同学中近视的学生有60人,这60人中每天户外活动时间不足2小时的有35人.(1)根据所给数据,得到样本数据的分类统计结果,完成以下列联表,依据小概率值α=0.005的独立性检验,分析学生患近视与户外活动时间长短是否有关.单位:人户外活动时间 近视情况 合计近视人数 未近视人数不足2小时 35 超过2小时 55合计 60 (2)用频率估计概率,从已经近视的学生中采用随机抽样的方式选出1名学生,利用“物理+药物”治疗方案对该学生进行治疗.已知“物理+药物”治疗方案的治愈数据如下:在已近视的学生中,对每天户外活动时间超过2小时的学生的治愈率为,对每天户外活动时间不足2小时的治愈率为,求该近视学生被治愈的概率.[解] (1)列联表如下:单位:人户外活动时间 近视情况 合计近视人数 未近视人数不足2小时 35 10 45超过2小时 25 30 55合计 60 40 100零假设为H0:学生患近视与户外活动时间长短无关.根据列联表中的数据,经计算得到χ2==≈10.774>7.879=x0.005,根据小概率值α=0.005的独立性检验,我们推断H0不成立,即认为学生患近视与户外活动时间长短有关联,此推断犯错误的概率不大于0.005.(2)设事件A=“使用‘物理+药物’治疗方案并且治愈”,事件B1=“该近视同学每天户外活动时间超过2小时”,B2=“该近视同学每天户外活动时间不足2小时”,则P(B1)==,P(B2)==,且P(A|B1)=,P(A|B2)=,则P(A)=P(B1)P(A|B1)+P(B2)P(A|B2)==,所以该近视学生使用“物理+药物”治疗方案被治愈的概率为.【教用·备选题】为了有效预防流感,很多民众注射了流感疫苗.某市防疫部门从辖区居民中随机抽取了1 000人进行调查,发现其中注射疫苗的800人中有220人感染流感,另外没注射疫苗的200人中有80人感染流感.医学研究表明,流感的检测结果有错检的可能,已知患有流感的人其检测结果有95%呈阳性(感染),而没有患流感的人其检测结果有99%呈阴性(未感染).(1)估计该市流感感染率;(2)根据小概率值α=0.001的独立性检验,能否认为注射流感疫苗与预防流感有关?(3)已知某人的流感检测结果呈阳性,求此人真的患有流感的概率.(精确到0.001)附:χ2=,α 0.1 0.05 0.01 0.005 0.001xα 2.706 3.841 6.635 7.879 10.828[解] (1)估计该市流感的感染率P==0.3.(2)零假设为H0:注射流感疫苗与预防流感无关.由题意,得2×2列联表如下:单位:人疫苗情况 患流感情况 合计患有流感 没有患流感注射疫苗 220 580 800没注射疫苗 80 120 200合计 300 700 1 000根据列联表,χ2==≈11.905.因为11.905>10.828=x0.001,根据小概率值α=0.001的独立性检验,我们推断H0不成立,即认为注射流感疫苗与预防流感有关,此推断犯错误的概率不超过0.001.(3)设事件A为“一次检测结果呈阳性”,事件B为“被检测者确实患有流感”,由题意得P(B)=0.3,P()=0.01,P(AB)=P(B)·P(A|B)=0.3×0.95=0.285,由全概率公式得P(A)=P(B)·P(A|B)+P()·P(A|)=0.3×0.95+0.7×0.01=0.292,所以P(B|A)==≈0.976,所以此人真的患有流感的概率是0.976.课后限时练10 统计与成对数据的统计分析(A)题号1352467√1.(多选)(2023·新高考Ⅰ卷)有一组样本数据x1,x2,…,x6,其中x1是最小值,x6是最大值,则( )A.x2,x3,x4,x5的平均数等于x1,x2,…,x6的平均数B.x2,x3,x4,x5的中位数等于x1,x2,…,x6的中位数C.x2,x3,x4,x5的标准差不小于x1,x2,…,x6的标准差D.x2,x3,x4,x5的极差不大于x1,x2,…,x6的极差√题号1352467BD [A选项,x2,x3,x4,x5的平均数不一定等于x1,x2,…,x6的平均数,A错误;B选项,x2,x3,x4,x5的中位数等于x1,x2,…,x6的中位数,B正确;C选项,设样本数据x1,x2,…,x6为0,1,2,8,9,10,可知x1,x2,…,x6的平均数是5,x2,x3,x4,x5的平均数是5,x1,x2,…,x6的方差×[(0-5)2+(1-5)2+(2-5)2+(8-5)2+(9-5)2+(10-5)2]=,x2,x3,x4,x5的方差×[(1-5)2+(2-5)2+(8-5)2+(9-5)2]=,∴s1>s2,C错误;D选项,由题意,x1是最小值,x6是最大值,D正确.故选BD.]题号1352467题号13524672.(2025·陕西汉中二模)为了满足群众健身需求,某健身房近几年陆续购买了几台A型跑步机,该型号跑步机已投入使用的时间x(单位:年)与当年所需要支出的维修费用y(单位:千元)有如下统计资料:x/年 2 3 4 5 6y/千元 2.2 3.8 5.5 6.5 7.0根据表中的数据可得到经验回归方程为y=1.23x+,则( )A.y与x的样本相关系数r<0B.=0.08C.表中维修费用的第60百分位数为6.5D.该型号跑步机已投入使用的时间为10年时,当年所需要支出的维修费用一定是12.38千元√题号1352467题号1352467B [对于A,由y=1.23x+,得y与x正相关,样本相关系数r>0,A错误;对于B,==4,==5,则=5-1.23×4=0.08,B正确;对于C,5×60%=3,因此第60百分位数为=6,C错误;对于D,由选项B知,y=1.23x+0.08,当x=10时,y=12.38,则当年所需要支出的维修费用约为12.38千元,D错误.故选B.]题号13524673.(多选)(2025·山东济南一模)为了验证牛的毛色(黑色、红色)和角(有角、无角)这两对相对性状是否相关,某学院进行了一次数据统计,并根据形成的2×2列联表,计算得到χ2≈2.727,根据小概率值α的独立性检验,则( )附:α 0.100 0.050 0.010xα 2.706 3.841 6.635A.若α=0.100,则认为“毛色”和“角”无关B.若α=0.100,则认为“毛色”和“角”有关,此推断犯错误的概率不超过10%C.若α=0.010,则认为“毛色”和“角”无关D.若α=0.010,则认为“毛色”和“角”有关,此推断犯错误的概率不超过1%√题号1352467√题号1352467BC [对AB,若α=0.100,因为2.706<2.727,则认为“毛色”和“角”有关,此推断犯错误的概率不超过10%,故A 错误,B 正确;对CD,若α=0.010,因为6.635>2.727,则认为“毛色”和“角”无关,故C正确,D错误.故选BC.]4.(多选)(2025·山东青岛模拟)某次物理考试后,为分析学生的学习情况,某校从某年级中随机抽取了100名学生的成绩,整理得到如图所示的频率分布直方图.为进一步分析高分学生的成绩分布情况,计算得到这100名学生中,成绩位于[80,90)内的学生成绩方差为12,成绩位于[90,100]内的同学成绩方差为10,则( )A.a=0.005B.估计该年级成绩在80分及以上的学生成绩的平均数为86.50C.估计该年级学生成绩的中位数约为77.14D.估计该年级成绩在80分及以上的学生成绩的方差为30.25题号1352467√√√题号1352467ACD [对于A选项,在频率分布直方图中,所有直方图的面积之和为1,则(2a+3a+7a+6a+2a)×10=200a=1,解得a=0.005,故A正确;对于B选项,估计成绩在80分以上的同学的成绩的平均数为×85+×95=87.5分,故B错误;对于C选项,前两个矩形的面积之和为(2a+3a)×10=50a=0.25<0.5,前三个矩形的面积之和为(2a+3a+7a)×10=120a=0.6>0.5.设该年级学生成绩的中位数为m,则m∈(70,80),根据中位数的定义可得0.25+(m-70)×0.035=0.5,解得m≈77.14,所以,估计该年级学生成绩的中位数约为77.14,故C正确;对于D选项,估计该年级成绩在80分及以上的学生成绩的方差为[12+(87.5-85)2]+[10+(87.5-95)2]=30.25,故D正确.故选ACD.]题号1352467题号13524675.某中学举行数学解题比赛,其中7人的比赛成绩分别为70,97,85,90,98,73,95,则这7人成绩的上四分位数是________.97 [将7个数据从小到大排列为70,73,85,90,95,97,98,因为7×75%=5.25,所以这7人成绩的上四分位数是97.]97 题号13524676.某校数学建模兴趣小组收集了一组恒温动物体重W(单位:克)与脉搏率f (单位:心跳次数/分钟)的对应数据(Wi,fi)(i=1,2,…,8),根据生物学常识和散点图得出f与W近似满足f=cWk(c,k为参数).令xi=ln Wi,yi=ln fi,计算得=8,=5,=214.由最小二乘法得经验回归方程为=x+7.4,则k的值为________;为判断拟合效果,通过经验回归方程求得预测值i(i=1,2,…,8),若残差平方和(yi-i)2≈0.28,则决定系数R2≈__________.-0.30.98题号1352467-0.3 0.98 [因为f=cWk,两边取对数可得ln f=ln c+kln W,又xi=ln Wi,yi=ln fi,且经验回归直线=x+7.4必过(),所以5=8+7.4,解得=-0.3,所以k=-0.3,R2=1-=1-≈1-=0.98.]题号13524677.(2025·黑龙江哈尔滨模拟)随着冬天的临近,哈尔滨这座冰雪之城,将再次成为旅游的热门目的地.为更好地提升旅游品质,我市文旅局随机选择100名青年游客对哈尔滨出行体验进行满意度评分(满分100分),80分及以上为良好等级,根据评分,制成如图所示的频率分布直方图.(1)根据频率分布直方图,求x的值并估计该评分的上四分位数;(2)若采用按比例分配的分层随机抽样的方法从评分在[70,80),[80,90)的两组中共抽取6人,再从这6人中随机抽取3人进行单独交流,求选取的3人中评分等级为良好的人数X的分布列和数学期望;(3)为进一步了解不同年龄段游客对哈尔滨出行体验的反馈,我市文旅局再次随机选择100名中老年游客进行满意度评分,发现两次调查中评分为良好等级的人数为120人.请根据小概率值α=0.001的独立性检验,分析游客的评分等级是否良好与年龄段(青年或中老年)是否有关.题号1352467附:χ2=,n=a+b+c+d.α 0.05 0.01 0.001xα 3.841 6.635 10.828题号1352467[解] (1)由频率分布直方图可知,0.005×10+0.010×10+0.015×10+10x+0.040×10=1,解得x=0.030.因为[90,100]的频率为10×0.040=0.4>0.25,且[90,100]为最后一组,所以评分的上四分位数位于区间[90,100]中,所以上四分位数为90+×10=93.75.(2)评分在[70,80)与[80,90)两组的频率分别为0.15,0.3,所以[70,80)内抽取人数为6×=2,[80,90)内抽取人数为6×=4,故6人中评分等级为良好的有4人,由题意可知,X的可能取值为1,2,3.P(X=1)==,P(X=2)==,P(X=3)==.题号1352467所以X的分布列为X 1 2 3P数学期望E(X)=1×+2×+3×=2.题号1352467(3)青年游客评分等级良好的有(0.3+0.4)×100=70(人),所以中老年游客评分等级良好的有120-70=50(人),由上可得如下2×2列联表,单位:人评分等级 游客年龄段 合计青年 中老年良好 70 50 120非良好 30 50 80合计 100 100 200题号1352467零假设为H0:游客的评分等级是否良好与年龄段无关,由表中数据可得χ2=≈8.333<10.828=x0.001,根据小概率值α=0.001的独立性检验,可知零假设H0成立,即无法认为游客的评分等级是否良好与年龄段有关.题号13524671.经观测,长江中某鱼类的产卵数y与温度x有关,现将收集到的温度xi和产卵数yi(i=1,2,…,10)的10组观测数据做了初步处理,得到如图所示的散点图及一些统计量表.课后限时练10 统计与成对数据的统计分析(B)xi ti yi zi (xi-)2 (ti-)2 (ti-)(yi-) (xi-)(zi-) (xi-)(yi-)360 54.5 1 360 44 384 3 588 32 6 430表中ti=,zi=ln yi,=zi.(1)根据散点图判断,y=a+bx,y=n+m与y=c1ec2x哪一个适宜作为y与x之间的回归方程模型并求出y关于x的经验回归方程(给出判断即可,不必说明理由);(2)某兴趣小组抽取两批鱼卵,已知第一批中共有6个鱼卵,其中“死卵”有2个;第二批中共有8个鱼卵,其中“死卵”有3个.现随机挑选一批,然后从该批次中随机取出两个鱼卵,求取出“死卵”个数的分布列及均值.附:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其经验回归方程=α+u的斜率和截距的最小二乘估计分别为β=,=-.[解] (1)根据散点图判断,看出样本点分布在一条指数函数图象的周围,所以y=c1ec2x适宜作为y与x之间的回归方程模型.令z=ln y,则=2x+ln c1,则2==×44-×36=1.4,所以=x+1.4,所以y关于x的非线性经验回归方程为==.(2)由题意,设随机挑选一批,取出两个鱼卵,其中“死卵”个数为ξ,则ξ的所有可能取值为0,1,2,设事件Ai=“所取两个鱼卵来自第i批”(i=1,2),所以P(A1)=P(A2)=,设事件Bj=“所取两个鱼卵有j个‘死卵’(j=0,1,2)”,由全概率公式P(ξ=0)=P(B0|A1)P(A1)+P(B0|A2)·P(A2)==,P(ξ=1)=P(B1|A1)P(A1)+P(B1|A2)·P(A2)==,P(ξ=2)=P(B2|A1)P(A1)+P(B2|A2)·P(A2)==.所以取出“死卵”个数的分布列为ξ 0 1 2P所以E(ξ)=0×+1×+2×==.所以取出“死卵”个数的均值为.2.(2025·江西鹰潭一模)接种疫苗是预防传染病最经济、最有效的手段,是预防疾病传播和保护群众的重要措施.为了考查一种新疫苗对预防某一疾病的效果,研究人员对一地区某种动物(数量较大)进行试验,从该试验群中随机抽查了50只,得到如下的样本数据:单位:只是否接种疫苗 是否发病 合计发病 没发病接种疫苗 7 18 25没接种疫苗 19 6 25合计 26 24 50(1)能否在犯错误的概率不超过0.001的前提下,认为接种该疫苗与预防该疾病有关?(2)从该地区此动物群中任取一只,记A表示此动物发病,表示此动物没发病,B表示此动物接种疫苗,定义事件A的优势R1=,在事件B发生的条件下A的优势R2=,利用抽样的样本数据,求的估计值.(3)若把上表中的频率视作概率,现从该地区没发病的动物中抽取3只动物,记抽取的3只动物中接种疫苗的只数为X,求随机变量X的分布列、数学期望.附:χ2=,其中n=a+b+c+d.α 0.050 0.010 0.001xα 3.841 6.635 10.828[解] (1)零假设为H0:接种该疫苗与预防该疾病无关,则χ2=≈11.538>10.828,所以依据小概率值α=0.001的独立性检验,我们推断H0不成立,即认为接种该疫苗与预防该疾病有关,此推断犯错误的概率不大于0.001.(2)法一:由于1-P(A|B)=1-==|B),所以R2==,R1==,所以=====,由列联表中的数据可得P(B|A)=,P(B|)==,所以===.法二:R1=====,R2===,所以==.(3)由题可知,抽取的24只没发病的动物中接种疫苗和没接种疫苗的动物分别为18只和6只,所以从没发病的动物中随机抽取1只,抽取的是接种了疫苗的动物的概率为=,则由题意可知X=0,1,2,3,且X~B,所以P(X=0)==,P(X=1)==,P(X=2)==,P(X=3)==.所以随机变量X的分布列为X 0 1 2 3P所以E(X)=3×=.谢 谢! 展开更多...... 收起↑ 资源列表 专题三 课时10 统计与成对数据的统计分析.docx 专题三 课时10 统计与成对数据的统计分析.pptx 课后限时练10 统计与成对数据的统计分析(A).docx 课后限时练10 统计与成对数据的统计分析(B).docx