2026年高考数学复习知识清单(全国通用)专题01统计与成对数据的统计分析(题型清单)(学生版+解析)

资源下载
  1. 二一教育资源

2026年高考数学复习知识清单(全国通用)专题01统计与成对数据的统计分析(题型清单)(学生版+解析)

资源简介

专题01 统计与成对数据的统计分析
题型1 简单随机抽样
1.简单随机抽样需满足:(1)被抽取的样本总体的个体数有限;(2)逐个抽取;(3)是等可能抽取. 2.简单随机抽样常用抽签法(适用于总体中个体数较少的情况)、随机数法(适用于个体数较多的情况). 注:应用随机数表法的两个关键点 1、确定以表中的哪个数(哪行哪列)为起点,以哪个方向为读数的方向; 2、读数时注意结合编号特点进行读取.若编号为两位数字,则两位两位地读取;若编号为三位数字,则三位三位地读取,有超过总体号码或出现重复号码的数字舍去,这样继续下去,直到获取整个样本.
1.(2025·福建泉州·模拟预测)从一个含有个个体的总体中抽取一容量为的样本,当选取抽签法、随机数法和分层随机抽样三种不同方法时,总体中每个个体被抽中的概率分别为,三者关系可能是( )
A. B. C. D.
2.(2025高一·福建福州·期末)用抽签法从学号为1到50的50名学生(其中含学生李华)中不放回抽取5名学生进行问卷调查,每次抽取一个号码,共抽取5次,设李华第一次被抽到的概率为,第五次被抽到的概率为,则( )
A.a = ,B.a = ,C.a = , D.a = ,
3.(2025高三·辽宁·期末)某厂质检员利用随机数表对生产的600个产品进行抽样调查,先将这600个产品进行编号:001,002,003,…,600.从中抽取120个样本,下图是随机数表的第2行到第3行,若从随机数表的第2行第5列开始从左向右读取数据,则得到的第5个编号是( )
32 12 67 12 31 02 37 02 14 72 31 09 81 47 80 25 13 25 46 08
71 20 34 51 19 72 01 38 47 18 04 92 51 28 02 31 27 46 51 30
A.098 B.147 C.513 D.310
4.(2025·云南贵州·模拟预测)本次月考分答题卡的任务由高三16班完成,现从全班55位学生中利用下面的随机数表抽取10位同学参加,将这55位学生按01、02、、55进行编号,假设从随机数表第1行第2个数字开始由左向右依次选取两个数字,重复的跳过,读到行末则从下一行行首继续,则选出来的第6个号码所对应的学生编号为( )
0627 4313 2432 5327 0941 2512 6317 6323 2616 8045 6011
1410 9577 7424 6762 4281 1457 2042 5332 3732 2707 3607
0140 0523 2617 3726 3890 5124 5179 3014 2310 2118 2191
A.51 B.25 C.32 D.12
题型2 分层随机抽样
分层随机抽样问题的类型及解题思路 (1)求某层应抽个体数量:按该层所占总体的比例计算; (2)已知某层个体数量,求总体容量或反之求解:根据分层随机抽样就是按比例抽样,列比例式进行计算; (3)分层随机抽样的计算应根据抽样比构造方程求解,其中,抽样比==. (4)在分层随机抽样中,如果第一层的样本量为m,平均数为,则样本的平均数为.
5.(2025·山东·模拟预测)某市开展“全民阅读”实施效果的调查研究,按区域划分为核心区、开发区、远郊区,各区的人口比例为.现采用分层抽样的方法从各区中抽取人员进行调研.已知从开发区抽取的人数为300,则从核心区抽取的人数为( )
A.90 B.120 C.180 D.200
6.(2025高三·河北邢台·期末)某校有男生人,女生人,现按性别采用分层抽样的方法从该校学生中抽取人进行调查,则男生被抽取的人数是( )
A. B. C. D.
7.(2025·江西宜春·模拟预测)某地为促进消费,向当地市民随机发放了面值10元、20元、50元的线下消费满减电子券,每位市民可以领取一张,且每笔消费仅能使用一张.某支持使用该消费券的大型商场统计到某日使用了10元、20元、50元消费券的消费账单的数量之比为5∶3∶2,若对这些账单用等比例分层随机抽样的方法进行抽样调查,抽取一个容量为50的样本,则样本中使用了50元消费券的消费账单的份数为( )
A.5 B.10 C.20 D.30
8.(2025·河南驻马店·模拟预测)电影《孤注一掷》的上映引发了电信诈骗问题的热议,也加大了各个社区反电信诈骗的宣传力度.已知某社区共有居民480人,其中老年人200人,中年人200人,青少年80人,若按年龄进行分层随机抽样,共抽取36人作为代表,则中年人比青少年多( )
A.6人 B.9人 C.12人 D.18人
9.(2025·甘肃张掖·模拟预测)某中学从高一学生中抽取了50名男生,50名女生调查高一学生身高的情况.已知所有这100名学生身高的方差为48,其中50名男生身高的平均数为,方差为16,50名女生身高的平均数为,则50名女生身高的方差为( )
A.15 B.24 C.30 D.36
题型3 统计图表
常见统计图表的特点与区别 (1) 扇形图:用于直观描述各类数据占总数的比例,易于显示每组数据相对于总数的大小. (2) 条形图:主要用于直观描述不同类别或分组数据的频数和频率,适用于描述离散型数据. (3) 直方图:主要用于直观描述不同类别或分组数据的频数和频率,直方图适用于描述连续型数据. (4) 折线图:主要用于描述数据随时间的变化趋势.
10.(2025高二·广东阳江·阶段练习)随着生活水平的不断提高,旅游已经成为人们生活的一部分.某地旅游部门从2024年到该地旅游的游客中随机抽取部分游客进行调查,得到各年龄段游客的人数比例和各年龄段中自助游比例,如图所示,则估计2024年到该地旅游的游客中选择自助游的青年人占总游客人数的( )

A.45% B.30% C.13.5% D.13%
11.(2025·宁夏石嘴山·模拟预测)下图1是2020-2024年国内生产总值及其增长速度,图2是2020-2024年三次产业增加值占国内生产总值比重(三次产业包括第一产业,第二产业,第三产业).根据图1,图2,以下描述不正确的是( )
A.2022年第二产业增加值较2021年有所减少
B.2020-2024年国内生产总值呈逐年增长的趋势
C.2022年与2024年国内生产总值的增长速度较上一年有明显回落
D.2020-2024年第三产业增加值占国内生产总值比重的极差为
12.(2025·四川成都·模拟预测)居民消费价格指数(Consumer Price Index,简称CPI),是度量一定时期内居民消费商品和服务价格水平总体变动情况的相对数,综合反映居民消费商品和服务价格水平的变动趋势和变动程度.下图是2024年11月9日国家统计局公布的2024年10月各类商品及服务价格同比和环比涨跌幅情况(同比,环比),下列结论正确的是( )
A.2024年10月份食品烟酒类价格低于2023年10月份食品烟酒类价格
B.2024年10月份教育文化娱乐类价格低于2024年9月份教育文化娱乐类价格
C.2024年9月份医疗保健类价格高于2023年10月份医疗保健类价格
D.2024年9月份居住类价格高于2023年10月份居住类价格
13.(2025·四川德阳·模拟预测)中国人口亿人口中肠胃病患者高达亿,慢性胃炎发病率高达,消化性溃疡病发率也高达,是全世界当之无愧的“胃病大国”.根据随机对名青少年随机抽查,的青少年表示自己患有胃病,的青少年不清楚自己是否患有胃病,只有明确自己没有胃病.肠胃病的严重程度,一般可体现在排便量、排便时长上. 某高中为了了解学生肠胃病占比和严重程度,对年高一高二学生单日单次的排便时长进行了统计(记排便分钟内为正常,排便分钟为轻度肠胃病,排便分钟以上为重度肠胃病),并将结果制成统计图(如图所示),若高一学生人,高二学生人,占比百分数均保留整数,下列说法正确的是( )
A.高二学生的肠胃病人数比高一年级少
B.高一年级的各肠胃病区间人数占比都比高二年级少
C.高一年级重度肠胃病人数占比比高二年级少
D.高一肠胃质量参数比高二高(肠胃质量参数)
14.(2025·湖北孝感·模拟预测)某保险公司销售某种保险产品,根据2023年全年该产品的销售额(单位:万元)和该产品的销售额占全年总销售额的百分比,绘制出如图所示的双层饼图.根据双层饼图,下列说法正确的是( )
A.2023年第四季度的销售额为280万元
B.2023年上半年的总销售额为500万元
C.2023年2月份的销售额为60万元
D.2023年12个月的月销售额的众数为50万元
题型4 频率分布直方图
频率分布直方图的相关结论 (1)频率分布直方图中纵轴表示,故每组样本的频率为组距×,即矩形的面积; (2)频率分布直方图中各小长方形的面积之和为1; (3)频率分布直方图中每组样本的频数为频率×总数.
15.(2025·辽宁·模拟预测)为了了解学校质量监测成绩,现随机抽取该校200名学生的成绩作为样本进行分析,并绘制频率分布直方图,若该频率分布直方图的组距为10,且样本中成绩在区间这一组内的学生有40人,则在频率分布直方图中该组数据对应的矩形高度为( )
A.0.02 B.0.2 C.0.04 D.0.4
16.(25-26高三·河北邢台·阶段练习)从某小区抽取100户居民用户进行月用电量(单位:)调查,将得到的数据按分为6组,画出的频率分布直方图如图所示,则在被调查的用户中,月用电量落在内的户数为( )
A.35 B.40 C.42 D.45
17.(2025·广东深圳·模拟预测)某地区教研机构对该地区模拟考试成绩进行分析,随机抽取了200分到450分之间的1000名学生的成绩,并根据这些学生的成绩画出样本的频率分布直方图,如图所示,则成绩在内的学生人数为( )

A.300 B.400 C.600 D.1200
18.(2025·湖北·模拟预测)某工厂生产了500件产品,质检人员测量其长度 (单位: 厘米),将测量数据分成6组, 整理得到如图所示的频率分布直方图. 如果要让 90% 的产品长度不超过厘米,根据直方图估计,下列最接近的数是( )
A.93.5 B.94.1
C.94.7 D.95.5
19.(2025·陕西渭南·模拟预测)在某次高中数学模拟考试中,对800名考生的考试成绩进行统计,得到如图所示的频率分布直方图,其中分组的区间分别为,,,,,.若考生成绩在内的人数为,考生成绩在内的人数为,则( )
A.20 B.10 C.60 D.40
题型5 总体百分位数的估计
1.求一组n个数据的第p百分位数的步骤 第1步:按从小到大排列原始数据; 第2步:计算i=n×p%; 第3步:若i不是整数,而大于i的比邻整数为j,则第p百分位数为第j项数据;若i是整数,则第p百分位数为第i项与第(i+1)项数据的平均数. 2.由频率分布直方图求第p百分位数的方法 确定要求的p%分位数所在分组[A,B),由频率分布直方图可知,样本中小于A的频率为a,小于B的频率为b,所以p%分位数=A+组距×.
20.(2025·福建漳州·模拟预测)样本数据的下四分位数为( )
A.3 B.3.5 C.10 D.11
21.(2025·河北唐山·模拟预测)数据:1,2,3,4,5,6,7,8,9,10的分位数是(  )
A.2.5 B.3 C.3.5 D.4
22.(2025·山西·模拟预测)某大学科研团队利用自主开发的新型静电电机,成功研制出仅重4.21克的太阳能动力微型无人机,实现纯自然光供能下的持续飞行.为激发同学们对无人机的兴趣,某校无人机兴趣社团在校内进行选拔赛,8名参赛学生的成绩依次为,,,,,,,,则这组数据的上四分位数为( )
A.93 B.92 C.91.5 D.93.5
23.(2025高三·全国·专题练习)由诺贝尔自然科学奖的历史数据表明,交叉学科是自然科技领域的重要发展趋势之一,跨学科研究也成为推动科学进步的关键力量.下图是连续5年我国交叉学科的建设情况统计图,则下列关于这5年我国交叉学科建设情况的说法正确的是( )
A.交叉学科总数的第75百分位数为616
B.交叉学科高校数的平均数为186.8
C.交叉学科高校数的极差为78
D.每年的交叉学科总数与交叉学科高校数的差值越来越小
24.(2025·河北·模拟预测)为了解某病毒的致病潜伏期,通过简单随机抽样,获取100名患者的相关信息,并制作了如图所示的频率分布直方图:
根据图中数据,估计病毒潜伏天数的样本数据的68%分位数是( )
A.6 B.7 C.7.2 D.8
25.(2025·黑龙江·模拟预测)某学校为了拓展学生的国际视野,培养学生的创新精神,让学生学有动力,学有信心,举办了英语手抄报比赛.为了解考生的成绩情况,抽取了样本容量为的部分考生成绩,得到如图所示的频率分布直方图,则估计考生成绩的第70百分位数为( )
A.74 B.75 C.76 D.77
题型6 总体集中趋势的估计
1.求众数、中位数、平均数的方法 (1)众数:由定义知,一组数据中出现次数最多的数,即为众数,若有两个或几个数据出现的次数最多,且出现的次数一样,这些数据都是这组数据的众数;若一组数据中,每个数据出现的次数一样多,则认为这组数据没有众数; (2)中位数:若一组数据为奇数个,按照从小到大(或从大到小)的顺序排列,位于中间位置的数据就是这组数据的中位数;若一组数据为偶数个,按照从小到大(或从大到小)的顺序排列,位于中间位置的两个数据的平均数就是这组数据的中位数; (3)平均数:利用=xi求解. 2.频率分布直方图中的数字特征 (1) 众数估计值:最高矩形的底边中点的横坐标. (2) 中位数:中位数左边和右边的矩形的面积和应该相等. (3) 平均数:平均数在频率分布直方图中等于各组区间的中点值与对应频率之积的和.
26.(2025·湖南长沙·模拟预测)对于数据,下列说法错误的是( )
A.平均数为5 B.众数为6
C.极差为10 D.中位数为6
27.(2025·甘肃平凉·模拟预测)一组数据1,7,5,2,,2,且,,若该组数据的众数是中位数的,则该组数据的平均数为( )
A.3 B.3.5 C.4 D.4.5
28.(2025·河北保定·模拟预测)一组数据按从小到大排列为2,4,6,a,13,14,如果该组数据的中位数与这组数据的第60百分位数相等,则该组数据的平均数为( )
A.7.5 B.6 C.4.5 D.3
29.(2025·安徽池州·模拟预测)春季是流感的高发季节,某医院对8名甲型流感患者展开临床观察,记录了从开始服药到痊愈所需的天数,具体数据如下(单位:天):7,4,6,5,8,5,6,4.则下列说法正确的是( )
A.这组数据的众数为5
B.这组数据的平均数为5
C.这组数据的第60百分位数为6
D.这组数据的极差为5
30.(2025·湖北武汉·模拟预测)某批产品检验后的评分,由统计结果制成如图所示的频率分布直方图,
下列说法中正确的是( )
A. B.评分的众数估值为70
C.评分的第25百分位数估值为67.5 D.评分的平均数估值为76
31.(2025高三·江苏南通·阶段练习)某人通过手机记录锻炼情况,得到11月份每天的锻炼时间(单位:如下表:
锻炼时间 小于0.5 不小于2
天数 2 6 10 8 4
据表中数据,下列结论一定正确的是( )
A.30天锻炼时间的中位数不超过
B.30天锻炼时间的平均数不低于
C.30天锻炼时间的极差不超过
D.30天锻炼时间的众数不低于
32.(2025·重庆·模拟预测)国际学生评估项目测试是世界经济合作与发展组织对各国中学生阅读、数学、科学能力评价测试. 从年开始,每年进行一次测试评估. 在评估研究时将测试成绩按一定规则转换成等级赋分,赋分范围是至分,如图是年的某地中学生参加阅读测试后用赋分数据绘制成的不完整频率分布直方图. 据图中数据,下面说法正确的是( )
A.该地学生成绩的中位数一定大于
B.该地学生成绩的众数介于至之间
C.该地学生成绩的极差介于至之间
D.该地学生成绩没有超过分学生所占比例为
33.(2025·广东韶关·模拟预测)众数 平均数和中位数都描述了数据的集中趋势,它们的大小关系和数据的分布形态有关.根据某小区1000户居民的月均用水量数据(单位:),得到如图所示的频率分布直方图,记该组数据的众数为,中位数为,平均数为,则( )
A. B.
C. D.
34.(2025高三·贵州贵阳·开学考试)平均数 中位数和众数都是刻画一组数据的集中趋势的信息,它们的大小关系和数据分布的形态有关在下图分布形态中,a,b,c分别对应这组数据的平均数 中位数和众数,则下列关系正确的是( )
A. B.
C. D.
35.(25-26高二·四川成都·期中)已知,,,这四个数的平均数为1,则,,,这四个数的平均数为( )
A.2 B.4 C.8 D.16
题型7 总体离散程度的估计
标准差(方差)反映了数据的离散与集中、波动与稳定的程度.标准差(方差)越大,数据的离散程度越大;标准差(方差)越小,数据的离散程度越小.
36.(2025·广西·模拟预测)李老师家有3名人员,3名人员的年龄与2年后的年龄相比较,一定不会发生变化的是( ).
A.平均数 B.中位数 C.方差 D.众数
37.(2025·河北邯郸·模拟预测)已知组数据“”和组数据“”()的平均数分别为80,90,方差分别为15,20,若,则由这两组数据构成的所有数据的总体方差为( )
A.15 B.32 C.35 D.42
38.(2025高三·河南·阶段练习)已知一个样本容量为10的样本的平均数为6,方差为2.现将样本中的5个数据去掉,这5个数据的平均数为5,方差为1,则余下的5个数的方差为( )
A.1.2 B.0.8 C.1 D.2
39.(2025·江苏南通·模拟预测)已知9个数据:,,,,的均值为,方差为2,现将加入,则新数据的方差为( )
A. B.2 C. D.18
40.(2025·湖北·模拟预测)若一组数据的平均值,方差,若删去一个数之后,平均值没有改变,方差变为40,则这组数据的个数( )
A.5 B.6 C.7 D.8
41.(2025·河南·模拟预测)某钢管车间生产的无缝钢管的直径规格为45mm,现从生产的钢管中随机抽取10根,测得10根钢管的平均直径为45.3mm,方差为,若再加入1根直径为45.3mm的钢管,则这11根钢管直径的( )
A.平均数变小 B.平均数变大 C.方差变小 D.方差变大
42.(2025·辽宁大连·模拟预测)已知甲、乙两组数据如下表所示,则下列结论中表述正确的是( )
序号 1 2 3 4 5 6 7 8 9 10
甲 82 83 81 82 76 91 83 88 89 93
乙 68 80 88 72 89 88 95 74 90 71
A.甲组数据的极差大于乙组数据的极差 B.甲组数据的方差小于乙组数据的方差
C.甲组数据的中位数大于乙组数据的中位数 D.甲组数据的平均数小于乙组数据的平均数
题型8 变量间的相关关系
判定两个变量正、负相关的方法 (1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关. (2)样本相关系数:r>0时,正相关;r<0时,负相关. (3)经验回归方程=x+中:>0时,正相关;<0时,负相关.
43.(2025高二·辽宁丹东·期中)对两组数据进行统计后得到如图所示的散点图,下列结论不正确的是( )
A.图1、图2两组数据都具有线性相关关系
B.图1数据正相关,图2数据负相关
C.图1相关系数小于图2相关系数
D.图1相关系数和图2相关系数之和小于0
44.(2025·安徽蚌埠·模拟预测)医疗研究者会创建散点图来显示少女的体重指数(BMI)和身体脂肪百分比之间的相关关系,如图,下列说法正确的是( )
A.BMI越大,脂肪百分比越大
B.BMI越大,脂肪百分比越小
C.BMI与脂肪百分比正相关
D.BMI与脂肪百分比负相关
45.(2025·天津·模拟预测)为研究某奶茶店每日的热奶茶销售量和气温之间是否具有线性相关关系,统计该店(2025年2月6日至3月24日)每天的热奶茶销售量及当天气温得到如图所示的散点图(轴表示气温,轴表示热奶茶销售量),由散点图可知与的相关关系为( )
A.正相关,相关系数的值为0.8 B.负相关,相关系数的值为0.8
C.正相关,相关系数的值为 D.负相关,相关系数的值为
46.(2025高二·河南南阳·阶段练习)有一散点图如图所示,在六组数据中去掉点后重新进行回归分析,则下列说法正确的是( )
A.样本数据的两变量正相关
B.相关系数的绝对值更接近于0
C.去掉点后,回归直线的效果变弱
D.变量与变量相关性变强
题型9 样本相关系数
样本相关系数r的统计含义及应用 (1)由r的正、负可判断成对样本数据中两相关变量是正相关还是负相关; (2)可根据|r|的大小从量的角度判断成对样本数据是否具有线性相关性,进而可知能否用经验回归方程进行分析和预测; (3)当|r|≤0.25时,即便求得了经验回归方程也没有任何统计意义.
47.(2025·广东深圳·模拟预测)按照《中华人民共和国环境保护法》的规定,每年生态环境部都会会同国家发展改革委等部门共同编制《中国生态环境状况公报》,并向社会公开发布.下表是2017-2021年五年《中国生态环境状况公报》中酸雨区面积约占国土面积的百分比(%):
年份 2017年 2018年 2019年 2020年 2021年
年份代码 1 2 3 4 5
6.4 5.5 5.0 4.8 3.8
(1)求2017-2021年年份代码与的样本相关系数(精确到0.01);
(2)预测2026年的酸雨区面积占国土面积的百分比.
附:回归直线的斜率和截距的最小二乘法估计公式分别为:,.
样本相关系数,.
48.(2025·河北沧州·模拟预测)粮食是一个国家发展的基石,保障粮食安全是维护社会稳定的重要因素.小麦是我国两大口粮作物之一,其自身的稳定供应保障了数亿人口的食物需求,并通过产业链延伸带动了相关产业发展,促进了我国北方地区的经济发展.我国于2020年打赢了脱贫攻坚战,其中小麦发挥了重大作用.以2020年为第1年,我国连续5年小麦产量如下:
年份 1 2 3 4 5
产量/千万吨 13.4 13.7 13.8 13.6 14.0
现规定表示第i年的年份,表示第i年的产量,经计算得,,.
(1)求样本(,2,…,5)的相关系数(精确到0.01);
(2)现从这5年中随机抽取2年,记这2年中共有X年的小麦产量不低于13.7千万吨,求X的分布列与期望.
附:样本相关系数,.
49.(2025·广东广州·模拟预测)经验表明,一般树的胸径(树的主干在地面以上m处的直径)越大,树就越高.由于测量树高比测量胸径困难,因此研究人员希望由胸径预测树高.在研究树高与胸径之间的关系时,某林场收集了某种树的一些数据,并根据数据作出如下的散点图.
经计算得,,,,.
(1)推断两个变量是否线性相关,计算样本相关系数(精确到),并推断它们的相关程度;
(2)试根据以上数据建立树高关于胸径的经验回归方程(系数精确到),并预测胸径为cm的树高.
附:相关系数,回归方程中,,.
50.(25-26高三·重庆·开学考试)电影《哪吒2》上映以来引起了全社会甚至全世界的关注,全球票房突破百亿.“跟着吒儿去旅游”成为热门出游方式,某景点宣传投入金额(单位:万元)与游客满意度评分(满分:100分)之间可能存在一定的关系,以下是随机抽取的6个不同线上宣传投入金额和游客满意度评分的数据:
线上宣传投入金额(万元) 20 30 40 50 60 70
游客满意度评分(分) 60 65 70 78 80 85
(1)根据表中所给数据,用相关系数加以判断与两个变量线性相关性的强弱.(精确到小数点后两位);
(2)《哪吒2》中更是蕴含着丰富的中国传统文化,某校举办中国传统文化比赛,甲、乙两人进入决赛,决赛采用“五局三胜制”,已知在每局比赛中,甲获胜的概率为;
①当时,设比赛结束时甲、乙比赛的局数为,求的分布列和期望;
②甲以获胜的概率为,求的最大值.
参考公式:相关系数,参考数据:.
题型10 一元线性回归模型
线性回归分析问题的解题策略 (1)利用公式,求出回归系数; (2)利用经验回归直线过样本点的中心求系数; (3)利用经验回归方程进行预测,把回归方程看作一次函数,将解释变量x的值代入,得到预测变量的值.
51.(2025·河南新乡·模拟预测)某企业产品的广告费用与销售量的统计数据如表所示:根据表中各数据可得回归方程,其中,假设该企业广告费用为6万元时,则销售额为( )
广告费用(万元) 4 2 3 5
销售额(万元) 49 26 39 54
A.63,6万元 B.65,5万元 C.67,7 万元 D.72,0万元
52.(2025高二·河南南阳·期中)对于变量,其部分成对的观测值如下表所示:
1 2 3 4 5
2 6 7 8 12
已知具有线性相关关系,且根据最小二乘法得到的线性回归方程为,则( )
A.0.2 B.0.4 C.0.8 D.1.2
53.(2025·重庆·模拟预测)已知变量和的统计数据如下表.
80 90 100 110 120
y 120 140 165 180
若,线性相关,经验回归方程为,则( )
A.155 B.158 C.160 D.162
54.(2025·福建宁德·模拟预测)由如表所示的变量之间的一组数据,得之间的线性回归方程为,则( )
6 8 10 12
7 5.5 4.5
A.点一定在回归直线上
B.每增加1个单位,大约增加0.5个单位
C.
D.去掉这组数据后,求得的回归直线方程斜率将变大
55.(2025·江西·模拟预测)已知变量和的统计数据如下表:
400 500 600 700 800
3 4 6 6 7
若线性相关,且经验回归方程为,则据此可以预测当时,( )
A.18.2 B.19.2 C.20.2 D.21.2
56.(2025·陕西汉中·模拟预测)2024年全民健身运动的主题“全民健身与奥运同行”,为了满足群众健身需求,某健身房近几年陆续购买了几台型跑步机,该型号跑步机已投入使用的时间(单位:年)与当年所需要支出的维修费用(单位:千元)有如下统计资料:
2 3 4 5 6
2.2 3.8 5.5 6.5 7
根据表中的数据可得到线性回归方程为,则( )
A.与的样本相关系数
B.
C.表中维修费用的第60百分位数为6.5
D.该型跑步机已投入使用的时间为10年时,当年所需要支出的维修费用一定是12.38万元
57.(2025高二·陕西宝鸡·期末)如图是某采矿厂的污水排放量单位:吨与矿产品年产量单位:吨的折线图:
(1)依据折线图计算相关系数精确到,并据此判断是否可用线性回归模型拟合y与x的关系?若,则线性相关程度很高,可用线性回归模型拟合
(2)若可用线性回归模型拟合与的关系,请建立关于的线性回归方程,并预测年产量为10吨时的污水排放量.
相关公式:,参考数据:.
回归方程中,
58.(2025·浙江金华·模拟预测)近些年汽车市场发生了翻天覆地的变化,新能源汽车发展迅速,下表统计了2021年到2024年某地新能源汽车销量(单位:千辆)
年份 2021 2022 2023 2024
年份代号 1 2 3 4
销量 33 69 93 129
附:相关系数;
回归方程中斜率和截距的最小二乘法估计公式分别为,
(1)试根据样本相关系数的值判断该地汽车销量与年份代号的线性相关性强弱(,则认为与的线性相关性较强,,则认为与的线性相关性较弱);(精确到0.001)
(2)建立关于的线性回归方程,并预测该地2025年的新能源汽车销量.
59.(2025·云南丽江·模拟预测)某车间为了规定工时定额,需要确定加工零件所花费的时间,为此作了次试验,得到数据如下:
零件的个数x(个) 2 3 4 5
加工的时间y(小时) 2.5 3 4 4.5
参考公式:用最小二乘法求线性回归方程系数公式,
(1)求关于的线性回归方程;
(2)求各样本的残差;
(3)试预测加工个零件需要的时间.
60.(2025·河南洛阳·模拟预测)网购是现代年轻人重要的购物方式,截止到2021年12月,我国网络购物用户规模达8.42亿,较2020年12月增长5968万,占网民整体的81.6%,某电商对其旗下的一家专营店近五年来每年的利润额(单位:万元)与时间第年进行了统计得如下数据:
1 2 3 4 5
2.6 3.1 4.5 6.8 8.0
(1)依据表中给出的数据,是否可用线性回归模型拟合与的关系?请计算相关系数并加以说明(计算结果精确到0.01).(若,则线性相关程度很高,可用线性回归模型拟合)
(2)试用最小二乘法求出利润与时间的回归方程,并预测当时的利润额.
附:,,
参考数据:,,,.
61.(2025·河北·模拟预测)一般来说,广告投入的增加有助于提高产品的知名度和消费者的购买意愿,从而可能带来销量的提升.某商家统计了7个月的月广告投入(单位:万元)与月销量(单位:万件)的数据如表所示:
月广告投入(万元) 1 2 3 4 5 6 7
月销量(万件) 28 32 35 45 49 52 60
(1)已知可用线性回归模型拟合与的关系,请用相关系数加以说明,并求关于的线性回归方程;
(2)根据(1)的结论,预计月广告投入大于多少万元时,月销量能突破70万件.
参考数据:,,.
相关系数;
回归直线的斜率和截距的最小二乘估计分别为,.
题型11 非线性回归模型
1.建立非线性回归模型的基本步骤: (1)确定研究对象,明确哪个是解释变量,哪个是预报变量; (2)画出确定好的解释变量和预报变量的散点图,观察它们之间的关系(是否存在非线性相关关系); (3)由经验确定非线性回归方程的类型(如我们观察到数据呈非线性关系,一般选用反比例函数、指数函数、对数函数模型等); (4)通过换元,将非线性回归方程模型转化为线性回归方程模型; (5)按照公式计算经验回归方程中的参数(如最小二乘法),得到线性回归方程; (6)消去新元,得到非线性回归方程; (7)得出结果后分析残差图是否有异常,若存在异常,则检查数据是否有误,或模型是否合适等. 2.常见的非线性回归方程的转化: 曲线方程变换公式变换后的线性关系式y=axbc=lna,v=lnx,u=lnyu=c+bvy=aebxc=lna,u=lnyu=c+bxy=aec=lna,v=,u=lnyu=c+bvy=a+blnxv=lnxy=a+bv
62.(2025高二·江西抚州·期中)细胞在适宜环境下的繁殖通常符合类型的模型,假设某种细胞的初始数量为,在理想条件下,每个细胞单位时间的繁殖率一定,经过个单位时间后,细胞总数(万个)会呈指数增长.设,变换后得到线性回归方程,已知该回归方程的样本中心为,则( )
A. B.0.596 C. D.0.206
63.(2025·河南·模拟预测)已知变量与变量的关系可以用模型(,为常数)拟合,设,变换后得到一组数据如下:
2 3 4 5 6
1.02 1.20 1.42 1.62 1.84
由上表可得经验回归方程为,则( )
A.0.206 B. C.0.596 D.
64.(2025·山东烟台·模拟预测)近年来,新能源汽车因其动力充沛、提速快、用车成本低等特点得到民众的追捧.某机构为研究汽油价格x(单位:元/升)与新能源汽车的月销售量y(单位:万辆)之间的关系,收集整理得到如下数据:
x 6 6.5 7 7.5 8
y 1.5 2 3 4.5 6.8
(1)若用模型模拟x与y之间关系,求出回归方程;
(2)根据建立的回归方程,预测当汽油价格上涨至9元/升时,新能源汽车的销量;
(3)假设当汽油价格为9元/升时,实际销量超过预测值的概率为0.6.现进行5次独立观测,记这5次观测中销量超过预测值的次数为,求的数学期望.
参考数据和公式:.,.
令,,,.
对于一组数据,其回归直线的斜率和截距的最小二乘估计分别为:,.
65.(2025·海南省直辖县级单位·模拟预测)蝗虫能对农作物造成严重伤害,每只蝗虫的平均产卵数(单位:个)和平均温度(单位:)有关.现收集到一只蝗虫的产卵数(个)和温度的8组观测数据,制成图1所示的散点图.现用两种模型①,②分别进行拟合,由此得到相应的回归方程并进行残差分析,进一步得到图2所示的残差图.
根据收集到的数据,计算得到如下值:
24 2.9 646 168 422688 50.4 70308
表中,,,;
(1)根据残差图,比较模型①、②的拟合效果,模型_____比较合适?根据所选择的模型,利用上表中的参考数据,求出关于的回归方程.
(2)根据以往统计,该地每年平均温度达到以上时蝗虫会对农作物造成严重伤害,需要人工防治,其他情况均不需要人工防治.设该地每年平均温度达到以上的概率为,该地今后年恰好需要2次人工防治的概率为.
①求取得最大值时对应的概率;
②当取最大值时,设该地今后5年需要人工防治的次数为,求的均值和方差.
附:对于一组数据,其回归直线的斜率和截距的最小二乘估计分别为:,.
66.(2025·云南·模拟预测)自2020年以来,某地区人工智能核心产值规模呈快速增长态势,下表给出了近5年该地区的人工智能核心产值规模(单位:亿元).
年份 2020 2021 2022 2023 2024
年份编号 1 2 3 4 5
核心产值规模 1.5 2.5 3.4 4.9 7.8
(1)若用作为回归模型,并已求得,,,求此模型下的决定系数(精确到0.01).
(2)若用作为回归模型,
①求的值;
②已知该模型下的决定系数,请说明哪种回归模型拟合效果更好,并用拟合效果好的模型预测2025年该地区的人工智能核心产值规模.
参考数据:
3 4.02 16.16 104.91 1.24 22.54 1.1 1.5 11.4
附:(1)上表中;
(2)一组数据,其经验回归直线的斜率和截距的最小二乘估计公式分别为,,决定系数.
67.(2025·福建泉州·模拟预测)泉州少年郎团队从2024年10月份以来,通过深度整合AI算法、大数据分析和自动化技术,不断优化产品与服务,显著提升了运营效率和市场竞争力,推动团队收入持续攀升.该团队在近7个月的经济收入(单位:百万元)的数据如下表:
月份编号 1 2 3 4 5 6 7
收入(百万元) 6 11 21 34 66 101 196
(1)根据以上数据绘制散点图,并根据散点图判断,与(均为大于零的常数)哪一个适宜作为该团队经济收入y关于月份x的回归方程模型?(给出判断即可,不必说明理由)并根据你的判断结果及表中的数据,求出y关于x的回归方程;
(2)请你根据所求的回归方程,预测该团队下一个月的经济收入;
(3)试从统计学角度分析,如果用所求的回归方程预测该团队接下来1年的经济收入情况是否合理?
参考数据:
435 10.78 2535 50.12 2.82 3.47
其中设,
参考公式:,.
68.(2025高二·辽宁丹东·期中)年初,哈尔滨利用冰雪资源成功吸引了大批游客前来旅游.年底,第二十六届哈尔滨冰雪大世界以“冰雪同梦,亚洲同心”为主题,再次邀请广大游客共赴冰雪之约.统计年这年月份来哈尔滨的游客数量(单位:万),并绘制散点图,如图所示(年份代码对应).
(1)经计算得出下表中的数据,根据散点图,在模型①:与模型②:(均为常数)中,选择一个更适合作为每年月份来哈尔滨的游客数量关于年份代码的回归直线方程类型,并求出关于的回归直线方程.
其中,.
附:对于一组数据、、、,其回归直线的斜率和截距的最小二乘估计分别为,.参考数据:.
(2)根据所求的回归直线方程预测年月份来哈尔滨的游客数量.
题型12 经验回归分析
刻画回归效果的四种方法 (1)残差图法:残差点比较均匀地落在水平带状区域内说明选用的模型比较合适. (2)残差平方和法:残差平方和(yi-)2越小,模型的拟合效果越好. (3)决定系数R2法:R2越接近1,表明模型的拟合效果越好. (4)样本相关系数.
69.(2025·海南·模拟预测)已知由样本数据组成的一个样本,得到经验回归方程为,且,增加两个样本点和后,得到新样本的经验回归方程为.在新的经验回归方程下,样本的残差为( )
A. B. C. D.2
70.(2025·上海浦东新·模拟预测)研究变量x,y得到一组成对数据,,先进行一次线性回归分析,接着增加一个数据,其中,,再重新进行一次线性回归分析,则下列说法正确的是( )
A.变量与变量的相关性变强 B.相关系数的绝对值变小
C.线性回归方程不变 D.拟合误差Q变大
71.(2025·江西新余·模拟预测)样本点数据,且大致呈线性分布,其经验回归方程为,若,数据的80%分位数为7,则当时,随机误差的残差为:( ).
A.-0.5 B.0.5 C.-1.5 D.1.5
72.(2025·山东泰安·模拟预测)对于响应变量,通过观测得到的数据称为观测值,通过经验回归方程得到的称为预测值,观测值减去预测值称为残差.将某公司新产品自上市起的月份与该月的对应销量(单位:万件)整理成如下表格:
月份x 1 2 3 4 5
销量y 0.5 1 1.4
建立y与x的线性回归方程为,则第2个月和第4个月的残差和为( )
A.-0.919 B.-0.1 C.0.1 D.0.919
73.(2025·云南·模拟预测)已知变量x,y线性相关,其一组样本数据,满足,用最小二乘法得到的经验回归方程为.若增加一个数据后,得到修正后的回归直线的斜率为2.1,则数据的残差为( )
A. B. C.0.1 D.0.2
74.(2025高二·山东青岛·期中)根据变量Y和x的成对样本数据,由一元线性回归模型得到经验回归模型,求得残差图.对于以下四幅残差图,满足一元线性回归模型中对随机误差假设的是( )
A. B.
C. D.
75.(2025·广东·模拟预测)一组样本数据.其中,,,求得其经验回归方程为:,残差为.对样本数据进行处理:,得到新的数据,求得其经验回归方程为:,其残差为.,分布如图所示,且,则下列说法错误的是( )
A.样本负相关 B.
C. D.处理后的决定系数变大
76.(2025·浙江·模拟预测)为研究光照时长(小时)和种子发芽数量(颗)之间的关系,某课题研究小组采集了9组数据,绘制散点图如图所示,并对,进行线性回归分析.若在此图中加上点后,再次对,进行线性回归分析,则下列说法正确的是( )
A.,不具有线性相关性 B.决定系数变大
C.相关系数变小 D.残差平方和变小
77.(2025·广东茂名·模拟预测)一只药用昆虫的产卵数与一定范围内的温度有关,现收集了该种药用昆虫的6组观测数据如下表:
温度 21 23 24 27 29 32
产卵数个 6 11 20 27 57 77
经计算得:线性回归模型的残差平方和,其中分别为观测数据中的温度和产卵数,.
(1)若用线性回归方程,求关于的回归方程(精确到0.1);
(2)若用非线性回归模型求得关于回归方程为,且相关指数0.9522.
(i)试与(1)中的回归模型相比,用说明哪种模型的拟合效果更好.
(ii)用拟合效果好的模型预测温度为时该种药用昆虫的产卵数(结果取整数).
附:一组数据,其回归直线的斜率和截距的最小二乘估计为;相关指数.
78.(2025高二·重庆·阶段练习)某公司为了解年研发资金(单位:亿元)对年产值(单位:亿元)的影响,对公司近8年的年研发资金和年产值(,)的数据对比分析中,选用了两个回归模型,并利用最小二乘法求得相应的关于的经验回归方程:
①;②.
(1)求的值;
(2)已知①中的残差平方和,②中的残差平方和,请根据决定系数选择拟合效果更好的经验回归方程,并利用该经验回归方程预测年研发资金为20亿元时的年产值.
参考数据:,,,.
参考公式;刻画回归模型拟合效果的决定系数.
79.(2025·内蒙古包头·模拟预测)某企业拟对某产品进行科技升级,根据市场调研与模拟,得到科技升级投入(万元)与科技升级直接收益(万元)的数据统计如下:
序号 1 2 3 4 5 6 7
2 3 4 6 8 10 13
13 22 31 42 50 56 58
根据表格中的数据,建立了与的两个回归模型:模型①:模型②:.
(1)根据下列表格中的数据,比较模型① ②的相关指数的大小,并选择拟合精度更高 更可靠的模型;
(2)根据(1)选择的模型,预测对该产品科技升级的投入为100万元时的直接收益.
回归模型 模型① 模型②
回归方程
182.4 79.2
(附:刻画回归效果的相关指数越大,模型的拟合效果越好)
题型13 分类变量与列联表
分类变量的两种统计表示形式 (1)等高堆积条形图:根据等高堆积条形图的高度差判断两分类变量是否有关联及关联强弱; (2)2×2列联表:直接利用2×2列联表中的数据进行计算分析,用定量的方式判断两分类变量是否有关联及关联强弱.
80.(2025高三·全国·专题练习)下面是列联表:
合计
21 73
22 25 47
合计 46 120
则表中,的值分别为( )
A.94,72 B.52,50 C.52,74 D.74.52
81.(2025·贵州·模拟预测)为了发展学生的兴趣和个性特长,培养全面发展的人才.某学校在不加重学生负担的前提下.提供个性、全面的选修课程.为了解学生对于选修课《学生领导力的开发》的选择意愿情况,对部分高二学生进行了抽样调查,制作出如图所示的两个等高条形图,根据条形图,下列结论正确的是( )
A.样本中不愿意选该门课的人数较多
B.样本中男生人数多于女生人数
C.样本中女生人数多于男生人数
D.该等高条形图无法确定样本中男生人数是否多于女生人数
82.(2025·四川达州·模拟预测)四川省将从2022年秋季入学的高一年级学生开始实行高考综合改革,高考采用“3+1+2”模式,其中“1”为首选科目,即物理与历史二选一.某校为了解学生的首选意愿,对部分高一学生进行了抽样调查,制作出如下两个等高条形图,根据条形图信息,下列结论正确的是( )
A.样本中选择物理意愿的男生人数少于选择历史意愿的女生人数
B.样本中女生选择历史意愿的人数多于男生选择历史意愿的人数
C.样本中选择物理学科的人数较多
D.样本中男生人数少于女生人数
83.(2025高二·宁夏银川·阶段练习)为考查、两种药物预防某疾病的效果,进行动物实验,分别得到如下等高条形图:根据图中信息,在下列各项中,说法最佳的一项是( )
A.药物的预防效果优于药物的预防效果
B.药物的预防效果优于药物的预防效果
C.药物、对该疾病均有显著的预防效果
D.药物、对该疾病均没有预防效果
84.(2024高三·北京·专题练习)年月日太原地铁号线开通,在一定程度上缓解了市内交通的拥堵状况,为了了解市民对地铁号线开通的关注情况,某调查机构在地铁开通后两天抽取了部分乘坐地铁的市民作为样本,分析其年龄和性别结构.并制作出如下等高堆积条形图:
根据图中信息,下列结论不一定正确的是( )
A.样本中男性比女性更关注地铁号线开通
B.样本中多数女性是岁及以上
C.样本中岁以下的男性人数比岁及以上的女性人数多
D.样本中岁及以上的人对地铁号线的开通关注度更高
题型14 分类变量关联性的判断
 如果χ2>xα,则“X与Y有关系”这种推断犯错误的概率不超过α;否则,就认为在犯错误的概率不超过α的前提下不能推断“X与Y有关系”,或者在样本数据中没有发现足够的证据支持结论“X与Y有关系”.
85.(25-26高二·全国·单元测试)目前中国的新能源汽车技术日新月异,老百姓购买时参考的参数有所不同,一部分人更看重汽车动力、扭矩、悬挂、底盘等技术参数,可以称为“技术流”;另一部分人更看重电池续航、内饰材料、智能化程度等,可以称为“体验流”.现随机抽取100名车主,针对他们对汽车的偏好进行问卷调查,得到下表:
性别 对汽车的偏好
体验流 技术流 总计
男 30 50
女 40
总计 100
小组成员甲用该列联表中的数据进行独立性检验,小组成员乙将该列联表中的所有数据都缩小为原来的后再进行独立性检验,则下列说法正确的是( )
A.若在样本中的女性中按分层随机抽样的方法再抽取10人,则应从“体验流”中抽取6人
B.小组成员甲认为对汽车的偏好与性别无关
C.小组成员甲、乙计算出的值相同,他们得出的结论也相同
D.小组成员甲、乙计算出的值不同,他们得出的结论也不同
86.(2025高二·贵州安顺·期末)某公司男、女职工人数相等,该公司为了了解职工是否接受去外地长时间出差,在男、女职工中各随机抽取了100人进行调查,数据显示男职工和女职工接受去外地长时间出差的人数分别为40和20,则下列结论正确的是( )
附表:
0.1 0.05 0.01 0.005 0.001
2.706 3.841 6.635 7.879 10.828
附:,其中.
A.依据小概率值的独立性检验,不能认为是否接受去外地长时间出差与性别有关
B.依据小概率值的独立性检验,可以认为是否接受去外地长时间出差与性别有关
C.根据小概率值的独立性检验,可以认为是否接受去外地长时间出差与性别有关
D.是否接受去外地长时间出差与性别无关
87.(2025高二·广东广州·期末)为了解性别(变量x)与体育锻炼(变量y)是否有关,采取简单随机抽样的方法抽取50名学生,得到成对样本观测数据的分类统计结果,如表所示(单位:人),根据数据计算,并依据小概率值的独立性检验,附:,,下列结论不正确的是( )
锻炼 合计
不经常 经常
女生 15 5 20
男生 10 m n
合计 25 25 50
A.
B.若从这50人中随机抽取1人,则经常锻炼的概率为
C.变量x与变量y独立,此推断犯错误的概率不超过0.005
D.变量x与变量y不独立,此推断犯错误的概率不超过0.005
88.(2025高二·天津南开·期中)为了探究某次数学测试中成绩达到优秀等级是否与性别存在关联,小华进行了深入的调查,并绘制丁下侧所示的2×2列联表(个别数据暂用字母表示):
数学成绩 性别 合计
男 女
优秀 27 70
非优秀 58 110
合计 180
临界值表如下:
0.10 0.05 0.025 0.010 0.005 0.001
2.706 3.841 5.024 6.635 7.879 10.828
经计算得:,参照右上表,有如下结论:①,②;③可以在犯错误的概率不超过5%的前提下认为“数学达到优秀等级与性别有关”;④没有充分的证据显示“数学达到优秀等级与性别有关”,则以上结论中正确的为( )
A.①② B.①②④ C.①②③ D.①②③④
89.(2025高三·湖北襄阳·期末)某学校在一次调查“篮球迷”的活动中,获得了如下数据,以下结论最准确的是( )
男生 女生
篮球迷 90 20
非篮球迷 60 30
附:
0.10 0.05 0.01 0.005
k 2.706 3.841 6.635 7.789
A.有的把握认为是否是篮球迷与性别有关
B.有的把握认为是否是篮球迷与性别有关
C.在犯错误的概率不超过0.1的前提下,可以认为是否是篮球迷与性别有关
D.在犯错误的概率不超过0.05的前提下,可以认为是否是篮球迷与性别有关
题型15 独立性检验
独立性检验的方法: (1) 构造2×2列联表; (2) 计算χ2; (3) 查表确定有多大的把握判定两个变量有关联. 注意:查表时不是查最大允许值,而是先根据题目要求的百分比找到第一行对应的数值,再将该数值对应的xα值与求得的χ2值相比较.另外,表中第一行数据表示两个变量没有关联的可能性p,所以其有关联的可能性为1-p.
90.(2025·湖南·模拟预测)近日,2025年湖南省城市足球联赛(被球迷称为“湘超”)如火如荼地进行,引发广泛关注.某地区随机抽取了部分市民,调查他们对赛事的关注情况,得到如下表格:
性别 不关注赛事 关注赛事
男性 25 150
女性 50 75
(1)列出列联表并根据小概率值的独立性检验,能否认为关注“湘超”赛事与性别有关?
(2)现从被调查的关注赛事的市民中,按照性别比例采用分层抽样的方法随机抽取3名市民参加“湘超”赛事知识问答.已知男性、女性市民顺利完成知识问答的概率分别为,,每个人是否顺利完成相互独立.求在有且仅有2人顺利完成的条件下,这2人的性别不同的概率.
附:.
0.1 0.05 0.025 0.01 0.005 0.001
2.706 3.841 5.024 6.635 7.879 10.828
91.(2025·福建泉州·模拟预测)为比较A、B两种AI教学系统在提升教师备课效率方面的差异,研究人员在某地区随机招募了200名教师,并随机分配其中100名使用系统A,其余100名使用系统B.经过一个月的试用后,以“备课时间减少15%以上”作为备课效率显著提升的标准,经整理得到如下列联表:
备课效率使用的教学系统 显著提升 没有显著提升 合计
系统A 75 25 100
系统B 55 45 100
合计 130 70 200
(1)记事件“该地区教师使用系统A后,备课效率显著提升”的概率为,求的估计值;
(2)根据小概率值的独立性检验,分析这两种AI教学系统在显著提升教师备课效率方面是否存在差异.
附:,
0.05 0.005 0.001
3.841 7.879 10.828
92.(25-26高三·河北衡水·开学考试)林芝第二十一届桃花旅游文化节于2024年3月31日晚正式拉开帷幕.某研究小组为了了解开幕式文艺演出时林芝市民的观看情况,从全市随机调查了50名市民(男女各25名),统计到全程观看、部分观看和没有观看的人数如下表:
观看情况 全程观看 部分观看 没有观看
男性人数 9 4
女性人数 18 4
(1)求出表中x,y的值;
(2)从样本中没有观看的人中随机抽取2人进一步了解情况,求恰好男女各1人的概率;
(3)根据表中统计的数据,完成下面的2×2列联表,依据小概率值的独立性检验,分析全程观看是否与性别有关
单位:人
性别 观看情况 合计
全程观看 非全程观看
男性
女性
合计
附:,.
0.10 0.05 0.01
2.706 3.841 6.635
题型16 独立性检验与其他知识综合
独立性检验综合解题核心是融合关联知识。先明确分类变量,构建 2×2 列联表,结合概率知识算期望频数。再用统计公式求 χ 值,关联临界值表判断关联性。可搭配回归分析、抽样调查等,规避假设混淆、计算失误误区,聚焦数据关联与逻辑衔接,高效解题。
93.(25-26高三·安徽合肥·开学考试)随着科技的发展,AI技术已经深度介入普通人的生活,正在改变着人们的生活和工作.为了调查AI技术在普通人中的使用情况,一调查机构对此进行了调查,并从参与调查的市民中分别抽取男,女各100人进行统计分析,整理得到如下列联表:
性别 经常借助AI技术 不经常借助AI技术 合计

女 50
合计 120
(1)完成上述列联表,并根据小概率值的独立性检验,分析是否经常借助AI技术与性别有关联;
(2)采用按比例分配的分层随机抽样的方法,从表中不经常借助AI技术的人中抽取8人,再从这8人中随机抽取3人,记3人中男性人数为随机变量,求的分布列和数学期望.
参考公式:,.
0.050 0.010 0.005
3.841 6.635 7.879
94.(2025·安徽·模拟预测)为了研究“长期长跑”与“半月板损伤”之间的关系,研究人员在长跑爱好者中随机抽取了1000人进行调查,所得数据统计如下表所示:
组别 半月板的健康状况 合计
半月板正常 半月板损伤
长期长跑 40 360 400
非长期长跑 460 140 600
合计 500 500 1000
(1)根据小概率值的独立性检验,判断“长期长跑”与“半月板损伤”之间是否相关;
(2)若按照半月板的健康状况,使用分层随机抽样的方法从长期长跑的爱好者中随机抽取人,再从这人中随机挑选人,记抽到的人中半月板损伤的人数为,求的分布列与均值.
附:,其中.
0.1 0.05 0.01 0.005 0.001
2.706 3.841 6.635 7.879 10.828
95.(2025·广东·模拟预测)为了研究生活习惯 M 与患有疾病N的关系,某疾控中心随机调查了其他条件都基本相同的340人,调查数据如表所示.
无习惯M者 有习惯M者 合计
没患疾病N者 120 160 280
患有疾病N者 15 45 60
合计 135 205 340
(1)根据小概率值的独立性检验,判断患有疾病N与有生活习惯M是否有关?
(2)常用表示在事件A发生的条件下事件B发生的优势,在统计中称为似然比.现从340人中任选一人,A表示“选到的人是有习惯M者”,B表示“选到的人患有疾病N者”,请利用样本数据,估计的值.
附:,
0.050 0.010 0.001
k 3.841 6.635 10.828
96.(2025高二·四川广元·期末)为了了解高中学生课后自主学习数学时间(x分钟/每天)和他们的数学成绩(y分)的关系,某实验小组做了调查,得到一些数据如下表:
编号 1 2 3 4 5
x 10 20 30 40 50
y 70 80 100 120 130
(1)若该组数据中y与x之间的关系可用线性回归模型进行拟合,求y关于x的回归直线方程.(参考数据:)
(2)基于上述调查,某校提倡学生课后自主学习.经过一学期的实施后,抽样调查了160位学生.按照参与课后自主学习与成绩进步情况得到如下2×2列联表:
成绩没有进步 成绩有进步 合计
参与课后自主学习 5 135 140
未参与课后自主学习 5 15 20
合计 10 150 160
依据的独立性检验,分析“课后自主学习与成绩进步”是否有关.
附:回归方程中斜率和截距的最小二乘估计公式分别为:,
,其中.
0.1 0.05 0.01 0.005 0.001
2.706 3.841 6.635 7.879 10.828
97.(2025高二·广东肇庆·期末)某地区农户在推动农业机械化升级后,记录了某作物在接下来()年的增长数据(万吨),如下表所示:
1 2 3 4 5
26 37 50 64 93
(1)经探究与之间具有相关关系,求关于的经验回归方程;
(2)为了检验,两款机械设备的投放对某农作物的增收情况,在,两地区分别选取了两块相同面积的试验田来记录某年的增收情况,得到的数据如下表:
地区 用M设备 用设备
A 30 20
B 15 35
根据小概率值的独立性检验,能否认为增收情况与使用,两种不同设备有关
参考公式:①,;
②(其中为样本容量).
参考数据:
0.100 0.050 0.010 0.005 0.001
2.706 3.841 6.635 7.879 10.828
98.(2025·云南玉溪·模拟预测)某个景点自从取消门票实行免费开放后,迅速成为网红打卡点,不仅带动了淡季的旅游,而且优化了旅游产业的结构.下表是该景点免费开放后前五个月的打卡人y数(万人)与第个月的数据:
x 1 2 3 4 5
y 23.1 37.0 62.1 111.6 150.8
(1)根据表中数据可用一元线性回归模型刻画变量y与变量x之间的线性相关关系,且回归方程中的,请计算相关系数r(精确到0.01),并判断是否可以认为y与x的线性相关性很强;
(2)为更好地改进服务,景点对每位游客进行了满意度调查,已知评分X近似服从正态分布,评分低于m的游客约占15.865%,求m的值;
(3)为进一步了解游客性别与满意度的关系,随机抽查200名游客,得到如下列联表,请填写下面的2×2列联表,根据小概率值的独立性检验,能否推断游客是否满意与性别有关?
喜欢 不喜欢 总计
男 100
女 60
总计 110
参考公式:
相关系数:若,则认为与有较强的线性相关性.
回归方程中斜率的最小二乘法估计公式为:
,其中.
临界值表:
0.010 0.005 0.001
6.635 7.879 10.828
参考数据:,
若,则,专题01 统计与成对数据的统计分析
题型1 简单随机抽样
1.简单随机抽样需满足:(1)被抽取的样本总体的个体数有限;(2)逐个抽取;(3)是等可能抽取. 2.简单随机抽样常用抽签法(适用于总体中个体数较少的情况)、随机数法(适用于个体数较多的情况). 注:应用随机数表法的两个关键点 1、确定以表中的哪个数(哪行哪列)为起点,以哪个方向为读数的方向; 2、读数时注意结合编号特点进行读取.若编号为两位数字,则两位两位地读取;若编号为三位数字,则三位三位地读取,有超过总体号码或出现重复号码的数字舍去,这样继续下去,直到获取整个样本.
1.(2025·福建泉州·模拟预测)从一个含有个个体的总体中抽取一容量为的样本,当选取抽签法、随机数法和分层随机抽样三种不同方法时,总体中每个个体被抽中的概率分别为,三者关系可能是( )
A. B. C. D.
【答案】B
【分析】根据抽样的概念,每个个体被抽中的概率是均等的,进而即可选择答案.
【详解】因为在抽签法抽样、随机数法抽样和分层随机抽样中,每个个体被抽中的概率均为,
所以.
故选:B.
2.(2025高一·福建福州·期末)用抽签法从学号为1到50的50名学生(其中含学生李华)中不放回抽取5名学生进行问卷调查,每次抽取一个号码,共抽取5次,设李华第一次被抽到的概率为,第五次被抽到的概率为,则( )
A.a = ,B.a = ,C.a = , D.a = ,
【答案】B
【分析】由题意结合简单随机抽样的特征即可确定实数,的值.
【详解】由简单随机抽样的定义知,每个个体在每次抽取中都有相同的可能性被抽到,
因为每次抽取一个号码,所以李华第一次被抽到的可能性为,
第五次被抽到的可能性为.
即李华同学在每次抽样中被抽到的可能性都是,所以,.
故选:B.
3.(2025高三·辽宁·期末)某厂质检员利用随机数表对生产的600个产品进行抽样调查,先将这600个产品进行编号:001,002,003,…,600.从中抽取120个样本,下图是随机数表的第2行到第3行,若从随机数表的第2行第5列开始从左向右读取数据,则得到的第5个编号是( )
32 12 67 12 31 02 37 02 14 72 31 09 81 47 80 25 13 25 46 08
71 20 34 51 19 72 01 38 47 18 04 92 51 28 02 31 27 46 51 30
A.098 B.147 C.513 D.310
【答案】C
【分析】根据随机数表的读法读出前5个符合的编号即可得解.
【详解】由题意可知得到的编号依次为231,023,147,098,513,…,则得到的第5个编号是513.
故选:C.
4.(2025·云南贵州·模拟预测)本次月考分答题卡的任务由高三16班完成,现从全班55位学生中利用下面的随机数表抽取10位同学参加,将这55位学生按01、02、、55进行编号,假设从随机数表第1行第2个数字开始由左向右依次选取两个数字,重复的跳过,读到行末则从下一行行首继续,则选出来的第6个号码所对应的学生编号为( )
0627 4313 2432 5327 0941 2512 6317 6323 2616 8045 6011
1410 9577 7424 6762 4281 1457 2042 5332 3732 2707 3607
0140 0523 2617 3726 3890 5124 5179 3014 2310 2118 2191
A.51 B.25 C.32 D.12
【答案】A
【分析】根据随机数表按照规则读数即可得解.
【详解】根据随机数表读取,分别抽到的编号为31,32,43,25,12,51,26,04,01,11,
所以选出来的第6个号码所对应的学生编号为51,
故选:A
题型2 分层随机抽样
分层随机抽样问题的类型及解题思路 (1)求某层应抽个体数量:按该层所占总体的比例计算; (2)已知某层个体数量,求总体容量或反之求解:根据分层随机抽样就是按比例抽样,列比例式进行计算; (3)分层随机抽样的计算应根据抽样比构造方程求解,其中,抽样比==. (4)在分层随机抽样中,如果第一层的样本量为m,平均数为,则样本的平均数为.
5.(2025·山东·模拟预测)某市开展“全民阅读”实施效果的调查研究,按区域划分为核心区、开发区、远郊区,各区的人口比例为.现采用分层抽样的方法从各区中抽取人员进行调研.已知从开发区抽取的人数为300,则从核心区抽取的人数为( )
A.90 B.120 C.180 D.200
【答案】D
【分析】设从核心区抽取的人数为人,根据题意,列出方程,即可求解.
【详解】设从核心区抽取的人数为人,
因为各区的人口比例为,且从开发区抽取的人数为300,
可得,解得,即从核心区抽取的人数为人.
故选:D.
6.(2025高三·河北邢台·期末)某校有男生人,女生人,现按性别采用分层抽样的方法从该校学生中抽取人进行调查,则男生被抽取的人数是( )
A. B. C. D.
【答案】C
【分析】设男生被抽取的人数是,由条件结合分层抽样性质列方程求解即可.
【详解】设男生被抽取的人数是,
由已知可得,
解得,.
故选:C.
7.(2025·江西宜春·模拟预测)某地为促进消费,向当地市民随机发放了面值10元、20元、50元的线下消费满减电子券,每位市民可以领取一张,且每笔消费仅能使用一张.某支持使用该消费券的大型商场统计到某日使用了10元、20元、50元消费券的消费账单的数量之比为5∶3∶2,若对这些账单用等比例分层随机抽样的方法进行抽样调查,抽取一个容量为50的样本,则样本中使用了50元消费券的消费账单的份数为( )
A.5 B.10 C.20 D.30
【答案】B
【分析】根据分层抽样特点,利用抽样比计算即可.
【详解】样本中使用了50元消费券的消费账单的份数为.
故选:B.
8.(2025·河南驻马店·模拟预测)电影《孤注一掷》的上映引发了电信诈骗问题的热议,也加大了各个社区反电信诈骗的宣传力度.已知某社区共有居民480人,其中老年人200人,中年人200人,青少年80人,若按年龄进行分层随机抽样,共抽取36人作为代表,则中年人比青少年多( )
A.6人 B.9人 C.12人 D.18人
【答案】B
【分析】根据题意可以计算出分层随机抽样的抽样比例,进而计算出中年人和青年人的人数,进而可以知道中年人比青少年多多少个.
【详解】设中年人抽取人,青少年抽取人,由分层随机抽样可知,
解得,故中年人比青少年多9人.
故选:B.
9.(2025·甘肃张掖·模拟预测)某中学从高一学生中抽取了50名男生,50名女生调查高一学生身高的情况.已知所有这100名学生身高的方差为48,其中50名男生身高的平均数为,方差为16,50名女生身高的平均数为,则50名女生身高的方差为( )
A.15 B.24 C.30 D.36
【答案】C
【分析】利用分层抽样的平均数公式、方差公式分别计算即得.
【详解】设男生身高的平均数和方差分别是,女生身高的平均数和方差分别是,
则,,
可得所有100名学生身高的平均数.
所有100名学生身高的方差,
即,解得.
故选:C.
题型3 统计图表
常见统计图表的特点与区别 (1) 扇形图:用于直观描述各类数据占总数的比例,易于显示每组数据相对于总数的大小. (2) 条形图:主要用于直观描述不同类别或分组数据的频数和频率,适用于描述离散型数据. (3) 直方图:主要用于直观描述不同类别或分组数据的频数和频率,直方图适用于描述连续型数据. (4) 折线图:主要用于描述数据随时间的变化趋势.
10.(2025高二·广东阳江·阶段练习)随着生活水平的不断提高,旅游已经成为人们生活的一部分.某地旅游部门从2024年到该地旅游的游客中随机抽取部分游客进行调查,得到各年龄段游客的人数比例和各年龄段中自助游比例,如图所示,则估计2024年到该地旅游的游客中选择自助游的青年人占总游客人数的( )

A.45% B.30% C.13.5% D.13%
【答案】C
【分析】根据青年人的占比和青年人中选择自助游人数的占比可得答案.
【详解】设2024年到该地旅游的游客总人数为,则游客中青年人的人数为,
其中选择自助游的青年人的人数为,
所以估计2024年到该地旅游的游客中选择自助游的青年人占总游客人数的13.5%.
故选:C
11.(2025·宁夏石嘴山·模拟预测)下图1是2020-2024年国内生产总值及其增长速度,图2是2020-2024年三次产业增加值占国内生产总值比重(三次产业包括第一产业,第二产业,第三产业).根据图1,图2,以下描述不正确的是( )
A.2022年第二产业增加值较2021年有所减少
B.2020-2024年国内生产总值呈逐年增长的趋势
C.2022年与2024年国内生产总值的增长速度较上一年有明显回落
D.2020-2024年第三产业增加值占国内生产总值比重的极差为
【答案】A
【分析】根据给定的柱状图及折线图逐项分析判断即可.
【详解】对于A,结合图1图2知,2021年第二产业的增加值为:亿元;
2022年第二产业的增加值为:亿元,
而,因此2022年第二产业增加值较2021年有所增加,A错误;
对于B,由图1可以看出柱状图逐年增高,则2020-2024年国内生产总值呈逐年增长的趋势,B正确;
对于C,由图1可以看出折线在2022年与2024年处与上一年连线的斜率小于0,C正确;
对于D,由图2可以得出2020-2024年第三产业增加值占国内生产总值比重最大值为:54.5%,
最小值为:52.8%,所以极差,D正确;
故选:A
12.(2025·四川成都·模拟预测)居民消费价格指数(Consumer Price Index,简称CPI),是度量一定时期内居民消费商品和服务价格水平总体变动情况的相对数,综合反映居民消费商品和服务价格水平的变动趋势和变动程度.下图是2024年11月9日国家统计局公布的2024年10月各类商品及服务价格同比和环比涨跌幅情况(同比,环比),下列结论正确的是( )
A.2024年10月份食品烟酒类价格低于2023年10月份食品烟酒类价格
B.2024年10月份教育文化娱乐类价格低于2024年9月份教育文化娱乐类价格
C.2024年9月份医疗保健类价格高于2023年10月份医疗保健类价格
D.2024年9月份居住类价格高于2023年10月份居住类价格
【答案】C
【分析】根据题意逐一考查所给选项说法的正确性.
【详解】对于A,由题可知,2024年10月份食品烟酒类价格同比涨幅为,
所以2024年10月份食品烟酒类价格高于2023年10月份食品烟酒类价格,故A错误;
对于B,由图可知,2024年10月份教育文化娱乐类价格环比涨幅为,
所以2024年10月份教育文化娱乐类价格高于2024年9月份教育文化娱乐类价格,故B错误;
对于C,2024年10月份医疗保健类价格环比涨幅为,即2024年10月份医疗保健类价格等于2024年9月份医疗保健类价格,
又2024年10月份医疗保健类价格同比涨幅为,
所以2024年10月份医疗保健类价格高于2023年10月份医疗保健类价格,故C正确;
对于D,2024年10月份居住类价格环比涨幅为,即2024年10月份居住类价格等于2024年9月份居住类价格,
又2024年10月份居住类价格同比涨幅为,
所以2024年10月份居住类价格低于2023年10月份居住类价格,故D错误.
故选:C.
13.(2025·四川德阳·模拟预测)中国人口亿人口中肠胃病患者高达亿,慢性胃炎发病率高达,消化性溃疡病发率也高达,是全世界当之无愧的“胃病大国”.根据随机对名青少年随机抽查,的青少年表示自己患有胃病,的青少年不清楚自己是否患有胃病,只有明确自己没有胃病.肠胃病的严重程度,一般可体现在排便量、排便时长上. 某高中为了了解学生肠胃病占比和严重程度,对年高一高二学生单日单次的排便时长进行了统计(记排便分钟内为正常,排便分钟为轻度肠胃病,排便分钟以上为重度肠胃病),并将结果制成统计图(如图所示),若高一学生人,高二学生人,占比百分数均保留整数,下列说法正确的是( )
A.高二学生的肠胃病人数比高一年级少
B.高一年级的各肠胃病区间人数占比都比高二年级少
C.高一年级重度肠胃病人数占比比高二年级少
D.高一肠胃质量参数比高二高(肠胃质量参数)
【答案】C
【分析】根据扇形统计图计算高一的肠胃病人数,各肠胃病区间人数占比,肠胃质量参数,再利用条形统计图确定高二学生的肠胃病人数,各肠胃病区间人数占比,肠胃质量常数,由此确定正确结论.
【详解】由扇形统计图可得高一年级肠胃病人数为,
高一年级的轻度肠胃病人数占比,
高一年级重度肠胃病人数占比为,
高一肠胃质量参数为,
由条形统计图可得高二年级肠胃病人数为,
高二年级的轻度肠胃病人数占比为,
高二年级重度肠胃病人数占比为,
高二肠胃质量参数为,
所以高二学生的肠胃病人数比高一年级多,A错误;
高一年级轻度肠胃病区间人数占比比高二年级高,B错误;
高一年级重度肠胃病人数占比比高二年级少,C正确;
高一肠胃质量参数比高二低,D错误;
故选:C.
14.(2025·湖北孝感·模拟预测)某保险公司销售某种保险产品,根据2023年全年该产品的销售额(单位:万元)和该产品的销售额占全年总销售额的百分比,绘制出如图所示的双层饼图.根据双层饼图,下列说法正确的是( )
A.2023年第四季度的销售额为280万元
B.2023年上半年的总销售额为500万元
C.2023年2月份的销售额为60万元
D.2023年12个月的月销售额的众数为50万元
【答案】A
【分析】根据给定的双层饼状图求出全年总销售额,再逐项计算判断.
【详解】由第二季度的销售额为260万元,第二季度的销售额占全年总销售额的百分比为26%,得全年总销售额为1000万元,
对于A,2023年第四季度的销售额为(万元),A正确;
对于B,2023年上半年的总销售额为(万元),B错误;
对于C,2023年2月份的销售额为(万元),C错误;
对于D,2023年12个月的月销售额(单位:万元)分别是50,50,60,60,90,110,80,100,
120,120,100,60,众数是60,D错误.
故选:A
题型4 频率分布直方图
频率分布直方图的相关结论 (1)频率分布直方图中纵轴表示,故每组样本的频率为组距×,即矩形的面积; (2)频率分布直方图中各小长方形的面积之和为1; (3)频率分布直方图中每组样本的频数为频率×总数.
15.(2025·辽宁·模拟预测)为了了解学校质量监测成绩,现随机抽取该校200名学生的成绩作为样本进行分析,并绘制频率分布直方图,若该频率分布直方图的组距为10,且样本中成绩在区间这一组内的学生有40人,则在频率分布直方图中该组数据对应的矩形高度为( )
A.0.02 B.0.2 C.0.04 D.0.4
【答案】A
【分析】根据频率分布直方图性质求解,
【详解】由题意成绩在区间内学生的频率为,因此,
故选:A
16.(25-26高三·河北邢台·阶段练习)从某小区抽取100户居民用户进行月用电量(单位:)调查,将得到的数据按分为6组,画出的频率分布直方图如图所示,则在被调查的用户中,月用电量落在内的户数为( )
A.35 B.40 C.42 D.45
【答案】B
【分析】利用频率分布直方图的性质先计算参数,再根据图象计算即可.
【详解】易知,所以,
即,
而月用电量落在内的户数为.
故选:B
17.(2025·广东深圳·模拟预测)某地区教研机构对该地区模拟考试成绩进行分析,随机抽取了200分到450分之间的1000名学生的成绩,并根据这些学生的成绩画出样本的频率分布直方图,如图所示,则成绩在内的学生人数为( )

A.300 B.400 C.600 D.1200
【答案】B
【分析】根据频率分布直方图中各个小矩形的面积之和为1求出的值,进而求出结果.
【详解】由频率分布直方图可得,,
解得,
所以成绩在内的学生人数为.
故选:B.
18.(2025·湖北·模拟预测)某工厂生产了500件产品,质检人员测量其长度 (单位: 厘米),将测量数据分成6组, 整理得到如图所示的频率分布直方图. 如果要让 90% 的产品长度不超过厘米,根据直方图估计,下列最接近的数是( )
A.93.5 B.94.1
C.94.7 D.95.5
【答案】C
【详解】根据给定的频率分布直方图,结合第90百分位数求出.
【解答】观察频率分布直方图,得,
则,,所以,与最接近的数为.
故选:C
19.(2025·陕西渭南·模拟预测)在某次高中数学模拟考试中,对800名考生的考试成绩进行统计,得到如图所示的频率分布直方图,其中分组的区间分别为,,,,,.若考生成绩在内的人数为,考生成绩在内的人数为,则( )
A.20 B.10 C.60 D.40
【答案】D
【分析】由频率分布直方图求出、,即可得解.
【详解】由频率分布直方图可得,,
所以.
故选:D.
题型5 总体百分位数的估计
1.求一组n个数据的第p百分位数的步骤 第1步:按从小到大排列原始数据; 第2步:计算i=n×p%; 第3步:若i不是整数,而大于i的比邻整数为j,则第p百分位数为第j项数据;若i是整数,则第p百分位数为第i项与第(i+1)项数据的平均数. 2.由频率分布直方图求第p百分位数的方法 确定要求的p%分位数所在分组[A,B),由频率分布直方图可知,样本中小于A的频率为a,小于B的频率为b,所以p%分位数=A+组距×.
20.(2025·福建漳州·模拟预测)样本数据的下四分位数为( )
A.3 B.3.5 C.10 D.11
【答案】B
【分析】根据条件,利用百分位数的求法,即可求解.
【详解】因为,所以样本数据的下四分位数为,
故选:B.
21.(2025·河北唐山·模拟预测)数据:1,2,3,4,5,6,7,8,9,10的分位数是(  )
A.2.5 B.3 C.3.5 D.4
【答案】C
【分析】根据百分位数的定义求分位数.
【详解】由,结合已知数据从小到大,分位数是第3、4位两个数字的平均数,
所求分位数为.
故选:C
22.(2025·山西·模拟预测)某大学科研团队利用自主开发的新型静电电机,成功研制出仅重4.21克的太阳能动力微型无人机,实现纯自然光供能下的持续飞行.为激发同学们对无人机的兴趣,某校无人机兴趣社团在校内进行选拔赛,8名参赛学生的成绩依次为,,,,,,,,则这组数据的上四分位数为( )
A.93 B.92 C.91.5 D.93.5
【答案】D
【分析】从小到大排列,根据上四分位数的定义计算得到答案.
【详解】从小到大排列得到,
由得上四分位数为.
故选:D.
23.(2025高三·全国·专题练习)由诺贝尔自然科学奖的历史数据表明,交叉学科是自然科技领域的重要发展趋势之一,跨学科研究也成为推动科学进步的关键力量.下图是连续5年我国交叉学科的建设情况统计图,则下列关于这5年我国交叉学科建设情况的说法正确的是( )
A.交叉学科总数的第75百分位数为616
B.交叉学科高校数的平均数为186.8
C.交叉学科高校数的极差为78
D.每年的交叉学科总数与交叉学科高校数的差值越来越小
【答案】C
【分析】由百分位数、平均数、极差的概念逐项判断即可.
【详解】对于A,由,即交叉学科总数的第75百分位数为第4个数677,错误,
对于B,交叉学科高校数的平均数为,错误,
对于C,交叉学科高校数的极差为231-153=78正确,
对于D,由图可得从第1年到第5年间,交叉学科总数与交叉学科高校数的差值依次为,,,,,
所以其差值越来越大,错误,
故选:C
24.(2025·河北·模拟预测)为了解某病毒的致病潜伏期,通过简单随机抽样,获取100名患者的相关信息,并制作了如图所示的频率分布直方图:
根据图中数据,估计病毒潜伏天数的样本数据的68%分位数是( )
A.6 B.7 C.7.2 D.8
【答案】B
【分析】根据百分位数的定义及频率分布直方图求解.
【详解】由频率分布直方图可知,潜伏期不高于天的患者所占的比例为,
潜伏期不高于天的患者所占的比例为,
因此,分位数一定位于内,
由,所以可估计样本的分位数为.
故选:B
25.(2025·黑龙江·模拟预测)某学校为了拓展学生的国际视野,培养学生的创新精神,让学生学有动力,学有信心,举办了英语手抄报比赛.为了解考生的成绩情况,抽取了样本容量为的部分考生成绩,得到如图所示的频率分布直方图,则估计考生成绩的第70百分位数为( )
A.74 B.75 C.76 D.77
【答案】C
【分析】结合百分位数的计算公式,代入计算,即可得到结果.
【详解】由频率分布直方图可知,考生成绩的第70百分位数为.
故选:C.
题型6 总体集中趋势的估计
1.求众数、中位数、平均数的方法 (1)众数:由定义知,一组数据中出现次数最多的数,即为众数,若有两个或几个数据出现的次数最多,且出现的次数一样,这些数据都是这组数据的众数;若一组数据中,每个数据出现的次数一样多,则认为这组数据没有众数; (2)中位数:若一组数据为奇数个,按照从小到大(或从大到小)的顺序排列,位于中间位置的数据就是这组数据的中位数;若一组数据为偶数个,按照从小到大(或从大到小)的顺序排列,位于中间位置的两个数据的平均数就是这组数据的中位数; (3)平均数:利用=xi求解. 2.频率分布直方图中的数字特征 (1) 众数估计值:最高矩形的底边中点的横坐标. (2) 中位数:中位数左边和右边的矩形的面积和应该相等. (3) 平均数:平均数在频率分布直方图中等于各组区间的中点值与对应频率之积的和.
26.(2025·湖南长沙·模拟预测)对于数据,下列说法错误的是( )
A.平均数为5 B.众数为6
C.极差为10 D.中位数为6
【答案】D
【分析】利用平均数,众数,极差,中位数的意义计算可判断每个选项的正误.
【详解】平均数为,故A正确;众数为6,故B正确;
极差为,故C正确;数据的中位数为5,故D错误.
故选:D.
27.(2025·甘肃平凉·模拟预测)一组数据1,7,5,2,,2,且,,若该组数据的众数是中位数的,则该组数据的平均数为( )
A.3 B.3.5 C.4 D.4.5
【答案】B
【分析】利用中位数和平均数的概念求解即可.
【详解】易得众数为2,则中位数为,
所以将数据按照从小到大排列得1,2,2,,5,7,则,解得,
则平均数为.
故选:B.
28.(2025·河北保定·模拟预测)一组数据按从小到大排列为2,4,6,a,13,14,如果该组数据的中位数与这组数据的第60百分位数相等,则该组数据的平均数为( )
A.7.5 B.6 C.4.5 D.3
【答案】A
【分析】根据给定条件,利用中位数、第60百分位数的定义求出,进而求出平均数.
【详解】这组数据的中位数为,由,得这组数据的第60百分位数为,
因此,解得,所以这组数据的平均数为.
故选:A
29.(2025·安徽池州·模拟预测)春季是流感的高发季节,某医院对8名甲型流感患者展开临床观察,记录了从开始服药到痊愈所需的天数,具体数据如下(单位:天):7,4,6,5,8,5,6,4.则下列说法正确的是( )
A.这组数据的众数为5
B.这组数据的平均数为5
C.这组数据的第60百分位数为6
D.这组数据的极差为5
【答案】C
【分析】根据众数,平均数,百分位数,极差的定义逐一判断即可.
【详解】对于A,这组数据的众数为,故A错误;
对于B,这组数据的平均数为,故B错误;
对于C,将这组数据按从小到大的顺序排列为,
因为,
所以这组数据的第60百分位数为6,故C正确;
对于D,这组数据的极差为,故D错误.
故选:C.
30.(2025·湖北武汉·模拟预测)某批产品检验后的评分,由统计结果制成如图所示的频率分布直方图,
下列说法中正确的是( )
A. B.评分的众数估值为70
C.评分的第25百分位数估值为67.5 D.评分的平均数估值为76
【答案】C
【分析】根据频率分布直方图中所有小矩形的面积之和为得到方程,求出,再根据平均数、百分位数及众数的计算规则计算可得.
【详解】由题意:,
解得,A错误,
所以平均数为,故D错误;
众数为,故B错误;
因为,第百分位数估计为,故C正确;
故选:C
31.(2025高三·江苏南通·阶段练习)某人通过手机记录锻炼情况,得到11月份每天的锻炼时间(单位:如下表:
锻炼时间 小于0.5 不小于2
天数 2 6 10 8 4
据表中数据,下列结论一定正确的是( )
A.30天锻炼时间的中位数不超过
B.30天锻炼时间的平均数不低于
C.30天锻炼时间的极差不超过
D.30天锻炼时间的众数不低于
【答案】B
【分析】由题意给的数据,结合中位数、平均数、极差和众数的概念依次判断即可.
【详解】A:将锻炼时间从小到大排序,中位数为第15个和第16个数据的平均值,又第15个和第16个数据都落在内,
所以中位数位于内,不一定不超过1.2,故A错误;
B:总时间为个小时,
所以平均数为小时,不低于1.1个小时,故B正确;
C:最小值小于0.5,最大值不小于2,所以极差可能超过2.5,故C错误;
D:众数位于内,低于1.5,故D错误.
故选:B.
32.(2025·重庆·模拟预测)国际学生评估项目测试是世界经济合作与发展组织对各国中学生阅读、数学、科学能力评价测试. 从年开始,每年进行一次测试评估. 在评估研究时将测试成绩按一定规则转换成等级赋分,赋分范围是至分,如图是年的某地中学生参加阅读测试后用赋分数据绘制成的不完整频率分布直方图. 据图中数据,下面说法正确的是( )
A.该地学生成绩的中位数一定大于
B.该地学生成绩的众数介于至之间
C.该地学生成绩的极差介于至之间
D.该地学生成绩没有超过分学生所占比例为
【答案】C
【分析】根据频率分布直方图,利用中位数、众数、极差的定义,对选项A、B和C逐一分析判断,即可求解;对于选项D,利用频率分布直方图,可得没有超过分学生所占比例为,即可求解.
【详解】对于选项A,分数在的频率为,分数在的频率为,分数在的频率为,分数在的频率为,分数在的频率为,
由图知,,所以,
所以中位数在间,但不一定大,所以选项A错误,
对于选项B,由众数的定义知,众数是成绩出现次数最多的,
所以众数不一定介于至之间,所以选项B错误,
对于选项C,由极差的定义知,学生成绩的极差介于至之间,所以选项C正确,
对于选项D,由选项A知,学生成绩没有超过分学生所占比例为,所以选项D错误,
故选:C.
33.(2025·广东韶关·模拟预测)众数 平均数和中位数都描述了数据的集中趋势,它们的大小关系和数据的分布形态有关.根据某小区1000户居民的月均用水量数据(单位:),得到如图所示的频率分布直方图,记该组数据的众数为,中位数为,平均数为,则( )
A. B.
C. D.
【答案】D
【分析】由频率分布直方图结合中位数以及众数的计算即可比较大小.
【详解】观察频率分布直方图,发现是属于右边“拖尾”,所以平均数大于中位数为,
由于第一个小矩形面积为,
前2个小矩形面积之和为,
所以中位数位于之间,故可得,解得,
由频率分布直方图可知众数,
故,
故选:D.
34.(2025高三·贵州贵阳·开学考试)平均数 中位数和众数都是刻画一组数据的集中趋势的信息,它们的大小关系和数据分布的形态有关在下图分布形态中,a,b,c分别对应这组数据的平均数 中位数和众数,则下列关系正确的是( )
A. B.
C. D.
【答案】A
【分析】利用数据分布图左拖尾,即平均数小于中位数,再利用众数是用最高矩形的中点值来估计,可判断众数大于中位数,即可作出判断.
【详解】由数据分布图知,众数是最高矩形下底边的中点横坐标,因此众数为右起第二个矩形下底边的中点值,
直线左右两边矩形面积相等,而直线左边矩形面积大于右边矩形面积,则,
又数据分布图左拖尾,则平均数小于中位数,即,
所以.
故选:A
35.(25-26高二·四川成都·期中)已知,,,这四个数的平均数为1,则,,,这四个数的平均数为( )
A.2 B.4 C.8 D.16
【答案】A
【分析】由平均数的计算公式即可求解.
【详解】解:,

故选:A.
题型7 总体离散程度的估计
标准差(方差)反映了数据的离散与集中、波动与稳定的程度.标准差(方差)越大,数据的离散程度越大;标准差(方差)越小,数据的离散程度越小.
36.(2025·广西·模拟预测)李老师家有3名人员,3名人员的年龄与2年后的年龄相比较,一定不会发生变化的是( ).
A.平均数 B.中位数 C.方差 D.众数
【答案】C
【分析】设李老师家3名人员的年龄从小到大,分别为,得到这3名人员2年后的年龄分别为,结合平均数和方差的计算公式,以及中位数和众数的定义,进行判断,即可求解.
【详解】设李老师家3名人员的年龄从小到大,分别为,
则这3名人员2年后的年龄分别为,
对于A,3名人员的年龄平均数为,
2年后的年龄的平均数为,显然,所以A不符合题意;
对于B,3名人员的年龄中位数为,2年后的年龄的中位数为,
显然,所以B不符合题意;
对于C,3名人员的年龄的方差为:,
2年后的年龄的方差为:

所以,所以方差不变,所以C符合题意;
对于D,设3名人员的年龄的众数为,则2年后的年龄的众数为,所以D不符合题意.
故选:C.
37.(2025·河北邯郸·模拟预测)已知组数据“”和组数据“”()的平均数分别为80,90,方差分别为15,20,若,则由这两组数据构成的所有数据的总体方差为( )
A.15 B.32 C.35 D.42
【答案】B
【分析】首先计算总体平均数,再代入总体方差公式,即可求解.
【详解】由条件可知,总体平均数,
设组数据的平均数为,方差为,组数据的平均数是,方差是,
所以所有数据的总体方差,
.
故选:B
38.(2025高三·河南·阶段练习)已知一个样本容量为10的样本的平均数为6,方差为2.现将样本中的5个数据去掉,这5个数据的平均数为5,方差为1,则余下的5个数的方差为( )
A.1.2 B.0.8 C.1 D.2
【答案】C
【分析】利用方差与平均数的意义计算可求得方差.
【详解】因为样本容量为10的样本的平均数为6,所以样本数据的总和为,
又去掉的5个数据的平均数为5,所以剩余的5个数据的总和为,
所以剩余的5个数据的平均数为,
因为原来样本容量为10的样本的方差为2,所以,
所以,
又又去掉的5个数据的方差为1,所以,
解得,
所以余下的5个数的平方和为,
所以余下的5个数的方差为
故选:C.
39.(2025·江苏南通·模拟预测)已知9个数据:,,,,的均值为,方差为2,现将加入,则新数据的方差为( )
A. B.2 C. D.18
【答案】A
【分析】由题意得,由方差公式即可求解.
【详解】由题意得,,
则新数据的方差

故选:A.
40.(2025·湖北·模拟预测)若一组数据的平均值,方差,若删去一个数之后,平均值没有改变,方差变为40,则这组数据的个数( )
A.5 B.6 C.7 D.8
【答案】A
【分析】由题意得到删除的数为5,再利用方差公式求解.
【详解】由题意得到删去一个数之后,平均值没有改变,所以删除的数为5,
由题意,得,
删除一个数后的方差为:,
得,即.
故选:A.
41.(2025·河南·模拟预测)某钢管车间生产的无缝钢管的直径规格为45mm,现从生产的钢管中随机抽取10根,测得10根钢管的平均直径为45.3mm,方差为,若再加入1根直径为45.3mm的钢管,则这11根钢管直径的( )
A.平均数变小 B.平均数变大 C.方差变小 D.方差变大
【答案】C
【分析】根据平均数以及方差的计算公式即可求解.
【详解】设11根钢管的平均直径为,方差为,则,故A,B错误;,故C正确,D错误.
故选:C
42.(2025·辽宁大连·模拟预测)已知甲、乙两组数据如下表所示,则下列结论中表述正确的是( )
序号 1 2 3 4 5 6 7 8 9 10
甲 82 83 81 82 76 91 83 88 89 93
乙 68 80 88 72 89 88 95 74 90 71
A.甲组数据的极差大于乙组数据的极差 B.甲组数据的方差小于乙组数据的方差
C.甲组数据的中位数大于乙组数据的中位数 D.甲组数据的平均数小于乙组数据的平均数
【答案】B
【分析】将甲乙两组样本数据从小到大排序,分别计算极差、中位数、平均数、方差,比较结果即可得答案.
【详解】甲组数据从小到大排序为76,81,82,82,83,83,88,89,91,93,
极差为,中位数为,平均值为,
方差为,
乙组数据从小到大排序为68,71,72,74,80,88,88,89,90,95,
极差为,中位数为,平均值为,
方差为,
甲组数据的极差小于乙组的极差,A错误;
甲组数据的方差小于乙组数据的方差,B正确;
甲组数据的中位数小于乙组数据的中位数,C错误;
甲组数据的平均值大于组数据的平均值,D错误.
故选:B
题型8 变量间的相关关系
判定两个变量正、负相关的方法 (1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关. (2)样本相关系数:r>0时,正相关;r<0时,负相关. (3)经验回归方程=x+中:>0时,正相关;<0时,负相关.
43.(2025高二·辽宁丹东·期中)对两组数据进行统计后得到如图所示的散点图,下列结论不正确的是( )
A.图1、图2两组数据都具有线性相关关系
B.图1数据正相关,图2数据负相关
C.图1相关系数小于图2相关系数
D.图1相关系数和图2相关系数之和小于0
【答案】C
【分析】根据散点图及相关性判断AB,由相关系数性质判断CD.
【详解】对A,因为散点图都呈直线型,所以图1、图2两组数据都具有线性相关关系,A正确;
对B,图1散点从左至右呈上升趋势,所以数据正相关,图2散点从左至右呈下降趋势,所以数据负相关,故B正确;
对C,图1正相关,图2负相关,所以C不正确;
对D,因为图2相关程度更强,所以D正确.
故选:C.
44.(2025·安徽蚌埠·模拟预测)医疗研究者会创建散点图来显示少女的体重指数(BMI)和身体脂肪百分比之间的相关关系,如图,下列说法正确的是( )
A.BMI越大,脂肪百分比越大
B.BMI越大,脂肪百分比越小
C.BMI与脂肪百分比正相关
D.BMI与脂肪百分比负相关
【答案】C
【分析】根据散点图的特征可得正确的选项.
【详解】由散点图可得BMI增大时,脂肪百分比或变大或变小,故AB错误;
根据散点图的分布可得:BMI于脂肪百分正相关,故C正确,D错误;
故选:C.
45.(2025·天津·模拟预测)为研究某奶茶店每日的热奶茶销售量和气温之间是否具有线性相关关系,统计该店(2025年2月6日至3月24日)每天的热奶茶销售量及当天气温得到如图所示的散点图(轴表示气温,轴表示热奶茶销售量),由散点图可知与的相关关系为( )
A.正相关,相关系数的值为0.8 B.负相关,相关系数的值为0.8
C.正相关,相关系数的值为 D.负相关,相关系数的值为
【答案】D
【分析】根据正负相关的概念判断.
【详解】由散点图知随着的增大而减小,因此是负相关.相关系数为负.
故选:D.
46.(2025高二·河南南阳·阶段练习)有一散点图如图所示,在六组数据中去掉点后重新进行回归分析,则下列说法正确的是( )
A.样本数据的两变量正相关
B.相关系数的绝对值更接近于0
C.去掉点后,回归直线的效果变弱
D.变量与变量相关性变强
【答案】D
【分析】根据散点图分析回归直线的拟合效果.
【详解】对A:由图可知,样本数据的两变量负相关,故A错误;
对B:由图可知,点相对于其它点,偏离直线远,故去掉点后,回归直线的拟合效果会更好,相关系数的绝对值更接近于1,故B错误;
对C:去掉点后,回归直线的效果变强,故C错误;
对D:正确.
故选:D
题型9 样本相关系数
样本相关系数r的统计含义及应用 (1)由r的正、负可判断成对样本数据中两相关变量是正相关还是负相关; (2)可根据|r|的大小从量的角度判断成对样本数据是否具有线性相关性,进而可知能否用经验回归方程进行分析和预测; (3)当|r|≤0.25时,即便求得了经验回归方程也没有任何统计意义.
47.(2025·广东深圳·模拟预测)按照《中华人民共和国环境保护法》的规定,每年生态环境部都会会同国家发展改革委等部门共同编制《中国生态环境状况公报》,并向社会公开发布.下表是2017-2021年五年《中国生态环境状况公报》中酸雨区面积约占国土面积的百分比(%):
年份 2017年 2018年 2019年 2020年 2021年
年份代码 1 2 3 4 5
6.4 5.5 5.0 4.8 3.8
(1)求2017-2021年年份代码与的样本相关系数(精确到0.01);
(2)预测2026年的酸雨区面积占国土面积的百分比.
附:回归直线的斜率和截距的最小二乘法估计公式分别为:,.
样本相关系数,.
【答案】(1)
(2)0.97%
【分析】(1)由表中数据结合题中数据,求出相关数值,代入相关系数求,即可得出答案;
(2)根据(1)中求出的数据,得到回归直线方程;将代入回归直线方程,即可预测2026年的酸雨区面积占国土面积的百分比.
【详解】(1)由已知可得,,,
由题可列下表:
-2 -1 0 1 2
1.3 0.4 -0.1 -0.3 -1.3
,,.

(2)由(1)知,,,
所求经验回归方程为.
令,,
预测2026年的酸雨区面积占国土面积的百分比为0.97%.
48.(2025·河北沧州·模拟预测)粮食是一个国家发展的基石,保障粮食安全是维护社会稳定的重要因素.小麦是我国两大口粮作物之一,其自身的稳定供应保障了数亿人口的食物需求,并通过产业链延伸带动了相关产业发展,促进了我国北方地区的经济发展.我国于2020年打赢了脱贫攻坚战,其中小麦发挥了重大作用.以2020年为第1年,我国连续5年小麦产量如下:
年份 1 2 3 4 5
产量/千万吨 13.4 13.7 13.8 13.6 14.0
现规定表示第i年的年份,表示第i年的产量,经计算得,,.
(1)求样本(,2,…,5)的相关系数(精确到0.01);
(2)现从这5年中随机抽取2年,记这2年中共有X年的小麦产量不低于13.7千万吨,求X的分布列与期望.
附:样本相关系数,.
【答案】(1)
(2)分布列见解析,
【分析】(1)先求出平均值,再应用已知数据结合相关系数公式计算求解;
(2)根据超几何分布求出概率,再写出分布列应用数学期望公式计算即可.
【详解】(1),,
故样本相关系数.
(2)X的取值可以为0,1,2,
则,


于是X的分布列为
X 0 1 2
P
故.
49.(2025·广东广州·模拟预测)经验表明,一般树的胸径(树的主干在地面以上m处的直径)越大,树就越高.由于测量树高比测量胸径困难,因此研究人员希望由胸径预测树高.在研究树高与胸径之间的关系时,某林场收集了某种树的一些数据,并根据数据作出如下的散点图.
经计算得,,,,.
(1)推断两个变量是否线性相关,计算样本相关系数(精确到),并推断它们的相关程度;
(2)试根据以上数据建立树高关于胸径的经验回归方程(系数精确到),并预测胸径为cm的树高.
附:相关系数,回归方程中,,.
【答案】(1)两个变量线性相关;相关性较强.
(2);m.
【分析】(1)根据树高与胸径的散点图判断它们是否线性相关,再通过相关系数判断它们相关的程度;
(2)根据最小二乘法估计计算经验回归方程的系数,得到经验回归方程,再用经验回归方程做出预测.
【详解】(1)根据树高与树的胸径的散点图,可判断两个变量是线性相关.
根据题中所给数据,得,,.
所以.
由于的值接近于1,故相关性较强.
故两个变量线性相关,且相关程度较强.
(2)由(1)知,,.
所以,.
所以经验回归方程为.
当时,,即树高的预测值大约为m.
故树高关于胸径的经验回归方程为,预测胸径为cm的树高为m.
50.(25-26高三·重庆·开学考试)电影《哪吒2》上映以来引起了全社会甚至全世界的关注,全球票房突破百亿.“跟着吒儿去旅游”成为热门出游方式,某景点宣传投入金额(单位:万元)与游客满意度评分(满分:100分)之间可能存在一定的关系,以下是随机抽取的6个不同线上宣传投入金额和游客满意度评分的数据:
线上宣传投入金额(万元) 20 30 40 50 60 70
游客满意度评分(分) 60 65 70 78 80 85
(1)根据表中所给数据,用相关系数加以判断与两个变量线性相关性的强弱.(精确到小数点后两位);
(2)《哪吒2》中更是蕴含着丰富的中国传统文化,某校举办中国传统文化比赛,甲、乙两人进入决赛,决赛采用“五局三胜制”,已知在每局比赛中,甲获胜的概率为;
①当时,设比赛结束时甲、乙比赛的局数为,求的分布列和期望;
②甲以获胜的概率为,求的最大值.
参考公式:相关系数,参考数据:.
【答案】(1),与两个变量线性相关性的很强
(2)①的分布列见解析,期望为;②的最大值为
【分析】(1)根据题意,分别求出,,,,,最后代入相关系数公式即可求得,根据的值判断线性相关性强弱即可.
(2)①根据题意,,的取值可能为,求得相应的概率,列出分布列,结合期望的公式,即可求解.
②根据题意,求得的表达式,再对求导,通过分析导数的正负确定函数的单调性,进而求出的最大值
【详解】(1)由题意得,,



则.
因为,接近1,所以与两个变量线性相关性的很强.
(2)①由题意的取值可能为,且甲获胜的概率为,
当时,甲连胜3局或乙连胜3局:
.
当时,前3局甲2胜1负,第4局甲胜;或前3局乙2胜1负,第4局乙胜:
.
当时,前4局甲2胜2负,第5局甲胜;或前4局乙2胜2负,第5局乙胜:
.
所以的分布列为:
3 4 5
期望.
②甲以获胜,即前4局甲2胜2负,第5局甲胜,
所以.
对求导得,
令,解得.
则当时,,单调递增,
当时,,单调递减.
因此当时,取得最大值.
题型10 一元线性回归模型
线性回归分析问题的解题策略 (1)利用公式,求出回归系数; (2)利用经验回归直线过样本点的中心求系数; (3)利用经验回归方程进行预测,把回归方程看作一次函数,将解释变量x的值代入,得到预测变量的值.
51.(2025·河南新乡·模拟预测)某企业产品的广告费用与销售量的统计数据如表所示:根据表中各数据可得回归方程,其中,假设该企业广告费用为6万元时,则销售额为( )
广告费用(万元) 4 2 3 5
销售额(万元) 49 26 39 54
A.63,6万元 B.65,5万元 C.67,7 万元 D.72,0万元
【答案】B
【分析】根据回归直线过定点的性质,求出坐标,解出回归直线方程,计算结果即可.
【详解】根据表格数据得,,
∵回归中心满足回归直线方程,其中,
,解得,
于是回归方程为,令,得,
故选:B.
52.(2025高二·河南南阳·期中)对于变量,其部分成对的观测值如下表所示:
1 2 3 4 5
2 6 7 8 12
已知具有线性相关关系,且根据最小二乘法得到的线性回归方程为,则( )
A.0.2 B.0.4 C.0.8 D.1.2
【答案】B
【分析】根据回归直线方程必过点,代入即可求解.
【详解】由条件可知,,,
线性回归方程必过点,所以,所以.
故选:B
53.(2025·重庆·模拟预测)已知变量和的统计数据如下表.
80 90 100 110 120
y 120 140 165 180
若,线性相关,经验回归方程为,则( )
A.155 B.158 C.160 D.162
【答案】A
【分析】根据样本中心点在回归直线方程上,得到,求出.
【详解】由表中数据可得,
代入经验回归方程可得,
则.
故选:A
54.(2025·福建宁德·模拟预测)由如表所示的变量之间的一组数据,得之间的线性回归方程为,则( )
6 8 10 12
7 5.5 4.5
A.点一定在回归直线上
B.每增加1个单位,大约增加0.5个单位
C.
D.去掉这组数据后,求得的回归直线方程斜率将变大
【答案】C
【分析】利用回归直线方程过样本点可求得,进而逐项计算判断每个选项的正误.
【详解】由题意可得,,
因为回归直线方程一定过样本中心点,
所以,解得,故C正确;
当,所以点不在回归直线上,故A错误;
每增加1个单位,大约减少0.5个单位,故B错误;
当,所以在回归直线上,故去掉点 不影响回归直线方程,故D错误.
故选:C.
55.(2025·江西·模拟预测)已知变量和的统计数据如下表:
400 500 600 700 800
3 4 6 6 7
若线性相关,且经验回归方程为,则据此可以预测当时,( )
A.18.2 B.19.2 C.20.2 D.21.2
【答案】B
【分析】求出和,根据经验回归直线必过样本点中心求出,即可求解.
【详解】,,
因为在经验回归直线上,
所以,解得,即,
当时,.
故选:B.
56.(2025·陕西汉中·模拟预测)2024年全民健身运动的主题“全民健身与奥运同行”,为了满足群众健身需求,某健身房近几年陆续购买了几台型跑步机,该型号跑步机已投入使用的时间(单位:年)与当年所需要支出的维修费用(单位:千元)有如下统计资料:
2 3 4 5 6
2.2 3.8 5.5 6.5 7
根据表中的数据可得到线性回归方程为,则( )
A.与的样本相关系数
B.
C.表中维修费用的第60百分位数为6.5
D.该型跑步机已投入使用的时间为10年时,当年所需要支出的维修费用一定是12.38万元
【答案】B
【分析】利用线性回归方程计算判断ABD;求出第60百分位数判断C.
【详解】对于A,由,得与成正相关,样本相关系数,A错误;
对于B,,,则,B正确;
对于C,,因此第60百分位数为,C错误;
对于D,由选项B知,,当时,,
则当年所需要支出的维修费用约为12.38万元,D错误.
故选:B
57.(2025高二·陕西宝鸡·期末)如图是某采矿厂的污水排放量单位:吨与矿产品年产量单位:吨的折线图:
(1)依据折线图计算相关系数精确到,并据此判断是否可用线性回归模型拟合y与x的关系?若,则线性相关程度很高,可用线性回归模型拟合
(2)若可用线性回归模型拟合与的关系,请建立关于的线性回归方程,并预测年产量为10吨时的污水排放量.
相关公式:,参考数据:.
回归方程中,
【答案】(1)相关系数,可用线性回归模型拟合y与x的关系
(2),吨
【分析】(1)代入数据,算出相关系数r,将其绝对值与比较,即可判断可用线性回归模型拟合y与x的关系.
(2)先求出回归方程,求出当时的值,即为预测值.
【详解】(1)由折线图得如下数据计算得:
,,,
所以相关系数,
因为,所以可用线性回归模型拟合y与x的关系
(2)

所以回归方程为,
当时,,
所以预测年产量为10吨时的污水排放量为吨
58.(2025·浙江金华·模拟预测)近些年汽车市场发生了翻天覆地的变化,新能源汽车发展迅速,下表统计了2021年到2024年某地新能源汽车销量(单位:千辆)
年份 2021 2022 2023 2024
年份代号 1 2 3 4
销量 33 69 93 129
附:相关系数;
回归方程中斜率和截距的最小二乘法估计公式分别为,
(1)试根据样本相关系数的值判断该地汽车销量与年份代号的线性相关性强弱(,则认为与的线性相关性较强,,则认为与的线性相关性较弱);(精确到0.001)
(2)建立关于的线性回归方程,并预测该地2025年的新能源汽车销量.
【答案】(1)与具有较强的线性相关关系
(2),(千辆)
【分析】(1)根据题干所给数据算出,,,代入相关系数计算公式计算即可;
(2)根据(1)算出的结果进一步算出,再根据线性回归方程经过计算,最后把代入回归直线方程即可求解.
【详解】(1)已知,,则,
,则,
,,所以,
已知,故,
又,代入相关系数公式,
可得,
因为,所以与具有较强的线性相关关系.
(2)根据,
由(1)可知,,所以,
由,已知,,,则,
所以关于的线性回归方程为,将代入线性回归方程(千辆).
59.(2025·云南丽江·模拟预测)某车间为了规定工时定额,需要确定加工零件所花费的时间,为此作了次试验,得到数据如下:
零件的个数x(个) 2 3 4 5
加工的时间y(小时) 2.5 3 4 4.5
参考公式:用最小二乘法求线性回归方程系数公式,
(1)求关于的线性回归方程;
(2)求各样本的残差;
(3)试预测加工个零件需要的时间.
【答案】(1);
(2)各样本的残差依次为:0.05,-0.15,0.15,-0.05.
(3)小时.
【分析】(1)根据表中数据求出、、、,进而由参考公式求出线性回归方程;
(2)计算每个对应的预测值,计算残差 ;
(3)将代入回归方程
【详解】(1)
,,
∴所求线性回归方程为.
(2)计算每个对应的预测值:




计算残差:
所以,各样本的残差依次为:.
(3)当时,,
∴预测加工个零件需要小时.
60.(2025·河南洛阳·模拟预测)网购是现代年轻人重要的购物方式,截止到2021年12月,我国网络购物用户规模达8.42亿,较2020年12月增长5968万,占网民整体的81.6%,某电商对其旗下的一家专营店近五年来每年的利润额(单位:万元)与时间第年进行了统计得如下数据:
1 2 3 4 5
2.6 3.1 4.5 6.8 8.0
(1)依据表中给出的数据,是否可用线性回归模型拟合与的关系?请计算相关系数并加以说明(计算结果精确到0.01).(若,则线性相关程度很高,可用线性回归模型拟合)
(2)试用最小二乘法求出利润与时间的回归方程,并预测当时的利润额.
附:,,
参考数据:,,,.
【答案】(1),y与t的线性相关程度很高,可以用线性回归模型拟合.
(2),万元.
【分析】(1)先利用公式计算出相关系数r,再按要求进行比较,进而得到结果;
(2)先利用公式求得,得到利润y与时间t的回归方程,进而预测当时的利润额.
【详解】(1)由题表,,
因为,,,
所以.
故y与t的线性相关程度很高,可以用线性回归模型拟合.
(2),,
所以.当时,.
预测该专营店在时的利润为万元.
61.(2025·河北·模拟预测)一般来说,广告投入的增加有助于提高产品的知名度和消费者的购买意愿,从而可能带来销量的提升.某商家统计了7个月的月广告投入(单位:万元)与月销量(单位:万件)的数据如表所示:
月广告投入(万元) 1 2 3 4 5 6 7
月销量(万件) 28 32 35 45 49 52 60
(1)已知可用线性回归模型拟合与的关系,请用相关系数加以说明,并求关于的线性回归方程;
(2)根据(1)的结论,预计月广告投入大于多少万元时,月销量能突破70万件.
参考数据:,,.
相关系数;
回归直线的斜率和截距的最小二乘估计分别为,.
【答案】(1)说明见解析,
(2)投入大于9.04万元
【分析】(1)根据线性相关系数公式求解相关系数,再利用最小二乘估计求解回归方程即可;
(2)根据回归方程列不等式求解即可.
【详解】(1)由题意,知,

结合,可得,
.
显然与的线性相关程度相当高,从而线性回归模型能够很好地拟合与的关系.
易知.

所以.
即关于的线性回归方程为.
(2)若月销量突破70万件,则,解得.
故当月广告投入大于9.04万元时,月销量能突破70万件.
题型11 非线性回归模型
1.建立非线性回归模型的基本步骤: (1)确定研究对象,明确哪个是解释变量,哪个是预报变量; (2)画出确定好的解释变量和预报变量的散点图,观察它们之间的关系(是否存在非线性相关关系); (3)由经验确定非线性回归方程的类型(如我们观察到数据呈非线性关系,一般选用反比例函数、指数函数、对数函数模型等); (4)通过换元,将非线性回归方程模型转化为线性回归方程模型; (5)按照公式计算经验回归方程中的参数(如最小二乘法),得到线性回归方程; (6)消去新元,得到非线性回归方程; (7)得出结果后分析残差图是否有异常,若存在异常,则检查数据是否有误,或模型是否合适等. 2.常见的非线性回归方程的转化: 曲线方程变换公式变换后的线性关系式y=axbc=lna,v=lnx,u=lnyu=c+bvy=aebxc=lna,u=lnyu=c+bxy=aec=lna,v=,u=lnyu=c+bvy=a+blnxv=lnxy=a+bv
62.(2025高二·江西抚州·期中)细胞在适宜环境下的繁殖通常符合类型的模型,假设某种细胞的初始数量为,在理想条件下,每个细胞单位时间的繁殖率一定,经过个单位时间后,细胞总数(万个)会呈指数增长.设,变换后得到线性回归方程,已知该回归方程的样本中心为,则( )
A. B.0.596 C. D.0.206
【答案】A
【分析】由题意得,求出,从而可求得线性回归方程,给两边取对数化简,对照回归方程可求得答案.
【详解】由题意得,解得,
因此,
由两边取对数,得,
又,所以,即.
故选:A.
63.(2025·河南·模拟预测)已知变量与变量的关系可以用模型(,为常数)拟合,设,变换后得到一组数据如下:
2 3 4 5 6
1.02 1.20 1.42 1.62 1.84
由上表可得经验回归方程为,则( )
A.0.206 B. C.0.596 D.
【答案】D
【分析】先根据线性回归方程必过样本中心点,可求,再推导出,可求的值.
【详解】由表格中数据得,

代入方程得,,解得,因此.
由两边取对数,得.
又,所以,,即.
故选:D
64.(2025·山东烟台·模拟预测)近年来,新能源汽车因其动力充沛、提速快、用车成本低等特点得到民众的追捧.某机构为研究汽油价格x(单位:元/升)与新能源汽车的月销售量y(单位:万辆)之间的关系,收集整理得到如下数据:
x 6 6.5 7 7.5 8
y 1.5 2 3 4.5 6.8
(1)若用模型模拟x与y之间关系,求出回归方程;
(2)根据建立的回归方程,预测当汽油价格上涨至9元/升时,新能源汽车的销量;
(3)假设当汽油价格为9元/升时,实际销量超过预测值的概率为0.6.现进行5次独立观测,记这5次观测中销量超过预测值的次数为,求的数学期望.
参考数据和公式:.,.
令,,,.
对于一组数据,其回归直线的斜率和截距的最小二乘估计分别为:,.
【答案】(1)
(2)约为万辆
(3)3
【分析】(1)先根据数据计算,再根据计算即可求出;
(2)将代入回归方程中即可;
(3)由题意可知,利用二项分布的期望公式计算即可.
【详解】(1)因为,则,
又,,
由得,,解得,
所以回归方程为.
(2)当时,代入回归方程可得

价格上涨至9元/升时,新能源汽车的销量约为万辆.
(3)由题知,,所以,即的数学期望为3.
65.(2025·海南省直辖县级单位·模拟预测)蝗虫能对农作物造成严重伤害,每只蝗虫的平均产卵数(单位:个)和平均温度(单位:)有关.现收集到一只蝗虫的产卵数(个)和温度的8组观测数据,制成图1所示的散点图.现用两种模型①,②分别进行拟合,由此得到相应的回归方程并进行残差分析,进一步得到图2所示的残差图.
根据收集到的数据,计算得到如下值:
24 2.9 646 168 422688 50.4 70308
表中,,,;
(1)根据残差图,比较模型①、②的拟合效果,模型_____比较合适?根据所选择的模型,利用上表中的参考数据,求出关于的回归方程.
(2)根据以往统计,该地每年平均温度达到以上时蝗虫会对农作物造成严重伤害,需要人工防治,其他情况均不需要人工防治.设该地每年平均温度达到以上的概率为,该地今后年恰好需要2次人工防治的概率为.
①求取得最大值时对应的概率;
②当取最大值时,设该地今后5年需要人工防治的次数为,求的均值和方差.
附:对于一组数据,其回归直线的斜率和截距的最小二乘估计分别为:,.
【答案】(1)模型①,;
(2)①;②均值为2,方差为
【分析】(1)根据残差点的分布情况即可确定函数模型①的拟合效果较好,将非线性回归转化为线性回归,根据所给数据代入公式即可得回归方程;
(2)①由题意表示,利用导数分析函数单调性和最值可得结果;
②由①得每年需要人工防治的概率为,故服从二项分布,根据二项分布的均值和方差公式即可得解.
【详解】(1)模型①更合适,理由如下:
模型①残差点比较均匀地落在水平的带状区域中,且带状区域的宽度比模型②带状区域宽度窄,
所以模型①的拟合效果更好,故选模型①比较合适.
令,则,
由所给的参考数据可得,,
所以,
因此关于的线性回归方程为,即,
所以产卵数关于温度的回归方程为.
(2)①由题意得,,
所以

令,得,当时,,当时,,
所以在上单调递增,在上单调递减,
所以取得最大值时对应的概率;
②由①知,当时,取最大值,
所以当时,,
由题意可知每年需要人工防治的概率为,且服从二项分布,
所以,.
66.(2025·云南·模拟预测)自2020年以来,某地区人工智能核心产值规模呈快速增长态势,下表给出了近5年该地区的人工智能核心产值规模(单位:亿元).
年份 2020 2021 2022 2023 2024
年份编号 1 2 3 4 5
核心产值规模 1.5 2.5 3.4 4.9 7.8
(1)若用作为回归模型,并已求得,,,求此模型下的决定系数(精确到0.01).
(2)若用作为回归模型,
①求的值;
②已知该模型下的决定系数,请说明哪种回归模型拟合效果更好,并用拟合效果好的模型预测2025年该地区的人工智能核心产值规模.
参考数据:
3 4.02 16.16 104.91 1.24 22.54 1.1 1.5 11.4
附:(1)上表中;
(2)一组数据,其经验回归直线的斜率和截距的最小二乘估计公式分别为,,决定系数.
【答案】(1)
(2)①,,②预测2025年该地区的人工智能核心产值规模为(亿元).
【分析】(1)利用决定系数公式计算即可;
(2)①将指数模型两边取对数转化为线性模型,利用最小二乘法求解,即可求解;②通过比较判断模型优劣,并代入预测2025年产值即可.
【详解】(1)由题意可得,
所以决定系数
(2)将两边取对数,可得,
设,则模型为,其中,
因为,
所以

所以,
则,
所以,,
因为该模型下的决定系数,大于线性模型下的决定系数,
故指数模型拟合效果更好,
令,可得(亿元),
故预测2025年该地区的人工智能核心产值规模为(亿元).
67.(2025·福建泉州·模拟预测)泉州少年郎团队从2024年10月份以来,通过深度整合AI算法、大数据分析和自动化技术,不断优化产品与服务,显著提升了运营效率和市场竞争力,推动团队收入持续攀升.该团队在近7个月的经济收入(单位:百万元)的数据如下表:
月份编号 1 2 3 4 5 6 7
收入(百万元) 6 11 21 34 66 101 196
(1)根据以上数据绘制散点图,并根据散点图判断,与(均为大于零的常数)哪一个适宜作为该团队经济收入y关于月份x的回归方程模型?(给出判断即可,不必说明理由)并根据你的判断结果及表中的数据,求出y关于x的回归方程;
(2)请你根据所求的回归方程,预测该团队下一个月的经济收入;
(3)试从统计学角度分析,如果用所求的回归方程预测该团队接下来1年的经济收入情况是否合理?
参考数据:
435 10.78 2535 50.12 2.82 3.47
其中设,
参考公式:,.
【答案】(1)适宜,
(2)347百万元
(3)不合理
【分析】(1)看到形式,通过取对数转化成的形式,把复杂形式变简单. 算出的均值、的均值和这些值. 用公式算出,再把样本中心点代入求出,进而得到回归方程.
(2)把代入回归方程,算出对应的值,得到预测收入.
(3)经验回归方程有时效性,所以判断预测不合理.
【详解】(1)散点图如图所示,
根据散点图判断,适宜作为5G经济收入y关于月代码x的回归方程类型,
,两边同时取常用对数得:,
设,,




把样本中心点代入,得:,
,,

y关于x的回归方程:.
(2)当时,,
所以预测该公司2025年5月份的经济收入估计为347百万元.
(3)不合理,经验回归方程一般具有时效性,解释变量越接近样本数据,预测值比较可信,否则会有显著误差.
68.(2025高二·辽宁丹东·期中)年初,哈尔滨利用冰雪资源成功吸引了大批游客前来旅游.年底,第二十六届哈尔滨冰雪大世界以“冰雪同梦,亚洲同心”为主题,再次邀请广大游客共赴冰雪之约.统计年这年月份来哈尔滨的游客数量(单位:万),并绘制散点图,如图所示(年份代码对应).
(1)经计算得出下表中的数据,根据散点图,在模型①:与模型②:(均为常数)中,选择一个更适合作为每年月份来哈尔滨的游客数量关于年份代码的回归直线方程类型,并求出关于的回归直线方程.
其中,.
附:对于一组数据、、、,其回归直线的斜率和截距的最小二乘估计分别为,.参考数据:.
(2)根据所求的回归直线方程预测年月份来哈尔滨的游客数量.
【答案】(1)选择,回归方程为
(2)万
【分析】(1)根据散点图可作出判断,令,所以,利用最小二乘法求出、的值,即可得出回归方程;
(2)将代入回归方程,可得结果.
【详解】(1)由散点图可知,更适合作为每年月份来哈尔滨的游客数量关于年份代码的回归直线方程类型.
因为,所以.
因为,,,,
所以,
所以,所以回归方程为.
所以每年月份来哈尔滨的游客数量关于年份代码的回归直线方程为.
(2)当时,,
所以预测年月份来哈尔滨的游客数量为万.
题型12 经验回归分析
刻画回归效果的四种方法 (1)残差图法:残差点比较均匀地落在水平带状区域内说明选用的模型比较合适. (2)残差平方和法:残差平方和(yi-)2越小,模型的拟合效果越好. (3)决定系数R2法:R2越接近1,表明模型的拟合效果越好. (4)样本相关系数.
69.(2025·海南·模拟预测)已知由样本数据组成的一个样本,得到经验回归方程为,且,增加两个样本点和后,得到新样本的经验回归方程为.在新的经验回归方程下,样本的残差为( )
A. B. C. D.2
【答案】C
【分析】先计算新样本的,代入到新样本回归方程中,求出,再计算残差即可.
【详解】设新样本得均值为,
则,
又回归方程过均值点,所以,解得,
所以新样本的经验回归方程为,
预测值,
所以残差为.
故选:C.
70.(2025·上海浦东新·模拟预测)研究变量x,y得到一组成对数据,,先进行一次线性回归分析,接着增加一个数据,其中,,再重新进行一次线性回归分析,则下列说法正确的是( )
A.变量与变量的相关性变强 B.相关系数的绝对值变小
C.线性回归方程不变 D.拟合误差Q变大
【答案】C
【分析】由已知可得,,求出相关系数,即可判断A,B选项,再利用回归直线方程过样本中心点可判断C选项,D利用残差平方和进行判断即可.
【详解】设变量x,y的平均数分别为,,
则,,即,,
可知新数据的样本中心点不变,仍为,
则,


则相关系数.
可知相关系数的值不变,变量与变量的相关性不变,故A,B错误;
对于C,因为,所以不变,
且线性回归方程过样本中心点,即,均不变,所以线性回归方程不变,故C正确;
因为即为样本中心点,即,
可知残差平方和不变,所以拟合误差Q不变,故D错误.
故选:C.
71.(2025·江西新余·模拟预测)样本点数据,且大致呈线性分布,其经验回归方程为,若,数据的80%分位数为7,则当时,随机误差的残差为:( ).
A.-0.5 B.0.5 C.-1.5 D.1.5
【答案】B
【分析】根据题意计算出观测值与预估值,再计算残差即可.
【详解】将从小到大排列,,所以,预测值为,
所以残差为观测值-预测值=6-5.5=0.5
故选:B.
72.(2025·山东泰安·模拟预测)对于响应变量,通过观测得到的数据称为观测值,通过经验回归方程得到的称为预测值,观测值减去预测值称为残差.将某公司新产品自上市起的月份与该月的对应销量(单位:万件)整理成如下表格:
月份x 1 2 3 4 5
销量y 0.5 1 1.4
建立y与x的线性回归方程为,则第2个月和第4个月的残差和为( )
A.-0.919 B.-0.1 C.0.1 D.0.919
【答案】C
【分析】先求平均值,将其代入回归方程,故,将2,4代入线性回归方程,根据残差概念计算即可.
【详解】由题意可得,,
将其代入回归方程,得,故,
将2,4代入线性回归方程,则第2,4个月的预测值分别为,,
故第2个月和第4个月的残差和为.
故选:C.
73.(2025·云南·模拟预测)已知变量x,y线性相关,其一组样本数据,满足,用最小二乘法得到的经验回归方程为.若增加一个数据后,得到修正后的回归直线的斜率为2.1,则数据的残差为( )
A. B. C.0.1 D.0.2
【答案】B
【分析】根据已知求原数据的样本中心,再确定增加数据后的样本中心,进而得到修正后的回归直线方程,估计的对应值,最后由残差的定义求解即可.
【详解】由题设,则,
增加数据后,,,且回归直线为,
所以,则,
所以时,有,故残差为,
故选:B.
74.(2025高二·山东青岛·期中)根据变量Y和x的成对样本数据,由一元线性回归模型得到经验回归模型,求得残差图.对于以下四幅残差图,满足一元线性回归模型中对随机误差假设的是( )
A. B.
C. D.
【答案】D
【分析】根据一元线性回归模型中对随机误差的假定进行判断.
【详解】根据一元线性回归模型中对随机误差的假定,残差应是均值为、方差为的随机变量的观测值.
对于A选项,残差与有线性关系,故A错误;
对于B选项,残差的方差不是一个常数,随着观测时间变大而变小,故B错;
对于C选项,残差与有非线性关系,故C错;
对于D选项,残差比较均匀地分布在以取值为的横轴为对称轴的水平带状区域内,故D正确.
故选:D.
75.(2025·广东·模拟预测)一组样本数据.其中,,,求得其经验回归方程为:,残差为.对样本数据进行处理:,得到新的数据,求得其经验回归方程为:,其残差为.,分布如图所示,且,则下列说法错误的是( )
A.样本负相关 B.
C. D.处理后的决定系数变大
【答案】C
【分析】利用回归方程判断A;利用样本中心点计算判断B;利用图象的波动性判断CD.
【详解】对于A,经验回归方程中斜率,则样本负相关,A正确;
对于B,原样本均值:,由,得,B正确:
对于C,由图1的数据波动较大可得比更集中,则,C错误;
对于D,由图1的残差平方和较图2的残差平方和大知,处理后拟合效果更好,决定系数变大,D正确.
故选:C.
76.(2025·浙江·模拟预测)为研究光照时长(小时)和种子发芽数量(颗)之间的关系,某课题研究小组采集了9组数据,绘制散点图如图所示,并对,进行线性回归分析.若在此图中加上点后,再次对,进行线性回归分析,则下列说法正确的是( )
A.,不具有线性相关性 B.决定系数变大
C.相关系数变小 D.残差平方和变小
【答案】C
【分析】从图中分析得到加入点后,回归效果会变差,再由决定系数,相关系数,残差平方和及相关性的概念和性质作出判断即可.
【详解】对于A,加入点后,变量与预报变量相关性变弱,
但不能说,不具有线性相关性,所以A不正确
对于B,决定系数越接近于1,拟合效果越好,所以加上点后,决定系数变小,故B不正确;
对于C,从图中可以看出点较其他点,偏离直线远,所以加上点后,回归效果变差.
所以相关系数的绝对值越趋于0,故C正确;
对于D,残差平方和变大,拟合效果越差,所以加上点后,残差平方和变大,故D不正确;
故选:C.
77.(2025·广东茂名·模拟预测)一只药用昆虫的产卵数与一定范围内的温度有关,现收集了该种药用昆虫的6组观测数据如下表:
温度 21 23 24 27 29 32
产卵数个 6 11 20 27 57 77
经计算得:线性回归模型的残差平方和,其中分别为观测数据中的温度和产卵数,.
(1)若用线性回归方程,求关于的回归方程(精确到0.1);
(2)若用非线性回归模型求得关于回归方程为,且相关指数0.9522.
(i)试与(1)中的回归模型相比,用说明哪种模型的拟合效果更好.
(ii)用拟合效果好的模型预测温度为时该种药用昆虫的产卵数(结果取整数).
附:一组数据,其回归直线的斜率和截距的最小二乘估计为;相关指数.
【答案】(1)
(2)(i)非线性回归模型拟合效果更好;(ii);
【分析】(1)求出、后代入公式直接计算得、,即可得解;
(2)(i)求出线性回归模型的相关指数,与比较即可得解;
(ii)直接把代入,计算即可得解.
【详解】(1)由题意,则,,
,,
y关于x的线性回归方程为.
(2)(i)对于线性回归模型,,,
相关指数为,
因为,所以用非线性回归模型拟合效果更好.
(ii)当,时(个)
所以温度为时,该种药用昆虫的产卵数估计为190个.
78.(2025高二·重庆·阶段练习)某公司为了解年研发资金(单位:亿元)对年产值(单位:亿元)的影响,对公司近8年的年研发资金和年产值(,)的数据对比分析中,选用了两个回归模型,并利用最小二乘法求得相应的关于的经验回归方程:
①;②.
(1)求的值;
(2)已知①中的残差平方和,②中的残差平方和,请根据决定系数选择拟合效果更好的经验回归方程,并利用该经验回归方程预测年研发资金为20亿元时的年产值.
参考数据:,,,.
参考公式;刻画回归模型拟合效果的决定系数.
【答案】(1)
(2)经验回归方程②的拟合效果更好;亿元.
【分析】(1)求出样本中心点,代入经验回归方程求出;
(2)根据公式求出两个经验回归方程的决定系数,并判断拟合效果;利用方程预测.
【详解】(1)根据题意,,,
所以样本中心点为,代入经验回归方程,
得,解得.
所以的值为.
(2)设经验回归方程①的决定系数为,由,
则,
设经验回归方程②的决定系数为,由,
则,
因为,所以经验回归方程②的拟合效果更好;
当时,,
所以年研发资金为20亿元时的年产值约为亿元.
79.(2025·内蒙古包头·模拟预测)某企业拟对某产品进行科技升级,根据市场调研与模拟,得到科技升级投入(万元)与科技升级直接收益(万元)的数据统计如下:
序号 1 2 3 4 5 6 7
2 3 4 6 8 10 13
13 22 31 42 50 56 58
根据表格中的数据,建立了与的两个回归模型:模型①:模型②:.
(1)根据下列表格中的数据,比较模型① ②的相关指数的大小,并选择拟合精度更高 更可靠的模型;
(2)根据(1)选择的模型,预测对该产品科技升级的投入为100万元时的直接收益.
回归模型 模型① 模型②
回归方程
182.4 79.2
(附:刻画回归效果的相关指数越大,模型的拟合效果越好)
【答案】(1)模型①的相关指数小于模型②的相关指数,即模型②的拟合效果精度更高 更可靠.
(2)198.6
【分析】(1)利用相关指数的定义判断相关性即可.
(2)将给定数值代入拟合模型中求预测值即可.
【详解】(1)由表格中的数据,,
所以,模型①的相关指数小于模型②的相关指数,
即模型②的拟合效果精度更高 更可靠.
(2)当万元时,科技升级直接收益的预测值为:
(万元)
题型13 分类变量与列联表
分类变量的两种统计表示形式 (1)等高堆积条形图:根据等高堆积条形图的高度差判断两分类变量是否有关联及关联强弱; (2)2×2列联表:直接利用2×2列联表中的数据进行计算分析,用定量的方式判断两分类变量是否有关联及关联强弱.
80.(2025高三·全国·专题练习)下面是列联表:
合计
21 73
22 25 47
合计 46 120
则表中,的值分别为( )
A.94,72 B.52,50 C.52,74 D.74.52
【答案】C
【分析】根据联表计算求参即可.
【详解】因为.所以.又,所以.
故选:C.
81.(2025·贵州·模拟预测)为了发展学生的兴趣和个性特长,培养全面发展的人才.某学校在不加重学生负担的前提下.提供个性、全面的选修课程.为了解学生对于选修课《学生领导力的开发》的选择意愿情况,对部分高二学生进行了抽样调查,制作出如图所示的两个等高条形图,根据条形图,下列结论正确的是( )
A.样本中不愿意选该门课的人数较多
B.样本中男生人数多于女生人数
C.样本中女生人数多于男生人数
D.该等高条形图无法确定样本中男生人数是否多于女生人数
【答案】B
【分析】根据等高条形图直接判断各个选项即可.
【详解】对于A,由图乙可知,样本中男生,女生都大部分愿意选择该门课,
则样本中愿意选该门课的人数较多,A错误;
对于BCD,由图甲可知,在愿意和不愿意的人中,都是男生占比较大,
所以可以确定,样本中男生人数多于女生人数,B正确,CD错误.
故选:B.
82.(2025·四川达州·模拟预测)四川省将从2022年秋季入学的高一年级学生开始实行高考综合改革,高考采用“3+1+2”模式,其中“1”为首选科目,即物理与历史二选一.某校为了解学生的首选意愿,对部分高一学生进行了抽样调查,制作出如下两个等高条形图,根据条形图信息,下列结论正确的是( )
A.样本中选择物理意愿的男生人数少于选择历史意愿的女生人数
B.样本中女生选择历史意愿的人数多于男生选择历史意愿的人数
C.样本中选择物理学科的人数较多
D.样本中男生人数少于女生人数
【答案】C
【分析】根据等高条形图的概念结合条件逐项分析即得.
【详解】根据等高条形图图1可知样本中选择物理学科的人数较多,故C正确;
根据等高条形图图2可知样本中男生人数多于女生人数,故D错误;
样本中选择物理学科的人数多于选择历史意愿的人数,而选择物理意愿的男生比例高,选择历史意愿的女生比例低,
所以样本中选择物理意愿的男生人数多于选择历史意愿的女生人数,故A错误;
样本中女生选择历史意愿的人数不一定多于男生选择历史意愿的人数,故B错误.
故选:C.
83.(2025高二·宁夏银川·阶段练习)为考查、两种药物预防某疾病的效果,进行动物实验,分别得到如下等高条形图:根据图中信息,在下列各项中,说法最佳的一项是( )
A.药物的预防效果优于药物的预防效果
B.药物的预防效果优于药物的预防效果
C.药物、对该疾病均有显著的预防效果
D.药物、对该疾病均没有预防效果
【答案】B
【分析】根据等高条形图中的数据即可得出选项.
【详解】根据两个表中的等高条形图知,药物实验显示不服药与服药时患病差异较药物实验显示明显大,
所以药物的预防效果优于药物的预防效果,
故选:B.
84.(2024高三·北京·专题练习)年月日太原地铁号线开通,在一定程度上缓解了市内交通的拥堵状况,为了了解市民对地铁号线开通的关注情况,某调查机构在地铁开通后两天抽取了部分乘坐地铁的市民作为样本,分析其年龄和性别结构.并制作出如下等高堆积条形图:
根据图中信息,下列结论不一定正确的是( )
A.样本中男性比女性更关注地铁号线开通
B.样本中多数女性是岁及以上
C.样本中岁以下的男性人数比岁及以上的女性人数多
D.样本中岁及以上的人对地铁号线的开通关注度更高
【答案】C
【分析】通过对等高堆积条形图的分析,结合所列列联表及不等式性质,逐一对每个选项进行推理判断即可.
【详解】设等高条形图对应列联表如下:
岁及以上 岁以下 总计
男性
女性
总计
根据第个等高条形图可知,岁及以上男性比岁及以上女性多,即;
岁以下男性比岁以下女性多,即.
根据第个等高条形图可知,男性中岁及以上的比岁以下的多,即;
女性中岁及以上的比岁以下的多,即,
对于A,男性人数为,女性人数为,
因为,所以,所以A正确;
对于B,岁及以上女性人数为,岁以下女性人数为,
因为,所以B正确;
对于C,岁以下男性人数为,岁及以上女性人数为,
无法从图中直接判断与的大小关系,所以C不一定正确;
对于D,岁及以上的人数为,岁以下的人数为,
因为,所以,所以D正确.
故选:C.
题型14 分类变量关联性的判断
 如果χ2>xα,则“X与Y有关系”这种推断犯错误的概率不超过α;否则,就认为在犯错误的概率不超过α的前提下不能推断“X与Y有关系”,或者在样本数据中没有发现足够的证据支持结论“X与Y有关系”.
85.(25-26高二·全国·单元测试)目前中国的新能源汽车技术日新月异,老百姓购买时参考的参数有所不同,一部分人更看重汽车动力、扭矩、悬挂、底盘等技术参数,可以称为“技术流”;另一部分人更看重电池续航、内饰材料、智能化程度等,可以称为“体验流”.现随机抽取100名车主,针对他们对汽车的偏好进行问卷调查,得到下表:
性别 对汽车的偏好
体验流 技术流 总计
男 30 50
女 40
总计 100
小组成员甲用该列联表中的数据进行独立性检验,小组成员乙将该列联表中的所有数据都缩小为原来的后再进行独立性检验,则下列说法正确的是( )
A.若在样本中的女性中按分层随机抽样的方法再抽取10人,则应从“体验流”中抽取6人
B.小组成员甲认为对汽车的偏好与性别无关
C.小组成员甲、乙计算出的值相同,他们得出的结论也相同
D.小组成员甲、乙计算出的值不同,他们得出的结论也不同
【答案】D
【分析】对于A,由题可完善列联表,据此可判断选项正误;对于BCD,由题意及独立性检验知识可判断选项正误.
【详解】对于A,由题意,补充完整的列联表如下:
性别 对汽车的偏好
体验流 技术流 总计
男 20 30 50
女 40 10 50
总计 60 40 100
则在样本中的女性中,按分层随机抽样的方法再抽取10人,应从“体验流”中抽取(人).故A错误;
对于BCD,对于成员甲有,
故小组成员甲有99%的把握认为对汽车的偏好与性别有关;
对于成员乙有,
故小组成员乙认为对汽车的偏好与性别无关.
综上,小组成员甲、乙计算出的值不同,他们得出的结论也不同.故B错误,C错误,D正确.
故选:D
86.(2025高二·贵州安顺·期末)某公司男、女职工人数相等,该公司为了了解职工是否接受去外地长时间出差,在男、女职工中各随机抽取了100人进行调查,数据显示男职工和女职工接受去外地长时间出差的人数分别为40和20,则下列结论正确的是( )
附表:
0.1 0.05 0.01 0.005 0.001
2.706 3.841 6.635 7.879 10.828
附:,其中.
A.依据小概率值的独立性检验,不能认为是否接受去外地长时间出差与性别有关
B.依据小概率值的独立性检验,可以认为是否接受去外地长时间出差与性别有关
C.根据小概率值的独立性检验,可以认为是否接受去外地长时间出差与性别有关
D.是否接受去外地长时间出差与性别无关
【答案】B
【分析】求得卡方值,比对临界值,逐个判断即可.
【详解】由题意,列出列联表:
接受 不接受 合计
男 40 60 100
女 20 80 100
合计 60 140 200
零假设为:是否接受去外地长时间出差与性别相互独立,即是否接受去外地长时间出差与性别无关,
所以,
根据小概率值的独立性检验,我们推断不成立,
即认为是否接受去外地长时间出差与性别有关,此推断犯错误的概率不大于0.005.
故选:B.
87.(2025高二·广东广州·期末)为了解性别(变量x)与体育锻炼(变量y)是否有关,采取简单随机抽样的方法抽取50名学生,得到成对样本观测数据的分类统计结果,如表所示(单位:人),根据数据计算,并依据小概率值的独立性检验,附:,,下列结论不正确的是( )
锻炼 合计
不经常 经常
女生 15 5 20
男生 10 m n
合计 25 25 50
A.
B.若从这50人中随机抽取1人,则经常锻炼的概率为
C.变量x与变量y独立,此推断犯错误的概率不超过0.005
D.变量x与变量y不独立,此推断犯错误的概率不超过0.005
【答案】C
【分析】AB选项,根据表中数据得到,概率为;CD选项,计算出卡方,与7.879比较后的结论.
【详解】A选项,根据表中数据可知,A正确;
B选项,若从这50人中随机抽取1人,则经常锻炼的概率为,B正确;
CD选项,,,
故变量x与变量y不独立,此推断犯错误的概率不超过0.005,C错误,D正确.
故选:C
88.(2025高二·天津南开·期中)为了探究某次数学测试中成绩达到优秀等级是否与性别存在关联,小华进行了深入的调查,并绘制丁下侧所示的2×2列联表(个别数据暂用字母表示):
数学成绩 性别 合计
男 女
优秀 27 70
非优秀 58 110
合计 180
临界值表如下:
0.10 0.05 0.025 0.010 0.005 0.001
2.706 3.841 5.024 6.635 7.879 10.828
经计算得:,参照右上表,有如下结论:①,②;③可以在犯错误的概率不超过5%的前提下认为“数学达到优秀等级与性别有关”;④没有充分的证据显示“数学达到优秀等级与性别有关”,则以上结论中正确的为( )
A.①② B.①②④ C.①②③ D.①②③④
【答案】B
【分析】利用列联表中数据计算出的值,结合和卡方的临界值表可判断③④.
【详解】由列联表可知,所以:,①正确.
又因为,,所以,②正确.
因为,所以没有充分的证据显示“数学达到优秀等级与性别有关,故③错误,④正确.
故选:B
89.(2025高三·湖北襄阳·期末)某学校在一次调查“篮球迷”的活动中,获得了如下数据,以下结论最准确的是( )
男生 女生
篮球迷 90 20
非篮球迷 60 30
附:
0.10 0.05 0.01 0.005
k 2.706 3.841 6.635 7.789
A.有的把握认为是否是篮球迷与性别有关
B.有的把握认为是否是篮球迷与性别有关
C.在犯错误的概率不超过0.1的前提下,可以认为是否是篮球迷与性别有关
D.在犯错误的概率不超过0.05的前提下,可以认为是否是篮球迷与性别有关
【答案】D
【分析】列出列联表,计算即可得解.
【详解】列出列联表:
男生 女生
篮球迷 90 20 110
非篮球迷 60 30 90
150 50 200

故在犯错误的概率不超过0.05的前提下,可以认为是否是篮球迷与性别有关.
故选:D
题型15 独立性检验
独立性检验的方法: (1) 构造2×2列联表; (2) 计算χ2; (3) 查表确定有多大的把握判定两个变量有关联. 注意:查表时不是查最大允许值,而是先根据题目要求的百分比找到第一行对应的数值,再将该数值对应的xα值与求得的χ2值相比较.另外,表中第一行数据表示两个变量没有关联的可能性p,所以其有关联的可能性为1-p.
90.(2025·湖南·模拟预测)近日,2025年湖南省城市足球联赛(被球迷称为“湘超”)如火如荼地进行,引发广泛关注.某地区随机抽取了部分市民,调查他们对赛事的关注情况,得到如下表格:
性别 不关注赛事 关注赛事
男性 25 150
女性 50 75
(1)列出列联表并根据小概率值的独立性检验,能否认为关注“湘超”赛事与性别有关?
(2)现从被调查的关注赛事的市民中,按照性别比例采用分层抽样的方法随机抽取3名市民参加“湘超”赛事知识问答.已知男性、女性市民顺利完成知识问答的概率分别为,,每个人是否顺利完成相互独立.求在有且仅有2人顺利完成的条件下,这2人的性别不同的概率.
附:.
0.1 0.05 0.025 0.01 0.005 0.001
2.706 3.841 5.024 6.635 7.879 10.828
【答案】(1)列联表见解析,认为关注“湘超”赛事与性别有关
(2)
【分析】(1)由题意可得列联表,再计算,对比临界值表即可得解;
(2)根据题意,求出有且仅有2人顺利完成知识问答的概率和这2人性别不同的概率,再根据条件概率公式求解即可.
【详解】(1)列联表如下:
性别 不关注赛事 关注赛事 合计
男性 25 150 175
女性 50 75 125
合计 75 225 300
零假设为:关注“湘超”赛事与性别无关.
故依据小概率值的独立性检验,推断零假设不成立,
即认为关注“湘超”赛事与性别有关.
(2)由分层抽样可知,抽取男性市民2人,女性市民1人,
记“有且仅有2人顺利完成知识问答”为事件A,“这2人的性别不同”为事件B,
则,

则,
所以在有且仅有2人顺利完成知识问答的条件下,这2人的性别不同的概率为.
91.(2025·福建泉州·模拟预测)为比较A、B两种AI教学系统在提升教师备课效率方面的差异,研究人员在某地区随机招募了200名教师,并随机分配其中100名使用系统A,其余100名使用系统B.经过一个月的试用后,以“备课时间减少15%以上”作为备课效率显著提升的标准,经整理得到如下列联表:
备课效率使用的教学系统 显著提升 没有显著提升 合计
系统A 75 25 100
系统B 55 45 100
合计 130 70 200
(1)记事件“该地区教师使用系统A后,备课效率显著提升”的概率为,求的估计值;
(2)根据小概率值的独立性检验,分析这两种AI教学系统在显著提升教师备课效率方面是否存在差异.
附:,
0.05 0.005 0.001
3.841 7.879 10.828
【答案】(1)
(2)存在差异
【分析】(1)解法一:以频率估计概率,结合表中数据即可求的估计值;解法二:利用条件概率,结合表中数据即可求的估计值;
(2)先进行零假设,再计算卡方值,根据独立性检验的思想判断即可.
【详解】(1)解法一:由表格可知“该地区教师使用系统A后,备课效率显著提升”的人数有75人,
故,故的估计值为.
解法二:设事件“该地区教师使用系统A”为,事件“备课效率显著提升”为.
由频率估计概率得,,
由条件概率公式得,故的估计值为.
(2)零假设为:这两种AI教学系统在显著提升教师备课效率方面没有差异.
根据表中数据可得,.
根据小概率值的独立性检验,我们推断不成立,
即认为这两种AI教学系统在显著提升教师备课效率方面存在差异,此推断犯错误的概率不超过0.005.
92.(25-26高三·河北衡水·开学考试)林芝第二十一届桃花旅游文化节于2024年3月31日晚正式拉开帷幕.某研究小组为了了解开幕式文艺演出时林芝市民的观看情况,从全市随机调查了50名市民(男女各25名),统计到全程观看、部分观看和没有观看的人数如下表:
观看情况 全程观看 部分观看 没有观看
男性人数 9 4
女性人数 18 4
(1)求出表中x,y的值;
(2)从样本中没有观看的人中随机抽取2人进一步了解情况,求恰好男女各1人的概率;
(3)根据表中统计的数据,完成下面的2×2列联表,依据小概率值的独立性检验,分析全程观看是否与性别有关
单位:人
性别 观看情况 合计
全程观看 非全程观看
男性
女性
合计
附:,.
0.10 0.05 0.01
2.706 3.841 6.635
【答案】(1),.
(2)
(3)表格见解析,无关.
【分析】(1)根据男女人数各为25人,即可求出表中x,y的值;
(2)利用古典概型即可求解;
(3)填写列表,计算卡方,与比较,得到结论.
【详解】(1)由题意得,解得,
,解得.
(2)由(1)知没有观

展开更多......

收起↑

资源列表