专题7 统计、成对数据的统计分析、计数原理、概率、随机变量及其分布1(教师版)-高考一轮总复习数学

资源下载
  1. 二一教育资源

专题7 统计、成对数据的统计分析、计数原理、概率、随机变量及其分布1(教师版)-高考一轮总复习数学

资源简介

专题7 统计、成对数据的统计分析、计数原理、概率、随机变量及其分布                               
考点 考情考向 考频
概 率 与 统 计 统计 2022年新课标Ⅱ卷T19 2023年新课标Ⅰ卷T9 2023年新课标Ⅱ卷T19 2024年新课标Ⅰ卷T9 2024年新课标Ⅱ卷T4 3年5考
计数原理与二项式定理 2022年新课标Ⅰ卷T13 2022年新课标Ⅱ卷T5 2023年新课标Ⅰ卷T13 2023年新课标Ⅱ卷T3 2024年新课标Ⅱ卷T14 3年5考
概率与概率性质 2022年新课标Ⅰ卷T5、T20 2022年新课标Ⅱ卷T19 2023年新课标Ⅰ卷T21 2023年新课标Ⅱ卷T12、T19 2024年新课标I卷T14、T19 2024年新课标Ⅱ卷T18 3年9考
成对数据的统计分析 2022年新课标Ⅰ卷T20 3年1考
随机变量及其分布 2022年新课标Ⅱ卷T13 2023年新课标Ⅰ卷T21 2024年新课标Ⅰ卷T9 2024年新课标Ⅱ卷T18 3年4考
近三年的高考命题,重点考查样本数据的中位数、平均数、标准差、极差的含义,正态分布,成对数据的相关性,回归分析,独立性检验,二项式定理,计数原理,古典概型,条件概率,互斥事件、对立事件和相互独立事件的定义与概率,条件概率与全概率,离散型随机变量及其分布列、数学期望等.常以容易题或中档题形式考查样本数据的中位数、平均数、标准差、极差的含义,正态分布,回归分析,二项式定理,计数原理,古典概型,条件概率与全概率,互斥事件、对立事件和相互独立事件的定义与概率,以中档题形式考查成对数据的相关性、独立性检验,以中档题或中档偏难题形式考查离散型随机变量及其分布列、数学期望,概率与数列或函数综合问题.注重考查数据分析、逻揖推理、数学运算等数学素养.
本专题包括统计、计数原理与二项式定理、概率与概率性质、成对数据的统计分析、离散型随机变量及其分布五部分内容.近几年全国卷多以“两小一大”进行考查.
计数原理与二项式定理以一道较容易的客观题考查排列与组合、二项式定理,有时与古典概型、离散型随机变量的分布列综合考查.
概率与统计的客观题主要考查概率计算(包括古典概型,独立事件、互斥事件的概率,条件概率,全概率等)及统计(包括抽样方法、统计图表、正态分布、回归分析、相关系数等),一般为容易题或中等难度题.
概率与统计的解答题侧重数学技能的考查,试题背景与日常生活及其他学科贴近,体现概率统计的思想与方法,考查数据分析、数学建模(概率统计模型)的数学素养,考查阅读、理解、分析与解决问题的数学技能.
复习本单元时,要注意以下几点:
1.排列、组合、二项式定理以其独特的研究对象和研究方法,在中学数学中占有特殊的地位.它们既是学习概率的预备知识,又是进一步学习数理统计、组合数学等高等数学的基础.尽管在高考中直接考查的试题不是很多,但仍必须非常重视.要求掌握的解排列组合应用题的常用方法有:直接计算法与间接计算法;分类法与分步法;元素分析法和位置分析法;插空法和捆绑法等.
二项式定理属于高频率考点,需要熟练掌握二项展开式的通项,会运用通项公式求特定项的系数和与系数有关的问题;要掌握化归与转化的思想方法,将非二项式的问题化归为可以用二项式定理来处理的问题;要熟练掌握二项式系数的性质;利用恒等式的思想处理有关系数和的问题.
2.高考主要是以生活实际问题作为背景考查概率与统计的综合应用.求解概率问题时应首先分清是哪类概率问题,明确事件之间的关系,如互斥、对立、相互独立、条件概率等,针对不同的概型灵活地选择相应的方法及公式.
3.进一步掌握统计思想与方法及数据处理能力.当总体容量大或检测具有一定的破坏性时,可以从总体中抽取适当的样本,通过对样本进行分析研究,得到对总体的估计,这就是统计分析的基本过程,用样本估计总体是统计思想的本质.
4.对于两个变量的样本数据进行相关分析,可发现存在现实世界的回归现象,要掌握用最小二乘法得到的经验回归方程进行预测和估计,为决策者提供依据.掌握回归分析的基本思想及其初步应用、独立性检验的基本思想及其初步应用,提高自身的计算能力及解答实际问题的能力.
概率与统计拓宽了应用问题取材的范围,概率的计算、成对数据的统计分析、离散型随机变量的分布列和数学期望的计算等内容都是考查实践能力的极好素材.考虑到教学实际和学生的生活实际,高考对这部分内容的考查主要是以学生的生活实际为背景材料,考查基础知识和基本方法.在复习过程中,要立足教材,重视对教材例题与复习参考题的探究、延伸与创新.
第40讲 随机抽样、统计图表、用样本估计总体
[课标要求] 1.理解随机抽样的必要性和重要性,会用简单随机抽样方法从总体中抽取样本,了解分层随机抽样.2.会列频率分布表,会画频率分布直方图,理解它们各自的特点.3.理解样本数据标准差的意义和作用,会计算数据标准差.能从样本数据中提取基本的数字特征(如平均数、标准差),并给出合理的解释.4.会用统计图表对总体进行估计,会求n个数据的第p百分位数,会用样本的基本数字特征估计总体集中趋势和总体离散程度,理解用样本估计总体的思想.
1.简单随机抽样
(1)简单随机抽样分为放回简单随机抽样和不放回简单随机抽样,除非特殊声明,所称的简单随机抽样是指不放回简单随机抽样.
不放回简单随机抽样:设一个总体含有N(N为正整数)个个体,从中__逐个__抽取n(1≤n最常用的简单随机抽样的方法有两种:__抽签法__和__随机数法__.
(2)分层随机抽样:一般地,按一个或多个变量把总体划分成若干个子总体,每个个体属于且仅属于一个子总体,在每个子总体中独立地进行简单随机抽样,再把所有子总体中抽取的样本合在一起作为总样本,这种抽样方法称为分层随机抽样,每个子总体称为层.
简单随机抽样、分层随机抽样的共同特点是在抽样过程中每一个个体被抽取的__概率相等__,体现了这些抽样方法的客观性和公平性.
2.用样本估计总体
(1)通常我们对总体做出的估计一般分成两种:一种是用样本的频率分布估计__总体的分布__;另一种是用样本的数字特征(如平均数、标准差等)估计__总体数字特征__.
(2)作频率分布直方图的步骤
①求极差(即一组数据中最大值与最小值的差).
②决定__组距__与__组数__.
③将数据分组.
④列频率分布表.
⑤画频率分布直方图.
(3)在频率分布直方图中,纵轴表示____,数据落在各个小组内的频率用__各小长方形的面积__表示.各小长方形的面积总和等于1.
(4)常见的其他统计图:条形图、扇形图、折线图.
①扇形图主要用于直观描述各类数据占总数的比例.
②条形图和直方图主要用于直观描述不同类别或分组数据的频数和频率.
③折线图主要用于描述数据随时间的变化趋势.
(5)总体百分位数的估计
①第p百分位数的定义
一般地,一组数据的第p百分位数是这样一个值,它使得这组数据中至少有__p%__的数据小于或等于这个值,且至少有__(100-p)%__的数据大于或等于这个值.
②计算一组n个数据的第p百分位数的步骤
第1步,按从小到大排列原始数据.
第2步,计算i =__n×p%__.
第3步,若i不是整数,而大于i的比邻整数为j,则第p百分位数为__第j项__数据.
若i是整数,则第p百分位数为第i项与第(i+1)项数据的__平均数__.
③四分位数
常用的分位数有第__25__百分位数、第__50__百分位数、第__75__百分位数,这三个分位数把一组由小到大排列后的数据分成__四等__份,因此称为四分位数.其中第__25__百分位数也称为第一四分位数或下四分位数等,第__75__百分位数也称为第三四分位数或上四分位数等.
(6)用样本的数字特征估计总体的数字特征
①众数、中位数、平均数的定义
众数:一组数据中出现次数最多的数.众数对其他数据信息的忽略比较明显,无法客观反映总体特征.
中位数:将数据从小到大(或从大到小)排列,若有奇数个数,则最中间的数是中位数;若有偶数个数,则中间两个数的平均数是中位数.中位数等分样本数据所占频率,它不受少数几个极端值的影响,同时对极端值不敏感.
平均数:
a.总体均值(总体平均数)
一般地,总体中有N个个体,它们的变量分别为Y1,Y2,…,YN,则称==为总体均值,又称总体平均数.
如果总体的N个变量中,不同的值共有k(k≤N)个,不妨记为Y1,Y2,…,Yk,其中Yi出现的频数为fi(i=1,2,…,k),则总体均值还可以写成加权平均数形式的总体平均数=.
b.样本均值(样本平均数)
如果从总体中抽取一个容量为n的样本,它们的变量分别为y1,y2,…,yn,则称==为样本均值,又称样本平均数.
样本均值反映了一组数据的平均水平,与每一个样本数据有关,可以反映出更多关于样本数据全体的信息,但平均数受数据中极端值的影响较大,使平均数在估计总体时可靠性降低.
②频率分布直方图中的众数、中位数和平均数
a.众数:最高的小长方形底边中点的横坐标.
b.中位数:平分频率分布直方图面积且垂直于横轴的直线与横轴交点的横坐标.
c.平均数:频率分布直方图中每个小长方形的面积乘小长方形底边中点的横坐标之和.
③方差和标准差
a.总体方差和标准差
如果总体中所有个体的变量值分别为Y1,Y2,…,YN,总体平均数为,则总体方差S2=__(Y i-)2 __,S=为总体标准差.
b.样本方差和标准差
如果一个样本中个体的变量值分别为y1,y2,…,yn,样本的平均数为,则样本方差为s2=_ (y i-)2 __,s=为样本标准差.
样本标准差(方差)刻画了样本数据的__离散程度或波动幅度__,标准差(方差)越大,数据的离散程度越大;标准差(方差)越小,数据的离散程度越小.
1.(教材母题必修9.1T1)某学校为了了解三年级、六年级、九年级这三个年级的学生视力是否存在显著差异,拟从这三个年级中按人数比例抽取部分学生进行调查,则最合理的抽样方法是(  )
A.抽签法 B.随机数法
C.分层随机抽样法 D.其他方法
解析:C 因为三年级、六年级、九年级三个年级的学生视力存在差异,且对统计结果有影响,所以按人数比例抽取部分学生进行调查时,合理的抽样方法为分层随机抽样法.故选C.
2.(2024·湖南长沙二模)已知样本数据x1,x2,…,x100的平均数和标准差均为4,则数据-x1-1,-x2-1,…,-x100-1的平均数与方差分别为(  )
A.-5,4 B.-5,16
C.4,16 D.4,4
解析:B 由题意知样本数据x1,x2,…,x100的平均数和标准差均为4,则x1,x2,…,x100的方差为16,则-x1,-x2,…,-x100的平均数为-4,方差为(-1)2×16=16,
故-x1-1,-x2-1,…,-x100-1的平均数为-4-1=-5,方差为16,故选B.
3.已知某运动员每次投篮命中的概率是40%.现采用随机模拟的方法估计该运动员三次投篮恰有两次命中的概率:先由计算器产生0到9之间取整数值的随机数,指定1,2,3,4表示命中,5,6,7,8,9,0表示不命中;再以每三个随机数为一组,代表三次投篮的结果.经随机模拟产生了如下10组随机数:204 978 171 935 263 321 947 468 579 682.据此估计,该运动员三次投篮恰有两次命中的概率为(  )
A. B.
C. D.
解析:B 10组随机数204 978 171 935 263 321 947 468 579 682中,表示三次投篮恰有两次命中的事件是204,171,263,共3组,所以该运动员三次投篮恰有两次命中的概率为P=.故选B.
4.200辆汽车通过某一段公路时的时速的频率分布直方图如图所示,则时速的众数、中位数的估计值分别为__________.
解析:65,62.5 因为最高的矩形为第三个矩形,所以时速的众数的估计值为=65.
前两个矩形的面积为(0.01+0.03)×10=0.4<0.5,前三个矩形的面积为(0.01+0.03+0.04)×10=0.8>0.5,所以中位数在区间(60,70),设中位数为x,由题得0.4+(x-60)×0.04=0.5,解得x=62.5.所以中位数的估计值为62.5.
5.高二年级进行消防知识竞赛,统计所有参赛同学的成绩,成绩都在[50,100]内,估计所有参赛同学成绩的第75百分位数为___________________.
解析:85 因为2a×10=1,所以a=0.05.参赛成绩位于[50,80)内的频率为10×(0.01+0.015+0.035)=0.6,第75百分位数在[80,90)内,设为80+y,则0.03y=0.15,解得y=5,即第75百分位数为85.
          
探究点1 抽样方法
【例1】 (1)(教材母题必修复习参考题9T4改编)某中学有高中生960人,初中生480人,为了了解学生的身体状况,采用分层随机抽样的方法,从该校学生中抽取容量为n的样本,其中高中生有24人,那么n=(  )
A.12 B.18
C.24 D.36
(2)从一个容量为100的总体中抽取容量为10的样本,选取简单随机抽样和分层随机抽样两种不同方法抽取样本.在简单随机抽样中,总体中每个个体被抽中的概率为p1,某个体第一次被抽中的概率为p2,在分层随机抽样中,总体中每个个体被抽中的概率为p3,则(  )
A.p2C.p2(3)战争期间友军的统计学家主要是将缴获的敌军坦克序列号作为样本,用样本估计总体的方法得出敌军某月生产的坦克总数.假设敌军某月生产的坦克总数是N,缴获的该月生产的n辆坦克编号从小到大为x1,x2,…,xn,即最大编号为xn,且缴获的坦克是从所生产的坦克中随机获取的,因为生产坦克是连续编号的,所以缴获坦克的编号x1,x2,…,xn,相当于从[0,N]中随机抽取的n个整数,这n个数将区间[0,N]分成(n+1)个小区间,由于N是未知的,除了最右边的区间外,其他n个区间都是已知的.由于这n个数是随机抽取的,所以可以用前n个区间的平均长度估计所有(n+1)个区间的平均长度,进而得到N的估计值.例如,缴获坦克的编号是3,5,12,18,20,则统计学家利用上述方法估计敌军每月生产的坦克数为__________.
解析:(1)D 因为有高中生960人,初中生480人,所以总人数为960+480=1440人,所以其高中生占比为=,初中生占比为.由分层随机抽样的原理可知,抽取高中生的比例应为高中生与总人数的比值,即n×=24,则n=36.故选D.
(2)B 根据抽样调查的原理可得简单随机抽样、分层随机抽样都必须满足每个个体被抽到的概率相等,即p1=p2=p3==.故选B.
(3)24 由于用前n个区间的平均长度估计所有(n+1)个区间的平均长度,
而缴获坦克的编号是3,5,12,18,20,即n=5,x5=20,
故=,所以N=24,
即则统计学家利用上述方法估计敌军每月生产的坦克数为24.
分层随机抽样的步骤:①分层;②按比例确定每层抽取个体的个数;③各层抽样(方法可以不同);④合成样本.
采用分层随机抽样时,要注意公式的准确运用:
①抽样比==;
②某层抽取的个体数=抽样比×该层个体数.
变式探究
1.某学校初中部共120名教师,高中部共180名教师,其性别比例如图所示,已知按分层随机抽样的方法得到的工会代表中,高中部女教师有6人,则工会代表中男教师的总人数为(  )
A.12 B.10
C.8 D.6
解析:A 因为高中部女教师有6人,占40%,设高中部人数为x,则x×40%=6,得x=15,即抽取的高中教师人数为15,则抽取的初中教师人数为×120=10,则男教师有15×60%+10×30%=9+3=12(人),故选A.
2.利用简单随机抽样的方法,从n个个体(n>15)中抽取15个个体,若第二次抽取时,每个个体被抽到的概率为.则在整个抽样过程中,每个个体被抽到的概率为________.
解析: 第二次抽取时,余下的每个个体被抽取到的概率为,
则=,解得n=57,
所以在整个抽样过程中,每个个体被抽到的概率为P==.
探究点2 频率分布直方图
【例2】 (1)(多选)在某市高二举行的一次期中考试中,某学科共有2000人参加考试.为了了解本次考试学生成绩情况,从中抽取了部分学生的成绩(成绩均为正整数,满分为150分)作为样本进行统计,样本容量为n.按照[50,70),[70,90),[90,110)[110,130),[130,150]的分组作出频率分布直方图,如图所示.其中,成绩落在区间[50,70)内的人数为16.下列结论正确的是(  )
A.样本容量n=1000
B.x=0.015
C.由样本估计总体,该市全体学生成绩的平均分近似为91.2分
D.该市要对成绩由高到低前20%的学生授予“优秀学生”称号,则成绩为106分的学生肯定能得到此称号
(2)(2023·新课标Ⅱ卷)某研究小组经过研究发现某种疾病的患病者与未患病者的某项医学指标有明显差异,经过大量调查,得到如下的患病者和未患病者该指标的频率分布直方图:
利用该指标制定一个检测标准,需要确定临界值c,将该指标大于c的人判定为阳性,小于或等于c的人判定为阴性.此检测标准的漏诊率是将患病者判定为阴性的概率,记为p(c);误诊率是将未患病者判定为阳性的概率,记为q(c).假设数据在组内均匀分布,以事件发生的频率作为相应事件发生的概率.
(ⅰ)当漏诊率p(c)=0.5%时,求临界值c和误诊率q(c);
(ⅱ)设函数f(c)=p(c)+q(c),当c∈[95,105]时,求f(c)的解析式,并求f(c)在区间[95,105]的最小值.
解析:(1)BC 对于A,因为成绩落在区间[50,70)内的人数为16,所以样本容量n==100,A错误;
对于B,因为(0.008+x+0.020+0.005+0.002)×20=1,解得x=0.015,B正确;
对于C,学生成绩平均分为0.008×20×60+0.015×20×80+0.020×20×100+0.005×20×120+0.002×20×140=91.2,C正确;
对于D,因为20×(0.002+0.005)+(110-106)×0.020=0.22>0.20,
即按照成绩由高到低前20%的学生中不含106分的学生,所以成绩为106分的学生不能得到此称号,D错误.故选BC.
(2)(ⅰ)依题可知,第一个图形中第一个小矩形的面积为5×0.002=0.01>0.5%,
所以95q(c)=0.01×(100-97.5)+5×0.002=0.035=3.5%.
(ⅱ)当c∈[95,100]时,
f(c)=p(c)+q(c)=(c-95)×0.002+(100-c)×0.01+5×0.002 =-0.008c+0.82≥0.02;
当c∈(100,105]时,
f(c)=p(c)+q(c)=5×0.002+(c-100)×0.012+(105-c)×0.002 =0.01c-0.98>0.02,
故f(c)=
所以f(c)在区间[95,105]的最小值为0.02.
(1)在频率分布直方图中,要注意掌握如下性质:
①每个小矩形的高等于;
②每个小矩形的面积表示频率;
③所有矩形的面积之和等于1.
(2)性质的应用:
①若纵轴上存在参数,则根据“所有矩形的面积之和等于1”,列方程即可求得参数值.
②某组上的频率、频数的计算
某组上的频率==小矩形的面积;
某组的频数=该小组的频率×样本容量.
(3)用频率分布直方图估计样本的数字特征:
①平均数=(xi表示第i个小矩形下底边中点的横坐标,Si表示第i个小矩形的面积).
②方差:s2=(xi-)2·Si.
③众数:最高小矩形下底边中点的横坐标.
④中位数:把频率分布直方图划分为左、右两个面积相等的部分时,分界线与横轴交点的横坐标.
变式探究
3.(多选)某校为了解学生体能素质,随机抽取了50名学生,进行体能测试,并将这50名学生成绩整理得如下频率分布直方图.根据此频率分布直方图,下列结论中正确的是(  )
A.这50名学生中成绩在[80,100]内的人数占比为20%
B.这50名学生中成绩在[60,80)内的人数为26
C.这50名学生成绩的中位数为70
D.这50名学生的平均成绩=68.2(同一组中的数据用该组区间的中点值为代表)
解析:ABD 根据此频率分布直方图,成绩在[80,100]内的频率为(0.008+0.012)×10=0.20,A正确;
这50名学生中成绩在[60,80)内的人数为(0.032+0.020)×10×50=26,B正确;
根据此频率分布直方图,得(0.008+0.02)×10=0.28<0.5,(0.008+0.02+0.032)×10=0.6>0.5,可得这50名学生成绩的中位数位于(60,70)内,C错误;
根据频率分布直方图的平均数的计算公式,可得=45×0.008×10+55×0.02×10+65×0.032×10+75×0.02×10+85×0.012×10+95×0.008×10=68.2,D正确.故选ABD.
4.某保险公司为了给年龄在20~70岁的客户提供某种医疗保障,设计了一款针对某疾病的保险.现从10000名参保人员中随机抽取100名进行分析,并按年龄段[20,30),[30,40),[40,50),[50,60),[60,70]分成了五组,其频率分布直方图如图所示,每人每年所交纳的保费与参保年龄如下表所示:
年龄 [20,30) [30,40) [40,50) [50,60) [60,70]
保费 (单位:元) x 2x 3x 5x 7x
(1)若采用分层随机抽样的方法,从年龄段在[30,40)和[40,50)内的参保人员中共抽取6人进行问卷调查,再从中选取2人进行调查对该种保险的满意度,求这2人中恰好有1人年龄段在[30,40)内的概率;
(2)由于10000人参加保险,该公司每年为此项保险支出的各种费用为200万元.为使公司不亏本,则年龄段[50,60)的参保人员每人每年需要缴纳的保费至少为多少元?
解析:(1)由(0.007+0.016+a+0.025+0.02)×10=1得a=0.032,
设“抽取2人中恰好有1人年龄段在[30,40)内”为事件M.
由题设可知,年龄在[30,40)和[40,50)内的频率分别为0.16和0.32,则抽取的6人中,年龄在[30,40)内的有2人,年龄在[40,50)内的有4人.
记年龄在[30,40)内的2位参保人员为a,b,年龄在[40,50)内的4位参保人员为A,B,C,D,则从6人中任取2人,样本空间Ω={(a,b),(a,A),(a,B),(a,C),(a,D),(b,A),(b,B),(b,C),(b,D),(A,B),(A,C),(A,D),(B,C),(B,D),(C,D)},共包含15个样本点,M={(a,A),(a,B),(a,C),(a,D),(b,A),(b,B),(b,C),(b,D)},共包含8个样本点,
所以P(M)=.
(2)保险公司每年收取的保费为
10000(0.07x+0.16×2x+0.32×3x+0.25×5x+0.2×7x)=10000×4x,
所以要使公司不亏本,则10000×4x≥2000000,即4x≥200,解得x≥50,
所以年龄段[50,60)的参保人员每人每年需要缴纳的保费至少为250元.
探究点3 总体百分数的估计
【例3】 2024年7月,第33届奥运会在巴黎举办,某调研机构对不同年龄和不同职业的人举办了一次“奥运会”知识竞赛,满分100分(90分及以上为认知程度高),现从参赛者中抽取了x人,按年龄分成5组(第一组:[20,25),第二组:[25,30),第三组:[30,35),第四组:[35,40),第五组:[40,45]),得到如图所示的频率分布直方图,已知第一组有5人.
(1)求x;
(2)求抽取的x人的年龄的50%分位数(结果保留整数);
(3)以下是参赛的10人的成绩:90,96,97,95,92,92,98,88,96,99.求这10人成绩的20%分位数和平均数,以这两个数据为依据,评价参赛人员对奥运会的认知程度.
解析:(1)第一组频率为0.01×5=0.05,所以x==100.
(2)由题图可知年龄低于30岁的所占比例为40%,年龄低于35岁的所占比例为70%,所以抽取的x人的年龄的50%分位数在[30,35)内,由30+=≈32,所以抽取的x人的年龄的50%分位数为32.
(3)把参赛的10人的成绩按从小到大的顺序排列:88,90,92,92,95,96,96,97,98,99.计算10×20%=2.
所以这10人成绩的20%分位数为=91,这10人成绩的平均数为(88+90+92+92+95+96+96+97+98+99)=94.3.
评价:从百分位数和平均数来看,参赛人员的认知程度很高.
1.计算一组n个数据的第p百分位数的一般步骤
第一步,按照从小到大的顺序排列原始数据.
第二步,计算i=n×p%.
第三步,若i不是整数,大于i的比邻整数为j,则第p百分位数为第j项数据;若i是整数,则第p百分位数为第i项和第(i+1)项数据的平均数.
2.由频率分布直方图求百分位数的方法
(1)要注意频率分布直方图中小矩形的面积,就是数据落在该组的频率.
(2)一般采用方程的思想,设出第p百分位数,根据其意义列出方程并求解即可.
变式探究
5.如图所示是根据某市3月1日至3月10日的最低气温(单位:℃)的情况绘制的折线统计图,由图可知这10天最低气温的第80百分位数是(  )
A.-2 B.0
C.1 D.2
解析:D 由折线图可知,这10天的最低气温按照从小到大的顺序排列为-3,-2,-1,-1,0,0,1,2,2,2.因为共有10个数据,所以10×80%=8,所以这10天最低气温的第80百分位数是=2.故选D.
6.某省有关部门要求各中小学要把“每天锻炼一小时”写入课程表,为了响应这一号召,某校围绕着“你最喜欢的体育活动项目是什么?(只写一项)”的问题,对在校学生进行了随机抽样调查,从而得到一组数据.图1是根据这组数据绘制的条形统计图.由条形统计图可知本次抽样调查中,最喜欢篮球活动的占被调查人数的百分比是________,若该校九年级共有200名学生,图2是根据各年级学生人数占全校学生总人数的百分比绘制的扇形统计图,则全校学生中最喜欢跳绳活动的人数估计为________.
解析:36% 160
最喜欢篮球活动的占被调查人数的百分比是×100%=36%,
由图2可知,九年级学生人数占全校学生总人数的1-(26%+24%+30%)=20%,
则全校总人数为200÷20%=1000,
则全校学生中最喜欢跳绳活动的人数估计为1000×=160.
探究点4 样本估计总体
【例4】 (1)(多选)(2024·江苏常州期末)已知一组样本数据x1,x2,…,xn(n≥4),其中x1<0A.极差 B.平均数
C.中位数 D.标准差
(2)某校为了解该校高三年级学生的物理成绩,从某次高三年级物理测试中随机抽取12名男生和8名女生的测试试卷,记录其物理成绩(单位:分),得到如下数据:
12名男生的物理成绩分别为72,68,72,76,80,76,72,80,88,68,72,76;
8名女生的物理成绩分别为66,76,68,68,66,68,80,68.
(ⅰ)求这12名男生物理成绩的平均分1与方差s;
(ⅱ)经计算得这8名女生物理成绩的平均分2=70,方差s=23,求这20名学生物理成绩的平均分与方差.
附:分层随机抽样的方差公式s2=wi[s+(i-)2],wi(i=1,2)表示第i(i=1,2)层所占的比例.
解析:(1)BC 对于A,不妨设x1则样本数据x1,x2,…,xn(n≥4)的极差为xn-x1,
样本数据y1,y2,…,yn的极差为yn-y1=(2xn+1)-(2x1+1)=2(xn-x1),
因为xn-x1>0,则yn-y1=2(xn-x1)>xn-x1,A错误;
对于B,设样本数据x1,x2,…,xn(n≥4)的平均数为,即=,
所以,样本数据y1,y2,…,yn的平均数为


=+1=2+1,
由=2+1=可知,当=-1时,两组样本数据的平均数相等,B正确;
对于C,当n=2m-1(m∈N*)时,设样本数据x1,x2,…,xn(n≥4)的中位数为p,样本数据y1,y2,…,yn的中位数为2p+1,同理可知当xm=-1时,中位数相等,
当n=2m(m∈N*)时,设样本数据x1,x2,…,xn(n≥4)的中位数为q,
样本数据y1,y2,…,yn的中位数为2×q+1=2q+1,
同理可知当q=-1时,两组数据的中位数相等,C正确;
对于D,设样本数据x1,x2,…,xn(n≥4)的标准差为sx,
样本数据y1,y2,…,yn的标准差为sy,
则s=,
s=
={[(2x1+1)-(2+1)]2+
[(2x2+1)-(2+1)]2+…+
[(2xn+1)-(2+1)]2}

=4s,
因为x1<0则sx=>0,
故sy=2sx>sx,故两组样本数据的标准差不可能相等,D错误.故选BC.
(2)(ⅰ)这12名男生物理成绩的平均分为
1==75,
方差为s=[(68-75)2×2+(72-75)2×4+(76-75)2×3+(80-75)2×2+(88-75)2]=.
(ⅱ)这20名学生物理成绩的平均分为
=1+2==73,
方差为s2=[s+(1-)2]+[s+(2-)2]

=33.
平均数、中位数、众数与方差、标准差都是重要的数字特征,可对总体进行一种简明的描述,它们所反映的情况有着重要的实际意义,平均数、中位数、众数可描述总体的集中趋势,方差和标准差可描述波动大小和稳定状态.
变式探究
7.(多选)(2024·安徽模拟预测)已知样本数据x1,x2,x3,x4,x5(x1<0,x2,x3,x4,x5>0)的方差为s2,平均数>0,则(  )
A.数据3x1-2,3x2-2,3x3-2,3x4-2,3x5-2的方差为9s2
B.数据3x1-2,3x2-2,3x3-2,3x4-2,3x5-2的平均数大于0
C.数据x2,x3,x4,x5的方差大于s2
D.数据x2,x3,x4,x5的平均数大于
解析:AD 对于A,数据3x1-2,3x2-2,3x3-2,3x4-2,3x5-2的方差为9s2,A正确;
对于B,数据3x1-2,3x2-2,3x3-2,3x4-2,3x5-2的平均数为3-2,当0<≤时,3-2≤0,B错误;
对于C,去掉一个最小(特异值)的数据,剩下的数据的方差有可能更小,C错误;
对于D,因为=>0,数据x2,x3,x4,x5的平均数=-,因为x1<0,故数据x2,x3,x4,x5的平均数大于,D正确.故选AD.
8.某中学举行了一次“垃圾分类知识竞赛”,全校学生参加了这次竞赛,为了了解本次竞赛成绩情况,从中抽取了部分学生的成绩x(单位:分,得分取正整数,满分为100分)作为样本进行统计,将成绩进行整理后,分为五组(50≤x<60,60≤x<70,70≤x<80,80≤x<90,90≤x≤100),其中第4组、第1组、第2组的频数依次成等比数列,请根据下面尚未完成的频率分布直方图(如图所示)解决下列问题:
(1)求a,b的值.
(2)若根据这次成绩,学校准备淘汰80%的同学,仅留20%的同学进入下一轮竞赛,请问:晋级分数线划为多少合理?
(3)某老师在此次竞赛成绩中抽取了10名学生的分数x1,x2,x3,…,x10,已知这10个分数的平均数=90,标准差s=6,若剔除其中的95和85两个分数,求剩余8个分数的平均数与方差.
附:方差计算公式s2=xi-)2=[(x1-)2+(x2-)2+…+(xn-)2]或s2=x-2=[(x+x+…+x)-n2].
解析:(1)由题意知,第4组、第1组、第2组的小长方形的高也成等比数列,
所以0.0162=0.008a,解得a=0.032,
又(0.008+0.016+0.032+0.04+b)×10=1,解得b=0.004.
所以a=0.032,b=0.004.
(2)成绩落在[50,70)内的频率为0.16+0.32=0.48,
落在[50,80)内的频率为0.16+0.32+0.40=0.88,
设第80百分位数为m,则(m-70)×0.04=0.8-0.48,解得m=78,
所以晋级分数线划为78分合理.
(3)由=90,得x1+x2+x3+…+x10=10×90=900.
又s2=(x+x+…+x)-902=62,
所以x+x+…+x=81360,
剔除其中的95和85两个分数,设剩余8个数为x1,x2,x3,…,x8,
平均数与标准差分别为0,s0,
则剩余8个分数的平均数0===90.
方差s=(x+x+…+x)-902=(81360-952-852)-902=38.75.
          
1.现要完成下列2项抽样调查:
①从10盒酸奶中抽取3盒进行食品卫生检查;
②东方中学共有160名教职工,其中教师120名,行政人员16名,后勤人员24名.为了了解教职工对学校在校务公开方面的意见,拟抽取一个容量为20的样本.
较为合理的抽样方法是(  )
A.①抽签法,②分层随机抽样
B.①随机数法,②分层随机抽样
C.①随机数法,②抽签法
D.①抽签法,②随机数法
解析:A ①总体较少,宜用抽签法;②各层间差异明显,宜用分层随机抽样.故选A.
2.对总数为N的一批零件抽取一容量为20的样本,若每个零件被抽取的可能性为20%,则N为(  )
A.150 B.120
C.100 D.40
解析:C 由题意可得=20%,解得N=100.故选C.
3.(2024·黑龙江大庆三模)小明希望自己的高考数学成绩能超过120分,为了激励自己,他记录了近8次数学考试成绩,并绘制成折线统计图,如图,这8次成绩的第80百分位数是(  )
A.100 B.105
C.110 D.120
解析:C 因为8×80%=6.4,由图可知8次成绩由小到大排序,第7个位置的数是110,所以这8次成绩的第80百分位数是110.故选C.
4.已知一组数据x1,x2,x3,x4,x5的平均数是2,方差是,那么另一组数据3x1+1,3x2+1,3x3+1,3x4+1,3x5+1的平均数和方差分别是(  )
A.2, B.2,1
C.7,3 D.7,4
解析:C 设数据x1,x2,x3,x4,x5的平均数是=2,方差是s2=,
则新数据组的平均数为
=3×+1=3+1=7,
方差s=[(3x1+1-3-1)2+(3x2+1-3-1)2+…+(3x5+1-3-1)2]
=[(x1-)2+(x2-)2+…+(x5-)2]
=9s2=9×=3.故选C.
5.(2024·四川遂宁三模)某调查机构对某地快递行业从业者进行调查统计,得到快递行业从业人员年龄分布饼状图(图1)、“90后”从事快递行业岗位分布条形图(图2),则下列结论中错误的是(  )
A.快递行业从业人员中,“90后”占一半以上
B.快递行业从业人员中,从事技术岗位的“90后”的人数超过总人数的20%
C.快递行业从业人员中,从事运营岗位的“90后”的人数比“80前”的多
D.快递行业从业人员中,从事技术岗位的“90后”的人数比“80后”的多
解析:D 由题图可知,快递行业从业人员中,“90后”占总人数的56%,超过一半,A正确;
快递行业从业人员中,从事技术岗位的“90后”的人数占总人数的百分比为56%×39.6%=22.176%,超过20%,所以快递行业从业人员中,从事技术岗位的“90”后的人数超过总人数的20%;B正确;
快递行业从业人员中,从事运营岗位的“90后”的人数占总人数的百分比为56%×17%=9.52%,超过“80前”的人数占总人数的百分比,C正确;
快递行业从业人员中,从事技术岗位的“90后”的人数占总人数的百分比为22.176%,小于“80后”的人数占总人数的百分比,但“80后”从事技术岗位的人数占“80后”人数的比未知,D错误.故选D.
6.(多选)某公司为保证产品生产质量,连续10天监测某种新产品生产线的次品件数,得到关于每天出现的次品的件数的一组样本数据:3,4,3,1,5,3,2,5,1,3,则关于这组数据的结论正确的是(  )
A.极差是4
B.众数小于平均数
C.方差是1.8
D.数据的80%分位数为4
解析:AC 数据从小到大排列为1,1,2,3,3,3,3,4,5,5.
对于A,该组数据的极差为5-1=4,A正确;
对于B,众数为3,平均数为=3,两者相等,B错误;
对于C,方差为[(1-3)2×2+(2-3)2×1+(3-3)2×4+(4-3)2×1+(5-3)2×2]=1.8,C正确;
对于D,因为10×80%=8,所以这组数据的80%分位数为第8个数和第9个数的平均数4.5,D错误.故选AC.
7.某市有A,B,C三所学校,共有高三历史类学生1500人,且A,B,C三所学校的高三历史类学生人数成等差数列,在三月进行全市联考后,准备用分层随机抽样的方法从所有高三历史类学生中抽取容量为120的样本,进行成绩分析,则应从B校学生中抽取________人.
解析:40 设A,B,C三所学校高三历史类学生人数分别为x,y,z.由题知x,y,z成等差数列,所以x+z=2y,又x+y+z=1500,所以y=500,故用分层随机抽样方法抽取B校学生人数为×500=40.
8.某班成立了A,B两个数学兴趣小组,A组10人,B组30人,经过一周的补习后进行了一次测试,在该测试中,A组的平均成绩为130分,方差为115,B组的平均成绩为110分,方差为215,则在这次测试中全班学生的方差估计为________.
解析:265 依题意,A=130,s=115,B=110,s=215,
所以=×130+×110=115(分),
所以全班学生的平均成绩估计为115分,
则全班学生成绩的方差为
s2=[s+(A-)2]+[s+(B-)2]
=×(115+152)+×(215+52)=85+180=265.
9.(多选)(2024·广东汕头一模)某次物理考试后,为分析学生的学习情况,某校从某年级中随机抽取了100名学生的成绩,整理得到如图所示的频率分布直方图.为进一步分析高分学生的成绩分布情况,计算得到这100名学生中,成绩位于[80,90)内的学生成绩方差为12,成绩位于[90,100]内的学生成绩方差为10,由样本估计总体,则下列说法正确的是(  )
A.a=0.004
B.估计该年级学生成绩的中位数约为77.14
C.估计该年级成绩在80分及以上的学生成绩的平均数为87.50
D.估计该年级成绩在80分及以上的学生成绩的方差为30.25
解析:BCD 对于A,在频率分布直方图中,所有直方图的面积之和为1,
则(2a+3a+7a+6a+2a)×10=200a=1,解得a=0.005,A错误;
对于B,前两个矩形的面积之和为(2a+3a)×10=50a=0.25<0.5,
前三个矩形的面积之和为(2a+3a+7a)×10=120a=0.6>0.5,
设计该年级学生成绩的中位数为m,则m∈(70,80),
根据中位数的定义可得0.25+(m-70)×0.035=0.5,解得m≈77.14,
所以,估计该年级学生成绩的中位数约为77.14,B正确;
对于C,估计成绩在80分以上的同学的成绩的平均数为
×85+×95=87.5,C正确;
对于D,估计该年级成绩在80分及以上的学生成绩的方差为[12+(87.5-85)2]+[10+(87.5-95)2]=30.25,D正确.故选BCD.
10.中国航协航空大会有一个鲜明的特色是在各个展区中设置了多项互动体验活动,吸引了很多的中小学生,其中模拟飞行体验区是让这些中小学生戴上VR眼镜模拟从起飞到降落,大大激发了他们的兴趣爱好.现从某个有互动体验的展区中随机抽取60名中小学生,统计他们的参观时间(从进入该展区到离开该展区的时长,单位:分钟,时间取整数),将时间分成[40,50),[50,60),…,[90,100]六组,并绘制成如图所示的频率分布直方图.
(1)由频率分布直方图,估计样本的平均数和方差s;(每组数据以区间的中点值为代表)
(2)为对比展区是否有体验区对中小学生的吸引程度,某工作人员给出了一份该展区中没有体验区的参观时间的随机数据,经计算得到该组数据参观时长平均值为=65分钟,方差为s=178,试判断有体验区的参观时长均值比没有体验区的参观时长均值是否有显著提高?(如果-≥,则认为有显著提高,否则不认为有显著提高)
(3)利用(2)中的结果,你认为展区是否应该设置互动体验展区?请说明理由.
解析:(1)由题得,
=10×(45×0.010+55×0.015+65×0.015+75×0.030+85×0.025+95×0.005)=71,
所以样本的方差为
s=10×[(45-71)2×0.010+(55-71)2×0.015+(65-71)2×0.015+(75-71)2×0.030+(85-71)2×0.025+(95-71)2×0.005]=194.
(2)由题得-=71-65=6,
==<6,
所以-≥,
所以有体验区的参观时长均值比没有体验区的参观时长均值有显著提高.
(3)从(2)中可知展区应该设置互动体验展区,这样可以吸引更多的参观者进行观看与体验,使他们能更多地了解产品,并能更大程度地激发中小学生的兴趣爱好.
11.近年来“天宫课堂”受到广大中小学生欢迎,激发了同学们对科学知识的探索欲望和对我国航天事业成就的自豪.为领悟航天精神,感受中国梦想,某校组织了一次“寻梦天宫”航天知识竞赛(满分100分),各年级学生踊跃参加.校团委为了比较高一、高二学生这次竞赛的成绩,从两个年级的答卷中各随机选取了50份,将成绩进行统计得到以下频数分布表:
成绩 [60,70) [70,80) [80,90) [90,100]
高一学生人数 15 5 15 15
高二学生人数 10 10 20 10
试利用样本估计总体的思想,解决下列问题:
(1)从平均数与方差的角度分析哪个年级学生这次竞赛成绩更好(同一组中的数据用该组区间的中点值为代表)
(2)学校决定对参与这次竞赛的学生给予一定的奖励,奖励方案有以下两种:
方案一:记学生得分为x,当x<70时,奖励该学生10元食堂代金券;当70≤x<90时,奖励该学生25元食堂代金券;当x≥90时,奖励该学生35元食堂代金券;
方案二:得分低于样本中位数的每位学生奖励10元食堂代金券;得分不低于中位数的每位学生奖励30元食堂代金券.
若高一年级组长希望本年级学生获得更多的奖励,则他应该选择哪种方案?
解析:(1)样本中,高一学生竞赛平均成绩为
1=×(65×15+75×5+85×15+95×15)=81,
方差s=×[(65-81)2×15+(75-81)2×5+(85-81)2×15+(95-81)2×15]=144;
样本中,高二学生竞赛平均成绩为
2=×(65×10+75×10+85×20+95×10)=81,
方差s=×[(65-81)2×10+(75-81)2×10+(85-81)2×20+(95-81)2×10]=104.
因为1=2,s>s,
所以样本中平均成绩一样,但高二学生的成绩更稳定.
所以利用样本估计总体的思想可以认为,高二学生这次竞赛成绩更好.
(2)设选择方案一时一位学生获得的奖金为X元,
则X的可能取值为10,25,35,其对应的频率分别为0.3,0.4,0.3,
所以获得奖励的平均数=10×0.3+25×0.4+35×0.3=23.5(元);
设选择方案二时一位学生获得的奖励为Y元,则获得奖金的平均数
=10×0.5+30×0.5=20(元).
因为>,所以从统计角度看,高一年级组长应该选择方案一.
12.(2024·云南昆明阶段练习)《中国制造2025》是中国实施制造强国战略第一个十年的行动纲领,制造业是国民经济的主体,是立国之本、兴国之器、强国之基.发展制造业的基本方针为质量为先,坚持把质量作为建设制造强国的生命线.某电子产品制造企业为了提升生产效率,对现有的一条电子产品生产线进行技术升级改造,为了分析改造的效果,该企业质检人员从该条生产线所生产的电子产品中随机抽取了1000件,检测产品的某项质量指标值,根据检测数据得到下表(单位:件).
质量 指标值 [25,35) [35,45) [45,55) [55,65) [65,75) [75,85) [85,95]
产品 60 100 160 300 200 100 80
(1)估计这组样本的质量指标值的平均数和方差s2(同一组中的数据用该组区间中点值作代表).
(2)设[x]表示不大于x的最大整数,{x}表示不小于x的最小整数,s精确到个位,an=5·{},bn=5·[],n∈N?,根据检验标准,技术升级改造后,若质量指标值有65%落在[a1,b1]内,则可以判断技术改造后的产品质量初级稳定;若有95%落在[a2,b2]内,则可以判断技术改造后的产品质量稳定,可认为生产线技术改造成功.请问:根据样本数据估计,是否可以判定生产线的技术改造是成功的?
解析:(1)由题可知
=30×0.06+40×0.1+50×0.16+60×0.3+70×0.2+80×0.1+90×0.08=61.
s2=(30-61)2×0.06+(40-61)2×0.1+(50-61)2×0.16+(60-61)2×0.3+(70-61)2×0.2+(80-61)2×0.1+(90-61)2×0.08=241.
(2)由s2=241知,s≈16,
则a1=5×{}=45,
b1=5×[]=75,
该抽样数据落在[45,75]内的频率约为0.16+0.3+0.2=66%>65%;
又a2=5×{}=30,
b2=5×[]=90,
该抽样数据落在[30,90]内的频率约为1-0.03-0.04=0.93=93%<95%,
所以可以判断技术改造后的产品质量初级稳定,但不能判定生产线技术改造成功.
13.四月的武汉被百万株蔷薇花覆盖,形成了全城的花海景观.蔷薇花一般扦插繁殖,园林局为了更好地了解扦插枝条的长度对繁殖状况的影响,选择甲、乙两区按比例分层随机抽样来抽取样本.已知甲区的样本容量m=12,样本平均数=18,样本方差s=19;乙区的样本容量n=18,样本平均数=36,样本方差s=70.
(1)求由两区样本组成的总样本的平均数及其方差S2(结果保留一位小数).
(2)为了营造“花在风中笑,人在画中游”的美景,甲、乙两区决定在各自最大的蔷薇花海公园进行一次书画比赛,两区各派一支代表队参加,经抽签确定第一场在甲区举行.比赛规则如下:每场比赛分出胜负,没有平局,胜方得1分,负方得0分,下一场在负方举行,先得2分的代表队获胜,比赛结束.当比赛在甲区举行时,甲区代表队获胜的概率为,当比赛在乙区举行时,甲区代表队获胜的概率为.假设每场比赛结果相互独立.甲区代表队的最终得分记为X,分别求X=1,2的概率.
参考数据:12×182=3888,
18×362=23328,28.82=829.44,
12×10.82=1399.68,18×7.22=933.12.
解析:(1)根据题意,得
===28.8,
因为(xi-)2=(xi-+-)2
=(xi-)2+(xi-)(-)+12(-)2
=(xi-)2+2(-)(xi-12)+12(-)2
=(xi-)2+12(-)2,
同理(yi-)2=(yi-)2+18(-)2,
所以S2=[(xi-)2+(yi-)2]
=[12s+12(-)2+18s+18(-)2]
=×(12×19+12×10.82+18×70+18×7.22)
≈127.4.
所以总样本的平均数为=28.8,方差S2≈127.4.
(2)依题意可知,X的所有可能取值为0,1,2.
设“第i场比赛在甲区举行,甲区代表队获胜”为事件Ai,
“第i场比赛在乙区举行,甲区代表队获胜”为事件Bi,i=1,2,3,
则P(Ai)=,P(Bi)=,
所以P(X=0)=P(12)=(1-)2=,
P(X=1)=P(A123+1A23)
=P(A123)+P(1A23)
=××(1-)+(1-)××
=,
P(X=2)=1-P(X=0)-P(X=1)=.
第41讲 变量间的相关性
[课标要求] 1.会作两个关联变量的散点图,会利用散点图认识变量间的相关关系,了解样本相关系数的统计含义.2.结合实例,会通过相关系数比较多组成对数据的相关性.3.了解最小二乘法的思想,能根据最小二乘法建立线性回归模型,会用回归分析思想与方法解决实际问题.
          
1.相关关系
两个变量有关系,但又没有确切到可由其中一个去精确地决定另一个的程度,这种关系称为__相关关系__.与函数关系不同,相关关系是一种__不确定__关系.
2.散点图
在平面直角坐标系中描点,得到关于两个变量的一组数据的图形,这样的统计图叫做散点图.它可直观地判断两个变量关系是否可以用线性关系表示.
从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势,我们就称这两个变量__正相关__;当一个变量的值增加时,另一个变量的相应值呈现减小的趋势,则称这两个变量__负相关__.
3.样本相关系数
r=,
当r>0时,称成对样本数据正相关;当r<0时,称成对样本数据负相关.|r|越接近1时,成对样本数据的线性相关程度越强;当|r|接近0时,成对样本数据的线性相关程度越弱.
4.一元线性回归模型
(1)在一元线性回归模型Y=bx+a+e中,因变量Y的值由自变量x和随机误差e共同确定,即自变量x只能解释部分Y的变化,在统计中,我们把自变量x叫做__解释__变量,因变量Y称为__响应__变量.
(2)经验回归方程:两个具有线性相关关系的变量的一组数据:(x1,y1),(x2,y2),…,(xn,yn),其经验回归方程为,则
残差平方和为.
5.残差分析
(1)残差及残差平方和:残差ei=,残差平方和为.
(2)用决定系数来比较两个模型的拟合效果,其计算公式是R2= 1-,R2的值越大,表示残差平方和越 小 ,即回归模型的拟合效果越 好 .
1.(2024·天津卷)下列图中,相关性系数最大的是(  )
解析:A 观察四幅图可知,A图散点分布比较集中,且大体接近某一条直线,线性回归模型拟合效果比较好,呈现明显的正相关,|r|值相比于其他三图更接近1.故选A.
2.(2020·全国Ⅰ卷)某校一个课外学习小组为研究某作物种子的发芽率y和温度x(单位:℃)的关系,在20个不同的温度条件下进行种子发芽实验,由实验数据(xi,yi)(i=1,2,…,20)得到下面的散点图:
由此散点图,在10 ℃至40 ℃之间,下面四个回归方程类型中最适宜作为发芽率y和温度x的回归方程类型的是(  )
A. y=a+bx B. y=a+bx2
C. y=a+bex D. y=a+bln x
解析:D 由散点图分布可知,散点图分布在一个对数函数的图象附近,因此,最适合作为发芽率y和温度x的回归方程类型的是y=a+bln x.故选D.
3.(教材母题必修8.2.2练习T2改编)某地以“绿水青山就是金山银山”理念为引导,推进绿色发展.现要订购一批苗木,苗木长度与售价如下表:
苗木长度x /cm 38 48 58 68 78 88
售价y/元 16.8 18.8 20.8 22.8 24 25.8
若苗木长度x(cm)与售价y(元)之间存在线性相关关系,其经验回归方程为=x+8.9,则当售价大约为38.9元时,苗木长度大约为(  )
A.148 cm B.150 cm
C.152 cm D.154 cm
解析:B 
因为==63,
==21.5,所以样本中心点为(63,21.5),
又知经验回归方程=x+8.9经过点(63,21.5),所以21.5=63+8.9,所以=0.2,
所以经验回归方程为=0.2x+8.9,
当=38.9元时,x=150 cm.
则当售价大约为38.9元时,苗木长度大约为150 cm.故选B.
4.某农业科研所在5块面积相同的长方形试验田中均种植了同一种农作物,每一块试验田的施肥量x(单位:kg)与产量y(单位:kg)之间有如下关系:
施肥量x/kg 20 40 50 60 80
产量y/kg 600 800 1200 1000 1400
已知y与x满足线性回归方程=13x+,则当施肥量为80 kg时,残差为________.
解析:10 
由题意得==50,
==1000,
已知回归直线过样本点的中心,所以1000=13×50+,
解得=350,所以=13x+350,
则当x=80时,=13×80+350=1390,故残差为1400-1390=10.
5.用模型y=aekx拟合一组数(xi,yi)(i=1,2,…,10),若x1+x2+…+x10=10,y1y2…y10=e70,设z=ln y,得变换后的经验回归方程为=x+4,则ak=__________.
解析:3e4 已知x1+x2+…+x10=10,
所以==1,y1y2…y10=e70,z=ln y,
所以=

===7,
由题意,(,)满足的经验回归方程为=x+4,所以7=·1+4,所以=3,
此时经验回归方程为=3x+4,即ln y=3x+4,可将此式化为指数形式=e3x+4,即=e4·e3x.
因为模型为y=aekx,所以a=e4,k=3,所以ak=3e4.
          
探究点1 变量间的相关性
【例1】 某地经过多年的环境治理,已将荒山改造成了绿水青山.为估计一林区某种树木的总材积量,随机选取了10棵这种树木,测量每棵树的根部横截面积(单位:m2)和材积量(单位:m3),得到如下数据:
样本号i 根部横截面积xi 材积量yi
1 0.04 0.25
2 0.06 0.40
3 0.04 0.22
4 0.08 0.54
5 0.08 0.51
6 0.05 0.34
7 0.05 0.36
8 0.07 0.46
9 0.07 0.42
10 0.06 0.40
总和 0.6 3.9
计算得.
(1)估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量.
(2)求该林区这种树木的根部横截面积与材积量的样本相关系数(精确到0.01).
(3)现测量了该林区所有这种树木的根部横截面积,并得到所有这种树木的根部横截面积总和为186 m2.已知树木的材积量与其根部横截面积近似成正比.利用以上数据给出该林区这种树木的总材积量的估计值.
附:相关系数
解析:(1)样本中10棵这种树木的根部横截面积的平均值==0.06,
样本中10棵这种树木的材积量的平均值==0.39,
据此可估计该林区这种树木平均一棵的根部横截面积为0.06 m2,平均一棵的材积量为0.39 m3.
(2)

=≈≈0.97,
则r≈0.97.
(3)设该林区这种树木的总材积量的估计值为Y m3,
又已知树木的材积量与其根部横截面积近似成正比,可得=,解得Y=1209.
则该林区这种树木的总材积量估计为1209 m3.
判断两个变量是否线性相关及相关程度通常有两种方法:
①利用散点图直观判断;
②将相关数据代入相关系数公式求出r,然后根据r的大小进行判断.
相关系数|r|越大,相关程度越强;|r|越小,相关程度越弱.通常|r|≥0.75时,认为两个变量具有线性相关关系.
变式探究
1.某基地蔬菜大棚采用无土栽培方式种植各类蔬菜.过去50周的资料显示,该地周光照量X(单位:小时)都在30小时以上,其中不足50小时的有5周,不低于50小时且不超过70小时的有35周,超过70小时的有10周.根据统计,该基地的西红柿增加量y(千克)与使用某种液体肥料的质量x(千克)之间的对应数据为如图所示的折线图.
(1)依据折线图计算相关系数r(精确到0.01),并据此判断是否可用线性回归模型拟合y与x的关系(若|r|>0.75,则线性相关程度很高,可用线性回归模型拟合).
(2)蔬菜大棚对光照要求较高,某光照控制仪商家为该基地提供了部分光照控制仪,但每周光照控制仪运行台数受周光照量X限制,并有如下关系:
周光照量 X/小时 3070
光照控制仪 运行台数 3 2 1
对商家来说,若某台光照控制仪运行,则该台光照控制仪产生的周利润为3000元;若某台光照控制仪未运行,则该台光照控制仪周亏损1000元.若商家安装了3台光照控制仪,求商家在过去50周的周总利润的平均值.
相关系数公式:
参考数据:≈0.55,≈0.95.
解析:(1)由已知数据可得
==5,
==4.
因为(xi-)(yi-)=(-3)×(-1)+(-1)×0+0×0+1×0+3×1=6,
==2,
==,
所以相关系数
==≈0.95.
因为|r|>0.75,所以可用线性回归模型拟合y与x的关系.
(2)由条件可得在过去50周里,
当X>70时,共有10周,此时只有1台光照控制仪运行,
每周的周总利润为1×3000-2×1000=1000(元).
当50≤X≤70时,共有35周,此时有2台光照控制仪运行,
每周的周总利润为2×3000-1×1000=5000(元).
当30每周的周总利润为3×3000=9000(元).
所以过去50周的周总利润的平均值为
=4600(元),
所以商家在过去50周的周总利润的平均值为4600元.
探究点2 回归方程的求解与运用
【例2】 (2025·重庆阶段考)研究表明,学生的学习成绩y(分)与每天投入的课后学习时间x(分钟)有较强的线性相关性.某校数学小组为了研究如何高效利用自己的学习时间,收集了该校高三(1)班学生9个月内在某学科(满分100分)所投入的课后学习时间和月考成绩的相关数据,下图是该小组制作的原始数据与统计图(散点图).
月次 某科课后投入时间x (分钟) 高三(1)班某科 平均分y(分)
1 20 65
2 25 68
3 30 75
4 35 72
5 40 73
6 45 73
7 50 73
8 55 73.5
9 60 73
(1)当x≤40时,该小组建立了y与x的线性回归模型,求其经验回归方程.
(2)当x≤40时,由图中观察到,第3个月的数据点明显偏离回归直线l,若剔除第3个月数据点后,用余下的4个散点做线性回归分析,得到新回归直线l′,证明:l∥l′.
(3)当x>40时,该小组确定了y与x满足的线性回归方程为=0.01x+72.6,该数学小组建议该班在该学科投入课后学习时间为40分钟,请结合(1)(2)的结论说明该建议的合理性.
附:经验回归直线的斜率和截距的最小二乘估计公式分别为
,.
解析:(1)==30,
==70.6,
则=- =70.6-0.4×30=58.6,
所以所求经验回归方程为=0.4x+58.6.
(2)证明:设l′的方程为y=b1x+a1,
==30,
==69.5,
所以
=×[(-10)×(-4.5)+(-5)×(-1.5)+5×2.5+10×3.5]
=0.4,
则a1=-b1=69.5-0.4×30=57.5,
所以l′的方程为y=0.4x+57.5,
故所以l∥l′.
(3)当x≤40时,l′的斜率为0.4,这个斜率的意义是:课后每多投入10分钟,平均分就能提高4分.
当x>40时,回归直线的斜率为0.01,这个斜率的意义是:课后每多投入10分钟,平均分就能提高0.1分,说明投入几乎没用.
故该学习小组的建议是合理的.
回归方程分为线性回归方程和非线性回归方程两种,判定方法一般依据样本数据画出散点图.
(1)线性回归方程的求法:
①依据样本数据画出散点图,确定两个变量具有线性相关关系;
②由求得,的值而得到其经验回归方程.
(2)求非线性回归方程的求法:
①依据样本数据画出散点图,确定两个变量具有非线性相关关系;②通过换元化非线性回归为线性回归;③利用相关数据计算回归系数,;④将线性经验回归方程转化为非线性经验回归方程.
注意:①计算的值时,需要根据题目条件选择计算公式或,而计算时,要利用回归直线过样本点的中心(,)的特点.
②在严格按照公式求解时,一定要注意题目中提供的数据,注意计算的准确性,并注意近似计算的要求.
变式探究
2.(2024·浙江台州二模)台州是全国三大电动车生产基地之一,拥有完整的产业链和突出的设计优势.某电动车公司为了抢占更多的市场份额,计划加大广告投入,该公司近5年的年广告费xi(单位:百万元)和年销售量yi(单位:百万辆)关系如图所示.
令vi=ln xi(i=1,2,…,5),数据经过初步处理得:
44 4.8 10 40.3 1.612 19.5 8.06
现有①y=bx+a和②y=nln x+m两种方案作为年销售量y关于年广告费x的回归分析模型,其中a,b,m,n均为常数.
(1)请从相关系数的角度,分析哪一个模型拟合程度更好.
(2)根据(1)的分析选取拟合程度更好的回归分析模型及表中数据,求出y关于x的回归方程,并预测年广告费为6(百万元)时,产品的年销售量是多少.
(3)该公司生产的电动车毛利润为每辆200元(不含广告费、研发经费).该公司在加大广告投入的同时也加大研发经费的投入,年研发经费为年广告费的199倍.电动车的年净利润除了受年广告费和年研发经费影响外还受随机变量ξ影响,设随机变量ξ服从正态分布N(600,σ2),且满足P(ξ>800)=0.3.在(2)的条件下,求该公司年净利润的最大值大于1000(百万元)的概率.(年净利润=毛利润×年销售量-年广告费-年研发经费-随机变量)
附:①相关系数
回归直线中公式分别为,;
②参考数据:=8.06,≈20.1,ln 5≈1.6,ln 6≈1.8.
解析:(1)设模型①和②的相关系数分别为r1,r2.
由题意可得
r1==
≈≈0.97,
r2====1.
所以|r1|<|r2|,由相关系数的相关性质可得,模型②的拟合程度更好.
(2)因为==5,
又由,,
-5=8.8-0.96×5=4,所以y=5v+4,即回归方程为y=5ln x+4.
当x=6时,y=5ln 6+4≈13,
因此当年广告费为6(百万元)时,产品的年销售量大概是13(百万辆).
(3)净利润为200×(5ln x+4)-200x-ξ(x>0),
令g(x)=200×(5ln x+4)-200x-ξ,
所以g′(x)=-200,
可得y=g(x)在(0,5)上为增函数,在(5,+∞)上为减函数.
所以g(x)max=g(5)=200×(5ln 5+4-5)-ξ≈1400-ξ,
由题意得1400-ξ>1000,即ξ<400,P(ξ<400)=P(ξ>800)=0.3,
即该公司年净利润大于1000(百万元)的概率为0.3.
探究点3 残差分析
【例3】 BMI指数是用体重千克数除以身高米数的平方得出的数值,是国际上常用的衡量人体胖瘦程度以及是否健康的一个标准.对于高中男体育特长生而言,当BMI数值大于或等于20.5时,我们说体重较重,当BMI数值小于20.5时,我们说体重较轻,身高大于或等于170 cm时,我们说身高较高,身高小于170 cm时,我们说身高较矮.某中小学生成长与发展机构从某市的320名高中男体育特长生中随机选取8名,其身高和体重的数据如表所示:
编号 身高xi/cm 体重yi/kg
1 166 57
2 167 58
3 160 53
4 173 61
5 178 66
6 169 57
7 158 50
8 173 66
(1)根据最小二乘法的思想与公式求得经验回归方程=0.8x-75.9.请利用已经求得的经验回归方程,完善下列残差表,并求决定系数R2(精确到0.01).
编号 身高xi/cm 体重yi/kg 残差
1 166 57 0.1
2 167 58 0.3
3 160 53 0.9
4 173 61 -1.5
5 178 66 -0.5
6 169 57
7 158 50
8 173 66
 (2)通过残差分析,对于残差的最大(绝对值)的那组数据,需要确认在样本点的采集中是否有人为的错误.已知通过重新采集发现,该组数据的体重应该为58(kg).请重新根据最小二乘法的思想与公式,求出男体育特长生的身高与体重的经验回归方程.
参考公式:R2=1-,

,.
参考数据:xiyi=78880,x=226112,=168,=58.5,(yi-)=226.
解析:(1)由题意知经验回归方程为=0.8x-75.9,
计算=57-0.8×169+75.9=-2.3,
=50-0.8×158+75.9=-0.5,
=66-0.8×173+75.9=3.5.
残差表完善如下,
编号 身高xi/cm 体重yi/kg 残差
1 166 57 0.1
2 167 58 0.3
3 160 53 0.9
4 173 61 -1.5
5 178 66 -0.5
6 169 57 -2.3
7 158 50 -0.5
8 173 66 3.5
计算R2=1-=1-×(0.01+0.09+0.81+2.25+0.25+5.29+0.25+12.25)≈0.91,
所以决定系数R2≈0.91.
(2)通过残差分析知,残差的最大(绝对值)的那组数据为第8组,且y8=58.
由xiyi=78880,
计算修订后=78880-173×66+173×58=77496,
又x==226112,=168,
修订后y′=×(8×58.5-66+58)=57.5.
所以

=0.675,
=-=57.5-0.675×168=-55.9.
所以y关于x的经验回归方程是=0.675x-55.9.
判断相关关系的方法
(1)散点图法:如果样本点的分布从整体上看大致在一条直线(或曲线)附近,或者样本点的分布从整体上看大致在一条带形区域内,变量就具有相关关系;大致在一条直线(或曲线)附近的密集程度或带形区域宽度反映相关程度.
(2)决定系数法:由公式R2=1-求得R2的值,R2的值越接近1,拟合效果越好,相关性越强.
变式探究
3.某高科技公司对其产品研发年投资额x(单位:百万元)与其年销售量y(单位:千件)的数据进行统计,整理后得到如下统计表和散点图.
x 1 2 3 4 5 6
y 0.5 1 1.5 3 6 12
z=ln y -0.7 0 0.4 1.1 1.8 2.5
(1)该公司科研团队分析散点图的特征后,计划分别用①y=bx+a和②y=edx+c两种方案作为年销售量y关于年投资额x的回归分析模型,请根据统计表的数据,确定方案①和②的经验回归方程.(注:系数a,b,c,d按四舍五入保留一位小数)
(2)根据下表中数据,用相关指数R2(不必计算,只比较大小)比较两种模型的拟合效果哪个更好,并选择拟合精度更高、更可靠的模型,预测当研发年投资额为8百万元时,产品的年销售量是多少.
经验回归方程 残差平方和 y=bx+a y=edx+c
18.29 0.65
参考公式及数据:,,
,.
解析:(1)由题可得=(1+2+3+4+5+6)=3.5,
=(0.5+1+1.5+3+6+12)=4,

=-≈4-2.11×3.5≈-3.4,
故方案①的经验回归方程为=2.1x-3.4.
对y=edx+c两边取对数得ln y=dx+c,
令z=ln y,z=dx+c是一元线性回归方程.
=(-0.7+0+0.4+1.1+1.8+2.5)=0.85,
c=-d=0.85-0.63×3.5≈-1.4,
故方案②的经验回归方程为=e0.6x-1.4.
(2)方案①相关指数;方案②相关指数,
(有此结论即给分),故模型②的拟合效果更好,精度更高.
当研发年投资额为8百万元时,产品的年销售量(千件).
          
1.两个变量的相关关系有①正相关、②负相关、③不相关,则下列散点图从左到右分别反映的变量间的相关关系是(  )
A.①②③ B.②③①
C.②①③ D.①③②
解析:D 第一个散点图中,当x的值增加时,y的值也增加,是正相关;第三个散点图中,当x的值增加时,y的值减小,是负相关;第二个散点图中,散点图中的点的分布没有什么规律,是不相关,所以应该是①③②.故选D.
2.两个变量y与x的回归模型中,分别选择了4个不同模型,它们的决定系数R2如下,其中拟合效果最好的模型是(  )
A.模型1(决定系数R2为0.97)
B.模型2(决定系数R2为0.85)
C.模型3(决定系数R2为0.40)
D.模型4(决定系数R2为0.25)
解析:A 在两个变量y与x的回归模型中,它们的决定系数R2越接近1,模型拟合效果越好,在四个选项中A的决定系数最大,所以拟合效果最好的是模型1,故选A.
3.(2024·上海三模)上海某集团对旗下若干门店的营业额与三个影响因素分别作了相关性分析,绘制了如下的散点图,则下述大小关系正确的为(  )
A.r1>r2>r3 B.r2>r3>r1
C.r1>r3>r2 D.r3>r2>r1
解析:C 由散点图可知,图一两个变量成正相关,且线性相关性较强,故r1>0,
图二、图三两个变量都成负相关,且图二的线性相关性更强,
故r2<0,r3<0,|r2|>|r3|,故0>r3>r2,所以r1>r3>r2.故选C.
4.(2025·河北沧州二模)随着“一带一路”经贸合作持续深化,西安某地对外贸易近几年持续繁荣,2024年6月18日,该地很多商场都在搞“6·18”促销活动.市物价局派人对某商品同一天的销售量及其价格进行调查,得到该商品的售价x(单位:元)和销售量y(单位:百件)之间的一组数据:
x 20 25 30 35 40
y 5 7 8 9 11
用最小二乘法求得y与x之间的经验回归方程是=0.28x+,当售价为45元时,预测该商品的销售量件数大约为(单位:百件)(  )
A.11.2 B.11.75
C.12 D.12.2
解析:D 因为=(20+25+30+35+40)=30,=(5+7+8+9+11)=8,
所以回归直线=0.28x+过点(30,8),
故8=0.28×30+,解得=-0.4,
所以=0.28x-0.4,
将x=45代入=0.28x-0.4中,
得=0.28×45-0.4=12.2,
即当售价为45元时,该商品的销售量件数大约为12.2百件.故选D.
5.(多选)下列说法正确的是(  )
A.自变量取值一定时,因变量的取值有一定随机性的两个变量之间的关系叫做相关关系
B.在线性回归分析中,样本相关系数r越大,变量间的相关性越强
C.在残差图中,残差点分布的带状区域的宽度越狭窄,其模型拟合的精度越高
D.在回归分析中,R2为0.98的模型比R2为0.80的模型拟合的效果好
解析:ACD 对于A,根据相关关系的定义,即可判断自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系叫做相关关系,正确;对于B,线性回归分析中,样本相关系数r的绝对值越接近1,两个变量的线性相关性越强,错误;对于C,残差图中,对于一组数据拟合程度的好坏评价,是残差点分布的带状区域宽度越狭窄,其模型拟合的精度越高,正确;对于D,在回归分析中,用决定系数R2刻画回归效果时,R2的值越大,说明模型的拟合效果越好,R2为0.98的模型比R2为0.80的模型拟合的效果好,正确.故选ACD.
6.(2024·河南一模)已知一组样本数据(x1,y1),(x2,y2),…,(xn,yn),根据这组数据的散点图分析x与y之间的线性相关关系,若求得其线性回归方程为=-30.4+13.5x,则在样本点(9,53)处的残差为(  )
A.38.1 B.22.6
C.-38.1 D.91.1
解析:C 因为观测值减去预测值称为残差,
所以当x=9时,=-30.4+13.5×9=91.1,
所以残差为53-91.1=-38.1.故选C.
7.(多选)(2024·广东湛江模拟)某服装生产商为了解青少年的身高和体重的关系,在15岁的男生中随机抽测了10人的身高和体重,数据如下表所示:
编号 1 2 3 4 5 6 7 8 9 10
身高/cm 165 168 170 172 173 174 175 177 179 182
体重/kg 55 89 61 65 67 70 75 75 78 80
由表中数据制作成如下所示的散点图:
由最小二乘法计算得到经验回归直线l1的方程为=1x+1,相关系数为r1,决定系数为R;经过残差分析确定(168,89)为离群点(对应残差过大),把它去掉后,再用剩下的9组数据计算得到经验回归直线l2的方程为=2x+2,相关系数为r2,决定系数为R.则以下结论中正确的有(  )
A.1>2 B.1>2
C.r1R
解析:AC 身高的平均数为(165+168+170+172+173+174+175+177+179+182)=173.5,
因为离群点(168,89)的横坐标168小于平均值173.5,纵坐标89相对过大,
所以去掉离群点后经验回归直线的截距变小而斜率变大,所以1>2,1<2,A正确,B错误;
去掉离群点后成对样本数据的线性相关程度更强,拟合效果会更好,
所以r18.某农科所统计了单位面积某种化肥实施量x(kg)和玉米相应产量y(kg)的相关数据,制作了数据对照表:
x(kg) 16 20 24 29 36
y(kg) 340 350 362 404 454
若在合理施肥范围内x与y具有线性相关关系,
(1)求y关于x的经验回归方程=x+;
(2)请利用经验回归方程预测x=40 kg时的玉米产量.
附:回归直线的斜率和截距的最小二乘法估计公式分别为:=,=-.
解析:(1)由表中数据计算得,
=25,=382,
(xi-)(yi-)=1438,
(xi-)2=244,
=≈5.983,
=-≈382-5.893×25=234.675.
所以经验回归方程为=5.893x+234.675.
当x=40时,=5.893×40+234.675=470.395.
故预测x=40 kg时的玉米产量约为470.395 kg.
9.(2024·浙江一模)假设变量x与变量Y的n对观测数据为(x1,y1),(x2,y2),…,(xn,yn),两个变量满足一元线性回归模型要利用成对样本数据求参数b的最小二乘估计,即求使Q(b)=(yi-bxi)2取最小值时的b的值,则b的值为________________.
解析:
因为Q(a,b)=(yi-bxi)2
=(y-2bxiyi+b2x)
=b2x-2bxiyi+y,
上式是关于b的二次函数,因此要使Q取得最小值,b的取值为.
10.(2024·江西九江三模)车胎凹槽深度是影响汽车刹车的因素,汽车行驶会导致轮胎胎面磨损.某实验室通过实验测得轿车行驶里程与某品牌轮胎凹槽深度的数据,如下表所示:
行驶里程 x/104km 0.0 0.4 1.0 1.6 2.4 2.8 3.4 4.4
轮胎凹槽 深度h/mm 8.0 7.8 7.2 6.2 5.6 4.8 4.4 4.0
xihi=79.68,(xi-)2=16.24,≈16.56.
(1)求该品牌轮胎凹槽深度h与行驶里程x的相关系数r,并判断二者之间是否具有很强的线性相关性.(结果保留两位有效数字)
(2)根据我国国家标准规定:轿车轮胎凹槽安全深度为1.6 mm(当凹槽深度低于1.6 mm时刹车距离增大,驾驶风险增加,必须更换新轮胎).某人在保养汽车时将小轿车的轮胎全部更换成了该品牌的新轮胎,请问在正常行驶情况下,更换新轮胎后继续行驶约多少千米需对轮胎再次更换?
附:变量x与y的样本相关系数
r=,
对于一组数据(x1,y1),(x2,y2),…,(xn,yn),其线性回归方程=x+的斜率和截距的最小二乘估计分别为
=,=-x
解析:(1)计算得=(0.4+1+1.6+2.4+2.8+3.4+4.4)=2,
=(8+7.8+7.2+6.2+5.6+4.8+4.4+4)=6,
由公式知,r=

≈≈-0.99,
所以二者之间具有很强的线性相关性.
(2)设轮胎凹槽深度h与行驶里程x的线性回归方程为=+x,
则===-≈-1,
=-x=6+1×2=8,
所以线性回归方程为h=8-x,
令h=1.6,得x=6.4.
即更换新轮胎后继续行驶约6.4万千米需要对轮胎再次更换.
(2024·江苏模拟预测)某公司为了解年研发资金投入量x(单位:亿元)对年销售额y(单位:亿元)的影响,对公司近12年的年研发资金投入量xi和年销售额yi的数据进行了对比分析,建立了两个模型:①=+x2,②=e,其中α,,λ,t均为常数,e为自然对数的底数,并得到一些统计量的值.令ui=x,vi=ln yi,i=1,2,3,…,12,经计算得如下数据:
22 66 77
2 460 5
31250 220
3.08 14
(1)请从相关系数的角度,分析哪一个模型拟合程度更好?
(2)根据(1)的结论及表中数据,求y关于x的经验回归方程.
附:①相关系数
r=
②经验回归方程=+x中,的计算公式分别为
==,
=-·.
解析:(1)设模型①和②的相关系数分别为r1,r2.
由题意可得
r1=
====0.88,
r2=
===≈0.91,
所以|r1|<|r2|,由相关系数的相关性质可得,模型②的拟合程度更好.
(2)因为=e,可得ln =x+,即=x+,
可得==,
=-=5-×22=1,
所以v关于x的经验回归方程为=x+1,
即y关于x的经验回归方程为=e.
12.(2024·浙江温州二模)红旗淀粉厂2024年之前只生产食品淀粉,下表为年投入资金x(万元)与年收益y(万元)的8组数据:
x 10 20 30 40 50 60 70 80
y 12.8 16.5 19 20.9 21.5 21.9 23 25.4
(1)用y=ln x+模拟生产食品淀粉年收益y与年投入资金x的关系,求出经验回归方程.
(2)为响应国家“加快调整产业结构”的号召,该企业又自主研发出一种药用淀粉,预计其收益为投入的10%.2024年该企业计划投入200万元用于生产两种淀粉,求年收益的最大值(精确到0.1万元).
附:①经验回归方程=v+中斜率和截距的最小二乘估计公式分别为
=,.

161 29 20400 109 603
③ln 2≈0.7,ln 5≈1.6.
解析:(1)=


=5,
=-·=-5×=2.
所以经验回归方程为=5ln x+2.
(2)2024年设该企业投入食品淀粉生产x万元,预计收益y万元,
则y=5ln x+2+(200-x)·,0≤x≤200,
y′=-=>0,得x<50,
所以其在(0,50)上单调递增,在(50,200)上单调递减,
ymax=5ln 50+2+15=5(2ln 5+ln 2)+17≈5×(2×1.6+0.7)+17=36.5.
故年收益的最大值为36.5万元.
13.(2024·云南一模)混凝土的抗压强度x较容易测定,而抗剪强度y不易测定,工程中希望建立一种能由x推算y的经验公式,下表列出了现有的9对数据,分别为(x1,y1),(x2,y2),…,(x9,y9).
x 141 152 168 182 195 204 223 254 277
y 23.1 24.2 27.2 27.8 28.7 31.4 32.5 34.8 36.2
以成对数据的抗压强度x为横坐标,抗剪强度y为纵坐标作出散点图,如图所示.
(1)从上表中任选2对成对数据(xi,yi),(xj,yj)(1≤i(2)根据散点图,我们选择两种不同的函数模型作为回归曲线,根据一元线性回归模型及最小二乘法,得到经验回归方程分别为
①=x+,②=17.8789ln x-75.2844.
经验回归方程①和②的残差计算公式分别为
i=yi-(xi+),i=yi-(17.8789ln xi-75.2844),i=1,2,…,9.
(ⅰ)求;
(ⅱ)经计算得经验回归方程①和②的残差平方和分别为Q1==5.0177,Q2==2.5007,经验回归方程①的决定系数R=0.9693,求经验回归方程②的决定系数R,并判断哪一个模型的拟合效果更好.
附:相关系数r=,决定系数R2=1-.
解析:(1)不妨设选择的成对数据分别为(x1,y1),(x2,y2),
则r=

=.
又由表格数据得,当x1因为任意两个样本点都在一条直线上,则样本量为2的样本相关系数绝对值都是1(在样本相关系数存在的情况下),显然据此推断两个变量完全线性相关是不合理的.
样本相关系数可以反映变量之间相关的正负性及线性相关的程度,但由于样本数据的随机性,样本相关系数往往不能确切地反映变量之间的相关关系.一般来说,样本量越大,根据样本相关系数推测变量之间相关的正负性及线性相关的程度越可靠,而样本量越小,则越不可靠.
(2)(ⅰ)==--9=9(--)=0(直线=x+)经过数据的中心(,)).
(ⅱ)因为R=1-=1-,
所以=,
则R=1-=1-(1-R)
=1-×(1-0.9693)
≈0.9847,
R2越大,越接近于1,则模型的拟合效果越好,因此经验回归方程②的拟合效果更好.
第42讲 独立性检验与正态分布
[课标要求] 1.了解2×2列联表的统计意义,了解独立性检验(2×2列联表)的基本思想、方法及其简单应用.2.了解正态分布曲线的特点及曲线所表示的意义.3.会利用3σ原则及正态曲线的对称性计算有关概率.
1.2×2列联表与独立性检验
(1)我们经常会使用一种特殊的随机变量,以区别不同的现象或性质,这类随机变量称为分类变量.
(2)列出的两个分类变量的频数表,称为列联表.
(3)一般地,假设有两个分类变量X和Y,它们的值域分别为{x1,x2}和{y1,y2},其抽样数据列联表为
X Y 合计
Y=y1 Y=y2
X=x1 a b a+b
X=x2 c d c+d
合计 a+c b+d n=a+b+c+d
计算统计量χ2=(其中n=a+b+c+d为样本容量),利用χ2的取值推断分类变量X和Y__是否独立__的方法称为χ2独立性检验,简称独立性检验.独立性检验即由统计量χ2的取值来确定在多大程度上可以认为“两个分类变量X和Y有关系”.
2.正态分布
(1)若随机变量X的概率分布密度函数f(x)=,x∈R,其中μ∈R,σ>0为参数,则称随机变量X服从正态分布,记为__X~N(μ,σ2)__.
(2)函数f(x)=,x∈R的图象称为正态密度曲线,简称正态曲线.
(3)正态曲线的特点:
①曲线是单峰的,它关于直线__x=μ__对称.
②曲线在x=μ时达到峰值____.
③当|x|无限增大时,曲线无限接近于__x轴__.
④曲线与x轴之间的区域的面积为1.
⑤当σ一定时,曲线的位置由μ确定,曲线随着μ的变化而沿x轴平移.
⑥当μ一定时,曲线的形状由σ确定,σ越大,曲线越“矮胖”,表示随机变量X的分布越__分散__;σ越小,曲线越“高瘦”,表示随机变量X的分布越__集中__.
(4)3σ原则
①X∈[μ-σ,μ+σ],P(X)≈0.6827;
②X∈[μ-2σ,μ+2σ],P(X)≈0.9545;
③X∈[μ-3σ,μ+3σ],P(X)≈0.9973.
1.为调查中学生近视情况,测得某校男生150名中有80名近视,140名女生中有70名近视.在检验这些学生眼睛近视是否与性别有关时,用下列哪种方法最有说服力(  )
A.回归分析 B.均值与方差
C.独立性检验 D.概率
解析:C “近视”与“性别”是两类变量,其是否有关,应用独立性检验判断.故选C.
2.已知正态分布密度函数f(x)=e-,x∈R,则μ,σ分别是(  )
A.0和4 B.0和2
C.0和8 D.0和
解析:B 因为f(x)=e-=e-,所以μ=0,σ=2.故选B.
3.为了解某大学的学生是否爱好体育锻炼,用简单随机抽样的方法在校园内调查了120位学生,得到如下2×2列联表:
单位:人
性别 爱好体育锻炼 合计
爱好 不爱好
男 a c 74
女 b 25
合计 73
则a-b-c=(  )
A.7 B.8
C.9 D.10
解析:C 根据题意,可得c=120-73-25=22,a=74-22=52,b=73-52=21,所以a-b-c=52-21-22=9.故选C.
4.四川省将从2022年秋季入学的高一年级学生开始实行高考综合改革,高考采用“3+1+2”模式,其中“1”为首选科目,即物理与历史二选一.某校为了解学生的首选意愿,对部分高一学生进行了抽样调查,制作出如下两个等高堆积条形图.根据条形图信息,下列结论正确的是(  )
A.样本中选择物理意愿的男生人数少于选择历史意愿的女生人数
B.样本中女生选择历史意愿的人数多于男生选择历史意愿的人数
C.样本中选择物理学科的人数较多
D.样本中男生人数少于女生人数
解析:C 样本中选择物理学科的人数多于选择历史意愿的人数,而选择物理意愿的男生比例高,选择历史意愿的女生比例低,所以样本中选择物理意愿的男生人数多于选择历史意愿的女生人数,A错误;
样本中女生选择历史意愿的人数不一定多于男生选择历史意愿的人数,B错误;
根据等高堆积条形图图1可知样本中选择物理学科的人数较多,C正确;
根据等高堆积条形图图2可知样本中男生人数多于女生人数,D错误.故选C.
5.(2022·新课标Ⅱ卷)已知随机变量X服从正态分布N(2,σ2),且P(22.5)=__________.
解析:0.14 因为X~N(2,σ2),所以P(X<2)=P(X>2)=0.5,因此P(X>2.5)=P(X>2)-P(2探究点1 独立性检验
【例1】 学校为提升高一年级学生自主体育锻炼的意识,拟将每周自主进行体育锻炼的时间不低于6小时的同学称为“体育迷”并予以奖励.为了确定奖励方案,先对学生自主体育锻炼的情况进行抽样调查,学校从高一年级随机抽取100名学生,将他们分为男生组、女生组,对每周自主体育锻炼的时间分段进行统计(单位:小时):第一段[0,2),第二段[2,4),第三段[4,6),第四段[6,8),第五段[8,10].将男生在各段的频率及女生在各段的频数用折线图表示如下:
(1)求折线图中m的值,并由样本估计该校高一年级学生中“体育迷”所占的比例.
(2)填写下列2×2列联表,并依据小概率值α=0.1的独立性检验,能否认为是否为“体育迷”与学生的性别有关联?
单位:人
性别 体育迷 合计
体育迷 非体育迷


合计
(3)若中学生每周自主体育锻炼的时间不低于5小时,才能保持身体的良好健康发展,试由样本估计该校高一年级学生的周平均锻炼时间是否达到保持身体良好健康发展的水平.(同一段中的数据用该组区间的中点值代表)
附:χ2=,n=a+b+c+d.
α 0.1 0.05 0.010 0.001
xα 2.706 3.841 6.635 10.828
解析:(1)由频率折线图可得m=1-0.04-0.20-0.24-0.16=0.36,
由频数折线图可知女生共有1+4+5+12+3=25(人),其中“体育迷”有12+3=15(人),
故男生共有100-25=75(人),其中“体育迷”有75×(0.24+0.16)=30(人).
因此由样本估计该校高一学生中“体育迷”所占比例约为=45%.
(2)
单位:人
性别 体育迷 合计
体育迷 非体育迷
男 30 45 75
女 15 10 25
合计 45 55 100
零假设为H0:是否为“体育迷”与学生的性别无关联.
根据表中的数据,计算得到χ2=≈3.030>2.706=x0.1.
根据小概率值α=0.1的独立性检验,我们推断H0不成立,即认为是否为“体育迷”与性别有关联.
(3)由频率折线图可知男生的锻炼时间在每组的频数分别为
75×0.04=3,75×0.20=15,75×0.36=27,75×0.24=18,75×0.16=12.
故这100名学生每周的锻炼时间在每组的频率分别为
(1+3)÷100=0.04,(4+15)÷100=0.19,(5+27)÷100=0.32,(12+18)÷100=0.30,(3+12)÷100=0.15.
所以由样本估计该校高一年级学生的周平均锻炼时间为1×0.04+3×0.19+5×0.32+7×0.30+9×0.15=5.66.
因为5.66>5,所以由样本估计该校高一年级学生的周平均锻炼时间达到了保持身体良好健康发展的水平.
(1)独立性检验的基本思想类似于反证法.要确认“两个分类变量有关系”这一结论成立的可信程度,首先假设该结论不成立,即假设结论“两个分类变量没有关系”成立,在该假设下构造的统计量χ2应该很小.如果由观测数据计算得到的χ2的概率值α很大,则在一定程度上说明假设不合理.
(2)独立性检验的一般步骤
①提出零假设H0:X和Y相互独立,并给出在问题中的解释.
②根据抽样数据整理出2×2列联表,计算χ2的值,并与临界值xα比较.
查下表确定临界值xα:
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
③如果χ2≥xα,就推断“X与Y有关系”,这种推断犯错误的概率不超过α;否则,就认为在犯错误的概率不超过α的前提下,不能推断“X与Y有关系”.
变式探究
1.2023年11月,世界首届人工智能峰会在英国举行,我国因为在该领域取得的巨大成就受邀进行大会发言.为了研究不同性别的学生对人工智能的了解情况,某市某著名高中进行了一次抽样调查,分别抽取男、女生各50人作为样本.设事件A=“了解人工智能”,B=“学生为男生”,据统计P(A|)=,P(B|A)=.
(1)根据已知条件,填写下列2×2列联表,并依据小概率值α=0.01的独立性检验,能否推断该校学生对人工智能的了解情况与性别有关联?
单位:人
性别 人工智能的了解情况 合计
了解 不了解
男生
女生
合计
(2)(ⅰ)现从所抽取的女生中利用分层随机抽样的方法抽取20人,再从这20人中随机选取3人赠送科普材料,求选取的3人中至少有2人了解人工智能的概率;
(ⅱ)将频率视为概率,从我市所有参与调查的学生中随机抽取20人科普材料,记其中了解人工智能的人数为X,求随机变量X的数学期望和方差.
参考公式:χ2=,n=a+b+c+d.
常用的小概率值和相应的临界值如下表:
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
解析:(1)因为P(A|)=,P(B|A)=,
所以了解人工智能的女生为50×=30,
了解人工智能的总人数为=70,
则了解人工智能的男生有70-30=40(人),
结合男生和女生各有50人,填写2×2列联表为
单位:人
性别 人工智能的了解情况 合计
了解 不了解
男生 40 10 50
女生 30 20 50
合计 70 30 100
零假设为H0:该校学生对人工智能的了解情况与性别无关.
根据表中的数据,计算得到χ2==≈4.762<6.635=x0.01,
根据小概率值α=0.01的独立性检验,没有充分证据推断H0不成立,因此认为H0成立,即认为该校学生对人工智能的了解情况与性别无关.
(2)(ⅰ)由题意可知,所抽取的20名女生中,了解人工智能的有20×=12(人),
不了解人工智能的有20×=8(人),
所以选取的3人中至少有2人了解人工智能的概率为P==.
(ⅱ)由2×2列联表可知,抽到了解人工智能的学生的频率为=,
将频率视为概率,所以,从该市高中生中任意抽取一人,恰好抽到了解人工智能学生的概率为,
由题意可知,X~B(20,),
所以E(X)=20×=14,D(X)=20××=.
探究点2 正态分布
【例2】 (2024·广东广州阶段校考)某工厂一台设备生产一种特定零件,工厂为了解该设备的生产情况,随机抽检了该设备在一个生产周期中的100件产品的关键指标(单位:cm),经统计得到下面的频率分布直方图:
(1)由频率分布直方图估计抽检样本关键指标的平均数和方差s2.(用每组的中点代表该组的均值)
(2)已知这台设备正常状态下生产零件的关键指标服从正态分布N(μ,σ2),用直方图的平均数估计值作为μ的估计值,用直方图的标准差估计值s作为σ的估计值.
(ⅰ)为了监控该设备的生产过程,每个生产周期中都要随机抽测10个零件的关键指标,如果关键指标出现了(μ-3σ,μ+3σ)之外的零件,就认为生产过程可能出现了异常,需停止生产并检查设备.下面是某个生产周期中抽测的10个零件的关键指标:
0.8 1.2 0.95 1.01 1.23 1.12 1.33 0.97 1.21 0.83
利用μ和σ判断该生产周期是否需停止生产并检查设备.
(ⅱ)若设备状态正常,记X表示一个生产周期内抽取的10个零件关键指标在(μ-3σ,μ+3σ)之外的零件个数,求P(X≥1)及X的数学期望.
参考数据:若随机变量X服从正态分布N(μ,σ2),则P(μ-3σ≤X≤μ+3σ)≈0.9973,≈0.105,≈0.110,0.99739≈0.9760,0.997310≈0.9733.
解析:(1)由频率分布直方图,得=0.8×0.1+0.9×0.2+1×0.35+1.1×0.3+1.2×0.05=1.

展开更多......

收起↑

资源预览