资源简介 2026届高三微专题12.6 成对数据的相关关系1.变量的相关关系(1)相关关系:两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系.(2)相关关系的分类:正相关和负相关.(3)线性相关:一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,我们就称这两个变量线性相关.2.样本相关系数(1)r=.(2)当r>0时,称成对样本数据正相关;当r<0时,称成对样本数据负相关.(3)|r|≤1;当|r|越接近1时,成对样本数据的线性相关程度越强;当|r|越接近0时,成对样本数据的线性相关程度越弱.3.一元线性回归模型(1)我们将x+称为Y关于x的经验回归方程,其中(2)残差:观测值减去预测值所得的差称为残差.4.列联表与独立性检验(1)2×2列联表如图,给出成对分类变量数据的交叉分类频数的数据统计表称为2×2列联表.合计合计(2)独立性检验①依据上述2×2列联表构造统计量,忽略的实际分布与该近似分布的误差后,对于任何小概率值,可以找到相应的正实数,使得成立.我们称为的临界值,这个临界值就可作为判断大小的标准.②基于小概率值的检验规则是:当时,我们就推断不成立,即认为和不独立,该推断犯错误的概率不超过;当时,我们没有充分证据推断不成立 ,可以认为和独立.这种利用的取值推断分类变量和是否独立的方法称为独立性检验,读作“卡方独立性检验”,简称独立性检验.下表给出了独立性检验中几个常用的小概率值和相应的临界值α 0.1 0.05 0.01 0.005 0.001xα 2.706 3.841 6.635 7.879 10.828【重要结论】1.线性回归直线一定经过样本点的中心,据此性质可以解决有关的计算问题、判断结论的正确性.2.根据回归方程计算的值,仅是一个预报值,不是真实发生的值.3.根据的值可以判断两个分类变量有关的可信程度,若越大,则两分类变量有关的把握越大.1. 红蜘蛛是柚子的主要害虫之一,能对柚子树造成严重伤害,每只红蜘蛛的平均产卵数y(个)和平均温度x(摄氏度)有关,现收集了以往某地的7组数据,得到下面的散点图及一些统计量的值.参考数据(z=ln y):xiyi xizi5 215 17 713 714 27 81.3 3.6(1)根据散点图判断,y=bx+a与y=cedx(其中e=2.718…为自然对数的底数)哪一个更适合作为平均产卵数y(个)关于平均温度x(摄氏度)的经验回归方程类型?(给出判断即可,不必说明理由)(2)由(1)的判断结果及表中数据,求出y关于x的经验回归方程.附:x+中,,.2.为考察某种药物A对预防疾病B的效果,进行了动物(单位:只)试验,得到如下列联表:药物 疾病 合计未患病 患病未服用 100 80 s服用 150 70 220合计 250 t 400(1)求s,t;(2)记未服用药物A的动物患疾病B的概率为p,给出p的估计值;(3)根据小概率值α=0.01的独立性检验,能否认为药物A对预防疾病B有效 附:χ2=.α 0.05 0.01 0.001xα 3.841 6.635 10.828【方法储备】判断数据相关关系的方法:1.散点图:如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系.如果所有的样本点都落在某一函数曲线的附近, 变量之间就有相关关系.2.样本相关系数法:若的值越接近于1,说明变量之间的线性相关程度越高;当时,称成对样本数据正相关;当时,称成对样本数据负相关.3.经验回归方程法:在经验回归方程中,当时,正相关;当时,负相关.【典例精讲】例1.(2025·全国·模拟)某工厂为了确定工效进行了次试验,收集数据如下:加工零件个数加工时间分经检验,这组样本数据的两个变量与具有线性相关关系,那么对于加工零件个数与加工时间这两个变量,下列判断中正确的是( )A. 负相关,其回归直线经过点 B. 正相关,其回归直线经过点C. 负相关,其回归直线经过点 D. 正相关,其回归直线经过点例2.(2025·山东省·模拟)为了研究儿子身高与父亲身高的关系,某机构调查了某所高校名男大学生的身高及其父亲的身高单位:,得到的数据如表所示.编号父亲身高儿子身高父亲身高的平均数记为,儿子身高的平均数记为,根据调查数据,得到儿子身高关于父亲身高的回归直线方程为则下列结论中正确的是( )A. 与正相关,且相关系数为B. 点不在回归直线上C. 每增大一个单位,增大个单位D. 当时,所以如果一位父亲的身高为,他儿子长大成人后的身高一定是【拓展提升】练1-1(.(2025·天津市·期末考试)对四组数据进行统计,获得以下散点图,关于其样本相关系数的比较,下列结论正确的是( )A. B. C. D.练1-2(2025·浙江省宁波市模拟)(多选) 根据某地月日到月日的每天最高气温与最低气温数据单位:绘制如下折线图,那么下列叙述正确的是( )A. 号到号的最低气温与日期之间呈线性相关关系且为正相关B. 号的最高气温与最低气温的差值最大C. 最高气温的众数为D. 号到号的最低气温的极差比最高气温的极差大(考点二 一元线性回归模型及其应用)【方法储备】1.求线性回归万程的步骤:⑴利用散点图或进行相关性检验判定两个变量具有线性相关关系;⑵列表求出,;⑶利用相应公式计算;⑷写出线性回归方程.⑸经验回归方程的拟合效果,可以利用相关系数判断,当越趋近于1时,两变量的线性相关性越强.或利用决定系数判断,越大,拟合效果越好.2.利用回归方程可以进行预测和估计总体,回归方程将部分观测值所反映的规律进行延伸,是我们对有线性相关关系的两个变量进行分析和控制、依据自变量的取值估计和预报因变量值的基础和依据.3.非线性经验回归方程转化为线性经验回归方程的方法如:①若,设,则;②若满足对数式:,设,则;③若满足指数式:,两边取对数解,设,则.【典例精讲】 例3.(2025·湖南省长沙市模拟) 若需要刻画预报变量和解释变量的相关关系,且从已知数据中知道预报变量随着解释变量的增大而减小,并且随着解释变量的增大,预报变量大致趋于一个确定的值,为拟合和之间的关系,应使用以下回归方程中的为自然对数的底数( )A. B. C. D.例4. (2025·江苏省无锡市月考) 为了解某地区未成年男性身高与体重的关系,对该地区组不同身高单位:的未成年男性体重的平均值单位:,,,数据作了初步处理,得到下面的散点图和一些统计量的值.表中,.根据散点图判断和哪一个适宜作为该地区未成年男性体重的平均值与身高的回归方程类型?给出判断即可,不必说明理由.根据的判断结果及表中数据,建立关于的回归方程;如果体重高于相同身高的未成年男性平均值的倍为偏胖,低于倍为偏瘦,那么该地区的一位未成年男性身高为,体重为,他的体重是否正常?附:对于一组数据,,,,其回归直线的斜率和截距的最小二乘估计分别为,,.【拓展提升】练2-1.(2025·山东省济南市·模拟题)(多选)一组样本数据,其中,,,求得其经验回归方程为:,残差为对样本数据进行处理:,得到新的数据,求得其经验回归方程为:,其残差为.,分布如图所示,且,,则( )A. 样本负相关 B.C. D. 处理后的决定系数变大练2-2.(2025·河南省漯河市·期末考试)某制药公司研发一种新药,需要开展临床用药试验.随机征集了一部分志愿者作为样本参加试验,并得到一组数据,其中,表示连续用药天,相应的临床药效指标值.已知该组数据中与之间具有线性相关关系,令,经计算得到下面一些统计量的值:,,,,,.求关于的经验回归方程;该公司要用甲与乙两套设备同时生产该种新药,已知设备甲的生产效率是设备乙的倍,设备甲生产药品的不合格率为,设备乙生产药品的不合格率为,且设备甲与乙生产的药品是否合格相互独立.从该公司生产的新药中随机抽取一件,求所抽药品为不合格品的概率;在该新药产品检验中发现有三件不合格品,求其中恰有二件是设备乙生产的概率.参考公式:对于一组数据,其回归方程中,斜率和截距的最小二乘法估计公式分别为:,.(考点三 列联表与独立性检验)【方法储备】独立性检验的一般步骤:(1)独立性检验原理只能解决两个对象, 且每个对象有两类属性的问题, 所以对于一个实际问题,我们首先要确定能否用独立性检验的思想加以解决;(2)如果确实属于这类问题,要科学地抽取样本,样本容量要适当,不可太小;(3)根据数据列出22列联表;(4)提出假设:所研究的两类对象无关;(5)根据公式计算的值;(6)比较与临界值,根据小概率原理肯定或者否定假设,即判断是否相关.【典例精讲】例5.(2025·山东省枣庄市模拟) 根据分类变量与的成对样本数据,计算得到依据的独立性检验,结论为( )A. 变量与不独立B. 变量与不独立,这个结论犯错误的概率不超过C. 变量与独立D. 变量与独立,这个结论犯错误的概率不超过例6.(2022·湖南省长沙市期中) 新能源汽车是指除汽油、柴油发动机之外的所有其他能源汽车,被认为能减少空气污染和缓解能源短缺的压力在当今提倡全球环保的前提下,新能源汽车越来越受到消费者的青睐,新能源汽车产业也必将成为未来汽车产业发展的导向与目标某机构从某地区抽取了名近期购买新能源汽车的车主,调查他们的年龄情况,其中购买甲车型的有人,统计得到如下的频率分布直方图. 将年龄不低于岁的人称为中年,低于岁的人称为青年,购买其他车型的车主青年人数与中年人数之比为 完成下列列联表,依据 的独立性检验,能否认为购买甲车型新能源汽车与年龄有关?青年 中年 合计甲车型其他车型合计用分层抽样的方法从购买甲车型的样本中抽取人,再从中随机抽取人,记青年有人,求的分布列和数学期望.附:.【拓展提升】练3-1(2025·广东省东莞市·期末考试)(多选)根据分类变量与的成对样本数据,提出零假设,并计算得到,则下列说法正确的是( )附:A. 零假设为分类变量与独立B. 根据小概率值的独立性检验,可以认为与不独立,这个结论犯错误的概率不超过C. 根据小概率值的独立性检验,可以认为与不独立,这个结论犯错误的概率不超过D. 若所有样本数据都扩大为原来的倍,根据小概率值的独立性检验,可以认为与不独立,这个结论犯错误的概率不超过练3-2(2025·安徽省合肥市联考) 针对“中学生追星问题”,某校团委正在对“性别与中学生追星是否有关”做相关研究现从本校随机抽取名学生进行调查,得到下表:是否追星 性别 合计男生 女生追星不追星合计请将上述列联表补充完整,并依据的独立性检验,能否认为性别与中学生追星有关联根据是否追星,在样本的女生中,按照分层抽样的方法抽取人作为研究小组为了更详细地了解情况,再从研究小组中随机抽取人,求抽到追星人数的分布列及数学期望.参考公式:,下表给出了独立性检验中几个常用的小概率值和相应的临界值.1.(2025·山东省济南市·模拟题)(多选)为了验证牛的毛色黑色、红色和角有角、无角这两对相对性状是否相关,某学院进行了一次数据统计,并根据形成的列联表,计算得到,根据小概率值为的独立性检验,则( )附:A. 若,则认为“毛色”和“角”无关B. 若,则认为“毛色”和“角”有关,此推断犯错误的概率不超过C. 若,则认为“毛色”和“角”无关D. 若,则认为“毛色”和“角”有关,此推断犯错误的概率不超过2.(2025·重庆市市辖区模拟)(多选)小张同学收集了某商品销售收入单位:万元与相应的广告支出单位:万元共组数据,绘制出散点图,如下图所示,并利用线性回归模型进行拟合.她将图中个点中的点去掉后再重新进行线性回归分析,则下列说法正确的是( )A. 决定系数变大B. 残差平方和变大C. 相关系数的值变大D. 去掉点后,若所有散点都在一条直线上,则决定系数3.(2025·河北省唐山市·模拟题)某学术平台引入智能检测系统对所收到的文本进行筛查检测系统对生成文本的识别准确率为,对人类撰写文本的识别准确率为检测系统对所收到的文本进行筛查时,会对每篇文本输出一个“生成概率”得分分与文本长度字可以用一元线性回归模型来刻画,其线性回归方程为,且,已知该平台中的文本由生成.求回归系数从该平台随机选取一篇文本,求该文本被检测系统识别为人类撰写文本的概率精确到现从平台中随机抽取篇文本进行统计分析,填写列联表篇数四舍五入取整数文本真实性 检测结果 总计识别为生成篇 识别为人类撰写篇真实生成篇真实人类撰写篇总计依据小概率值的独立性检验,能否判断“检测结果”与“文本真实性”有差异参考公式:提示:独立性检验中常用的小概率值和相应的临界值【答案解析】1.解 (1)由散点图可以判断,随温度升高,平均产卵数增长速度变快,符合指数函数模型的增长特点,所以y=cedx更适宜作为平均产卵数y关于平均温度x的经验回归方程类型.(2)将y=cedx两边同时取自然对数,可得ln y=ln c+dx,即z=ln c+dx,由题中的数据可得, xizi-7=33.6,-7=112,所以=0.3,则ln =3.6-0.3×27=-4.5,所以z关于x的经验回归方程为=0.3x-4.5,故y关于x的经验回归方程为=e0.3x-4.5.2.解 (1)s=100+80=180,t=80+70=150.(2)∵=,∴p的估计值为.(3)零假设H0:药物A对预防疾病B无效.根据列联表中的数据可得χ2==≈6.734>6.635=x0.01.根据小概率值α=0.01的独立性检验,推断H0不成立,即认为药物A对预防疾病B有效.(考点一成对数据相关性与相关系数)例1.解:由表中数据可得随的增大而增大,故与正相关又, ,所以样本点的中心为,而线性回归直线过样本点的中心,因此其线性回归直线经过点,故选D.例2.解:选项,因,则与正相关,但相关系数不是,故 A错误;选项,回归方程过定点,故 B错误;选项,由回归方程可知每增大一个单位,增大个单位,故 C正确;选项,回归方程得到的为预测值,不一定满足实际情况,故 D错误.故选:练1-1.解:由图知,都是正相关关系,都是负相关关系,从散点密集程度看,相关性分别比绝对值大,所以.故选:.练1-2. 解:由某地月日到月日的每天最高气温与最低气温单位:数据,折线图,知:在中,号到号的最低气温与日期之间,在一条直线附近,成上升趋势,即呈线性相关关系且为正相关,故A正确;在中,由图知,号的最高气温与最低气温的差值最大,故B错误;在中,最高气温出现次,次数最多,则众数为,故C正确;在中,号到号的最低气温的极差小于,最高气温的极差为,故最高气温的极差大,故D错误故选:. 例3.解:对于:因为 在定义域内单调递增且 ,所以 随着 的增大而增大,不合题意,故A错误;对于:因为 在定义域内单调递增且 ,所以 随着 的增大而减小,当解释变量 , ,不合题意,故B错误;对于:因为 在定义域内单调递增且 ,所以 随着 的增大而减小,当解释变量 , ,不合题意,故C错误;对于:因为 在定义域内单调递减且 ,所以 随着 的增大而减小,当解释变量 , ,故D正确;故选:.例4.解:根据散点图,选择模型更适宜作为该地区未成年男性体重的平均值与身高的回归方程类型;对两边同时取对数,可得,即,所以,则,所以;由,可得,令,则,又,所以该男生偏胖. 练2-1.解:对于、由经验回归方程的斜率为负可知样本负相关,故A正确 对于、,,代入得,故B正确对于、由残差图可知,处理前的残差比处理后的残差更分散,所以,故C错误对于、处理后残差的绝对值更小,所以处理后的决定系数变大,故D正确,故选:.练2-2.解:,,,,所以关于的线性回归方程为:,所以关于的回归方程为;设事件随机抽取一件药品来自设备甲生产,事件随机抽取一件药品来自设备乙生产,事件随机抽取一件该公司生产的药品为不合格品,因为设备甲的生产效率是设备乙的倍,所以,,则,,所以,故所抽药品为不合格品的概率为;,即所抽药品为不合格品,该药品来自设备乙生产的概率为,所以三件不合格品中恰有二件是设备乙生产的概率为. 例5.解:时,,则大于时相关,不独立,而,所以变量与独立,但是这个结论犯错误的概率超过,故A,,D错误,C正确.故选C.例6.解:由直方图可知,购买甲车型的青年人数为 人,中年人数为 人,购买其他车型的青年人数为 人,中年人数为 人,可得 列联表:青年 中年 合计甲车型其他车型合计零假设购买甲车型新能源汽车与年龄无关.因为 ,根据小概率值的独立性检验,我们推断不成立,即认为购买甲车型新能源汽车与年龄有关,此推断犯错误的概率不大于.用分层抽样的方法从购买甲车型的样本中抽取人,则青年有 人,中年有 人,所以的可能取值为,,,. , , , ,得分布列:所以 .练3-1.解:选项A:独立性检验的零假设定义为“分类变量与独立”,符合基本概念,故A正确;选项B:当时,临界值,由于计算得到的,零假设不成立,即认为与不独立,且犯错误的概率不超过,故B正确;选项C:当时,临界值,由于,零假设成立,无法认为与不独立,故C错误;选项D:样本数据扩大倍时,公式中分子变为,分母变为,因此新为原值的倍即,此时,零假设不成立,即认为与不独立,且犯错误的概率不超过,故D正确.故选:.练3-2.解:列联表补充为是否追星 性别 合计男生 女生追星不追星合计零假设性别与中学生追星无关联,,依据小概率值的独立性检验,我们推断不成立,即认为性别与中学生追星有关联,此推断犯错误的概率不大于.由题意知,人中追星的有人,不追星的有人.由题意可知,的可能取值为,,,,,,,,,,的分布列为. 1.解:对于,,若,因为,所以认为“毛色”和“角”有关,此推断犯错误的概率不超过,故A错误,B正确;对于,,若,因为,所以认为“毛色”和“角”无关,故C正确,D错误.故选:.2.解:由散点图可知,点较其他点偏离直线更远,去掉点后,回归效果更好,残差平方和变小,决定系数变大,故A正确,B错误;自变量与因变量的相关性变强,又与正相关,所以相关系数的值变大,故C正确;当所有散点都在一条直线上时,残差平方和为,决定系数,故D正确.故选:.3.解:因为,且,,所以,则回归系数;记“由生成的文本”,“由人类撰写的文本”,“被检测系统识别为人类撰写的文本”,则由题意知,,,,由全概率公式知文本被检测系统识别为人类撰写文本的概率:,即文本被检测系统识别为人类撰写文本的概率约为;由题意知,这篇文本中,真实生成的篇数:,人类撰写的篇数:,真实生成且检测系统识别为生成的篇数:,人类撰写且检测系统识别为人类提写的篇数:,所以列联表为:文本真实性 检测结果 总计识别为生成篇 识别为人类撰写篇真实生成篇真实人类撰写篇总计所以,故依据小概率值的独立性检验,可以判断“检测结果”与“文本真实性”有差异. 展开更多...... 收起↑ 资源预览