资源简介 第3节 成对数据的统计分析[学习目标]1.会作两个相关变量的数据的散点图,能根据最小二乘原理建立经验回归方程并进行预测,了解样本相关系数的统计含义和残差分析.2.了解独立性检验的基本思想,2×2列联表的统计意义,能对两个分类变量进行独立性检验.1.成对数据的统计相关性(1)正相关与负相关.从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现 的趋势,我们就称这两个变量正相关;当一个变量的值增加时,另一个变量的相应值呈现 的趋势,则称这两个变量负相关.(2)线性相关与曲线相关.一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在 附近,我们就称这两个变量线性相关.一般地,如果两个变量具有 性,但不是线性相关,那么我们就称这两个变量非线性相关或曲线相关.(3)样本相关系数.①相关系数r的计算.变量x和变量y的样本相关系数r的计算公式如下:r== .②样本相关系数r的性质.r的取值范围r>0 成对样本数据 相关r<0 成对样本数据 相关r=0 成对样本数据间没有线性相关关系|r|越接近1 成对样本数据的线性相关程度越|r|越接近0 成对样本数据的线性相关程度越2.一元线性回归模型及其应用(1)一元线性回归模型.我们称式子为Y关于x的 .其中,Y称为 或 ,x称为 或 ;a和b为模型的未知参数,a称为截距参数,b称为斜率参数;e是Y与bx+a之间的 .(2)一元线性回归模型参数的最小二乘估计.当a,b的取值为时,Q=(yi-)2=(yi-bxi-a)2达到 .此时,我们将=x+称为Y关于x的 ,也称 或 ,其图形称为经验回归直线.这种求经验回归方程的方法叫做最小二乘法,求得的,叫做b,a的最小二乘估计.(3)判断回归模型的拟合效果.①残差分析法.对于响应变量Y,通过观测得到的数据称为观测值,通过经验回归方程得到的称为预测值,观测值减去预测值所得的差称为 .画出残差图,残差比较均匀地落在水平的带状区域中,说明选用的模型比较合适,这样的带状区域的宽度越窄,说明模型拟合精度越高,经验回归方程的预报精度越高.②决定系数 (R2)法.R2=1-,R2越大,表示残差平方和 ,即模型的拟合效果 ;R2越小,表示残差平方和 ,即模型的拟合效果 .对于线性与非线性回归模型,以上两个分析方法都适合.通过分析,可以决定选择哪一种函数模型更加合理.3.列联表与独立性检验(1)列联表:列出成对分类变量数据的 的数据统计表称为列联表.假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)如下.X Y 合计y1 y2x1 a b a+bx2 c d c+d合计 a+c b+d a+b+c+d记n=a+b+c+d,则随机变量χ2=.(2)独立性检验.基于小概率值α的检验规则如下:当χ2≥xα时,我们就推断H0不成立,即认为X和Y不独立,该推断犯错误的概率不超过α;当χ2这种利用χ2的取值推断分类变量X和Y是否独立的方法称为χ2独立性检验,读作“卡方独立性检验”,简称独立性检验.下表给出了χ2独立性检验中几个常用的小概率值和相应的临界值.α 0.1 0.05 0.01 0.005 0.001xα 2.706 3.841 6.635 7.879 10.828(1)独立性检验是对两个变量有关系的可信程度的判断,而不是对其是否有关系的判断.(2)根据χ2的值可以判断两个分类变量有关的可信程度,χ2越大,则两分类变量有关的把握越大.1.通常|r|大于0.75时,认为两个变量有很强的线性相关性.2.经验回归直线一定过点(,).3.求时,常用公式=.1.思考辨析(在括号内打“√”或“×”).(1)相关关系与函数关系都是一种确定性的关系.( )(2)利用散点图可以直观判断两个变量的关系是否可以用线性关系表示.( )(3)经验回归直线=x+至少经过点(x1,y1),(x2,y2),…,(xn,yn)中的一个点.( )(4)用样本相关系数r来刻画回归效果,r越小,说明模型的拟合效果越好.( )(5)在2×2列联表中,若|ad-bc|越小,说明两个分类变量之间关系越强.( )(6)事件X,Y关系越密切,则由观测数据计算得到的χ2的值越大.( )2.(2024·天津卷)下列图中,线性相关系数最大的是( )A BC D3.(人教A版选择性必修第三册P113练习T2改编)从某大学随机选取8名女大学生,其身高x(单位:cm)和体重y(单位:kg)的经验回归方程为=0.849x-85.712,则身高172 cm的女大学生,由经验回归方程可以预测其体重( )A.为60.316 kgB.约为60.316 kgC.大于60.316 kgD.小于60.316 kg4.(人教A版选择性必修第三册P139复习参考题8 T3)根据分类变量x与y的成对样本数据,计算得到χ2=2.974.依据α=0.05的独立性检验,结论为( )α 0.1 0.05 0.01 0.005 0.001xα 2.706 3.841 6.635 7.897 10.828A.变量x与y不独立B.变量x与y不独立,这个结论犯错误的概率不超过0.05C.变量x与y独立D.变量x与y独立,这个结论犯错误的概率不超过0.055.(人教A版选择性必修第三册P103练习T3改编)在一次试验中,测得(x,y)的四组值分别为(1,2),(2,0),(4,-4),(-1,6),则y与x的样本相关系数为 . 考点一 成对数据的统计相关性的判断[例1](1)调查某种群花萼长度和花瓣长度,所得数据如图所示,其中样本相关系数r=0.824 5,下列说法正确的是( )A.花瓣长度和花萼长度没有相关性B.花瓣长度和花萼长度呈负相关C.花瓣长度和花萼长度呈正相关D.若从样本数据中抽取一部分,则这部分的样本相关系数一定是0.824 5(2)在研究线性回归模型时,样本数据(xi,yi)(i=1,2,3,…,n)所对应的点均在直线y=-x+3上,用r表示解释变量对于响应变量变化的线性相关度,则r=( )A.-1 B.1C.- D.2[溯源探本] 本例(1)源于人教A版选择性必修第三册P103习题8.1 T1.判断线性相关关系中正相关与负相关的三种方法(1)散点图法:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.(2)相关系数法:当r>0时,成对样本数据正相关;当r<0时,成对样本数据负相关.(3)经验回归方程法:在经验回归方程=x+中,当>0时,正相关;当<0时,负相关.[针对训练](1)(2025·辽宁葫芦岛模拟)已知变量x与y的经验回归方程为=3x-1,变量y与z负相关,则( )A.x与y负相关,x与z负相关B.x与y正相关,x与z正相关C.x与y负相关,x与z正相关D.x与y正相关,x与z负相关(2)对变量x,y有观测数据(xi,yi)(i=1,2,3,…,n),得散点图(1);对变量u,v有观测数据(ui,vi)(i=1,2,3,…,n),得散点图(2).r1表示变量x,y之间的样本相关系数,r2表示变量u,v之间的样本相关系数,则下列说法正确的是( )A.变量x与y呈现正相关,且|r1|<|r2|B.变量x与y呈现负相关,且|r1|>|r2|C.变量x与y呈现正相关,且|r1|>|r2|D.变量x与y呈现负相关,且|r1|<|r2|考点二 回归模型及其应用角度一 线性回归分析[例2] (2025·陕西西安模拟)某公司对其产品研发的年投资额x(单位:百万元)与其年销售量y(单位:千件)的数据进行统计,整理后得到如下统计表:x/百万元 1 2 3 4 5y/千件 1.5 2 3.5 8 15(1)求变量x和y的样本相关系数r(精确到0.01),并推断变量x和y的线性相关程度;(若|r|≥0.75,则线性相关程度很强;若0.3≤|r|<0.75,则线性相关程度一般;若|r|<0.3,则线性相关程度较弱.参考数据:≈7.14)(2)求年销售量y关于年投资额x的经验回归方程,并预测年投资额为700万元时的年销售量.参考公式:r=,=,=-.(1)经验回归方程中系数的两种求法.①公式法:利用公式,求出,;②待定系数法:利用经验回归直线过(,)求系数.(2)线性回归分析的两种应用.①利用经验回归方程进行预测:把经验回归方程看作一次函数,求函数值;②利用经验回归方程判断正、负相关:决定正相关还是负相关的是回归系数.角度二 非线性回归分析[例3](2025·广东深圳模拟)数独是源自18世纪瑞士的一种数学游戏,玩家需要根据9×9盘面上的已知数字,推理出所有剩余空格的数字,并满足每一行、每一列、每一个粗线宫(3×3)内的数字均含1~9,不重复.数独爱好者小明打算报名参加某次数独大赛初级组的比赛,赛前小明在某数独练习册上进行一段时间的训练,每天的解题平均速度y(单位:s)与训练天数x(单位:天)有关,经统计得到如表的数据:x/天 1 2 3 4 5 6 7y/s 990 990 450 320 300 240 210(1)现用y=a+作为经验回归方程模型,请利用表中数据,求出该经验回归方程;(2)请用第(1)题的结论预测,小明经过100天训练后,每天解题的平均速度y约为多少秒 参考数据(其中ti=):tiyi -7×1 845 0.37 0.55参考公式:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其经验回归直线=+u的斜率和截距的最小二乘估计公式分别为=,=- .求非线性经验回归方程的步骤(1)确定变量,作出散点图.(2)根据散点图,选择恰当的拟合函数.(3)变量置换,通过变量置换把非线性回归问题转化为线性回归问题,并求出经验回归方程.(4)分析拟合效果,通过计算决定系数或画残差图来判断拟合效果.(5)根据相应的变换,写出非线性经验回归方程.角度三 残差分析与决定系数[例4](2025·河北衡水模拟)某新能源汽车生产公司为了研究某生产环节中两个变量x,y之间的相关关系,统计样本数据得到如下表格:x 20 23 25 27 30y 2 2.4 3 3 4.6由表格中的数据可以得到y关于x的经验回归方程=x+,据此计算,下列选项中残差的绝对值最小的样本数据是( )A.(30,4.6) B.(27,3)C.(25,3) D.(23,2.4)(1)通过残差分析,可以发现异常样本点,重新修正或剔除异常样本点,求得更加合理的经验回归方程.(2)决定系数R2越接近于1,表示模型的拟合效果越好.[针对训练]1.(角度二)(2025·云南曲靖模拟)已知变量y关于x的经验回归方程为=,若对=两边取自然对数,可以发现ln 与x线性相关.现有一组数据如表所示:x 1 2 3 4 5y e e3 e4 e6 e7则当x=6时,预测y的值为( )A.9 B.8C.e9 D.e82.(角度三)对具有线性相关关系的变量x,y有一组观测数据(xi,yi)(i=1,2,…,10),其经验回归方程为=-3.2x+,且=10,=8,则相应于点(10.5,7)的残差为 . 3.(角度一)(2025·山东潍坊模拟)某研究机构为调查人的最大可视距离y(单位:m)和年龄x(单位:岁)之间的关系,对不同年龄的志愿者进行了研究,收集数据得到下表:x/岁 20 25 30 35 40y/m 167 160 150 143 130(1)根据上表提供的数据,求出y关于x的线性经验回归方程=x+;(2)根据(1)中求出的线性经验回归方程,估计年龄为50岁的人的最大可视距离.参考公式:经验回归方程=x+中斜率和截距的最小二乘估计公式分别为==,=-.考点三 独立性检验[例5](2024·全国甲卷)某工厂进行生产线智能化升级改造,升级改造后,从该工厂甲、乙两个车间的产品中随机抽取150件进行检验,数据如下:优级品 合格品 不合格品 总计甲车间 26 24 0 50乙车间 70 28 2 100总计 96 52 2 150(1)填写如下列联表:车间 优级品 非优级品甲车间乙车间试根据小概率值α=0.05和α=0.01的独立性检验,分析甲、乙两车间产品的优级品率是否存在差异 (2)已知升级改造前该工厂产品的优级品率p=0.5,设为升级改造后抽取的n件产品的优级品率.若>p+1.65,则认为该工厂产品的优级品率提高了.根据抽取的150件产品的数据,能否认为生产线智能化升级改造后,该工厂产品的优级品率提高了 (≈12.247)附:χ2=,n=a+b+c+d.α 0.050 0.010 0.001xα 3.841 6.635 10.828独立性检验的基本步骤(1)提出零假设H0:X和Y相互独立,并给出在问题中的解释.(2)根据抽样数据整理出2×2列联表,计算χ2的值,并与临界值xα比较.(3)根据检验规则得出推断结论.(4)在X和Y不独立的情况下,根据需要,通过比较相应的频率,分析X和Y间的影响规律.[针对训练](2025 · 八省联考)为考察某种药物A对预防疾病B的效果,进行了动物(单位:只)试验,得到如下列联表:药物 疾病 合计未患病 患病未服用 100 80 s服用 150 70 220合计 250 t 400(1)求s,t;(2)记未服用药物A的动物患疾病B的概率为p,给出p的估计值;(3)根据小概率值α=0.01的独立性检验,能否认为药物A对预防疾病B有效 附:χ2=.α 0.050 0.010 0.001xα 3.841 6.635 10.828第3节 成对数据的统计分析[学习目标]1.会作两个相关变量的数据的散点图,能根据最小二乘原理建立经验回归方程并进行预测,了解样本相关系数的统计含义和残差分析.2.了解独立性检验的基本思想,2×2列联表的统计意义,能对两个分类变量进行独立性检验.1.成对数据的统计相关性(1)正相关与负相关.从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势,我们就称这两个变量正相关;当一个变量的值增加时,另一个变量的相应值呈现减小的趋势,则称这两个变量负相关.(2)线性相关与曲线相关.一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,我们就称这两个变量线性相关.一般地,如果两个变量具有相关性,但不是线性相关,那么我们就称这两个变量非线性相关或曲线相关.(3)样本相关系数.①相关系数r的计算.变量x和变量y的样本相关系数r的计算公式如下:r== .②样本相关系数r的性质.r的取值范围 [-1,1]r>0 成对样本数据正相关r<0 成对样本数据负相关r=0 成对样本数据间没有线性相关关系|r|越接近1 成对样本数据的线性相关程度越强|r|越接近0 成对样本数据的线性相关程度越弱2.一元线性回归模型及其应用(1)一元线性回归模型.我们称式子为Y关于x的一元线性回归模型.其中,Y称为因变量或响应变量,x称为自变量或解释变量;a和b为模型的未知参数,a称为截距参数,b称为斜率参数;e是Y与bx+a之间的随机误差.(2)一元线性回归模型参数的最小二乘估计.当a,b的取值为时,Q=(yi-)2=(yi-bxi-a)2达到最小.此时,我们将=x+称为Y关于x的经验回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线.这种求经验回归方程的方法叫做最小二乘法,求得的,叫做b,a的最小二乘估计.(3)判断回归模型的拟合效果.①残差分析法.对于响应变量Y,通过观测得到的数据称为观测值,通过经验回归方程得到的称为预测值,观测值减去预测值所得的差称为残差.画出残差图,残差比较均匀地落在水平的带状区域中,说明选用的模型比较合适,这样的带状区域的宽度越窄,说明模型拟合精度越高,经验回归方程的预报精度越高.②决定系数 (R2)法.R2=1-,R2越大,表示残差平方和越小,即模型的拟合效果越好;R2越小,表示残差平方和越大,即模型的拟合效果越差.对于线性与非线性回归模型,以上两个分析方法都适合.通过分析,可以决定选择哪一种函数模型更加合理.3.列联表与独立性检验(1)列联表:列出成对分类变量数据的交叉分类频数的数据统计表称为列联表.假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)如下.X Y 合计y1 y2x1 a b a+bx2 c d c+d合计 a+c b+d a+b+c+d记n=a+b+c+d,则随机变量χ2=.(2)独立性检验.基于小概率值α的检验规则如下:当χ2≥xα时,我们就推断H0不成立,即认为X和Y不独立,该推断犯错误的概率不超过α;当χ2这种利用χ2的取值推断分类变量X和Y是否独立的方法称为χ2独立性检验,读作“卡方独立性检验”,简称独立性检验.下表给出了χ2独立性检验中几个常用的小概率值和相应的临界值.α 0.1 0.05 0.01 0.005 0.001xα 2.706 3.841 6.635 7.879 10.828(1)独立性检验是对两个变量有关系的可信程度的判断,而不是对其是否有关系的判断.(2)根据χ2的值可以判断两个分类变量有关的可信程度,χ2越大,则两分类变量有关的把握越大.1.通常|r|大于0.75时,认为两个变量有很强的线性相关性.2.经验回归直线一定过点(,).3.求时,常用公式=.1.思考辨析(在括号内打“√”或“×”).(1)相关关系与函数关系都是一种确定性的关系.( )(2)利用散点图可以直观判断两个变量的关系是否可以用线性关系表示.( )(3)经验回归直线=x+至少经过点(x1,y1),(x2,y2),…,(xn,yn)中的一个点.( )(4)用样本相关系数r来刻画回归效果,r越小,说明模型的拟合效果越好.( )(5)在2×2列联表中,若|ad-bc|越小,说明两个分类变量之间关系越强.( )(6)事件X,Y关系越密切,则由观测数据计算得到的χ2的值越大.( )【答案】(1)× (2)√ (3)× (4)× (5)× (6)√2.(2024·天津卷)下列图中,线性相关系数最大的是( )A BC D【答案】 A【解析】 观察四幅图可知,A图的散点分布比较集中,且大体落在某一条直线附近,线性回归模型拟合效果比较好,呈现明显的正相关,|r|值相比于其他三个图更接近1.故选A.3.(人教A版选择性必修第三册P113练习T2改编)从某大学随机选取8名女大学生,其身高x(单位:cm)和体重y(单位:kg)的经验回归方程为=0.849x-85.712,则身高172 cm的女大学生,由经验回归方程可以预测其体重( )A.为60.316 kgB.约为60.316 kgC.大于60.316 kgD.小于60.316 kg【答案】 B【解析】 由身高x和体重y的经验回归方程为=0.849x-85.712,令x=172,可得=0.849×172-85.712=60.316,即由经验回归方程可以预测其体重大约为60.316 kg.故选B.4.(人教A版选择性必修第三册P139复习参考题8 T3)根据分类变量x与y的成对样本数据,计算得到χ2=2.974.依据α=0.05的独立性检验,结论为( )α 0.1 0.05 0.01 0.005 0.001xα 2.706 3.841 6.635 7.897 10.828A.变量x与y不独立B.变量x与y不独立,这个结论犯错误的概率不超过0.05C.变量x与y独立D.变量x与y独立,这个结论犯错误的概率不超过0.05【答案】 C【解析】 因为χ2=2.974因为χ2=2.974>2.706=x0.1,所以分类变量x与y不独立,这个结论犯错误的概率不超过0.1.故选C.5.(人教A版选择性必修第三册P103练习T3改编)在一次试验中,测得(x,y)的四组值分别为(1,2),(2,0),(4,-4),(-1,6),则y与x的样本相关系数为 . 【答案】 -1【解析】 =1.5,=1,=22,=56,xiyi=-20,利用样本相关系数公式,可知r===-1.考点一 成对数据的统计相关性的判断[例1](1)调查某种群花萼长度和花瓣长度,所得数据如图所示,其中样本相关系数r=0.824 5,下列说法正确的是( )A.花瓣长度和花萼长度没有相关性B.花瓣长度和花萼长度呈负相关C.花瓣长度和花萼长度呈正相关D.若从样本数据中抽取一部分,则这部分的样本相关系数一定是0.824 5(2)在研究线性回归模型时,样本数据(xi,yi)(i=1,2,3,…,n)所对应的点均在直线y=-x+3上,用r表示解释变量对于响应变量变化的线性相关度,则r=( )A.-1 B.1C.- D.2[溯源探本] 本例(1)源于人教A版选择性必修第三册P103习题8.1 T1.【答案】 (1)C (2)A【解析】 (1)因为样本相关系数r=0.824 5>0.75,所以花瓣长度和花萼长度的相关性较强,并且呈正相关,所以选项A,B错误,选项C正确;因为样本相关系数与样本的数据有关,所以当样本发生变化时,样本相关系数也会发生变化,所以选项D错误.故选C.(2)因为样本数据所对应的点都在直线y=-x+3上,所以解释变量与响应变量为负相关关系,且r=-1.故选A.判断线性相关关系中正相关与负相关的三种方法(1)散点图法:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.(2)相关系数法:当r>0时,成对样本数据正相关;当r<0时,成对样本数据负相关.(3)经验回归方程法:在经验回归方程=x+中,当>0时,正相关;当<0时,负相关.[针对训练](1)(2025·辽宁葫芦岛模拟)已知变量x与y的经验回归方程为=3x-1,变量y与z负相关,则( )A.x与y负相关,x与z负相关B.x与y正相关,x与z正相关C.x与y负相关,x与z正相关D.x与y正相关,x与z负相关(2)对变量x,y有观测数据(xi,yi)(i=1,2,3,…,n),得散点图(1);对变量u,v有观测数据(ui,vi)(i=1,2,3,…,n),得散点图(2).r1表示变量x,y之间的样本相关系数,r2表示变量u,v之间的样本相关系数,则下列说法正确的是( )A.变量x与y呈现正相关,且|r1|<|r2|B.变量x与y呈现负相关,且|r1|>|r2|C.变量x与y呈现正相关,且|r1|>|r2|D.变量x与y呈现负相关,且|r1|<|r2|【答案】 (1)D (2)C【解析】 (1)根据经验回归方程=3x-1可知变量x与y正相关,又变量y与z负相关,由正相关、负相关的定义可知,x与z负相关.故选D.(2)由题意可知,在变量x,y的散点图中,y随x的增大而增大,所以变量x与y呈现正相关;再分别观察两个散点图,题图(1)的点比题图(2)的点分布更加集中,相关程度较强,所以样本相关系数|r1|>|r2|.故选C.考点二 回归模型及其应用角度一 线性回归分析[例2] (2025·陕西西安模拟)某公司对其产品研发的年投资额x(单位:百万元)与其年销售量y(单位:千件)的数据进行统计,整理后得到如下统计表:x/百万元 1 2 3 4 5y/千件 1.5 2 3.5 8 15(1)求变量x和y的样本相关系数r(精确到0.01),并推断变量x和y的线性相关程度;(若|r|≥0.75,则线性相关程度很强;若0.3≤|r|<0.75,则线性相关程度一般;若|r|<0.3,则线性相关程度较弱.参考数据:≈7.14)(2)求年销售量y关于年投资额x的经验回归方程,并预测年投资额为700万元时的年销售量.参考公式:r=,=,=-.【解】 (1)由题意,=×(1+2+3+4+5)=3,=×(1.5+2+3.5+8+15)=6,(xi-)(yi-)=(-2)×(-4.5)+(-1)×(-4)+0×(-2.5)+1×2+2×9=33,=(-2)2+(-1)2+02+12+22=10,=(-4.5)2+(-4)2+(-2.5)2+22+92=127.5,所以r===≈0.92,因为|r|≥0.75,所以变量x和y的线性相关程度很强.(2)===3.3,=6-3.3×3=-3.9,所以年销售量y关于年投资额x的经验回归方程为=3.3x-3.9.当x=7时,=3.3×7-3.9=19.2,所以研发的年投资额为700万元时,产品的年销售量约为19.2千件.(1)经验回归方程中系数的两种求法.①公式法:利用公式,求出,;②待定系数法:利用经验回归直线过(,)求系数.(2)线性回归分析的两种应用.①利用经验回归方程进行预测:把经验回归方程看作一次函数,求函数值;②利用经验回归方程判断正、负相关:决定正相关还是负相关的是回归系数.角度二 非线性回归分析[例3](2025·广东深圳模拟)数独是源自18世纪瑞士的一种数学游戏,玩家需要根据9×9盘面上的已知数字,推理出所有剩余空格的数字,并满足每一行、每一列、每一个粗线宫(3×3)内的数字均含1~9,不重复.数独爱好者小明打算报名参加某次数独大赛初级组的比赛,赛前小明在某数独练习册上进行一段时间的训练,每天的解题平均速度y(单位:s)与训练天数x(单位:天)有关,经统计得到如表的数据:x/天 1 2 3 4 5 6 7y/s 990 990 450 320 300 240 210(1)现用y=a+作为经验回归方程模型,请利用表中数据,求出该经验回归方程;(2)请用第(1)题的结论预测,小明经过100天训练后,每天解题的平均速度y约为多少秒 参考数据(其中ti=):tiyi -7×1 845 0.37 0.55参考公式:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其经验回归直线=+u的斜率和截距的最小二乘估计公式分别为=,=- .【解】 (1)由题意=×(990+990+450+320+300+240+210)=500,令t=,设y关于t的线性经验回归方程为=t+,则有===1 000,则=-=500-1 000×0.37=130,所以=1 000t+130,又t=,所以y关于x的经验回归方程为=+130.(2)当x=100时,=+130=140,所以经过100天训练后,小明每天解题的平均速度约为140 s.求非线性经验回归方程的步骤(1)确定变量,作出散点图.(2)根据散点图,选择恰当的拟合函数.(3)变量置换,通过变量置换把非线性回归问题转化为线性回归问题,并求出经验回归方程.(4)分析拟合效果,通过计算决定系数或画残差图来判断拟合效果.(5)根据相应的变换,写出非线性经验回归方程.角度三 残差分析与决定系数[例4](2025·河北衡水模拟)某新能源汽车生产公司为了研究某生产环节中两个变量x,y之间的相关关系,统计样本数据得到如下表格:x 20 23 25 27 30y 2 2.4 3 3 4.6由表格中的数据可以得到y关于x的经验回归方程=x+,据此计算,下列选项中残差的绝对值最小的样本数据是( )A.(30,4.6) B.(27,3)C.(25,3) D.(23,2.4)【答案】 C【解析】 由表格数据知,==25,==3,所以=-=3-=-,所以经验回归方程为=x-.对于A,残差的绝对值为|4.6-(×30-)|=0.35;对于B,残差的绝对值为|3-(×27-)|=0.5;对于C,残差的绝对值为|3-(×25-)|=0;对于D,残差的绝对值为|2.4-(×23-)|=0.1;所以残差绝对值最小的样本数据是(25,3).故选C.(1)通过残差分析,可以发现异常样本点,重新修正或剔除异常样本点,求得更加合理的经验回归方程.(2)决定系数R2越接近于1,表示模型的拟合效果越好.[针对训练]1.(角度二)(2025·云南曲靖模拟)已知变量y关于x的经验回归方程为=,若对=两边取自然对数,可以发现ln 与x线性相关.现有一组数据如表所示:x 1 2 3 4 5y e e3 e4 e6 e7则当x=6时,预测y的值为( )A.9 B.8C.e9 D.e8【答案】 C【解析】 令=ln ,由=可得=ln =x-0.6,如表所示:x 1 2 3 4 5y e e3 e4 e6 e7u 1 3 4 6 7由表格中的数据可得==3,==4.2,则有3-0.6=4.2,解得=1.6,故=e1.6x-0.6,当x=6时,=e1.6×6-0.6=e9.故选C.2.(角度三)对具有线性相关关系的变量x,y有一组观测数据(xi,yi)(i=1,2,…,10),其经验回归方程为=-3.2x+,且=10,=8,则相应于点(10.5,7)的残差为 . 【答案】 0.6【解析】 因为经验回归直线=-3.2x+过样本中心点(10,8),所以8=-3.2×10+,所以=40,所以经验回归方程为=-3.2x+40.当x=10.5时,=-3.2×10.5+40=6.4,所以残差为7-6.4=0.6.3.(角度一)(2025·山东潍坊模拟)某研究机构为调查人的最大可视距离y(单位:m)和年龄x(单位:岁)之间的关系,对不同年龄的志愿者进行了研究,收集数据得到下表:x/岁 20 25 30 35 40y/m 167 160 150 143 130(1)根据上表提供的数据,求出y关于x的线性经验回归方程=x+;(2)根据(1)中求出的线性经验回归方程,估计年龄为50岁的人的最大可视距离.参考公式:经验回归方程=x+中斜率和截距的最小二乘估计公式分别为==,=-.【解】 (1)由题意可得==30,==150,xiyi=20×167+25×160+30×150+35×143+40×130=22 045,=202+252+302+352+402=4 750,所以===-1.82,则=-=150+1.82×30=204.6,故所求线性经验回归方程为=-1.82x+204.6.(2)当x=50时,=-1.82×50+204.6=113.6,即年龄为50岁的人的最大可视距离约为 113.6 m.考点三 独立性检验[例5](2024·全国甲卷)某工厂进行生产线智能化升级改造,升级改造后,从该工厂甲、乙两个车间的产品中随机抽取150件进行检验,数据如下:优级品 合格品 不合格品 总计甲车间 26 24 0 50乙车间 70 28 2 100总计 96 52 2 150(1)填写如下列联表:车间 优级品 非优级品甲车间乙车间试根据小概率值α=0.05和α=0.01的独立性检验,分析甲、乙两车间产品的优级品率是否存在差异 (2)已知升级改造前该工厂产品的优级品率p=0.5,设为升级改造后抽取的n件产品的优级品率.若>p+1.65,则认为该工厂产品的优级品率提高了.根据抽取的150件产品的数据,能否认为生产线智能化升级改造后,该工厂产品的优级品率提高了 (≈12.247)附:χ2=,n=a+b+c+d.α 0.050 0.010 0.001xα 3.841 6.635 10.828【解】 (1)根据题意可得列联表:车间 优级品 非优级品甲车间 26 24乙车间 70 30零假设为H0:甲、乙两车间产品的优级品率不存在差异.根据列联表中数据可得χ2===4.687 5,因为3.841<4.687 5<6.635,所以根据小概率值α=0.05的独立性检验,可以认为甲、乙两车间产品的优级品率存在差异,此推断犯错误的概率不大于0.05.根据小概率值α=0.01的独立性检验,没有充分证据推断H0不成立,因此可以认为甲、乙两车间产品的优级品率不存在差异.(2)由题意可知,生产线智能化升级改造后,该工厂产品的优级品的频率为=0.64,即=0.64,又因为升级改造前该工厂产品的优级品率p=0.5,则p+1.65=0.5+1.65≈0.5+1.65×≈0.567,可知>p+1.65,所以可以认为生产线智能化升级改造后,该工厂产品的优级品率提高了.独立性检验的基本步骤(1)提出零假设H0:X和Y相互独立,并给出在问题中的解释.(2)根据抽样数据整理出2×2列联表,计算χ2的值,并与临界值xα比较.(3)根据检验规则得出推断结论.(4)在X和Y不独立的情况下,根据需要,通过比较相应的频率,分析X和Y间的影响规律.[针对训练](2025 · 八省联考)为考察某种药物A对预防疾病B的效果,进行了动物(单位:只)试验,得到如下列联表:药物 疾病 合计未患病 患病未服用 100 80 s服用 150 70 220合计 250 t 400(1)求s,t;(2)记未服用药物A的动物患疾病B的概率为p,给出p的估计值;(3)根据小概率值α=0.01的独立性检验,能否认为药物A对预防疾病B有效 附:χ2=.α 0.050 0.010 0.001xα 3.841 6.635 10.828【解】 (1)由列联表中数据得s=100+80=180,t=80+70=150.(2)由频率估计概率,可估计p==.(3)零假设为H0:药物A对预防疾病B无效.根据列联表中的数据可求得χ2==≈6.734>6.635=x0.01,根据小概率值α=0.01的独立性检验,可推断H0不成立,即认为药物A对预防疾病B有效,此推断犯错误的概率不大于0.01. 展开更多...... 收起↑ 资源列表 第九章 第3节 成对数据的统计分析 - 学生版.docx 第九章 第3节 成对数据的统计分析.docx