资源简介 中小学教育资源及组卷应用平台21世纪教育网(www.21cnjy.com)成对数据的统计分析知识体系:2022-2023年度七校联考范围:板块 期末分值 大题分布导数 65 3个大题计数原理 20 无随机变量及其分布 65 3个大题成对数据的统计分析21世纪教育网(www.21cnjy.com)知识清单:回归分析1.两个变量线性相关(1)散点图:将样本中个数据点(i=1,2,…,)描在平面直角坐标系中得到的图形.(2)正相关与负相关①正相关:散点图中的点散布在从左下角到右上角的区域.②负相关:散点图中的点散布在从左上角到右下角的区域.2.回归直线的方程(1)回归直线:如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.(2)回归方程:回归直线对应的方程叫回归直线的方程,简称回归方程.(3)回归方程的推导过程:①假设已经得到两个具有线性相关关系的变量的一组数据,,.②设所求回归方程为,其中是待定参数.③由最小二乘法得相关系数:样本相关系数r的取值范围为[-1,1].若r>0时,成对样本数据正相关;②若r<0时,成对样本数据负相关;③当|r|越接近1时,成对样本数据的线性相关程度越强;④当|r|越接近0时,成对样本数据的线性相关程度越弱.其中,是回归方程的斜率,是截距.回归直线方程注意:在回归直线上比较两个模型的拟合效果:参数越大,残差平方和越小,拟合效果越好参数越小,残差平方和越大,拟合效果越差独立性检验1.列联表设,为两个变量,它们的取值分别为和,其样本频数列联表(列联表)如下:总计总计2.独立性检验利用随机变量(也可表示为)(其中为样本容量)来判断“两个变量有关系”的方法称为独立性检验.随机变量越大,说明两个分类变量,关系越强;反之,越弱。3.独立性检验的一般步骤(1)根据样本数据列出列联表;(2)计算随机变量的观测值k,查下表确定临界值k0:(3)如果,就推断“X与Y有关系”,这种推断犯错误的概率不超过;否则,就认为在犯错误的概率不超过的前提下不能推断“X与Y有关系”.注意:(1)通常认为时,样本数据就没有充分的证据显示“X与Y有关系”.(2)独立性检验得出的结论是带有概率性质的,只能说结论成立的概率有多大,而不能完全肯定一个结论,因此才出现了临界值表,在分析问题时一定要注意这点,不可对某个问题下确定性结论,否则就可能对统计计算的结果作出错误的解释.(3)先进行零假设期末押题:.选择题(共3小题)1.下列说法正确的序号是 ①在回归直线方程中,当解释变量每增加一个单位时,预报变量平均增加0.8个单位;②利用最小二乘法求回归直线方程,就是使得最小的原理;③已知,是两个分类变量,若它们的随机变量的观测值越大,则“与有关系”的把握程度越小;④在一组样本数据,,,,,,,,,,不全相等)的散点图中,若所有样本,,2,,都在直线上,则这组样本数据的线性相关系数为.A.①③ B.①② C.②④ D.③④2.用模型拟合一组数据组,,2,,,其中;设,得变换后的线性回归方程为,则 A. B.70 C. D.353.设两个相关变量和分别满足下表:1 2 3 4 51 2 8 8 16若相关变量和可拟合为非线性回归方程,则当时,的估计值为 (参考公式:对于一组数据,,,,,,,其回归直线的斜率和截距的最小二乘估计公式分别为:,;A.33 B.37 C.65 D.73二.多选题(共2小题)4.下列说法中,正确的命题有 A.已知随机变量服从正态分布,,则B.以模型去拟合一组数据时,为了求出回归方程,设,求得线性回归方程为,则, 的值分别是和0.3C.8个完全相同的球放入编号为1,2,3的三个空盒中,要求放入后3个盒子均不空且数量均不同,则有12种放法D.若样本数据,,,的方差为2,则数据的方差为45.下列命题正确的是 A.两个随机变量的线性相关性越强,则相关系数的绝对值越接近于1B.对具有线性相关关系的变量、,有一组观测数据,,2,,,其线性回归方程是,且,则实的值是C.已知样本数据,,,的方差为4,则,,,的标准差是4D.已知随机变量,若,则三.解答题(共3小题)6.经验表明,一般树的直径(树的主干在地面以上处的直径)越大,树就越高.由于测量树高比测量直径困难,因此研究人员希望由树的直径预测树高.在研究树高与直径的关系时,某林场收集了某种树的一些数据如表:编号 1 2 3 4 5 6直径 19 22 26 29 34 38树高 5 7 10 12 14 18(1)请用样本相关系数(精确到说明变量和满足一元线性回归模型;(2)建立关于的一元线性回归方程;并估计当树的直径为时,树高为多少?(精确到附参考公式:相关系数回归直线的斜率和截距的最小二乘估计公式分别为:,参考数据:7.根据国家统计局统计,我国年的新生儿数量如下:年份编号 1 2 3 4 5年份 2018 2019 2020 2021 2022新生儿数量(单位:万人) 1523 1465 1200 1062 956(1)由表中数据可以看出,可用线性回归模型拟合新生儿数量与年份编号的关系,请用相关系数说明相关关系的强弱;,则认为与线性相关性很强)(2)建立关于的回归方程,并预测我国2025年的新生儿数量.参考公式及数据:,,,,,.8.奥密克戎变异毒株的潜伏期又缩短了,但具体到个人,感染后潜伏期的长短还是有个体差异的.潜伏期是指已经感染了奥密克戎变异株,但未出现临床症状的和体征的一段时期,奥密克戎潜伏期做核算检测可能为阴性,建议可以多做几次核算检测,有助于明确诊断.某研究机构对某地1000名患者进行了调查和统计,得到如下表:潜伏期:(单位:天) , , , , , , ,人数 80 210 310 250 130 15 5(1)求这1000名患者的潜伏期的样本平均值.(2)该传染病的潜伏期受诸多因素的影响,为研究潜伏期与患者年龄的关系,以潜伏期是否超过6天为标准进行分层抽样,从上述1000名患者中抽取300人,得到如下列联表请将列联表补充完整,并根据列联表判断是否有的把握认为潜伏期与患者年龄有关.潜伏期天 潜伏期天 总计50岁以上(含 15050岁以下 85总计 300(3)为了做好防疫工作,各个部门、单位抓紧将各项细节落到实处,对“确诊”、“疑似”、“无法明确排除”和“确诊密接者”等“四类”人员,强化网格化管理,不落一户、不漏一人.若在排查期间,某小区有5人被确认为“确诊患者的密接接触”,现医护人员要对这5人进行逐一“单人单管”核酸检测,只要出现一例阳性,则该小区将被划为“封控区”.假设每人被确诊的概率为且相互独立,若当时,至少检测了4人该小区就被划为“封控区”的概率取得最大值,求.附:,其中0.15 0.10 0.05 0.025 0.010 0.0052.072 2.706 3.841 5.024 6.635 7.879参考答案与试题解析一.选择题(共3小题)1.【解答】解:对于①,在回归直线方程中,当解释变量每增加一个单位时,预报变量平均增加0.8个单位,故①正确;对于②,用离差的平方和,即:作为总离差,并使之达到最小;这样回归直线就是所有直线中取最小值的那一条,由于平方又叫二乘方,所以这种使“离差平方和为最小”的方法叫做最小二乘法;所以利用最小二乘法求回归直线方程,就是使得最小的原理;故②正确;对于③,对分类变量与,对它们的随机变量的观测值来说,越小,则“与有关系”的把握程度越小,故③错误;对于④,相关系数反映的是两变量之间线性相关程度的强弱,与回归直线斜率无关,题中样本数据的线性相关系数为,故④错误.故选:.2.【解答】解:因为,所以,,即.,所以.故选:.3.【解答】解:令,则,,,,,故,当时,.故选:.二.多选题(共2小题)4.【解答】解:对于,服从正态分布,且,于是得,故错误;对于,由得,依题意得,,即,故正确;对于,将8个相同的球放进三个不同的盒子,可以等价于在8个球中间插两个板,将它分成3份并对应放到三个不同盒子中,共有种分法,要求每个盒子中球的数量不相同,考虑存在相同的情况,首先不可能三个盒子数量均相同,只有两个盒子数量相同共3种情况:1、1、6,2、2、4,3、3、2,有种放法,故正确;对于,若样本数据,,,的方差为2,则数据的方差为,故错误.故选:.5.【解答】解:两个随机变量的线性相关性越强,相关系数的绝对值越接近于1,故正确;,,由得,故正确;样本数据,,,的方差为4,则样本数据,,,的方差为,标准差为4,正确;随机变量,若,则,则,故错误.故选:.三.解答题(共3小题)6.【解答】解:(1),故,,故,,故和成线性正相关,满足一元回归模型.(2),,,当 时,.7.【解答】解:(1),,,,.新生儿数量与年份编号具有很强的负相关性;(2),..取,得.预测我国2025年的新生儿数量为472.7万人.8.【解答】解:(1)根据统计数据,计算平均数为(天;(2)依题意潜伏期不超过6天的抽取人,所以超过6天的抽取人,所以可得列联表如下:潜伏期天 潜伏期天 总计50岁以上(含 95 55 15050岁以下 85 65 150总计 180 120 300零假设:潜伏期和年龄独立。根据列联表计算,所以没有的把握认为潜伏期与年龄有关;(3)至少检测4人该小区被测定为“封控区”包含两种情况:①检测4次被确定,②检测5次被确定,则至少检测了4人该小区被确定为“封控区”的概率为,设,,,当时,当时,即在上单调递增,在上单调递减,所以时函数取得极大值即最大值,当时,最大,. 展开更多...... 收起↑ 资源预览