资源简介 中小学教育资源及组卷应用平台第八章 成对数据的统计分析章末总结知识点一 成对数据的统计相关性(一)相关关系1.相关关系的定义:两个变量有关系,但没有确切到可由其中一个去精确地决定另一个的程度,这种关系称为相关关系.2.相关关系的分类(1)按变量间的增减性分为正相关和负相关.①正相关:当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势;②负相关:当一个变量的值增加时,另一个变量的相应值呈现减少的趋势.(2)按变量间是否有线性特征分为线性相关和非线性相关(曲线相关).①线性相关:如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,我们称这两个变量线性相关;②非线性相关或曲线相关:如果两个变量具有相关性,但不是线性相关,我们称这两个变量非线性相关或曲线相关.(二)相关关系的刻画1.散点图:为了直观描述成对样本数据的变化特征,把每对成对样本数据都用直角坐标系中的点表示出来,由这些点组成的统计图,叫做散点图.2.样本相关系数(1)我们常用样本相关系数r来确切地反映成对样本数据(xi,yi)的相关程度,其中(2)样本相关系数r的取值范围为[-1,1].①若r>0时,成对样本数据正相关;②若r<0时,成对样本数据负相关;③当|r|越接近1时,成对样本数据的线性相关程度越强;④当|r|越接近0时,成对样本数据的线性相关程度越弱.知识点二 一元线性回归模型1.一元回归方程称为Y关于x的一元线性回归模型.其中Y称为因变量或响应变量,x称为自变量或解释变量,a称为截距参数,b称为斜率参数;e是Y与bx+a之间的随机误差,如果e=0,那么Y与x之间的关系就可以用一元线性函数模型来描述.2.最小二乘法将=x+称为Y关于x的经验回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线,这种求经验回归方程的方法叫做最小二乘法,求得的,叫做b,a的最小二乘估计,其中3.残差与残差分析(1)残差对于响应变量Y,通过观测得到的数据称为观测值,通过经验回归方程得到的称为预测值,观测值减去预测值称为残差.(2)残差分析残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.3.对模型刻画数据效果的分析(1)残差图法在残差图中,如果残差比较均匀地集中在以横轴为对称轴的水平带状区域内,则说明经验回归方程较好地刻画了两个变量的关系.(2)残差平方和法残差平方和越小,模型的拟合效果越好.(3)R2法可以用来比较两个模型的拟合效果,R2越大,模型拟合效果越好,R2越小,模型拟合效果越差.知识点三 列联表与独立性检验1.分类变量为了表述方便,我们经常会使用一种特殊的随机变量,以区别不同的现象或性质,这类随机变量称为分类变量.分类变量的取值可以用实数表示.2.2×2列联表(1)2×2列联表给出了成对分类变量数据的交叉分类频数.(2)定义一对分类变量X和Y,我们整理数据如下表所示:X Y 合计Y=0 Y=1X=0 a b a+bX=1 c d c+d合计 a+c b+d n=a+b+c+d像这种形式的数据统计表称为2×2列联表.3.独立性检验(1)定义:利用χ2的取值推断分类变量X和Y是否独立的方法称为χ2独立性检验,读作“卡方独立性检验”.简称独立性检验.(2)χ2=,其中n=a+b+c+d.(3)独立性检验解决实际问题的主要环节①提出零假设H0:X和Y相互独立,并给出在问题中的解释.②根据抽样数据整理出2×2列联表,计算χ2的值,并与临界值xα比较.③根据检验规则得出推断结论.④在X和Y不独立的情况下,根据需要,通过比较相应的频率,分析X和Y间的影响规律.考点一 概念的理解【例1-1】(23-24高二下·江苏宿迁·阶段练习)下列关于回归分析的说法中错误的是( )A.回归直线一定过样本中心B.残差图中残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适C.决定系数,甲、乙两个模型的分别约为0.98和0.80,则模型乙的拟合效果更好D.两个模型中残差平方和越小的模型拟合的效果越好【例1-2】(23-24高二下·天津滨海新·期末)下列说法正确的个数是( )①线性相关系数越接近1,两个变量的线性相关程度越强;②独立性检验可以100%确定两个变量之间是否具有某种关系;③在回归分析中,可用残差图判断模型的拟合效果,残差点比较均匀地落在水平的带状区域中,说明这样的模型比较合适,带状区域的宽度越窄,说明模型的拟合精度越高;④甲、乙两个模型的决定系数分别约为0.88和0.80,则模型甲的拟合效果更好.A.1 B.2 C.3 D.4【例1-3】(2025·浙江)(多选)下列说法正确的是( )A.数据的上四分位数为9B.若,,且,则相互独立C.根据一组样本数据的散点图判断出两个变量线性相关,由最小二乘法求得其回归直线方程为,若其中一个散点坐标为,则D.将两个具有相关关系的变量的一组数据,,…,调整为,,…,,决定系数不变(附:,,)考点二 相关系数大小比较【例2-1】(24-25高二上·河北沧州·阶段练习)变量与相对应的一组数据为;变量与相对应的一组数据为表示变量与之间的线性相关系数,表示变量与之间的线性相关系数,则( )A. B.C. D.【例2-2】(24-25高二·全国·假期作业)某统计部门对四组数据进行统计分析后, 获得如图所示的散点图.下面关于样本相关系数的比较, 正确的是 ( )A. B.C. D.【例2-3】(24-25 四川成都·阶段练习)下面是不同成对数据的散点图,从左到右对应的样本相关系数是,其中最小的是( )A. B. C. D.考点三 线性回归方程【例3-1】(2025安徽省)某健身俱乐部研究会员每周锻炼时长与体重减少量的关系,随机抽取10名会员的数据如下:会员序号 1 2 3 4 5 6 7 8 9 10 总和锻炼时长(小时) 3 4 2 5 6 4 5 3 4 4 40体重减少量(千克) 1.0 1.5 1.0 2.0 2.5 1.8 2.0 1.0 1.6 2.0 16.4并计算得:(1)根据表格中的数据,可用一元线性回归模型刻画变量与变量之间的线性相关关系,请用相关系数加以说明;(2)求经验回归方程(结果精确到 0.01 );(3)该俱乐部推广了一项激励措施后,发现会员平均每周锻炼时长增加2个小时,实际观测到的平均体重减少量增加了0.8千克.请结合回归分析结果,判断该回归模型是否具有参考价值,并给出合理的解释.(参考公式:相关系数,回归方程中斜率和截距的最小二乘法估计公式分别为,. 参考值:)【例3-2】(24-25高二上·江苏常州·期末)某款3A级别游戏自发布以来便受到了广泛关注,仅用了三天时间便在各大平台上卖出超过1000万份,这一速度令人惊讶.下表是该游戏发布以来在某一平台各月的销售量统计表.月份编号 1 2 3 4 5销售量(百万份) 8 6.3 5.1 3.2 2.4(1)依据表中的统计数据,计算样本相关系数(结果保留两位小数),并判断月份编号与销售量之间是否具有较强的线性相关性;(2)预计该平台半年时间的销售量能否突破26百万份.参考数据:;参考公式:.考点四 独立性检验【例4-1】(2024高三·全国·专题练习)“一带一路”是促进各国共同发展,实现共同繁荣的合作共嬴之路.为了了解我国与某国在“一带一路”合作中两国的贸易量情况,随机抽查了100天进口贸易量与出口贸易量(单位:亿元人民币/天),整理数据得下表:进口贸易量 出口贸易量32 18 46 8 123 7 10(1)用频率估计概率,试估计事件“我国与该国贸易中,一天的进口贸易量与出口贸易量均不超过100亿元人民币”的概率.(2)根据所给数据,完成下面的列联表.进口贸易量 出口贸易量(3)依据的独立性检验,能否认为我国与该国贸易中一天的进口贸易量与出口贸易量有关?附:,.0.05 0.01 0.0013.841 6.635 10.828【例4-2】(24-25高二上·黑龙江·期末)目前电动车的电池有石墨烯电池与铅酸电池两种,某公司为了了解该市电动车消费者对这两种电池电动车的偏好,随机调查了500名电动车用户,其中男性用户300名,在被调查的女性用户中偏好铅酸电池电动车的占,得到以下的2×2列联表:偏好石墨烯电池电动车 偏好铅酸电池电动车 合计男性用户 200 300女性用户合计 500(1)根据以上数据,完成2×2列联表,依据小概率值的独立性检验,能否认为该市电动车用户对这两种电池的电动车的偏好与性别有关;(2)从偏好石墨烯电池电动车的用户中按性别比例用分层随机抽样的方法随机抽取7人进行问卷调查,再从这7名用户中抽取2人进行座谈,在有女性用户参加座谈的条件下,求恰有两名女性用户参加座谈的概率;(3)用样本的频率估计概率,在该市所有女性电动车用户中随机抽取3名进行新车试驾,记3名参加试驾的女性用户中偏好石墨烯电池电动车的人数为X,求X的分布列.参考公式:,其中.参考数据:0.100 0.050 0.025 0.010 0.005 0.0012.706 3.841 5.024 6.635 7.879 10.828考点五 非线性回归方程【例5-1】(23-24高二下·河北石家庄·阶段练习)网络直播带货助力乡村振兴,它作为一种新颖的销售土特产的方式,受到社会各界的追捧.某直播间开展地标优品带货直播活动,其主播直播周期次数x(其中10场为一个周期)与产品销售额y(千元)的数据统计如下:直播周期数x 1 2 3 4 5产品销售额y(千元) 3 7 15 30 40根据数据特点,甲认为样本点分布在指数型曲线的周围,据此他对数据进行了一些初步处理.如下表:3.7 55 382 65 978 101其中(1)请根据表中数据,建立y关于x的回归方程;(2)乙认为样本点分布在直线的周围,并计算得回归方程为,以及该回归模型的相关指数,试比较甲、乙两人所建立的模型,谁的拟合效果更好?(精确到0.01)附:对于一组数据,其回归直线的斜率和截距的最小二乘估计分别为,相关指数:.【例5-2】(2024·湖北)已知鸡的产蛋量与鸡舍的温度有关,为了确定下一个时段鸡舍的控制温度,某企业需要了解鸡舍的温度(单位),对某种鸡的时段产蛋量(单位: )和时段投入成本(单位:万元)的影响,为此,该企业收集了7个鸡舍的时段控制温度和产蛋量的数据,对数据初步处理后得到了如图所示的散点图和表中的统计量的值. 17.40 82.30 3.6 140 9.7 2935.1 35.0其中, .(1)根据散点图判断, 与哪一个更适宜作为该种鸡的时段产蛋量关于鸡舍时段控制温度的回归方程类型?(给判断即可,不必说明理由)(2)若用作为回归方程模型,根据表中数据,建立关于的回归方程;(3)已知时段投入成本与的关系为,当时段控制温度为时,鸡的时段产蛋量及时段投入成本的预报值分别是多少?附:①对于一组具有线性相关关系的数据,其回归直线的斜率和截距的最小二乘估计分别为,②0.08 0.47 2.72 20.09 1096.6321世纪教育网(www.21cnjy.com)中小学教育资源及组卷应用平台第八章 成对数据的统计分析章末总结知识点一 成对数据的统计相关性(一)相关关系1.相关关系的定义:两个变量有关系,但没有确切到可由其中一个去精确地决定另一个的程度,这种关系称为相关关系.2.相关关系的分类(1)按变量间的增减性分为正相关和负相关.①正相关:当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势;②负相关:当一个变量的值增加时,另一个变量的相应值呈现减少的趋势.(2)按变量间是否有线性特征分为线性相关和非线性相关(曲线相关).①线性相关:如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,我们称这两个变量线性相关;②非线性相关或曲线相关:如果两个变量具有相关性,但不是线性相关,我们称这两个变量非线性相关或曲线相关.(二)相关关系的刻画1.散点图:为了直观描述成对样本数据的变化特征,把每对成对样本数据都用直角坐标系中的点表示出来,由这些点组成的统计图,叫做散点图.2.样本相关系数(1)我们常用样本相关系数r来确切地反映成对样本数据(xi,yi)的相关程度,其中(2)样本相关系数r的取值范围为[-1,1].①若r>0时,成对样本数据正相关;②若r<0时,成对样本数据负相关;③当|r|越接近1时,成对样本数据的线性相关程度越强;④当|r|越接近0时,成对样本数据的线性相关程度越弱.知识点二 一元线性回归模型1.一元回归方程称为Y关于x的一元线性回归模型.其中Y称为因变量或响应变量,x称为自变量或解释变量,a称为截距参数,b称为斜率参数;e是Y与bx+a之间的随机误差,如果e=0,那么Y与x之间的关系就可以用一元线性函数模型来描述.2.最小二乘法将=x+称为Y关于x的经验回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线,这种求经验回归方程的方法叫做最小二乘法,求得的,叫做b,a的最小二乘估计,其中3.残差与残差分析(1)残差对于响应变量Y,通过观测得到的数据称为观测值,通过经验回归方程得到的称为预测值,观测值减去预测值称为残差.(2)残差分析残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.3.对模型刻画数据效果的分析(1)残差图法在残差图中,如果残差比较均匀地集中在以横轴为对称轴的水平带状区域内,则说明经验回归方程较好地刻画了两个变量的关系.(2)残差平方和法残差平方和越小,模型的拟合效果越好.(3)R2法可以用来比较两个模型的拟合效果,R2越大,模型拟合效果越好,R2越小,模型拟合效果越差.知识点三 列联表与独立性检验1.分类变量为了表述方便,我们经常会使用一种特殊的随机变量,以区别不同的现象或性质,这类随机变量称为分类变量.分类变量的取值可以用实数表示.2.2×2列联表(1)2×2列联表给出了成对分类变量数据的交叉分类频数.(2)定义一对分类变量X和Y,我们整理数据如下表所示:X Y 合计Y=0 Y=1X=0 a b a+bX=1 c d c+d合计 a+c b+d n=a+b+c+d像这种形式的数据统计表称为2×2列联表.3.独立性检验(1)定义:利用χ2的取值推断分类变量X和Y是否独立的方法称为χ2独立性检验,读作“卡方独立性检验”.简称独立性检验.(2)χ2=,其中n=a+b+c+d.(3)独立性检验解决实际问题的主要环节①提出零假设H0:X和Y相互独立,并给出在问题中的解释.②根据抽样数据整理出2×2列联表,计算χ2的值,并与临界值xα比较.③根据检验规则得出推断结论.④在X和Y不独立的情况下,根据需要,通过比较相应的频率,分析X和Y间的影响规律.考点一 概念的理解【例1-1】(23-24高二下·江苏宿迁·阶段练习)下列关于回归分析的说法中错误的是( )A.回归直线一定过样本中心B.残差图中残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适C.决定系数,甲、乙两个模型的分别约为0.98和0.80,则模型乙的拟合效果更好D.两个模型中残差平方和越小的模型拟合的效果越好【答案】C【解析】对于A选项,回归直线一定过样本中心,A选项正确;对于B选项,残差图中残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,B选项正确;对于C选项,甲、乙两个模型的分别约为0.98和0.80,则模型甲的拟合效果更好,C选项错误;对于D选项,两个模型中残差平方和越小的模型拟合的效果越好,D选项正确.故选:C.【例1-2】(23-24高二下·天津滨海新·期末)下列说法正确的个数是( )①线性相关系数越接近1,两个变量的线性相关程度越强;②独立性检验可以100%确定两个变量之间是否具有某种关系;③在回归分析中,可用残差图判断模型的拟合效果,残差点比较均匀地落在水平的带状区域中,说明这样的模型比较合适,带状区域的宽度越窄,说明模型的拟合精度越高;④甲、乙两个模型的决定系数分别约为0.88和0.80,则模型甲的拟合效果更好.A.1 B.2 C.3 D.4【答案】C【解析】线性相关系数越接近1,两个变量的线性相关程度越强,故①正确;独立性检验并不能100%确定两个变量之间是否具有某种关系,故②错误;回归分析中,可用残差图判断模型的拟合效果,残差点比较均匀地落在水平的带状区域中,说明这样的模型比较合适,带状区域的宽度越窄,说明模型的拟合精度越高,故③正确;回归分析中,可用判断模型的拟合效果,越大,模型的拟合效果越好,故④正确;故选:C.【例1-3】(2025·浙江)(多选)下列说法正确的是( )A.数据的上四分位数为9B.若,,且,则相互独立C.根据一组样本数据的散点图判断出两个变量线性相关,由最小二乘法求得其回归直线方程为,若其中一个散点坐标为,则D.将两个具有相关关系的变量的一组数据,,…,调整为,,…,,决定系数不变(附:,,)【答案】BD【解析】对于A,我们把数据重新排列,得到,而,则数据的上四分位数为9.5,故A错误;对于B,因为,所以,由条件概率公式得,得到,即相互独立,故B正确,对于C,散点不一定在回归直线上,不能直接代入直线方程,故C错误,对于D,由于,变成了,则,,从而,都不变,则,故D正确.故选:BD.考点二 相关系数大小比较【例2-1】(24-25高二上·河北沧州·阶段练习)变量与相对应的一组数据为;变量与相对应的一组数据为表示变量与之间的线性相关系数,表示变量与之间的线性相关系数,则( )A. B.C. D.【答案】C【解析】由变量与相对应的一组数据为,,可得变量与正相关,所以.而由变量与相对应的一组数据为,,可知变量与负相关,所以,所以与的大小关系是.故选:C.【例2-2】(24-25高二·全国·假期作业)某统计部门对四组数据进行统计分析后, 获得如图所示的散点图.下面关于样本相关系数的比较, 正确的是 ( )A. B.C. D.【答案】C【解析】由题图可知,所对应的图中的散点呈现正相关,而且对应的散点图更接近直线,相关性比对应的相关性要强,故,,所对应的图中的散点呈现负相关,而且对应的散点图更接近直线,相关性比对应的相关性要强,故,因此.故选:C.【例2-3】(24-25 四川成都·阶段练习)下面是不同成对数据的散点图,从左到右对应的样本相关系数是,其中最小的是( )A. B. C. D.【答案】B【解析】由散点图变化趋势可知,由第二组散点图更为集中,更接近于一条直线,所以,故相关系数最小的为.故选:B考点三 线性回归方程【例3-1】(2025安徽省)某健身俱乐部研究会员每周锻炼时长与体重减少量的关系,随机抽取10名会员的数据如下:会员序号 1 2 3 4 5 6 7 8 9 10 总和锻炼时长(小时) 3 4 2 5 6 4 5 3 4 4 40体重减少量(千克) 1.0 1.5 1.0 2.0 2.5 1.8 2.0 1.0 1.6 2.0 16.4并计算得:(1)根据表格中的数据,可用一元线性回归模型刻画变量与变量之间的线性相关关系,请用相关系数加以说明;(2)求经验回归方程(结果精确到 0.01 );(3)该俱乐部推广了一项激励措施后,发现会员平均每周锻炼时长增加2个小时,实际观测到的平均体重减少量增加了0.8千克.请结合回归分析结果,判断该回归模型是否具有参考价值,并给出合理的解释.(参考公式:相关系数,回归方程中斜率和截距的最小二乘法估计公式分别为,. 参考值:)【答案】(1)答案见解析(2);(3)答案见解析【解析】(1)由表可知: 所以= ,因为与的相关系数接近1,所以与的线性相关程度很高,可用线性回归模型拟合与的关系.(2)由题可知: = ,所以(3)由(2)可知:根据线性回归方程预测,会员平均每周锻炼时长增加2个小时,预测平均体重减少量增加0.84千克,与实际增加值0.8千克较为接近,因此实际结果与预测结果基本一致,说明该回归模型具有参考价值;造成一定差异的原因可能是由于样本数据过少,或者造成体重减少的原因还受其他因素影响,比如睡眠,饮食、锻炼强度以及效果等.【例3-2】(24-25高二上·江苏常州·期末)某款3A级别游戏自发布以来便受到了广泛关注,仅用了三天时间便在各大平台上卖出超过1000万份,这一速度令人惊讶.下表是该游戏发布以来在某一平台各月的销售量统计表.月份编号 1 2 3 4 5销售量(百万份) 8 6.3 5.1 3.2 2.4(1)依据表中的统计数据,计算样本相关系数(结果保留两位小数),并判断月份编号与销售量之间是否具有较强的线性相关性;(2)预计该平台半年时间的销售量能否突破26百万份.参考数据:;参考公式:.【答案】(1),具有较强的线性相关性(2)不能【解析】(1)由题知,,,,,所以,所以月份编号与销售量之间具有较强的线性相关性.(2),,所以经验回归方程为. 当时,,所以该平台半年时间的销售量不能突破26百万份.考点四 独立性检验【例4-1】(2024高三·全国·专题练习)“一带一路”是促进各国共同发展,实现共同繁荣的合作共嬴之路.为了了解我国与某国在“一带一路”合作中两国的贸易量情况,随机抽查了100天进口贸易量与出口贸易量(单位:亿元人民币/天),整理数据得下表:进口贸易量 出口贸易量32 18 46 8 123 7 10(1)用频率估计概率,试估计事件“我国与该国贸易中,一天的进口贸易量与出口贸易量均不超过100亿元人民币”的概率.(2)根据所给数据,完成下面的列联表.进口贸易量 出口贸易量(3)依据的独立性检验,能否认为我国与该国贸易中一天的进口贸易量与出口贸易量有关?附:,.0.05 0.01 0.0013.841 6.635 10.828【答案】(1)(2)列联表见解析(3)有关【解析】(1)解:由题表中的信息可知,在这100天中,进口贸易量与出口贸易量均不超过100亿元人民币的天数为,用频率估计概率,可得所求概率.(2)列出列联表如下:进口贸易量 出口贸易量64 1610 10(3)零假设为:我国与该国贸易中一天的进口贸易量与出口贸易量无关.由(2)得,所以依据的独立性检验,推断不成立,即认为我国与该国贸易中一天的进口贸易量与出口贸易量有关【例4-2】(24-25高二上·黑龙江·期末)目前电动车的电池有石墨烯电池与铅酸电池两种,某公司为了了解该市电动车消费者对这两种电池电动车的偏好,随机调查了500名电动车用户,其中男性用户300名,在被调查的女性用户中偏好铅酸电池电动车的占,得到以下的2×2列联表:偏好石墨烯电池电动车 偏好铅酸电池电动车 合计男性用户 200 300女性用户合计 500(1)根据以上数据,完成2×2列联表,依据小概率值的独立性检验,能否认为该市电动车用户对这两种电池的电动车的偏好与性别有关;(2)从偏好石墨烯电池电动车的用户中按性别比例用分层随机抽样的方法随机抽取7人进行问卷调查,再从这7名用户中抽取2人进行座谈,在有女性用户参加座谈的条件下,求恰有两名女性用户参加座谈的概率;(3)用样本的频率估计概率,在该市所有女性电动车用户中随机抽取3名进行新车试驾,记3名参加试驾的女性用户中偏好石墨烯电池电动车的人数为X,求X的分布列.参考公式:,其中.参考数据:0.100 0.050 0.025 0.010 0.005 0.0012.706 3.841 5.024 6.635 7.879 10.828【答案】(1)列联表见解析,能(2)(3)分布列见解析【解析】(1)被调查的女性市民人数为,其中偏好铅酸电池电动车的女性市民人数为.偏好石墨烯电池电动车的女性市民人数为,所以2×2列联表为:偏好石墨烯电池电动车 偏好铅酸电池电动车 合计男性市民 200 100 300女性市民 80 120 200合计 280 220 500零假设:市民对这两种电池的电动车的偏好与市民的性别无关,根据列联表中的数据可以求得,由于,根据小概率值的独立性检验,我们推断不成立,即认为市民对这两种电池的电动车的偏好与市民的性别有关.(2)因为偏好石墨烯电池电动车的市民中,男性市民与女性市民的比为,所以采用分层抽样的方法抽取7的人中,男性市民有5人,女性市民有2人,设“有女性市民参加座谈”为事件A,“恰有两名女性市民参加座谈”为事件B,则,,所以.(3)根据频率估计概率知,女性用户中偏好石墨烯电池电动车的概率为,偏好铅酸电池电动车的概率为,参加试驾的女性用户中偏好石墨烯电池电动车的人数为X,可能取值为0,1,2,3,,,,,故X的分布列如下:X 0 1 2 3P考点五 非线性回归方程【例5-1】(23-24高二下·河北石家庄·阶段练习)网络直播带货助力乡村振兴,它作为一种新颖的销售土特产的方式,受到社会各界的追捧.某直播间开展地标优品带货直播活动,其主播直播周期次数x(其中10场为一个周期)与产品销售额y(千元)的数据统计如下:直播周期数x 1 2 3 4 5产品销售额y(千元) 3 7 15 30 40根据数据特点,甲认为样本点分布在指数型曲线的周围,据此他对数据进行了一些初步处理.如下表:3.7 55 382 65 978 101其中(1)请根据表中数据,建立y关于x的回归方程;(2)乙认为样本点分布在直线的周围,并计算得回归方程为,以及该回归模型的相关指数,试比较甲、乙两人所建立的模型,谁的拟合效果更好?(精确到0.01)附:对于一组数据,其回归直线的斜率和截距的最小二乘估计分别为,相关指数:.【答案】(1);(2)乙建立的回归模型拟合效果更好.【解析】(1)将两边取对数得:,令,则,因为,所以根据最小二乘估计可知:,所以,所以回归方程为,即.(2)甲建立的回归模型的.所以乙建立的回归模型拟合效果更好.【例5-2】(2024·湖北)已知鸡的产蛋量与鸡舍的温度有关,为了确定下一个时段鸡舍的控制温度,某企业需要了解鸡舍的温度(单位),对某种鸡的时段产蛋量(单位: )和时段投入成本(单位:万元)的影响,为此,该企业收集了7个鸡舍的时段控制温度和产蛋量的数据,对数据初步处理后得到了如图所示的散点图和表中的统计量的值. 17.40 82.30 3.6 140 9.7 2935.1 35.0其中, .(1)根据散点图判断, 与哪一个更适宜作为该种鸡的时段产蛋量关于鸡舍时段控制温度的回归方程类型?(给判断即可,不必说明理由)(2)若用作为回归方程模型,根据表中数据,建立关于的回归方程;(3)已知时段投入成本与的关系为,当时段控制温度为时,鸡的时段产蛋量及时段投入成本的预报值分别是多少?附:①对于一组具有线性相关关系的数据,其回归直线的斜率和截距的最小二乘估计分别为,②0.08 0.47 2.72 20.09 1096.63【答案】(1)适宜(2)(3)【解析】(1)适宜;(2)由得,令, , ,由图表中的数据可知, ,所以,则关于的回归方程为;(3)时,由回归方程,,即鸡舍的温度为时,即的时段产量的预报值为,投入的陈本预报值为.21世纪教育网(www.21cnjy.com) 展开更多...... 收起↑ 资源列表 第八章 成对数据的统计分析章末总结(原卷版) - 副本.docx 第八章 成对数据的统计分析章末总结(解析版).docx