资源简介 第4章章末小结【知识导图】【题型探究】题型1 一元线性回归方程及应用例1 某项科研活动共进行了5次试验,其数据如表所示:特征量 第1次 第2次 第3次 第4次 第5次x 2 5 8 9 11y 12 10 8 8 7 (1)根据表中的数据,运用相关系数进行分析说明,是否可以用线性回归模型拟合y与x的关系,并指出是正相关还是负相关;(2)求特征量y关于x的线性回归方程,并预测当特征量x为12时特征量y的值;(3)设特征量x~N(μ,σ2),其中μ为样本平均数,σ2为样本方差s2,求P(3.8参考公式:相关系数r=,==,=-.参考数据:≈1.414,≈3.2,≈1.8;若X~N(μ,σ2),则P(μ-σ方法指导 (1)根据表中的数据,结合相关系数的公式,求出相关系数,即可得出结论;(2)根据最小二乘法,求出,,即可得出线性回归方程,从而可得预测值;(3)根据正态分布的对称性及题中的条件,即可求出结果.【解析】 (1)由题意得=xi==7,=yi==9,(xi-)(yi-)=xiyi-5 =2×12+5×10+8×8+9×8+11×7-5×7×9=-28,(xi-)2=50,(yi-)2=16,∴相关系数r===≈-0.99.由于|r| ≈0.99很接近1,说明x,y线性相关性很强,因而可以用线性回归方程模型拟合y与x的关系.由于r<0,故其关系为负相关.(2)由(1)知,===-0.56,∴=-=9-(-0.56)×7=12.92,∴所求的线性回归方程是y=-0.56x+12.92.当特征量x为12时,可预测特征量y=-0.56×12+12.92=6.2.(3)由(1)知μ==7,又由σ2=s2=×[(2-7)2+(5-7)2+(8-7)2+(9-7)2+(11-7)2]=10,得σ≈3.2,从而P(3.8题型2 成对数据的线性相关性例2 (2022年全国乙卷)某地经过多年的环境治理,已将荒山改造成了绿水青山.为估计一林区某种树木的总材积量,随机选取了10棵这种树木,测量每棵树的根部横截面积(单位:m2)和材积量(单位:m3),得到如下数据:样本号i 1 2 3 4 5 6 7 8 9 10 总和根部横截 面积xi 0.04 0.06 0.04 0.08 0.08 0.05 0.05 0.07 0.07 0.06 0.6材积量yi 0.25 0.40 0.22 0.54 0.51 0.34 0.36 0.46 0.42 0.40 3.9 并计算得=0.038,=1.6158,xiyi=0.2474.(1)估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量.(2)求该林区这种树木的根部横截面积与材积量的样本相关系数(精确到0.01).(3)现测量了该林区所有这种树木的根部横截面积,并得到所有这种树木的根部横截面积总和为186 m2.已知树木的材积量与其根部横截面积近似成正比.利用以上数据给出该林区这种树木的总材积量的估计值.附:相关系数r=,≈1.377.【解析】 (1)样本中10棵这种树木的根部横截面积的平均值==0.06,样本中10棵这种树木的材积量的平均值==0.39,据此可估计该林区这种树木平均一棵的根部横截面积为0.06 m2,平均一棵的材积量为0.39 m3.(2)由题意知rxy====≈≈0.97,则rxy≈0.97.(3)设该林区这种树木的总材积量的估计值为Y m3,又树木的材积量与其根部横截面积近似成正比,可得=,解得Y=1209,则该林区这种树木的总材积量的估计值为1209 m3.小结 分析两个变量的相关关系时,可根据样本数据作出散点图或计算相关系数来判断两个变量之间是否具有相关关系.若具有线性相关关系,则利用最小二乘法估计求出的值,利用线性回归方程进行预测估计.本题渗透了数据分析、数学建模以及数学运算的素养.题型3 独立性检验例3 (2021年全国甲卷)甲、乙两台机床生产同种产品,产品按质量分为一级品和二级品,为了比较两台机床产品的质量,分别用两台机床各生产了200件产品,产品的质量情况统计如表:一级品 二级品 合计甲机床 150 50 200乙机床 120 80 200合计 270 130 400 (1)甲机床、乙机床生产的产品中一级品的频率分别是多少 (2)能否有99%的把握认为甲机床的产品质量与乙机床的产品质量有差异 附:χ2=,n=a+b+c+d.P(χ2≥x0) 0.050 0.010 0.001x0 3.841 6.635 10.828 【解析】 (1)甲机床生产的产品中一级品的频率为=75%,乙机床生产的产品中一级品的频率为=60%.(2)χ2==>10>6.635,故能有99%的把握认为甲机床的产品质量与乙机床的产品质量有差异.小结 解独立性检验问题的基本步骤:(1)找相关数据,作列联表;(2)求统计量χ2;(3)根据检验规则得出结论,即与临界值做比较,得出事件有关的可信度.【拓展延伸】相关系数r的应用大家是否知道啤酒与尿布的故事 全球零售业巨头沃尔玛在对消费者购物行为分析时发现,每周五的晚上,啤酒与尿布的销售量呈现正相关关系,也就是每个周五的晚上,尿布和啤酒这两样东西卖得特别好,原因竟然是年轻父亲会去超市帮婴儿买尿布,并且顺便买啤酒回家,以便周末在家看球赛时喝,即男性顾客在购买婴儿尿布时,常常会顺便搭配几瓶啤酒来犒劳自己,于是沃尔玛就尝试推出了将啤酒和尿布摆在一起的促销手段.没想到这个举措居然使尿布和啤酒的销量都大幅增加了.如今,“啤酒+尿布”的数据分析成果早已成了大数据技术应用的经典案例被人津津乐道. 要想找到“啤酒与尿布”之间的关联关系,就要对客户手中的购物篮进行计算,寻找直截了当地表示商品之间关联度的量.统计中常用的表示商品关联度的数值可以统称为r值(Relationship的简称),这个r值作为商品之间相关性的数值统称,可以是商品同时出现在购物篮的概率,也可以是商品之间的提高度,也就是我们学过的相关系数.1. r值的含义r值是衡量商品相关性的重要指标,按照购物篮分析的规律及r值与商品相关性的对应关系定义.我们知道r值大于0.75,则可以认为其具有相当强的相关性,r值在0.25~0.75之间为较强相关性,r值低于0.25为弱相关性.2.当商品之间的r值大于0.75时在分析购物篮商品相关性时,如果发现商品之间的相关性越强,那么代表商品之间具有很强的关联关系,但是别高兴太早,r值越大越可能得出无意义的分析结果,因为此时揭示的可能是卖场司空见惯的东西,比如三文鱼片与绿芥末、热狗面包与热狗、卷笔刀与铅笔和方便面与火腿肠等经常出现在一起的商品,对于这样的分析结论要尽早剔除,以免被业务人员所嘲笑.西方有一句名言:“不要尝试再去发明车轮”,用在这里作为某些大的r值的评价是很恰当的.3.当商品之间的r值在0.25~0.75之间在购物篮分析行业,将r值在0.25~0.75之间的相关性称为“强关联”,很多“强关联”是临时因素“干扰”造成的,有些“干扰因素”没有意义(如下面提到的伪关联),有些“干扰因素”有意义,比如摆放在同一个区域的商品很容易同时出现在购物篮中,这看上去具有很好的相关性,可一旦促销结束、区域撤销,商品的相关性也会消失,但是这样的临时因素就非常有意义,可以证明促销组织非常成功,因此可以用来评估促销效果.4.当商品之间的r值在0.25以下 在购物篮分析行业,将r值低于0.25的相关性称为“弱关联”.在很多“弱关联”中,蕴藏了很多不为人知的商业规律,比如啤酒与尿布这类商品的关联关系,相关关系特征相当微弱,只有在特定的条件下(比如购买啤酒与尿布的父亲),这些特征才会强化从而被人发现,所以零售专家认为,“弱关联”最吸引人.在“弱关联”中找出商品之间存在的关联关系,对于很多数据分析人员来说是个极大的挑战,因此购物篮分析的主要任务是在“弱关联”的关系中找出商品之间的相关性.5.当商品之间的r值为负值 出现负值代表商品从来不出现在同一购物篮中,商品之间的关系是排斥关系.很多购物篮分析数据不提及r值为负值的情况,这是因为r值为负值时,分析难度更大.一般来说,只有在商品之间的功能相同时,r值为负值才有意义,因此我们称为“同行是冤家”,这时往往代表商品之间是竞争替代关系.r值背后隐藏的事实是在卖场中存在大量的商品关联关系,比如油条与豆浆、三文鱼与绿芥末、牛奶与面包等等,这些商品之间具有较强的关联关系,也有一些商品之间是竞争关系(负关联,即排斥关联),比如米饭与面食、猪肉与鸡肉、各类面包之间、不同品牌牛奶之间等等.其实除了“啤酒与尿布”之外,商品之间还存在很多奇特的关联现象,只是这个故事给我们打开了通往发现真相的大门.我相信,人们对这个经典案例的挖掘还会继续下去,借一句老话说:“经典造就永恒.”我希望,这个小故事能够为在Data Mining挖掘出来数据信息之后抓耳挠腮、不知何用的同学提供一点点思路.虽然我们还没涉足社会去自己创业,但是我们可以结合平时的所见所闻所想,再佐以前人的经验,了解相关系数在超市购物中的应用.2第4章章末小结【知识导图】【题型探究】题型1 一元线性回归方程及应用例1 某项科研活动共进行了5次试验,其数据如表所示:特征量 第1次 第2次 第3次 第4次 第5次x 2 5 8 9 11y 12 10 8 8 7 (1)根据表中的数据,运用相关系数进行分析说明,是否可以用线性回归模型拟合y与x的关系,并指出是正相关还是负相关;(2)求特征量y关于x的线性回归方程,并预测当特征量x为12时特征量y的值;(3)设特征量x~N(μ,σ2),其中μ为样本平均数,σ2为样本方差s2,求P(3.8参考公式:相关系数r=,==,=-.参考数据:≈1.414,≈3.2,≈1.8;若X~N(μ,σ2),则P(μ-σ方法指导 (1)根据表中的数据,结合相关系数的公式,求出相关系数,即可得出结论;(2)根据最小二乘法,求出,,即可得出线性回归方程,从而可得预测值;(3)根据正态分布的对称性及题中的条件,即可求出结果.题型2 成对数据的线性相关性例2 (2022年全国乙卷)某地经过多年的环境治理,已将荒山改造成了绿水青山.为估计一林区某种树木的总材积量,随机选取了10棵这种树木,测量每棵树的根部横截面积(单位:m2)和材积量(单位:m3),得到如下数据:样本号i 1 2 3 4 5 6 7 8 9 10 总和根部横截 面积xi 0.04 0.06 0.04 0.08 0.08 0.05 0.05 0.07 0.07 0.06 0.6材积量yi 0.25 0.40 0.22 0.54 0.51 0.34 0.36 0.46 0.42 0.40 3.9 并计算得=0.038,=1.6158,xiyi=0.2474.(1)估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量.(2)求该林区这种树木的根部横截面积与材积量的样本相关系数(精确到0.01).(3)现测量了该林区所有这种树木的根部横截面积,并得到所有这种树木的根部横截面积总和为186 m2.已知树木的材积量与其根部横截面积近似成正比.利用以上数据给出该林区这种树木的总材积量的估计值.附:相关系数r=,≈1.377.小结 分析两个变量的相关关系时,可根据样本数据作出散点图或计算相关系数来判断两个变量之间是否具有相关关系.若具有线性相关关系,则利用最小二乘法估计求出的值,利用线性回归方程进行预测估计.本题渗透了数据分析、数学建模以及数学运算的素养.题型3 独立性检验例3 (2021年全国甲卷)甲、乙两台机床生产同种产品,产品按质量分为一级品和二级品,为了比较两台机床产品的质量,分别用两台机床各生产了200件产品,产品的质量情况统计如表:一级品 二级品 合计甲机床 150 50 200乙机床 120 80 200合计 270 130 400 (1)甲机床、乙机床生产的产品中一级品的频率分别是多少 (2)能否有99%的把握认为甲机床的产品质量与乙机床的产品质量有差异 附:χ2=,n=a+b+c+d.P(χ2≥x0) 0.050 0.010 0.001x0 3.841 6.635 10.828 小结 解独立性检验问题的基本步骤:(1)找相关数据,作列联表;(2)求统计量χ2;(3)根据检验规则得出结论,即与临界值做比较,得出事件有关的可信度.【拓展延伸】相关系数r的应用大家是否知道啤酒与尿布的故事 全球零售业巨头沃尔玛在对消费者购物行为分析时发现,每周五的晚上,啤酒与尿布的销售量呈现正相关关系,也就是每个周五的晚上,尿布和啤酒这两样东西卖得特别好,原因竟然是年轻父亲会去超市帮婴儿买尿布,并且顺便买啤酒回家,以便周末在家看球赛时喝,即男性顾客在购买婴儿尿布时,常常会顺便搭配几瓶啤酒来犒劳自己,于是沃尔玛就尝试推出了将啤酒和尿布摆在一起的促销手段.没想到这个举措居然使尿布和啤酒的销量都大幅增加了.如今,“啤酒+尿布”的数据分析成果早已成了大数据技术应用的经典案例被人津津乐道. 要想找到“啤酒与尿布”之间的关联关系,就要对客户手中的购物篮进行计算,寻找直截了当地表示商品之间关联度的量.统计中常用的表示商品关联度的数值可以统称为r值(Relationship的简称),这个r值作为商品之间相关性的数值统称,可以是商品同时出现在购物篮的概率,也可以是商品之间的提高度,也就是我们学过的相关系数.1. r值的含义r值是衡量商品相关性的重要指标,按照购物篮分析的规律及r值与商品相关性的对应关系定义.我们知道r值大于0.75,则可以认为其具有相当强的相关性,r值在0.25~0.75之间为较强相关性,r值低于0.25为弱相关性.2.当商品之间的r值大于0.75时在分析购物篮商品相关性时,如果发现商品之间的相关性越强,那么代表商品之间具有很强的关联关系,但是别高兴太早,r值越大越可能得出无意义的分析结果,因为此时揭示的可能是卖场司空见惯的东西,比如三文鱼片与绿芥末、热狗面包与热狗、卷笔刀与铅笔和方便面与火腿肠等经常出现在一起的商品,对于这样的分析结论要尽早剔除,以免被业务人员所嘲笑.西方有一句名言:“不要尝试再去发明车轮”,用在这里作为某些大的r值的评价是很恰当的.3.当商品之间的r值在0.25~0.75之间在购物篮分析行业,将r值在0.25~0.75之间的相关性称为“强关联”,很多“强关联”是临时因素“干扰”造成的,有些“干扰因素”没有意义(如下面提到的伪关联),有些“干扰因素”有意义,比如摆放在同一个区域的商品很容易同时出现在购物篮中,这看上去具有很好的相关性,可一旦促销结束、区域撤销,商品的相关性也会消失,但是这样的临时因素就非常有意义,可以证明促销组织非常成功,因此可以用来评估促销效果.4.当商品之间的r值在0.25以下 在购物篮分析行业,将r值低于0.25的相关性称为“弱关联”.在很多“弱关联”中,蕴藏了很多不为人知的商业规律,比如啤酒与尿布这类商品的关联关系,相关关系特征相当微弱,只有在特定的条件下(比如购买啤酒与尿布的父亲),这些特征才会强化从而被人发现,所以零售专家认为,“弱关联”最吸引人.在“弱关联”中找出商品之间存在的关联关系,对于很多数据分析人员来说是个极大的挑战,因此购物篮分析的主要任务是在“弱关联”的关系中找出商品之间的相关性.5.当商品之间的r值为负值 出现负值代表商品从来不出现在同一购物篮中,商品之间的关系是排斥关系.很多购物篮分析数据不提及r值为负值的情况,这是因为r值为负值时,分析难度更大.一般来说,只有在商品之间的功能相同时,r值为负值才有意义,因此我们称为“同行是冤家”,这时往往代表商品之间是竞争替代关系.r值背后隐藏的事实是在卖场中存在大量的商品关联关系,比如油条与豆浆、三文鱼与绿芥末、牛奶与面包等等,这些商品之间具有较强的关联关系,也有一些商品之间是竞争关系(负关联,即排斥关联),比如米饭与面食、猪肉与鸡肉、各类面包之间、不同品牌牛奶之间等等.其实除了“啤酒与尿布”之外,商品之间还存在很多奇特的关联现象,只是这个故事给我们打开了通往发现真相的大门.我相信,人们对这个经典案例的挖掘还会继续下去,借一句老话说:“经典造就永恒.”我希望,这个小故事能够为在Data Mining挖掘出来数据信息之后抓耳挠腮、不知何用的同学提供一点点思路.虽然我们还没涉足社会去自己创业,但是我们可以结合平时的所见所闻所想,再佐以前人的经验,了解相关系数在超市购物中的应用.2 展开更多...... 收起↑ 资源列表 第4章章末小结 - 副本.docx 第4章章末小结.docx