高考数学二轮复习专题5统计与概率第20讲成对数据的统计分析课时课件+基础练(含答案)

资源下载
  1. 二一教育资源

高考数学二轮复习专题5统计与概率第20讲成对数据的统计分析课时课件+基础练(含答案)

资源简介

第20讲 成对数据的统计分析
基础回归
经典回眸
1.(2024·上海卷)已知气候温度和海水表层温度相关,且样本相关系数为正数,对此描述正确的是( C )
A.气候温度高,海水表层温度就高
B.气候温度高,海水表层温度就低
C.随着气候温度由低到高,海水表层温度呈上升趋势
D.随着气候温度由低到高,海水表层温度呈下降趋势
【解析】 对于A,B,当气候温度高,海水表层温度变高变低不确定,故A,B错误.对于C,D,因为样本相关系数为正,所以随着气候温度由低到高时,海水表层温度呈上升趋势,故C正确,D错误.
2.(人A 选必三P138 T2)对于变量Y和变量x的成对样本观测数据,用一元线性回归模型得到经验回归模型=x+,对应的残差如图所示,模型误差( C )
A.满足一元线性回归模型的所有假设
B.不满足一元线性回归模型的E(e)=0的假设
C.不满足一元线性回归模型的D(e)=σ2的假设
D.不满足一元线性回归模型的E(e)=0和D(e)=σ2的假设
【解析】 用一元线性回归模型得到经验回归模型=x+,根据对应的残差图,残差的均值E(e)=0可能成立,但明显残差在x轴上方的数据更分散,D(e)=σ2不满足一元线性回归模型,正确的只有C.
3.(人A选必三P139 T3)根据分类变量x与y的成对样本数据,计算得到χ2=2.974.依据α=0.05的独立性检验,结论为( C )
α 0.10 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
A.变量x与y不独立
B.变量x与y不独立,这个结论犯错误的概率不超过0.05
C.变量x与y独立
D.变量x与y独立,这个结论犯错误的概率不超过0.05
【解析】 因为χ2=2.974<x0.05=3.841,所以变量x与y独立,又2.706<2.974<3.841,所以这个结论犯错误的概率不超过0.1.
4.某商场为了给一种新商品进行合理定价,将该商品按事先拟定的价格进行试销,得到下表所示数据.若某商品销量y(单位:件)与单价x(单位:元)之间的经验回归方程为=-20x+,且样本点(8.4,82)处的残差为2,则m=( B )
单价x/元 8.2 8.4 8.6 8.8
销量y/件 84 82 78 m
A.66 B.68
C.70 D.72
【解析】 由条件知当x2=8.4时,2=82-2=80,代入=-20x+,解得=80+20×8.4=248,于是=-20x+248.又==8.5,所以=-20×8.5+248=78,即=78,解得m=68.
5.已知一系列样本点(xi,yi)(i=1,2,3,…,9)满足=5,=265,由最小二乘法得到y与x的经验回归方程,现用决定系数R2来判断拟合效果.若(yi-i)2=1.60,则R2= 0.96 .
【解析】 R2=1-=1-=1-=0.96.
要点梳理
1.样本相关系数
r =
=.
2.经验回归方程
(1) 最小二乘法:使得样本数据的点到回归直线的 距离的平方 最小的方法叫做最小二乘法.
(2) 两个具有线性相关关系的变量的一组数据为(x1,y1),(x2,y2),…,(xn,yn),其经验回归方程为=x+,且==,其中,是经验回归直线的斜率,是经验回归直线在y轴上的截距.经验回归直线一定过样本点的中心 (,) .
3.独立性检验
列出的两个分类变量的频数表,称为列联表.假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(2×2列联表)如下:
y1 y2 总计
x1 a b a+b
x2 c d c+d
总计 a+c b+d a+b+c+d
则随机变量χ2=  ,其中n= a+b+c+d 为样本容量.
举题固法
样本相关系数、残差与决定系数
例 1 (1) 甲、乙、丙、丁四名同学各自对A,B两变量的线性相关性做试验,并用回归分析方法分别求得样本相关系数r与残差平方和m如下表:
甲 乙 丙 丁
r 0.82 0.78 0.69 0.85
m 106 115 124 103
则体现A,B两变量有更强的线性相关性的是( D )
A.甲  B.乙
C.丙  D.丁
【解析】 在验证两个变量之间的线性相关关系时,样本相关系数的绝对值越接近1,相关性越强,在四个选项中丁的样本相关系数的绝对值最大.残差平方和越小,相关性越强,丁的残差平方和最小.综上可知,丁的试验结果体现了A,B两变量有更强的线性相关性.
(2) (2025·烟台、东营一模)已知变量x,y线性相关,其一组样本数据(xi,yi)(i=1,2,…,9),满足xi=33,用最小二乘法得到的经验回归方程为y=2x-1.若增加一个数据(-3,3)后,得到修正后的回归直线的斜率为2.1,则数据(4,8)的残差的绝对值为( A )
A.0.1 B.0.2
C.0.3 D.0.4
【解析】 由题设==,则=2-1=2×-1=,增加数据(-3,3)后,==3,==6,且回归直线的方程为y=2.1x+b,所以6=2.1×3+b b=-0.3,则y=2.1x-0.3.当x=4时,y=2.1×4-0.3=8.1,故残差的绝对值为|8-8.1|=0.1.
(1) 样本相关系数:当r>0时,正相关;当r<0时,负相关;|r|越接近1,相关性越强.
(2) 决定系数R2越大,模型的拟合效果越好.
变式 1 (多选)某服装生产商为了解青少年的身高和体重的关系,在15岁的男生中随机抽测了10人的身高和体重,数据如下表所示.
编号 1 2 3 4 5 6 7 8 9 10
身高/cm 165 168 170 172 173 174 175 177 179 182
体重/kg 55 89 61 65 67 70 75 75 78 80
由表中数据制作成如图所示的散点图.由最小二乘法计算得到经验回归直线l1的方程为=1x+1,样本相关系数为r1,决定系数为;经过残差分析确定(168,89)为离群点(对应残差过大),把它去掉后,再用剩下的9对数据计算得到经验回归直线l2的方程为=2x+2,样本相关系数为r2,决定系数为,则以下结论正确的有( AC )
A.1>2 B. 1>2
C.r1<r2 D.>
【解析】 身高的平均数为(165+168+170+172+173+174+175+177+179+182)=173.5,因为离群点(168,89)的横坐标168小于平均值173.5,纵坐标89相对过大,所以去掉离群点后经验回归直线的截距变小而斜率变大,所以1>2,1<2,所以A正确,B错误;去掉离群点后成对样本数据的线性相关程度更强,拟合效果会更好,所以r1<r2,<,所以C正确,D错误.
经验回归方程
例 2 按照《中华人民共和国环境保护法》的规定,每年生态环境部都会会同国家发展改革委等部门共同编制《中国生态环境状况公报》,并向社会公开发布.下表是2017—2021年五年《中国生态环境状况公报》中酸雨区面积约占国土面积的百分比(yi%):
年份 2017年 2018年 2019年 2020年 2021年
年份代码xi 1 2 3 4 5
yi 6.4 5.5 5.0 4.8 3.8
(1) 求2017—2021年年份代码xi与yi的样本相关系数(精确到0.01);
【解答】 由已知可得,==3,==5.1,(xi-)(yi-)=xiyi-5 =-5.9,=,==,r==≈≈-0.98.
(2) 请用样本相关系数说明该组数据中y与x之间的关系可用一元线性回归模型进行描述,并求出y关于x的经验回归方程;
【解答】 由(1)知,y与x的样本相关系数r≈-0.98,|r|接近1,所以y与x之间具有极强的线性相关关系,可用线性回归模型进行拟合.由(1)知,===-0.59, =-=5.1-(-0.59)×3=6.87,所以所求经验回归方程为=-0.59x+6.87.
(3) 预测2026年的酸雨区面积占国土面积的百分比.
附:xiyi=70.6,=133.69,≈6.
【解答】 令x=10,则=-0.59×10+6.87=0.97,故预测2026年的酸雨区面积占国土面积的百分比为0.97%.
求经验回归方程的步骤
变式 2 红旗淀粉厂2025年之前只生产食品淀粉,下表为年投入资金x(单位:万元)与年收益y(单位:万元)的8组数据:
x 10 20 30 40 50 60 70 80
y 12.8 16.5 19 20.9 21.5 21.9 23 25.4
(1) 用=ln x+模拟生产食品淀粉年收益y与年投入资金x的关系,求出经验回归方程;
【解答】====5,=-=-5×=2,所以经验回归方程为=5ln x+2.
(2) 为响应国家“加快调整产业结构”的号召,该企业又自主研发出一种药用淀粉,预计其收益为投入的10%,2025年该企业计划投入200万元用于生产两种淀粉,求年收益的最大值.(精确到0.1万元)
附:①
yi ln xi (ln xi)2 yiln xi
161 29 20 400 109 603
②ln 2≈0.7,ln 5≈1.6.
【解答】 设2025年该企业投入食品淀粉生产x万元,预计收益y万元,则y=5ln x+2+(200-x),0≤x≤200.由y′=-==0,得x=50,所以y=5ln x+2+(200-x)在区间(0,50)上单调递增,在区间(50,200)上单调递减,故年收益的最大值ymax=5ln 50+2+15=5(2ln 5+ln 2)+17≈5×(2×1.6+0.7)+17=36.5(万元).
独立性检验
例 3 (2024·全国甲卷)某工厂进行生产线智能化升级改造,升级改造后,从该工厂甲、乙两个车间的产品中随机抽取150件进行检验,数据如下:
优级品 合格品 不合格品 总计
甲车间 26 24 0 50
乙车间 70 28 2 100
总计 96 52 2 150
(1) 填写如下列联表:
优级品 非优级品
甲车间
乙车间
能否有95%的把握认为甲、乙两车间产品的优级品率存在差异?能否有99%的把握认为甲、乙两车间产品的优级品率存在差异?
附:χ2=.
α 0.050 0.010 0.001
xα 3.841 6.635 10.828
【解答】 根据题意可得到联表如下:
优级品 非优级品
甲车间 26 24
乙车间 70 30
零假设为H0:甲、乙两车间产品的优级品率没有差异.经计算可得
χ2===4.687 5.因为3.841<4.687 5<6.635,所以有95%的把握认为甲、乙两车间产品的优级品率存在差异,没有99%的把握认为甲、乙两车间产品的优级品率存在差异.
(2) 已知升级改造前该工厂产品的优级品率p=0.5,设为升级改造后抽取的n件产品的优级品率.如果>p+1.65·,则认为该工厂产品的优级品率提高了,根据抽取的150件产品的数据,能否认为生产线智能化升级改造后,该工厂产品的优级品率提高了?(≈12.247)
【解答】 由题意可知,生产线智能化升级改造后,该工厂产品的优级品的频率为=0.64,用频率估计概率可得=0.64.又因为升级改造前该工厂产品的优级品率p=0.5,则p+1.65=0.5+1.65≈0.5+1.65×≈0.567,可知>p+1.65,所以可以认为生产线智能化升级改造后,该工厂产品的优级品率提高了.
独立性检验的一般步骤:
(1) 根据样本数据制成2×2列联表;
(2) 根据公式χ2=,n=a+b+c+d计算;
(3) 比较χ2与临界值的大小关系,作统计推断.
变式 3 (2025·全国Ⅰ卷)为研究某疾病与超声波检查结果的关系,从做过超声波检查的人群中随机调查了1 000人,得到如下列联表:
超声波检查结果 组别 正常 不正常 合计
患该疾病 20 180 200
未患该疾病 780 20 800
合计 800 200 1 000
(1) 记超声波检查结果不正常者患该疾病的概率为p,求p的估计值;
【解答】 根据表格可知,检查结果不正常的200人中有180人患该疾病,所以p的估计值为=.
(2) 根据小概率值α=0.001的独立性检验,分析超声波检查结果是否与患该疾病有关.
附:χ2=.
α 0.050 0.010 0.001
xα 3.841 6.635 10.828
【解答】 零假设为H0:超声波检查结果与患该疾病无关.根据表中数据可得,
χ2==765.625>10.828=x0.001,根据小概率值α=0.001的独立性检验,我们推断H0不成立,即认为超声波检查结果与患该疾病有关,该推断犯错误的概率不超过0.001.
配套热练
1.(2024·天津卷)下列图中,线性相关系数最大的是( A )
      
       A       B        C       D
【解析】 观察4幅图可知,A图散点分布比较集中,且大体接近某一条直线,线性回归模型拟合效果比较好,呈现明显的正相关,值相比于其他3图更接近1.
2.(2025·莆田二模)为了解女儿身高与其母亲身高的关系,随机抽取5对母女的身高数据如下:
母亲身高x/cm 164 166 166 166 168
女儿身高y/cm 165 165 166 167 167
根据最小二乘法,y关于x的经验回归方程为( C )
A.=x-1 B.=x+1
C.=x+83 D.=166
【解析】 观察数据,可得y与x有关,故排除D.又=166,=166,所以回归直线必过点(166,166),所以排除A,B.
3.已知某独立性检验中,由χ2=,n=a+b+c+d计算出χ2=,若将2×2列联表中的数据a,b,c,d分别变成2a,2b,2c,2d,计算出χ2=,则( B )
A.= B.=2
C.=2 D.=4
【解析】 因为=,所以===2.
4.(2025·梅州质检)某科技公司在人工智能领域逐年加大投入,根据近年来该公司对产品研发年投入额x(单位:百万元)与其年销售量y(单位:千件)的数据统计,得到散点图如图.用线性回归和指数型回归模型拟合y与x关系的决定系数分别为=0.891 3和=0.994 0,则根据参考数据,下列表达式中最适宜描述y与x之间关系的函数为( D )
参考公式:经验回归方程=u+中,=,=-.参考数据:令ωi=ln yi,
(xi-)2 (xi-)·(yi-) (xi-)·(ωi-)
3 2.5 0.5 10 12 6
A.y=1.2x-1.1 B.y=0.6x-1.3
C.y=e1.2x-1.1 D.y=e0.6x-1.3
【解析】 由用线性回归和指数型回归模型拟合y与x关系的决定系数分别为=0.891 3和=0.994 0,得<,则指数型回归模型最适宜拟合y与x关系,排除A,B;设y与x之间关系的函数为=ex+,两边取对数得ln =x+,设=ln,则=x+,因此===0.6,=-=0.5-0.6×3=-1.3,即ln =0.6x-1.3,=e0.6x-1.3,C错误,D正确.
5.(2025·济南一模)(多选)为了验证牛的毛色(黑色、红色)和角(有角、无角)这两对相对性状是否相关,某学院进行了一次数据统计,并根据形成的2×2列联表,计算得到χ2≈2.727,根据小概率值为α的独立性检验,则( BC )
附:
α 0.1 0.05 0.01
xα 2.706 3.841 6.635
A.若α=0.1,则认为“毛色”和“角”无关
B.若α=0.1,则认为“毛色”和“角”有关,此推断犯错误的概率不超过10%
C.若α=0.01,则认为“毛色”和“角”无关
D.若α=0.01,则认为“毛色”和“角”有关,此推断犯错误的概率不超过1%
【解析】 若α=0.1,因为2.706<2.727,所以认为“毛色”和“角”有关,此推断犯错误的概率不超过10%,故A错误,B正确;若α=0.01,因为6.635>2.727,所以认为“毛色”和“角”无关,故C正确,D错误.
6.(2025·南京二模)(多选)某研究所研究耕种深度x(单位:cm)与水稻每公顷产量y(单位:t)的关系,所得数据如下表:
耕种深度x/cm 8 10 12 14 16
每公顷产量y/t 6.0 7.5 7.8 9.2 9.5
经计算可知每公顷产量y与耕种深度x的经验回归方程为=0.435x+,则下列说法中正确的是( BD )
A.每公顷产量与耕种深度呈负相关
B.耕种深度的平均数为12
C.每公顷产量的平均数为7.8
D.=2.78
【解析】 对于A,已知=0.435x+,因为0.435>0,所以每公顷产量与耕种深度呈正相关,故A错误;对于B,由题意知,==12,故B正确;对于C,由题意知,==8,故C错误;对于D,将点(,),即(12,8)代入方程=0.435x+,得8=0.435×12+,解得=2.78,故D正确.
7.(2025·深圳一调)(多选)已知一组样本数据(xi,yi),i∈{1,2,3,…,100},其中xi>1 895,xi=2×105,yi=970,求得其经验回归方程为=-0.02x+1,残差为i.对样本数据进行处理:令x′i=ln(xi-1 895),得到新的数据(x′i,yi),求得其经验回归方程为=-0.42x+2,其残差为i.i,i分布如图所示,且~N(0,),~N(0,),则( ABD )
图(1) 图(2)
A.样本(xi,yi)呈负相关
B.1=49.7
C.<
D.处理后的决定系数变大
【解析】 对于A,经验回归方程=-0.02x+1中斜率-0.02<0,则样本(xi,yi)呈负相关,A正确;对于B,原样本均值=2×103,=9.7,由=-0.02+1,得1=9.7+0.02×2×103=49.7,B正确;对于C,由图(1)的数据波动较大可得i比i更集中,则<,C错误;对于D,由图(1)的残差平方和较图(2)的残差平方和大知,处理后拟合效果更好,决定系数变大,D正确.
8.(2025·汕头一模)在政府发布的光伏发电补贴政策的引导下,西北某地光伏发电装机量急剧上升,现对2016年至2023年的新增光伏发电装机量进行调查,根据散点图选择了两个模型进行拟合,并得到相应的经验回归方程.为判断模型的拟合效果,甲、乙、丙三位同学进行了如下分析:
(1) 甲同学通过计算残差作出了两个模型的残差图,如图所示.
(2) 乙同学求出模型①的残差平方和为0.417 5,模型②的残差平方和为1.562 5.
(3) 丙同学求出模型①的决定系数为=0.952 0,模型②的决定系数为=0.978 1.
经检验,模型①拟合效果最佳,则甲、乙、丙三位同学中,运算结果肯定出错的同学是 丙 .(填“甲”或“乙”或“丙”)
【解析】 甲的残差图中,模型①的残差点更均匀地分布在以横轴为对称轴的水平带状区域内,且水平带状区域更窄,说明模型①拟合效果更好.残差平方和越大,即决定系数越小,说明数据点越离散,所以乙的计算结果显示模型①的拟合效果更好,而丙的计算结果显示模型②的拟合效果更好,所以出错的是丙.
9.(2025·龙岩5月质检)某项科研活动共进行了5次试验,其数据如下表所示:
特征量 第1次 第2次 第3次 第4次 第5次
x 2 5 8 9 11
y 12 10 8 8 7
(1) 根据表中的数据,计算样本相关系数r;
【解答】 由题意得=xi==7,=yi==9,(xi-)(yi-)=xiyi-5 =2×12+5×10+8×8+9×8+11×7-5×7×9=-28,所以样本相关系数r===≈-0.99.
(2) 求特征量y关于x的经验回归方程,并预测当特征量x为12时特征量y的值.
参考公式:r=,
经验回归方程=x+中,=,=-.
参考数据:=5,=4,≈1.414.
【解答】 由(1)知,===-0.56,所以=-=9-(-0.56)×7=12.92,所以所求的经验回归方程是y=-0.56x+12.92.当特征量x为12时,可预测特征量y=-0.56×12+12.92=6.2.
10.(2023·全国甲卷)一项试验旨在研究臭氧效应.试验方案如下:选40只小白鼠,随机地将其中20只分配到试验组,另外20只分配到对照组,试验组的小白鼠饲养在高浓度臭氧环境,对照组的小白鼠饲养在正常环境,一段时间后统计每只小白鼠体重的增加量(单位:g).
(1) 设X表示指定的两只小白鼠中分配到对照组的只数,求X的分布列和数学期望.
【解答】 依题意,X的可能取值为0,1,2,则P(X=0)==,P(X=1)==,P(X=2)==,所以X的分布列为
X 0 1 2
P
故E(X)=0×+1×+2×=1.
(2) 试验结果如下:
对照组的小白鼠体重的增加量从小到大排序为
15.2 18.8 20.2 21.3 22.5 23.2 25.8 26.5 27.5 30.1 32.6 34.3
34.8 35.6 35.6 35.8 36.2 37.3 40.5 43.2
试验组的小白鼠体重的增加量从小到大排序为
7.8 9.2  11.4 12.4 13.2 15.5 16.5 18.0 18.8 19.2 19.8 20.2
21.6 22.8 23.6 23.9 25.1 28.2 32.3 36.5
①求40只小白鼠体重的增加量的中位数m,再分别统计两样本中小于m与不小于m的数据的个数,完成如下列联表:
<m ≥m
对照组
试验组
②根据①中的列联表,能否有95%的把握认为小白鼠在高浓度臭氧环境中与正常环境中体重的增加量有差异?
附:χ2=,n=a+b+c+d.
α 0.100 0.050 0.010
xα 2.706 3.841 6.635
【解答】 ①依题意,可知这40只小白鼠体重的增加量的中位数是将两组数据合在一起,从小到大排序后第20位与第21位数据的平均数,观察数据可得第20位为23.2,第21位为23.6,所以m==23.4.补全列联表为
<m ≥m
对照组 6 14
试验组 14 6
②零假设为H0:小白鼠在高浓度臭氧环境中与正常环境中体重的增加量没有差异.由①可得,χ2==6.4>3.841,所以能有95%的把握认为小白鼠在高浓度臭氧环境中与正常环境中体重的增加量有差异.
21世纪教育网(www.21cnjy.com)第20讲 成对数据的统计分析
基础回归
经典回眸
1.(2024·上海卷)已知气候温度和海水表层温度相关,且样本相关系数为正数,对此描述正确的是(   )
A.气候温度高,海水表层温度就高
B.气候温度高,海水表层温度就低
C.随着气候温度由低到高,海水表层温度呈上升趋势
D.随着气候温度由低到高,海水表层温度呈下降趋势
2.(人A 选必三P138 T2)对于变量Y和变量x的成对样本观测数据,用一元线性回归模型得到经验回归模型=x+,对应的残差如图所示,模型误差(   )
A.满足一元线性回归模型的所有假设
B.不满足一元线性回归模型的E(e)=0的假设
C.不满足一元线性回归模型的D(e)=σ2的假设
D.不满足一元线性回归模型的E(e)=0和D(e)=σ2的假设
3.(人A选必三P139 T3)根据分类变量x与y的成对样本数据,计算得到χ2=2.974.依据α=0.05的独立性检验,结论为(   )
α 0.10 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
A.变量x与y不独立
B.变量x与y不独立,这个结论犯错误的概率不超过0.05
C.变量x与y独立
D.变量x与y独立,这个结论犯错误的概率不超过0.05
4.某商场为了给一种新商品进行合理定价,将该商品按事先拟定的价格进行试销,得到下表所示数据.若某商品销量y(单位:件)与单价x(单位:元)之间的经验回归方程为=-20x+,且样本点(8.4,82)处的残差为2,则m=(   )
单价x/元 8.2 8.4 8.6 8.8
销量y/件 84 82 78 m
A.66 B.68
C.70 D.72
5.已知一系列样本点(xi,yi)(i=1,2,3,…,9)满足=5,=265,由最小二乘法得到y与x的经验回归方程,现用决定系数R2来判断拟合效果.若(yi-i)2=1.60,则R2=   .
要点梳理
1.样本相关系数
r =
=.
2.经验回归方程
(1) 最小二乘法:使得样本数据的点到回归直线的   最小的方法叫做最小二乘法.
(2) 两个具有线性相关关系的变量的一组数据为(x1,y1),(x2,y2),…,(xn,yn),其经验回归方程为=x+,且==,其中,是经验回归直线的斜率,是经验回归直线在y轴上的截距.经验回归直线一定过样本点的中心   .
3.独立性检验
列出的两个分类变量的频数表,称为列联表.假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(2×2列联表)如下:
y1 y2 总计
x1 a b a+b
x2 c d c+d
总计 a+c b+d a+b+c+d
则随机变量χ2=   ,其中n=   为样本容量.
举题固法
样本相关系数、残差与决定系数
例 1 (1) 甲、乙、丙、丁四名同学各自对A,B两变量的线性相关性做试验,并用回归分析方法分别求得样本相关系数r与残差平方和m如下表:
甲 乙 丙 丁
r 0.82 0.78 0.69 0.85
m 106 115 124 103
则体现A,B两变量有更强的线性相关性的是(   )
A.甲  B.乙
C.丙  D.丁
(2) (2025·烟台、东营一模)已知变量x,y线性相关,其一组样本数据(xi,yi)(i=1,2,…,9),满足xi=33,用最小二乘法得到的经验回归方程为y=2x-1.若增加一个数据(-3,3)后,得到修正后的回归直线的斜率为2.1,则数据(4,8)的残差的绝对值为(   )
A.0.1 B.0.2
C.0.3 D.0.4
(1) 样本相关系数:当r>0时,正相关;当r<0时,负相关;|r|越接近1,相关性越强.
(2) 决定系数R2越大,模型的拟合效果越好.
变式 1 (多选)某服装生产商为了解青少年的身高和体重的关系,在15岁的男生中随机抽测了10人的身高和体重,数据如下表所示.
编号 1 2 3 4 5 6 7 8 9 10
身高/cm 165 168 170 172 173 174 175 177 179 182
体重/kg 55 89 61 65 67 70 75 75 78 80
由表中数据制作成如图所示的散点图.由最小二乘法计算得到经验回归直线l1的方程为=1x+1,样本相关系数为r1,决定系数为;经过残差分析确定(168,89)为离群点(对应残差过大),把它去掉后,再用剩下的9对数据计算得到经验回归直线l2的方程为=2x+2,样本相关系数为r2,决定系数为,则以下结论正确的有(   )
A.1>2 B. 1>2
C.r1<r2 D.>
经验回归方程
例 2 按照《中华人民共和国环境保护法》的规定,每年生态环境部都会会同国家发展改革委等部门共同编制《中国生态环境状况公报》,并向社会公开发布.下表是2017—2021年五年《中国生态环境状况公报》中酸雨区面积约占国土面积的百分比(yi%):
年份 2017年 2018年 2019年 2020年 2021年
年份代码xi 1 2 3 4 5
yi 6.4 5.5 5.0 4.8 3.8
(1) 求2017—2021年年份代码xi与yi的样本相关系数(精确到0.01);
(2) 请用样本相关系数说明该组数据中y与x之间的关系可用一元线性回归模型进行描述,并求出y关于x的经验回归方程;
(3) 预测2026年的酸雨区面积占国土面积的百分比.
附:xiyi=70.6,=133.69,≈6.
求经验回归方程的步骤
变式 2 红旗淀粉厂2025年之前只生产食品淀粉,下表为年投入资金x(单位:万元)与年收益y(单位:万元)的8组数据:
x 10 20 30 40 50 60 70 80
y 12.8 16.5 19 20.9 21.5 21.9 23 25.4
(1) 用=ln x+模拟生产食品淀粉年收益y与年投入资金x的关系,求出经验回归方程;
(2) 为响应国家“加快调整产业结构”的号召,该企业又自主研发出一种药用淀粉,预计其收益为投入的10%,2025年该企业计划投入200万元用于生产两种淀粉,求年收益的最大值.(精确到0.1万元)
附:①
yi ln xi (ln xi)2 yiln xi
161 29 20 400 109 603
②ln 2≈0.7,ln 5≈1.6.
独立性检验
例 3 (2024·全国甲卷)某工厂进行生产线智能化升级改造,升级改造后,从该工厂甲、乙两个车间的产品中随机抽取150件进行检验,数据如下:
优级品 合格品 不合格品 总计
甲车间 26 24 0 50
乙车间 70 28 2 100
总计 96 52 2 150
(1) 填写如下列联表:
优级品 非优级品
甲车间
乙车间
能否有95%的把握认为甲、乙两车间产品的优级品率存在差异?能否有99%的把握认为甲、乙两车间产品的优级品率存在差异?
附:χ2=.
α 0.050 0.010 0.001
xα 3.841 6.635 10.828
(2) 已知升级改造前该工厂产品的优级品率p=0.5,设为升级改造后抽取的n件产品的优级品率.如果>p+1.65·,则认为该工厂产品的优级品率提高了,根据抽取的150件产品的数据,能否认为生产线智能化升级改造后,该工厂产品的优级品率提高了?(≈12.247)
独立性检验的一般步骤:
(1) 根据样本数据制成2×2列联表;
(2) 根据公式χ2=,n=a+b+c+d计算;
(3) 比较χ2与临界值的大小关系,作统计推断.
变式 3 (2025·全国Ⅰ卷)为研究某疾病与超声波检查结果的关系,从做过超声波检查的人群中随机调查了1 000人,得到如下列联表:
超声波检查结果 组别 正常 不正常 合计
患该疾病 20 180 200
未患该疾病 780 20 800
合计 800 200 1 000
(1) 记超声波检查结果不正常者患该疾病的概率为p,求p的估计值;
(2) 根据小概率值α=0.001的独立性检验,分析超声波检查结果是否与患该疾病有关.
附:χ2=.
α 0.050 0.010 0.001
xα 3.841 6.635 10.828
配套热练
1.(2024·天津卷)下列图中,线性相关系数最大的是(   )
      
       A       B        C       D
2.(2025·莆田二模)为了解女儿身高与其母亲身高的关系,随机抽取5对母女的身高数据如下:
母亲身高x/cm 164 166 166 166 168
女儿身高y/cm 165 165 166 167 167
根据最小二乘法,y关于x的经验回归方程为(   )
A.=x-1 B.=x+1
C.=x+83 D.=166
3.已知某独立性检验中,由χ2=,n=a+b+c+d计算出χ2=,若将2×2列联表中的数据a,b,c,d分别变成2a,2b,2c,2d,计算出χ2=,则(   )
A.= B.=2
C.=2 D.=4
4.(2025·梅州质检)某科技公司在人工智能领域逐年加大投入,根据近年来该公司对产品研发年投入额x(单位:百万元)与其年销售量y(单位:千件)的数据统计,得到散点图如图.用线性回归和指数型回归模型拟合y与x关系的决定系数分别为=0.891 3和=0.994 0,则根据参考数据,下列表达式中最适宜描述y与x之间关系的函数为(   )
参考公式:经验回归方程=u+中,=,=-.参考数据:令ωi=ln yi,
(xi-)2 (xi-)·(yi-) (xi-)·(ωi-)
3 2.5 0.5 10 12 6
A.y=1.2x-1.1 B.y=0.6x-1.3
C.y=e1.2x-1.1 D.y=e0.6x-1.3
5.(2025·济南一模)(多选)为了验证牛的毛色(黑色、红色)和角(有角、无角)这两对相对性状是否相关,某学院进行了一次数据统计,并根据形成的2×2列联表,计算得到χ2≈2.727,根据小概率值为α的独立性检验,则(   )
附:
α 0.1 0.05 0.01
xα 2.706 3.841 6.635
A.若α=0.1,则认为“毛色”和“角”无关
B.若α=0.1,则认为“毛色”和“角”有关,此推断犯错误的概率不超过10%
C.若α=0.01,则认为“毛色”和“角”无关
D.若α=0.01,则认为“毛色”和“角”有关,此推断犯错误的概率不超过1%
6.(2025·南京二模)(多选)某研究所研究耕种深度x(单位:cm)与水稻每公顷产量y(单位:t)的关系,所得数据如下表:
耕种深度x/cm 8 10 12 14 16
每公顷产量y/t 6.0 7.5 7.8 9.2 9.5
经计算可知每公顷产量y与耕种深度x的经验回归方程为=0.435x+,则下列说法中正确的是(   )
A.每公顷产量与耕种深度呈负相关
B.耕种深度的平均数为12
C.每公顷产量的平均数为7.8
D.=2.78
7.(2025·深圳一调)(多选)已知一组样本数据(xi,yi),i∈{1,2,3,…,100},其中xi>1 895,xi=2×105,yi=970,求得其经验回归方程为=-0.02x+1,残差为i.对样本数据进行处理:令x′i=ln(xi-1 895),得到新的数据(x′i,yi),求得其经验回归方程为=-0.42x+2,其残差为i.i,i分布如图所示,且~N(0,),~N(0,),则(   )
图(1) 图(2)
A.样本(xi,yi)呈负相关
B.1=49.7
C.<
D.处理后的决定系数变大
8.(2025·汕头一模)在政府发布的光伏发电补贴政策的引导下,西北某地光伏发电装机量急剧上升,现对2016年至2023年的新增光伏发电装机量进行调查,根据散点图选择了两个模型进行拟合,并得到相应的经验回归方程.为判断模型的拟合效果,甲、乙、丙三位同学进行了如下分析:
(1) 甲同学通过计算残差作出了两个模型的残差图,如图所示.
(2) 乙同学求出模型①的残差平方和为0.417 5,模型②的残差平方和为1.562 5.
(3) 丙同学求出模型①的决定系数为=0.952 0,模型②的决定系数为=0.978 1.
经检验,模型①拟合效果最佳,则甲、乙、丙三位同学中,运算结果肯定出错的同学是   .(填“甲”或“乙”或“丙”)
9.(2025·龙岩5月质检)某项科研活动共进行了5次试验,其数据如下表所示:
特征量 第1次 第2次 第3次 第4次 第5次
x 2 5 8 9 11
y 12 10 8 8 7
(1) 根据表中的数据,计算样本相关系数r;
(2) 求特征量y关于x的经验回归方程,并预测当特征量x为12时特征量y的值.
参考公式:r=,
经验回归方程=x+中,=,=-.
参考数据:=5,=4,≈1.414.
10.(2023·全国甲卷)一项试验旨在研究臭氧效应.试验方案如下:选40只小白鼠,随机地将其中20只分配到试验组,另外20只分配到对照组,试验组的小白鼠饲养在高浓度臭氧环境,对照组的小白鼠饲养在正常环境,一段时间后统计每只小白鼠体重的增加量(单位:g).
(1) 设X表示指定的两只小白鼠中分配到对照组的只数,求X的分布列和数学期望.
(2) 试验结果如下:
对照组的小白鼠体重的增加量从小到大排序为
15.2 18.8 20.2 21.3 22.5 23.2 25.8 26.5 27.5 30.1 32.6 34.3
34.8 35.6 35.6 35.8 36.2 37.3 40.5 43.2
试验组的小白鼠体重的增加量从小到大排序为
7.8 9.2  11.4 12.4 13.2 15.5 16.5 18.0 18.8 19.2 19.8 20.2
21.6 22.8 23.6 23.9 25.1 28.2 32.3 36.5
①求40只小白鼠体重的增加量的中位数m,再分别统计两样本中小于m与不小于m的数据的个数,完成如下列联表:
<m ≥m
对照组
试验组
②根据①中的列联表,能否有95%的把握认为小白鼠在高浓度臭氧环境中与正常环境中体重的增加量有差异?
附:χ2=,n=a+b+c+d.
α 0.100 0.050 0.010
xα 2.706 3.841 6.635
21世纪教育网(www.21cnjy.com)(共62张PPT)
专题五
统计与概率
第20讲 成对数据的统计分析
基础回归
1.
(2024·上海卷)已知气候温度和海水表层温度相关,且样本相关系数为正数,对此描述正确的是 (  )
A.气候温度高,海水表层温度就高
B.气候温度高,海水表层温度就低
C.随着气候温度由低到高,海水表层温度呈上升趋势
D.随着气候温度由低到高,海水表层温度呈下降趋势
C
对于A,B,当气候温度高,海水表层温度变高变低不确定,故A,B错误.
对于C,D,因为样本相关系数为正,所以随着气候温度由低到高时,海水表层温度呈上升趋势,故C正确,D错误.
【解析】
2.
【答案】C
【解析】
3.
(人A选必三P139 T3)根据分类变量x与y的成对样本数据,计算得到χ2=2.974.依据α=0.05的独立性检验,结论为 (  )
A.变量x与y不独立
B.变量x与y不独立,这个结论犯错误的概率不超过0.05
C.变量x与y独立
D.变量x与y独立,这个结论犯错误的概率不超过0.05
C
α 0.10 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
因为χ2=2.974<x0.05=3.841,所以变量x与y独立,又2.706<2.974<3.841,所以这个结论犯错误的概率不超过0.1.
【解析】
4.
B
【解析】
单价x/元 8.2 8.4 8.6 8.8
销量y/件 84 82 78 m
5.
【解析】
0.96
距离的平方
3.独立性检验
列出的两个分类变量的频数表,称为列联表.假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(2×2列联表)如下:
则随机变量χ2=_________________________,其中n=______________为样本容量.
y1 y2 总计
x1 a b a+b
x2 c d c+d
总计 a+c b+d a+b+c+d
a+b+c+d
举题固法
样本相关系数、残差与决定系数
目标
1
(1) 甲、乙、丙、丁四名同学各自对A,B两变量的线性相关性做试验,并用回归分析方法分别求得样本相关系数r与残差平方和m如下表:
则体现A,B两变量有更强的线性相关性的是 (  )
A.甲       B.乙       C.丙       D.丁
1
甲 乙 丙 丁
r 0.82 0.78 0.69 0.85
m 106 115 124 103
【答案】D
在验证两个变量之间的线性相关关系时,样本相关系数的绝对值越接近1,相关性越强,在四个选项中丁的样本相关系数的绝对值最大.残差平方和越小,相关性越强,丁的残差平方和最小.
综上可知,丁的试验结果体现了A,B两变量有更强的线性相关性.
【解析】
A
【解析】
(1) 样本相关系数:当r>0时,正相关;当r<0时,负相关;|r|越接近1,相关性越强.
(2) 决定系数R2越大,模型的拟合效果越好.
变式1 
编号 1 2 3 4 5 6 7 8 9 10
身高/cm 165 168 170 172 173 174 175 177 179 182
体重/kg 55 89 61 65 67 70 75 75 78 80
【答案】AC
【解析】
经验回归方程
目标
2
2
年份 2017年 2018年 2019年 2020年 2021年
年份代码xi 1 2 3 4 5
yi 6.4 5.5 5.0 4.8 3.8
【解答】
2
年份 2017年 2018年 2019年 2020年 2021年
年份代码xi 1 2 3 4 5
yi 6.4 5.5 5.0 4.8 3.8
【解答】
2
年份 2017年 2018年 2019年 2020年 2021年
年份代码xi 1 2 3 4 5
yi 6.4 5.5 5.0 4.8 3.8
【解答】
求经验回归方程的步骤
变式2 
x 10 20 30 40 50 60 70 80
y 12.8 16.5 19 20.9 21.5 21.9 23 25.4
161 29 20 400 109 603
【解答】
红旗淀粉厂2025年之前只生产食品淀粉,下表为年投入资金x(单位:万元)与年收益y(单位:万元)的8组数据:
变式2 
x 10 20 30 40 50 60 70 80
y 12.8 16.5 19 20.9 21.5 21.9 23 25.4
(2) 为响应国家“加快调整产业结构”的号召,该企业又自主研发出一种药用淀粉,预计其收益为投入的10%,2025年该企业计划投入200万元用于生产两种淀粉,求年收益的最大值.(精确到0.1万元)
附:ln 2≈0.7,ln 5≈1.6.
【解答】
独立性检验
目标
3
(2024·全国甲卷)某工厂进行生产线智能化升级改造,升级改造后,从该工厂甲、乙两个车间的产品中随机抽取150件进行检验,数据如下:
3
优级品 合格品 不合格品 总计
甲车间 26 24 0 50
乙车间 70 28 2 100
总计 96 52 2 150
(1) 填写如下列联表:
优级品 非优级品
甲车间
乙车间
α 0.050 0.010 0.001
xα 3.841 6.635 10.828
根据题意可得到联表如下:
【解答】
优级品 非优级品
甲车间 26 24
乙车间 70 30
(2024·全国甲卷)某工厂进行生产线智能化升级改造,升级改造后,从该工厂甲、乙两个车间的产品中随机抽取150件进行检验,数据如下:
3
优级品 合格品 不合格品 总计
甲车间 26 24 0 50
乙车间 70 28 2 100
总计 96 52 2 150
【解答】
(2025·全国Ⅰ卷)为研究某疾病与超声波检查结果的关系,从做过超声波检查的人群中随机调查了1 000人,得到如下列联表:
(1) 记超声波检查结果不正常者患该疾病的概率为p,求p的估计值;
变式3 
【解答】
超声波检查结果
组别 正常 不正常 合计
患该疾病 20 180 200
未患该疾病 780 20 800
合计 800 200 1 000
变式3 
超声波检查结果
组别 正常 不正常 合计
患该疾病 20 180 200
未患该疾病 780 20 800
合计 800 200 1 000
α 0.050 0.010 0.001
xα 3.841 6.635 10.828
【解答】
热练
1.
(2024·天津卷)下列图中,线性相关系数最大的是 (  )
A
【解析】
A
B
C
D
2.
C
【解析】
母亲身高x/cm 164 166 166 166 168
女儿身高y/cm 165 165 166 167 167
3.
B
【解析】
4.
3 2.5 0.5 10 12 6
【答案】D
【解析】
5.
(2025·济南一模)(多选)为了验证牛的毛色(黑色、红色)和角(有角、无角)这两对相对性状是否相关,某学院进行了一次数据统计,并根据形成的2×2列联表,计算得到χ2≈2.727,根据小概率值为α的独立性检验,则 (  )
附:
A.若α=0.1,则认为“毛色”和“角”无关
B.若α=0.1,则认为“毛色”和“角”有关,此推断犯错误的概率不超过10%
C.若α=0.01,则认为“毛色”和“角”无关
D.若α=0.01,则认为“毛色”和“角”有关,此推断犯错误的概率不超过1%
α 0.1 0.05 0.01
xα 2.706 3.841 6.635
【答案】BC
若α=0.1,因为2.706<2.727,所以认为“毛色”和“角”有关,此推断犯错误的概率不超过10%,故A错误,B正确;
若α=0.01,因为6.635>2.727,所以认为“毛色”和“角”无关,故C正确,D错误.
【解析】
6.
耕种深度x/cm 8 10 12 14 16
每公顷产量y/t 6.0 7.5 7.8 9.2 9.5
【答案】BD
【解析】
7.
图(1)
图(2)
【答案】ABD
【解析】
8.
【答案】丙
甲的残差图中,模型①的残差点更均匀地分布在以横轴为对称轴的水平带状区域内,且水平带状区域更窄,说明模型①拟合效果更好.残差平方和越大,即决定系数越小,说明数据点越离散,所以乙的计算结果显示模型①的拟合效果更好,而丙的计算结果显示模型②的拟合效果更好,所以出错的是丙.
【解析】
9.
特征量 第1次 第2次 第3次 第4次 第5次
x 2 5 8 9 11
y 12 10 8 8 7
【解答】
9.
特征量 第1次 第2次 第3次 第4次 第5次
x 2 5 8 9 11
y 12 10 8 8 7
【解答】
10.
(2023·全国甲卷)一项试验旨在研究臭氧效应.试验方案如下:选40只小白鼠,随机地将其中20只分配到试验组,另外20只分配到对照组,试验组的小白鼠饲养在高浓度臭氧环境,对照组的小白鼠饲养在正常环境,一段时间后统计每只小白鼠体重的增加量(单位:g).
(1) 设X表示指定的两只小白鼠中分配到对照组的只数,求X的分布列和数学期望.
【解答】
X 0 1 2
P
10.
(2023·全国甲卷)一项试验旨在研究臭氧效应.试验方案如下:选40只小白鼠,随机地将其中20只分配到试验组,另外20只分配到对照组,试验组的小白鼠饲养在高浓度臭氧环境,对照组的小白鼠饲养在正常环境,一段时间后统计每只小白鼠体重的增加量(单位:g).
(2) 试验结果如下:
对照组的小白鼠体重的增加量从小到大排序为
15.2 18.8 20.2 21.3 22.5 23.2 25.8 26.5 27.5 30.1 32.6 34.3 34.8 35.6 35.6 35.8 36.2 37.3 40.5 43.2
试验组的小白鼠体重的增加量从小到大排序为
7.8 9.2 11.4 12.4 13.2 15.5 16.5 18.0 18.8 19.2 19.8 20.2 21.6 22.8 23.6 23.9 25.1 28.2 32.3 36.5
①求40只小白鼠体重的增加量的中位数m,再分别统计两样本中小于m与不小于m的数据的个数,完成如下列联表:
<m ≥m
对照组
试验组
α 0.100 0.050 0.010
xα 2.706 3.841 6.635
【解答】
<m ≥m
对照组 6 14
试验组 14 6
10.
(2023·全国甲卷)一项试验旨在研究臭氧效应.试验方案如下:选40只小白鼠,随机地将其中20只分配到试验组,另外20只分配到对照组,试验组的小白鼠饲养在高浓度臭氧环境,对照组的小白鼠饲养在正常环境,一段时间后统计每只小白鼠体重的增加量(单位:g).
(2) 试验结果如下:
对照组的小白鼠体重的增加量从小到大排序为
15.2 18.8 20.2 21.3 22.5 23.2 25.8 26.5 27.5 30.1 32.6 34.3 34.8 35.6 35.6 35.8 36.2 37.3 40.5 43.2
试验组的小白鼠体重的增加量从小到大排序为
7.8 9.2 11.4 12.4 13.2 15.5 16.5 18.0 18.8 19.2 19.8 20.2 21.6 22.8 23.6 23.9 25.1 28.2 32.3 36.5
②根据①中的列联表,能否有95%的把握认为小白鼠在高浓度臭氧环境中与正常环境中体重的增加量有差异?
<m ≥m
对照组
试验组
α 0.100 0.050 0.010
xα 2.706 3.841 6.635
【解答】

展开更多......

收起↑

资源列表