8.2.2 一元线性回归模型参数的最小二乘估计(大单元教学课件)(共78张PPT)(人教A版2019选择性必修第三册)

资源下载
  1. 二一教育资源

8.2.2 一元线性回归模型参数的最小二乘估计(大单元教学课件)(共78张PPT)(人教A版2019选择性必修第三册)

资源简介

(共78张PPT)
人教A版(2019)选择性必修第三册
第八章 成对数据的统计分析
8.2.2 一元线性回归模型参数的最小二乘估计
目录
学习目标
01
情景导入
02
新知探究
03
课本例题
04
05
课本练习
06
题型探究
方法归纳
08
07
课本习题
课堂小结
学习目标
1.进一步掌握一元线性回归模型参数的统计意义,会用相关统计软件.
2.了解非线性回归模型.
3.会通过分析残差和利用R2判断回归模型的拟合效果.
在实际问题中,有时两个变量之间的关系并不是线性关系,这就需要运用散点图选择适当的函数模型来拟合观测数据,然后通过适当的变量代换,把非线性问题转化为线性问题,从而确定未知参数,建立相应的线性回归方程.
情景导入
在一元线性回归模型中,表达式Y=bx+a+e刻画的是变量Y与变量x之间的线性相关关系,其中参数a和b未知,需要根据成对样本数据进行估计. 由模型的建立过程可知,参数a和b刻画了变量Y与变量x的线性关系,因此通过成对样本数据估计这两个参数,相当于寻找一条适当的直线,使表示成对样本数据的这些散点在整体上与这条直线最接近.
探究 利用散点图找出一条直线,使各散点在整体上与此直线尽可能接近.
新知探究
方法一:采用测量的方法,先画出一条直线,测量出各点与它的距离,然后移动直线,到达一个使距离的和最小的位置. 然后测量出此时的斜率和截距,就可得到一 条直线,如图(1)所示.
方法二: 在图中选择这样的两点画直线,使得直线两侧的点的个数基本相同,把这条直线作为所求直线,如图(2)所示.
方法三:在散点图中多取几对点,确定出几条直线的方程,再分别求出这些直线的斜率、截距的平均数,将这两个平均数作为所求直线的斜率和截距,如图(3)所示.
上面这些方法虽然有一定的道理,但比较难操作,我们需要另辟蹊径.
先进一步明确我们面临的任务: 从成对样本数据出发,用数学的方法刻画“从整体上看,各散点与直线最接近”.
通常,我们会想到利用点到直线y=bx+a的“距离”来刻画散点与该直线的接近程度,然后用所有“距离”之和刻画所有样本观测数据与该直线的接近程度.
归纳总结
设满足一元线性回归模型的两个变量的n对样本数据为(x1, y1), (x2, y2), ???, (xn, yn), 由yi=bxi+a+ei (i=1, 2, ???, n),得
显然|ei|越小,表示点(xi , yi)与点(xi , bxi+a)的“距离”越小,即样本数据点离直线y=bx+a的竖直距离越小,如右图所示. 特别地,当ei = 0时,表示点(xi , yi)在这条直线上.
因此,可以用这n个竖直距离之和 来刻画各样本观测数据与直线y=bx+a的“整体接近程度”.
在实际应用中,因为绝对值使得计算不方便,所以人们通常用各散点到直线的竖直距离的平方之和
来刻画“整体接近程度”.
所以我们可以取使Q达到最小的a和b的值作为截距和斜率的估计值.
要使Q取到最小值,则
∴要使Q取得最小值,当且仅当b的取值为
综上,当a, b的取值为
时,Q达到最小.
经验回归方程与最小二乘估计:
编号
1
2
3
4
5
6
7
8
9
10
11
12
13
14
父亲身高/cm
174
170
173
169
182
172
180
172
168
166
182
173
164
180
儿子身高/cm
176
176
170
170
185
176
178
174
170
168
178
172
165
182
对于上表中的数据,利用公式(2)可以计算出 得到儿子身高Y关于父亲身高x的经验回归方程为 相应的经验回归直线如下图所示.
求经验回归方程的步骤:
归纳总结
思考1 已知儿子身高关于父亲身高x的经验回归方程为
如果一位父亲的身高为176cm,他儿子长大成人后的身高一定是177cm吗? 为什么?
显然不一定,因为还有其他影响儿子身高的因素,父亲身高不能完全决定儿子身高. 不过,我们可以作出推测,当父亲身高为176cm时,儿子身高一般在177cm左右.
实际上,如果把这所学校父亲身高为176cm的所有儿子身高作为一个子总体,那么177cm是这个子总体的均值的估计值.
这里的经验回归方程 其斜率可以解释为父亲身高每增加1 cm,其儿子身高平均增加0.839cm. 分析模型还可以发现,高个子父亲有生高个子儿子的趋势,但一群高个子父亲的儿子们的平均身高要低于父亲们的平均身高,例如 x=185(cm),则 =184.172(cm).
矮个子父亲有生矮个子儿子的趋势,但一群矮个子父亲的儿子们的平均身高要高于父亲们的平均身高,例如 x=170(cm),则 =171.587(cm).
对于响应变量Y,通过观测得到的数据称为观测值,通过经验回归方程得到的)称为预测值,观测值减去预测值称为残差. 残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.
残差分析:
例如,对于下表中的第6个观测,父亲身高为172cm,其儿子身高的观测值为y6=176(cm),预测值为 残差为176-173.265=2.735(cm).
编号
1
2
3
4
5
6
7
8
9
10
11
12
13
14
父亲身高/cm
174
170
173
169
182
172
180
172
168
166
182
173
164
180
儿子身高/cm
176
176
170
170
185
176
178
174
170
168
178
172
165
182
类似地,我们还可以得到其他的残差,如下表所示.
编号
父亲身高/cm
儿子身高观测值/cm
儿子身高预测值/cm
残差/cm
1
174
176
174.943
1.057
2
170
176
171.587
4.413
3
173
170
174.104
-4.104
4
169
170
170.748
-0.748
5
182
185
181.655
3.345
6
172
176
173.265
2.735
7
180
178
179.977
-1.977
8
172
174
173.265
0.735
9
168
170
169.909
0.091
10
166
168
168.231
-0.231
11
182
178
181.655
-3.655
12
173
172
174.104
-2.104
13
164
165
66.553
-1.553
14
180
182
179.977
2.023
残差表:
为了使数据更加直观,用父亲身高作为横坐标,残差作为纵坐标,可以画出残差图,如图下所示.
残差图:
0
1
2
3
4
5
-1
-2
-3
-4
-5
160
165
170
175
180
185
残差/cm
父亲身高/cm
?
?
?
?
?
?
?
?
?
?
?
?
?
?
观判断模型是否满足一元线性回归模型的假设.
一般地,建立经验回归方程后,通常需要对模型刻画数据的效果进行分析.借助残差分析还可以对模型进行改进,使我们能根据改进模型作出更符合实际的预测与决策.
观察残差的散点图可以发现,残差比较均匀地分布在横轴的两边. 说明残差比较符合一元线性回归模型的假定,是均值为0、方差为σ2的随机变量的观测值. 可见,通过观察残差图可以直
思考2 观察下列四幅残差图,你认为哪一个残差满足一元线性回归模型中对随机误差的假定?
通过观察发现,图(4)的残差比较均匀地分布在以取值为0的横轴为对称轴的水平带状区域内. 所以在四幅残差图中,只有图(4)满足一元线性回归模型对随机误差的假设.
1. 对一元线性回归模型参数a和b的估计中,有人认为:“估计方法不止一种,根据不同的样本观测数据到直线‘ 整体接近程度’的定义,可以得到参数a和b不同的估计,只要‘整体接近程度’定义合理即可.”你觉得这个说法对吗?
这个说法是对的. 选择刻画散点趋势的直线可以有不同的标准,取决于“整体接近程度”的定义,定义不同,得到参数a和b的估计往往也不同. 例如,我们可以用 刻画“整体接近程度”得到参数a和b的最小二乘估计,也可以用 刻画“整体接近程度”得到参数a和b的估计,二者估计的结果一般不同.
解:
课堂练习
∴估计女儿的身高为168 cm左右.
2. 假如女儿身高y (单位: cm)关于父亲身高x (单位: cm)的经验回归方程为
已知父亲身高为175 cm,请估计女儿的身高.
解:
解:先画人体的脂肪含量与年龄的散点图,如图(1)所示. 由散点图可以发现人体的脂肪含量与年龄呈现近似线性关系,可以用一元线性回归模型刻画.
3. 根据下表数据,建立人体的脂肪含量关于年龄的经验回归方程,画出残差图,描述残差图的特点.
编号
1
2
3
4
5
6
7
8
9
10
11
12
13
14
年龄/岁
23
27
39
41
45
49
50
53
54
56
57
58
60
61
脂肪含量/%
9.5
17.8
21.2
25.9
27.5
26.3
28.2
29.6
30.2
31.4
30.8
33.5
35.2
34.6
(1)
用y表示脂肪含量,x工表示年龄. 用统计软件计算,可得到人体的脂肪含量关于年龄的经验回归方程为
解:
3. 根据下表数据,建立人体的脂肪含量关于年龄的经验回归方程,画出残差图,描述残差图的特点.
编号
1
2
3
4
5
6
7
8
9
10
11
12
13
14
年龄/岁
23
27
39
41
45
49
50
53
54
56
57
58
60
61
脂肪含量/%
9.5
17.8
21.2
25.9
27.5
26.3
28.2
29.6
30.2
31.4
30.8
33.5
35.2
34.6
画残差图,如图(2)所示,通过残差图可以看到,残差比较均匀地分布在横轴的两边. 说明残差比较符合一元线性回归模型对随机误差的假设.
0
1
2
3
4
-1
-2
-3
-4
0
10
20
30
40
50
残差/cm
年龄
?
?
?
?
?
?
?
?
60
70
?
?
?
?
?
?
(2)
经计算可知残差的总和为0.027. 但是
4. 计算表8.2-2中的所有残差之和,你能发现什么规律?
解:
即理论上残差的总和应等于0,这个误差是由于计算过程中四舍五入的原因导致.
解:
5. 假设变量x与变量Y的n对观测数据为(x1, y1),(x2, y2),???,(xn, yn),两个变量满足一元线性回归模型
请写出参数b的最小二乘估计.
则Q是关于b的二次函数. 要使Q小值,当且仅当b的取值为
例 经验表明,一般树的胸径 (树的主干在地面以上1.3m处的直径)越大, 树就越高 . 由于测量树高比测量胸径困难,因此研究人员希望由胸径预测树高 . 在研究树高与胸径之间的关系时,某林场收集了某种树的一些数据如下表,试根据这些数据建立树高关于胸径的经验回归方程.
编号
1
2
3
4
5
6
胸径/cm
18.1
20.1
22.2
24.4
26.0
28.3
树高/m
18.8
19.2
21.0
21.0
22.1
22.1
编号
7
8
9
10
11
12
胸径/cm
29.6
32.4
33.7
35.7
38.3
40.2
树高/m
22.4
22.6
23.0
24.3
23.9
24.7
例题讲解
解: 以胸径为横坐标,树高为纵坐标
作散点图如下:
在右图中,散点大致分布在一条从左下角到右上角的直线附近,表明两个变量线性相关,并且是正相关,因此可以用一元线性回归模型刻画树高与胸径之间的关系.
用d表示胸径 , h表示树高 , 根据据最小二乘法 , 计算可得经验回归方程为
相应的经验回归直线如图所示.
分析:因为要由胸径预测树高,所以要以成对样本数据的胸径为横坐标、树高为纵坐标描出散点,进而得到散点图,再根据散点图推断树高与胸径是否线性相关 . 如果是,再利用公式计算出????,????即可.
?
编号
胸径/cm
树高观测值/m
树高预测值/m
残差/m
1
18.1
18.8
19.4
-0.6
2
20.1
19.2
19.9
-0.7
3
22.2
21.0
20.4
0.6
4
24.4
21.0
20.9
0.1
5
26.0
22.1
21.3
0.8
6
28.3
22.1
21.9
0.2
7
29.6
22.4
22.2
0.2
8
32.4
22.6
22.9
-0.3
9
33.7
23.0
23.2
-0.2
10
35.7
24.3
23.7
0.6
11
38.3
23.9
24.4
-0.5
12
40.2
24.7
24.9
-0.2
根据经验回归方程,由胸径的数据可以计算出树高的预测值(精确到0.1)以及相应的残差,如下表所示.
以胸径为横坐标, 残差为纵坐标, 作残差图, 得到下图.
观察残差表和残差图,可以看到,残差的绝对值最大是0.8,所有残差分布在以横轴为对称轴、宽度小于2的带状区域内 . 可见经验回归方程较好地刻画了树高与胸径的关系,我们可以根据经验回归方程由胸径预测树高.
0
0.5
1.0
-0.5
-1.0
15
20
25
30
35
40
残差/m
胸径/cm
?
?
?
?
?
?
?
?
?
?
?
?
?
?
45
(2)
问题 人们常将男子短跑100m的高水平运动员称为“百米飞人”. 下表给出了1968年之前男子短跑100m世界纪录产生的年份和世界纪录的数据. 试依据这些成对数据,建立男子短跑100m世界纪录关于纪录产生年份的经验回归方程.
编号
1
2
3
4
5
6
7
8
年份
1896
1912
1921
1930
1936
1956
1960
1968
记录/s
11.80
10.60
10.40
10.30
10.20
10.10
10.00
9.95
1. 画散点图:
由散点图可知,散点看上去大致分布在一条直线附近,似乎可用一元线性回归模型
建立经验回归方程.
根据最小二乘法,由表中数据可得经验回归
方程为
2. 求经验回归方程:
将经验回归方程叠加到散点图,如图(3)所示.
由图形可知,第一点远离经验回归直线,并且前后两时间段中的散点都在经验回归直线的上方,中间时间段的散点都在经验回归直线的下方. 这说明散点并不是随机分布在经验回归直线的周围,而是围绕着经验回归直线有一定的变化规律,即成对样本数据呈现出明显的非线性相关的特征.
3. 修改模型:
对模型进行修改,以使其更好地反映散点的分布特征.
仔细观察图形,可以发现散点更趋向于落在中间下凸且递减的某条曲线附近. 回顾已有的函数知识,可以发现函数y=-lnx的图象具有类似的形状特征. 注意到100m短跑的第一个世界纪录产生于1896年,因此可以认为散点是集中在曲线 的周围. 其中c1和c2为未知参数,且c2 < 0.
用上述函数刻画数据变化的趋势,这是一个非线性经验回归函数,其中c1, c2 是待定参数. 现在问题转化为如何利用成对数据估计参数c1和c2.
为了利用一元线性回归模型估计参数c1和c2,我们引进一个中间变量x,令x=ln(t-1895). 通过x=ln(t-1895),将年份变量数据进行变换,得到新的成对数据(精确到0.01),如下表所示.
编号
1
2
3
4
5
6
7
8
x
0.00
2.83
3.26
3.56
3.71
4.11
4.17
4.29
Y/s
11.80
10.60
10.40
10.30
10.20
10.10
10.00
9.95
作出上表的散点图:
由散点图可知,现在散点的分布呈现出很强的线性相关特征,故可以一元线性回归模型
建立经验回归方程.
因此,用一元线性回归模型
拟合上表中的数据,得到经验回归方程
在上图中画出经验回归直线,如图所示.
在同一坐标系中画出成对数据散点图、非线性经验回归方程②的图像(蓝色)以及经验回归方程①的图像(红色),如图所示.

我们发现,散点图中各散点都非常靠近②的图像, 表明非线性经验回归方程②对于原始数据的拟合效果远远好于经验回归方程①.
下面通过残差来比较这两个经验回归方程对数据刻画的好坏.
用ti表示编号为i的年份数据,用yi表示编号为i的纪录数据,则经验
回归方程①和②的残差计算公式分别为
两个经验回归方程的残差(精确到0.001)如下表所示.
观察各项残差的绝对值,发现经验回归方程②远远小于①,即经验回归方程②的拟合效果要远远好于①.
编号
1
2
3
4
5
6
7
8
t
1896
1912
1921
1930
1936
1956
1960
1968
0.591
-0.284
-0.301
-0.218
-0.196
0.111
0.092
0.205
-0.001
0.007
-0.012
0.015
-0.018
0.052
-0.021
-0.022
在一般情况下,直接比较两个模型的残差比较困难,因为在某些
散点上一个模型的残差的绝对值比另一个模型的小,而另一些散点的情况则相反. 可以通过比较残差的平方和来比较两个模型的效果. 由
可知Q2小于Q1. 因此在残差平方和最小的标准下,非线性回归模型
的拟合效果要优于一元线性回归模型的拟合效果.
决定系数R2:
通过前面的讨论我们知道,当残差的平方和越小,经验回归模型的拟合效果就越好,故我们可以用决定系数R2来验证模型的拟合效果.
决定系数R2的计算公式为
在R2表达式中,由于 与经验回归方程无关,残差平方和
与经验回归方程有关,因此R2越大,表示残差平方和越小,即模型的拟合效果越好; R2越小,表示残差平方和越大,即模型的拟合效果越差.
决定系数R2:
决定系数是总偏差平方和中回归平方和所占的比重. 显然0≤R2≤1,R2越接近1,则线性回归刻画的效果越好.
还可以证明,在一元线性回归模型中R2=r2,即决定系数R2等于响应变量与解释变量的样本相关系数r的平方.
回归平方和
总偏差平方和
编号
1
2
3
4
5
6
7
8
t
1896
1912
1921
1930
1936
1956
1960
1968
0.591
-0.284
-0.301
-0.218
-0.196
0.111
0.092
0.205
-0.001
0.007
-0.012
0.015
-0.018
0.052
-0.021
-0.022
由上述残差表可算出经验回归方程①和②的决定系数R2分别为
由于 因此经验回归方程②的刻画效果比经验回归方程①的好很多.
在使用经验回归方程进行预测时,需注意以下问题
1.回归方程只适用于我们所研究的样本的总体;
2.我们所建立的回归方程一般都有时间性;
3.样本采集的范围会影响回归方程的适用范围;
4.不能期望回归方程得到的预报值就是预报变量的精确值. 事实上, 它是预报变量的可能取值的平均值.
归纳总结
1. 在回归分析中,分析残差能够帮助我们解决哪些问题?
解:分析残差可以帮助我们解决以下几个问题:
(1) 寻找残差明显比其他残差大很多的异常点,如果有,检查相应的样本数据是否有错.
(2) 分析残差图可以诊断选择的模型是否合适,如果不合适,可以参考残差图提出修改模型的思路.
课堂练习
(1)作GDP和年份的散点图,根据该图猜想它们之间的关系可以用什么模型描述;
2. 1997-2006 年我国的国内生产总值(GDP)的数据如下:
年份
GDP/亿元
年份
GDP/亿元
1997
79715.0
2002
121727.4
1998
85195.5
2003
137422.0
1999
90564.4
2004
161840.2
2000
100280.1
2005
187318.9
2001
110863.1
2006
219438.5
解:(1) 画GDP与年份的散点图,如图所示,可以观察到随着年份的增加GDP也随之增加,GDP值与年份呈现近似线性关系,可以用一元线性回归模型刻画.
(2) 建立年份为解释变量, GDP为响应变量的一元线性回归模型, 并计算残差;
(3) 根据你得到的一元线性回归模型,预测2017年的GDP,看看你的预测值与实际的GDP的误差是多少;
2. 1997-2006 年我国的国内生产总值(GDP)的数据如下:
解:(2) 用y表示GDP的值,t表示年份,用一元线性回归模型拟合数据,用统计软件计算,得到经验回归方程为
残差的计算结果见下表.
年份
1997
1998
1999
2000
2001
2002
2003
2004
2005
2006
残差
17126
7752
-1734
-6873
-11145
-15145
-14296
-4732
5892
23157
(3) 2017年的GDP预报值为359684亿元,2017年的实际的GDP为820754亿元,预测值比实际值少461070亿元.
(4) 你认为这个模型能较好地刻画GDP和年份的关系吗? 请说明理由.
2. 1997-2006 年我国的国内生产总值(GDP)的数据如下:
解:(4)上面建立的回归方程的R2=0.9213,说明在1997-2006 年内,该模型年份能够解释92.13%的GDP值变化,因此所建立的模型较好地刻画了GDP和年份的关系. 但因为残差呈现一定的规律性,中间是负数,两边是正数,所以可以考虑用非线性回归模型拟合数据.
(5)随着时间的发展,又收集到2007-2016年的GDP数据如下:
建立年份(1997-2016)为解释变量,GDP为响应变量的经验回归方程,并预测2017年的GDP,与实际的GDP误差是多少? 你能发现什么?
年份
GDP/亿元
年份
GDP/亿元
2007
270232.3
2012
540367.4
2008
319515.5
2013
595244.4
2009
349081.4
2014
643974.0
2010
413030.3
2015
689052.1
2011
489300.6
2016
744127.2
解:(5) 仍用y表示GDP的值,
t表示年份,用一元线性回归模型拟合1997- 2016年的数据,用统计软件计算,得到经验回归方程为 利用上述模型,预测2017年的GDP值为704025亿元,而2017年GDP的实际值820754亿元,预测值比实际值少116729亿元通过两个模型预测2017年的GDP值,发现第2个模型预测的更准确,说明建立的模型自变量的取值范围决定了模型的适用范围,通常不能超出太多,否则会出现较大的误差.
【例1】为研究重量x(单位:克)对弹簧长度y(单位:厘米)的影响,对不同重量的6个物体进行测量,数据如下表所示:
题型1 线性回归分析
x
5
10
15
20
25
30
y
7.25
8.12
8.95
9.90
10.9
11.8
(1)作出散点图并求经验回归方程;
(2)求出R2;
(3)进行残差分析.
题型探究方法归纳
解:(1)散点图如图所示:
刻画回归效果的三种方法
(1)残差图法,残差点比较均匀地落在水平的带状区域内,则说明选用的模型比较合适.
【例2】下表为收集到的一组数据:
题型2 非线性回归
x
21
23
25
27
29
32
35
y
7
11
21
24
66
115
325
(1)作出x与y的散点图,并猜测x与y之间的关系;
(2)建立x与y的关系,预报回归模型并计算残差;
(3)利用所得模型,预报x=40时y的值.
解:(1)作出散点图如下图,从散点图可以看出x与y不具有线性相关关系,根据已有知识可以发现样本点分布在某一条指数函数曲线y=c1ec2x的周围,其中c1,c2为待定的参数.
(2)对两边取对数把指数关系变为线性关系,令z=ln y,则有变换后的样本点应分布在直线z=bx+a(a=ln c1,b=c2)的周围,这样就可以利用线性回归模型来建立y与x之间的非线性回归方程了,数据可以转化为
x
21
23
25
27
29
32
35
z
1.946
2.398
3.045
3.178
4.190
4.745
5.784
残差表如下:
(3)当x=40时,y=e0.272×40-3.849≈1 131.
非线性回归问题的处理方法
(1)指数函数型y=ebx+a
①函数y=ebx+a的图象如图所示:



②处理方法:两边取对数得ln y=ln ebx+a,即ln y=bx+a.令z=ln y,把原始数据(x,y)转化为(x,z),再根据线性回归模型的方法求出a,b.
(2)对数函数型y=bln x+a
①函数y=bln x+a的图象如图所示:


②处理方法:设x′=ln x,原方程可化为y=bx′+a,再根据线性回归模型的方法求出a,b.
(3)y=bx2+a型
处理方法:设x′=x2,原方程可化为y=bx′+a,再根据线性回归模型的方法求出a,b.
【例3】在一次抽样检查中,抽得5个样本点,相关数据如下表.
易错警示 忽视线性相关性的分析致误
x
0.25
0.5
1
2
4
y
16
12
5
2
1
试建立y关于x的回归方程.
易错防范:本题直接取已知数据求线性回归方程,没有画出散点图或对样本相关系数r进行相关性检验,而本题的两个变量恰好不具有线性相关关系.
1.如果散点图中所有的散点都落在一条斜率为非0的直线上,请回答下列问题:
(1)解释变量和响应变量的关系是什么?
(2)R2是多少?
(1)解释变量和响应变量是线性函数关系.
习题
2.一个车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了10次试验,收集数据如表所示.
零件数/个
10
20
30
40
50
60
70
80
90
100
加工时间/min
62
68
75
81
89
95
102
108
115
122
(1)画出散点图;
(2)建立加工时间关于零件数的一元线性回归模型;
(3)关于加工零件的个数与加工时间,你能得出什么结论?
3.根据8.1.2节例2中某城市居民年收入与A商品销售额的数据:
(1)建立A商品销售额关于居民年收入的一元线性回归模型;
(2)如果这座城市居民的年收入达到40亿元,估计A商品的销售额是多少.
第n年
1
2
3
4
5
6
7
8
9
10
居民年收入/亿元
32.2
31.1
32.9
35.8
37.1
38.0
39.0
43.0
44.6
46.0
A商品销售额/万元
25.0
30.0
34.0
37.0
39.0
41.0
42.0
44.0
48.0
51.0
A商品销售额/万元
年份
总人口 /万人
年份
总人口 /万人
年份
总人口 /万人
年份
总人口 /万人
年份
总人口 /万人
1949
54167
1976
93717
1988
111026
2000
126743
2012
135404
1950
55196
1977
94974
1989
112704
2001
127627
2013
136072
1951
56300
1978
96259
1990
114333
2002
128453
2014
136782
1955
61465
1979
97542
1991
115823
2003
129227
2015
137462
1960
66207
1980
98705
1992
117171
2004
129988
2016
138271
1965
72538
1981
100072
1993
118517
2005
130756
1970
82992
1982
101654
1994
119850
2006
131448
1971
85229
1983
103008
1995
121121
2007
132129
1972
87177
1984
104357
1996
122389
2008
132802
1973
89211
1985
105851
1997
123626
2009
133450
1974
90859
1986
107507
1998
124761
2010
134091
1975
92420
1987
109300
1999
125786
2011
134735
4.人口问题是关乎国计民生的大问题.下表是1949—2016年我国的人口总数(摘自中国统计年鉴—2017)
(1)画出散点图;
(2)建立总人口数关于年份的一元线性回归模型;
(3)直接用上面建立的回归模型预测2020年的我国人口总数,得到的结果合理吗?为什么?
年份
总人口/万人
(1)画人口总数与年份的散点图,如图所示.
年份
总人口/万人
(3)利用经验回归方程得到2020年我国人口总数的预测值为149850万人.得到的这个预测结果不合理.将拟合直线画在散点图上,可以看到,2000年以后,我国人口总数的增长速度逐渐平稳且呈下降趋势,因此运用上述经验回归模型预测2020年我国的人口总数会出现高估.也可以通过观察残差图,看到残差具有中间为正,两边为负的特点.可以考虑用其他统计模型拟合数据.
5.在某地区的一段时间内观测到的不小于某震级x的地震数N的数据如下表:
震级x
3.0
3.2
3.4
3.6
3.8
4.0
4.2
地震数N
28381
20380
14795
10695
7641
5502
3842
震级x
4.4
4.6
4.8
5.0
5.2
5.4
5.6
地震数N
2698
1919
1356
973
746
604
435
震级x
5.8
6.0
6.2
6.4
6.6
6.8
7.0
地震数N
274
206
148
98
57
41
25
试建立经验回归方程表示二者之间的关系,该模型对预测地震有帮助吗?
震级
地震数
先画地震数与震级的散点图,如图(1)所示.
震级x
3
3.2
3.4
3.6
3.8
4.0 4.2
4.2
y
4.453
4.309
4.17
4.029
3.883
3.741
3.585
震级x
4.4
4.6
4.8
5
5.2
5.4
5.6
y
3.431
3.283
3.132
2.988
2.873
2.781
2.638
震级x
5.8
6
6.2
6.4
6.6
6.8
7
y
2.438
2.314
2.17
1.991
1.756
1.613
1.398
震级x
x和y的散点图如图(2)所示.从这个散点图中可以看出x和y之间有很强的线性相关性,因此可以用一元线性回归模型拟合它们之间的关系.
该模型不能直接用于预报地震,因为它不能预报何时发生地震,震级是多少
6.生活中有许多变量之间的关系是值得我们去研究的.例如,数学成绩、物理成绩和化学成绩两两之间是相关的吗?哪两个学科成绩之间相关性更大,你能解释其中的原因吗?语文成绩对数学成绩有影响吗?等等,请用你们班的某次考试成绩,研究它们之间的关系如果它们之间有关系,请建立统计模型进行分析.
回归与相关
回归分析法和相关分析法是统计学中的两种重要方法,前者用于由一个变量的变化去推测另一个变量的变化,后者研究随机变量间的相关关系,它们是由英国科学家高尔顿创立的.
高尔顿的科研兴趣十分广泛,在地理学、气象学、统计学、心理学、人类学等众多领域都有建树他在遗传学的研究中发现了一个令人困惑的问题,通常,高个子的人会和高个子的人结婚,矮个子的人会和矮个子的人结婚,而人类的遗传是把上一代的优势性状传递给下一代这样,在人群中,高个子、矮个子的比例都应逐渐增多,而中等个子的比例应逐渐下降.但事实并非如此,为什么呢?
这个问题一直萦绕在他的心头1875年,为了确定豌豆尺寸的遗传规律,他将自己精心挑选的490粒甜豌豆按照尺寸大小分成7组,在7个不同地区各种植70粒(每组10粒).豌豆成熟后,他仔细测量了新豌豆(子代)的尺寸,并与豌豆种子(母代)的尺寸进行比较数据分析发现,母代尺寸大的子代尺寸较大,母代尺寸小的子代尺寸也较小但无论尺寸大小,都有子代向母代的平均值(7种尺寸豌豆的平均值)收缩的趋势.
这一结论在遗传学上是否具有普遍性呢?能否用它来解释人的个子高矮的遗传现象呢?为此,在1885年,高尔顿随机选取了205对夫妇及其928个成年子女的身高数据进行研究由于男女身高存在差异,他采用女子身高乘1.08的方法将女子身高换算成男子身高.他将父母的平均身高称为“中亲身高”,用
进行计算,其中a为母亲身高,b为父亲身高.记中亲身高为X(母代变量),子女身高为Y(子代变量),分析X和Y的数据,他惊奇地发现,X和Y的平均值均为173.4cm.在此基础上,他还发现当中亲身高大于平均值时,他们的子女相对较高,但与父母相比还是矮一些,例如,当中亲身高为181.6cm时,他们子女的平均身高仅为177.5cm;当中亲身高小于平均值时,他们的子女相对较矮,但比父母又要高一些,例如,当中亲身高为166.4cm时,他们子女的平均身高为169.4cm.这表明,子女身高有向平均值“回归”的倾向.1886年,高尔顿将这一研究成果写成了论文《遗传身高向平均身高的回归》,文中正式引入了“回归”这个概念,1888年,高尔顿发表了统计史上第一篇有关相关系数值的论文,文中用到了一种用图形估计相关系数值的方法.
高尔顿提出的回归和相关思想是开创性的,但他的工作做得还不够彻底.后来,埃奇沃思(F.Y.Edgeworth,1845—126)和皮尔逊(K.Pearson,1857—1936)等一批学者加入到研究中来,使回归和相关理论得到了完善与发展.埃奇沃思不仅给出了常见的样本相关系数的公式,还赋予“回归”以纯数学的意义,为这一方法的广泛应用奠定了基础.皮尔逊则系统整理和完善了当时的已有成果,用极大似然法对相关系数的估计问题做了改进,并把相关回归方法运用到生物测量数据,推动了这一方法在生物领域的应用.
回归与相关的发现,为统计方法增添了重要的工具,推动了统计学的应用和发展,标志着统计学描述时代的结束和推断时代的开始,随着时代的发展,“回归”一词的内涵得到了极大扩展,它可以泛指在任何情况下自变量与因变量之间的统计关系;回归分析、相关分析也在科学研究的各个方面得到广泛应用,成为探索变量之间关系的重要方法.
请你进一步查阅资料,了解回归与相关的发展和应用.
1.残差平方和:
2.最小二乘法
将 称为Y 关于x 的经验回归方程.
3.判断模型拟合的效果: 残差分析
R2越大,模型的拟合效果越好,
R2越小,模型拟合效果越差.
课堂小结

展开更多......

收起↑

资源预览