第九章 线性回归分析与方差分析_1 课件(共26张PPT)- 《概率论与数理统计》同步教学(大连理工出版社)

资源下载
  1. 二一教育资源

第九章 线性回归分析与方差分析_1 课件(共26张PPT)- 《概率论与数理统计》同步教学(大连理工出版社)

资源简介

(共26张PPT)
第九章 线性回归分析与方差分析
第一节 一元线性回归分析
第二节 可线性化的非线性回归
第三节 多元线性回归简介
第四节 方差分析
第一节 一元线性回归分析
在许多实际问题中,我们常常需要研究多个变量之间的相互关系.
一般来说,变量之间的关系可分为两类:
一类是确定性关系,确定性关系是指变量之间的关系可以用函数关系来表达,例如电流I,电压V,电阻R之间有关系式V=IR.
另一类是非确定性关系,有些变量之间的关系是非确定性的关系,这种关系无法用一个精确的函数式来表示.
例如,农作物的单位面积产量与施肥量之间有密切的关系,但是不能由施肥量精确知道单位面积产量,这是因为单位面积产量还受到许多其他因素及一些无法控制的随机因素的影响.
又如,人的身高与体重之间存在一种关系,一般来说,人的身高越高,体重越大.
但同样高度的人,体重却往往不同.这种变量之间的不确定性关系称之为相关关系.
对于具有相关关系的变量,虽然不能找到他们之间的确定表达式,但是通过大量的观测数据,可以发现他们之间存在一定的统计规律,数理统计中研究变量之间相关关系的一种有效方法就是回归分析.
一、 一元线性回归模型
其中yi是x=xi时随机变量Y的观测结果.将n对观测结果(xi,yi)(i=1,…,n)在直角坐标系中进行描点,这种描点图称为散点图.散点图可以帮助我们粗略地看出Y与x之间的某种关系.
假定我们要考虑自变量x与因变量Y之间的相关关系.
假设x为可以控制或可以精确观察的变量,即x为普通的变量。由于自变量x给定后,因变量Y并不能确定,从而Y是一个与x有关的随机变量.
我们对于可控制变量x取定一组不完全相同的值x1,…,xn,作n次独立试验,得到n对观测结果:
(x1,y1) ,(x2,y2),…,(xn, yn)
例1 对某广告公司为了研究某一类产品的广告费x用与其销售额Y之间的关系,对多个厂家进行调查,获得如下数据
厂 家 1 2 3 4 5 6 7 8 9
广告费x 6 10 21 40 62 62 90 100 120
销售额Y 31 58 124 220 299 190 320 406 380
广告费与销售额之间不可能存在一个明确的函数关系,事实上,即使不同的厂家投入了相同的广告费,其销售额也不会是完全相同的.影响销售额的因素是多种多样的,除了广告投入的影响,还与厂家产品的特色、定价、销售渠道、售后服务以及其他一些偶然因素有关.
画出散点图如图9-1所示.从图中可以看出,随着广告投入x的增加,销售额Y基本上也呈上升趋势,图中的点大致分布在一条向右上方延伸的直线附近.但各点不完全在一条直线上,这是由于Y还受到其他一些随机因素的影响.
这样,Y可以看成是由两部分叠加而成,一部分是x的线性函数a+bx,另一部分是随机因素引起的误差 ,即
Y=a+bx+
这就是所谓的
一元线性回归模型
图9-1
一般地,假设x与Y之间的相关关系可表示为
(1)
其中:a, b为未知常数
为随机误差且
未知,
x与Y的这种关系称为一元线性回归模型
y=a+bx称为回归直线 b称为回归系数
此时
对于(x, Y)的样本(x1,y1),…,(xn,yn)有:
一元线性回归主要解决下列一些问题:
(1)利用样本对未知参数a、b、 进行估计;
(2)对回归模型作显著性检验;
(3)当x=x0时对Y的取值作预测,即对Y作区间估计.
如果由样本得到式(1)中,a, b的估计值 ,则称 为拟合直线或经验回归直线,它可作为回归直线的估计
二、 参数a,b, 的估计
最小二乘法就是选择a,b的估计 ,使得
Q(a, b)为最小(图9-2)
现在我们用最小二乘法来估计模型(1)中的未知参数a,b.

称Q(a, b)为偏差平方和
图9-2
为了求Q(a, b)的最小值,分别求Q关于a,b的偏导数,并令它们等于零:
经整理后得到
式(2)称为正规方程组.
(2)
由正 规方程组解得
其中
用最小二乘法求出的估计 , 分别称为a,b的最小二乘估计
由矩估计法,可用 估计
此时,拟合直线为
下面再用矩法求 的估计
由于
,a,b分别由 , 代入

故 可用
作估计
对于估计量 , , 的分布,有:
定理1
(1)
(2)
(3)
(4)
分别与 , 独立。
例2 在例1中可分别求出a,b, 的估计值为:
故经验回归直线为:
Y=45.27+3.17x
三、线性回归的显著性检验
在实际问题中,事先我们并不能断定Y与x确有线性关系,Y=a+bx+ 只是一种假设.
下面说明这一检验的方法.
当然,这个假设不是没有根据的,我们可以通过专业知识和散点图来作出粗略判断.
但在求出经验回归方程后,还需对这种线性回归方程通过实际观测数据拟合的效果进行检验.
若假设Y=a+bx+ 符合实际,则b不应为零
因为如果b=0,则Y=a+
意味着Y与x无关
所以Y=a+bx是否合理,归结为对假设:
H0: b=0
进行检验
下面介绍检验假设H0的二种常用方法.
且 与 独立
1.t 检验法
若H0成立,即b=0,由定理7.1知,
因而

为显著性水平
即得H0的拒绝域为
2.相关系数检验法
取检验统计量
通常称R为样本相关系数.
类似于随机变量间的相关系数,R的取值r反映了自变量x与因变量Y之间的线性相关关系.
可以推出:在显著性水平 下,当
时拒绝H0
其中临界值 在附表8中给出
相关系数检验法是工程技术中广泛应用的一种检验方法
(1)x对Y没有显著影响;
(2)x对Y有显著影响,但这种影响不能用线性相关关系来描述;
(3)影响Y取值的,除x外,另有其他不可忽略的因素.
当假设 被拒绝时,就认为Y与x存在线性关系,从而认为回归效果显著;
若接受H0,则认为Y与x的关系不能用一元线性回归模型来描述,即回归效果不显著.
此时,可能有如下几种情形:
因此,在接受H0的同时,需要进一步查明原因分别处理,此时,专业知识往往起着重要作用.
四、 预测
当经过检验发现回归效果显著时,通过回归模型可对Y的取值进行预测.
即当x=x0时,对Y作区间估计.
设当x=x0时Y的取值为y0,有
可以取经验回归值
作为y0的预测值.可以证明
从而可得
所以,给定置信概率 ,Y0的置信区间为
其中
可以看出在x0处y的置信区间的长度为
当 时置信区间的长度最短,估计最精确,置信区间愈长,估计的精度愈差.
当n很大且x0位于 附近时,有
于是y0的置信概率为 的预测区间近似为
例3 检验例2中的回归效果是否显著,当x0=80时,求出Y0的预测区间.
解 经计算 T=8.2 r=0.95
查表,得
t0.025(7)=2.35 , r0.05=0.666
易见,t检验法、相关系数检验法都拒绝H0,即回归效果显著.
于是,当x0=80时,y0的预测值为
y0的95%的预测区间为(186.77,411.99).

展开更多......

收起↑

资源预览