资源简介 (共56张PPT)第六章 相关与回归分析第一节 相关分析第二节 一元线性回归分析学习目标通过本章的学习,了解相关分析的概念、内容和回归分析的基本思想;掌握相关关系的测定和一元线性回归分析的计算方法。案例 个人可支配收入与娱乐支出收入vs 消费个人可支配收入(美元) 每周娱乐支出(美元)150 28175 33200 35225 36250 38275 37300 42325 43350 39360 45370 46375 47380 49390 50395 52*案例 个人可支配收入与娱乐支出个人可支配收入与娱乐支出有什么关系?个人可支配收入与娱乐支出的关系如何量化?能否通过个人可支配收入对娱乐支出进行预测?思考第一节 相关分析请在此处添加院校名称一、函数关系与相关关系二、相关关系的种类三、相关关系的描述与度量一、函数关系与相关关系函数关系当一个变量取一定数值时,另一个变量有确定值与之相对应,这种关系称为函数关系。是一一对应的确定关系。图形表示: xy函数关系举例某种商品的销售额y与销售量x之间的关系可表示为y = px(p 为单价)圆的面积S与半径R之间的关系可表示为S= R2企业的原材料消耗额y与产量x1 、单位产量消耗x2 、原材料价格x3之间的关系可表示为y = x1 x2 x3一、函数关系与相关关系相关关系当一个变量取一定数值时,与之相对应的另一变量的数值虽然不确定,但它仍按某种规律在一定的范围内变化,这种关系称为相关关系。图形表示: xy一、函数关系与相关关系相关关系举例父亲身高y与子女身高x之间的关系收入水平y与受教育程度x之间的关系粮食单位面积产量y与施肥量x1 、降雨量x2 、温度x3之间的关系商品的消费量y与居民收入x之间的关系商品销售额y与广告费支出x之间的关系一、函数关系与相关关系一、函数关系与相关关系对相关关系的分析是统计学的重要研究内容。主要研究方法:相关分析和与回归分析。二、相关关系的种类按相关关系的程度划分,可分为完全相关、不完全相关和不相关三种形式。完全相关:一种现象的数量变化完全由另一个现象的数量变化所确定,例如圆的周长L决定于它的半径R,即L=2πR。不相关:两个现象彼此互不影响,其数量变化各自独立时,例如:学生的学习成绩与其身高一般认为是不相关的。不完全相关:两个现象之间的关系介于完全相关和不相关之间。一般的相关现象都是指这种不完全相关,这是相关分析的研究对象。二、相关关系的种类按相关形式划分,可以分为线性相关和非线性相关两种形式。线性相关:当一个变量发生变动,另一个变量随之发生大致均等的变动(增加或减少),从图形上看,其观测点的分布近似地表现为直线形式。非线性相关:而当一个变量发生变动,另一个变量也随之发生变动(增加或减少),但是这种变动不是均等的,从图形上看,其观察点的分布表现为各种不同的曲线形式,这种相关关系称为非线性相关。限于篇幅,本章仅讨论线性相关关系。二、相关关系的种类按相关方向划分,可分为正相关和负相关。正相关:对于两个相关现象,当一个变量的数值增加(或减少)时,另一个变量的数值也随之增加(或减少)。例如家庭消费支出随着收入的增加而增加等。负相关:当一个变量的数值增加(或减少)时,而另一个变量的数值相反的呈减少(或增加)趋势变化,称为负相关。例如劳动生产率愈高,单位产品成本愈低。二、相关关系的种类按相关关系涉及因素的多少划分,可分为单相关、复相关和偏相关。单相关又称一元相关,是指两个变量之间的相关关系。复相关又称多元相关,是指三个或三个以上变量之间的相关关系。例如家庭的消费支出与家庭收入水平及市场价格水平之间的关系便是一种复相关。在某一变量与多个变量相关时,当假定其他变量不变,其中两个变量的相关关系称为偏相关。在假定家庭收入水平不变的条件下,市场价格水平与家庭的消费支出的关系就是一种偏相关。 不相关 负线性相关 正线性相关 非线性相关 完全负线性相关完全正线性相关 二、相关关系的种类三、相关关系的描述与度量散点图散点图是观察两个变量之间的相关程度和类型最直观的方法。散点图是在直角坐标系中用相对应的两个变量值作为图中一个点的横坐标和纵坐标描点得到的图形。如果两个变量中一个变量是另一个变量变化的结果,那么:代表原因的变量称为自变量 [Independent(Explanatory) Variable],A代表结果的变量称为因变量 [Dependent(Response) Variable] 。B在散点图中习惯上把因变量绘制在纵轴上。案例 个人可支配收入与娱乐支出x为娱乐支出(美元),y为个人可支配收入(美元)。三、相关关系的描述与度量相关系数(Coefficient of Correlation)相关系数是用来衡量变量之间相关程度的指标,根据变量的多少和属性可以有多种不同的计算方法。衡量两个定量变量之间线性相关程度称为简单相关系数,常用指标是皮尔逊( Pearson)相关系数。“通常以ρ表示总体的相关系数,以r表示样本的相关系数。三、相关关系的描述与度量相关系数的计算 (x x) (y y)n x ( x) n y ( y)22Cov(X,Y)Var(X )Var(Y) =2r = (x x)(y y)22r =n xy x y2总体相关系数的定义公式:样本相关系数的定义公式:样本相关系数的简化公式:三、相关关系的描述与度量相关系数的性质r 的取值范围是 [-1,1]r>0,x与y为正相关;r<0,x与y为负相关|r|=1,x与y为完全相关r =1,x与y为完全正相关r =-1,x与y为完全负相关|r|越趋于1表示关系越强|r|越趋于0表示关系越弱当r=0时,只是表明两个变量之间不存在线性关系,它并不意味着X与Y之间不存在其他类型的相关关系 (x x) (y y)2r = (x x)(y y)2三、相关关系的描述与度量相关系数的经验解释|r|>0.8时,可视为两个变量之间高度相关0.5<|r|<0.8时,可视为中度相关0.3<|r|<0.5时,视为低度相关|r|<0.3时,说明两个变量之间的相关程度极弱,可视为不相关上述解释必须建立在对相关系数的显著性进行检验的基础之上相关系数的计算三、相关关系的描述与度量个人可支配收入(美元) 每周娱乐支出(美元) xy x^2 y^2150 28 4200 22500 784175 33 5775 30625 1089200 35 7000 40000 1225225 36 8100 50625 1296250 38 9500 62500 1444275 37 10175 75625 1369300 42 12600 90000 1764325 43 13975 105625 1849350 39 13650 122500 1521360 45 16200 129600 2025370 46 17020 136900 2116375 47 17625 140625 2209380 49 18620 144400 2401390 50 19500 152100 2500395 52 20540 156025 2704合计 4520 620 194480 1459650 26296n x ( x) n y ( y)222r =n xy x y2r =0.9468第二节 一元线性回归分析请在此处添加院校名称一、回归的含义二、回归模型三、一元线性回归模型四、参数的最小二乘估计五、回归模型的评价和检验六、一元线性回归模型的预测相关分析与回归分析回归分析(Regression)可以确定变量之间相互关系的具体形式(回归方程),确定一个变量对另一个变量的影响程度,并根据回归方程进行预测。相关分析(Correlation)研究变量之间相关的方向和相关的程度,但无法给出变量间相互关系的具体形式,因而无法从一个变量推测另一个变量。一、回归的含义回归一词由F·高尔顿提出。他通过研究父母身高与子女身高的关系发现,虽然有一个趋势: 父母高,子女也高;父母矮,子女也矮。但是当固定父母的身高后,其子女的身高会趋近于或回归于全体人员的平均身高。回归分析就是研究被解释变量对解释变量的依赖关系,其目的就是通过解释变量的已知或设定值,去估计或预测被解释变量的总体均值。二、回归模型什么是回归模型?回答“变量之间是什么样的关系?”方程中运用1个数值型因变量(被解释变量)1个或多个数值型或分类型自变量 (解释变量)主要用于预测和估计二、回归模型回归模型一元回归多元回归非线性回归线性回归非线性回归线性回归三、一元线性回归模型总体回归函数与样本回归函数描述因变量Y如何依赖于自变量X和随机误差项ε的方程称为回归函数。总体回归函数的形式如下:总体截距项总体斜率系数随机误差项因变量自变量Yi Xi i三、一元线性回归模型总体回归函数与样本回归函数总体回归直线可表示:总体回归直线:E (Y | X ) 0 1 X三、一元线性回归模型总体回归函数与样本回归函数样本回归函数是对总体回归函数的一个样本估计结果。样本截距项样本斜率系数残差,Residualii1 i0 y x y 残差ei yi 样本回归直线: y x01三、一元线性回归模型总体回归直线Yi E(Y | X ) 0 1XX*三、一元线性回归模型总体回归直线与样本回归直线Yi E(Y | X ) 0 1XX*y 0 xei 0 11 三、一元线性回归模型总体回归直线与样本回归直线Yi E(Y | X ) 0 1XX*y 0 xei 0 11 三、一元线性回归模型样本回归函数与总体回归函数区别总体回归线是未知的,只 有一条。样本回归线是根 据样本数据拟合的,每抽取一组样本,便可以拟合 一条样本回归线。12总体回归函数中的 i是Yi与未知的总体回归线之间的纵向 距离,它是不可直接观测的。而样本回归函数中的ei是Yi与样本回归线之间的纵向距离,当根据样本观测值拟合出 样本回归线之后,可以计算出ei的具体数值。3总体回归函数中的β0和β1是未 知的参数,表现为常数。而样机变量,其具体数值随所抽取 的样本观测值不同而变动。0 1本回归函数中的 和 是随四、参数的最小二乘估计一元线性回归模型的估计总体回归直线是未知的,它只有一条;而样本回归 直线则是根据样本数据拟合的,每抽取一组样本,便可以拟合一条样本回归直线。在总体参数未知的情况下,如何保证样本回归系数尽可能接近总体参数的真实值?在回归分析中最常用的估计方法是最小二乘法。四、参数的最小二乘估计在满足一系列假设条件的情况下,最小二乘估计量是方差最小线性无偏估计量。需要的基本假设条件包括:1. E( i)=0对于所有的x, i的方差相等 i与X之间不相关 i之间不相关 i服从正态分布四、参数的最小二乘估计最小二乘估计(method of least squares )使因变量的观察值与估计值之间的误差平方和达到最小来求得 的方法。即使得残差平方和22 nneQ ( y y) i i 1 i i 101达到最小来求得 和 用最小二乘法拟合的直线来代表x与y之间的关系与实际数据的误差比其他任何直线都小四、参数的最小二乘估计最小二乘估计图示四、参数的最小二乘估计最小二乘估计求解组(Normal Equations)。0 1将Q对 和 求偏导数并令其等于零,可以得到正规方程四、参数的最小二乘估计最小二乘估计求解解这个方程组可得:1注意 的符号与相关系数r是一致的。四、参数的最小二乘估计最小二乘估计的优良性高斯—马尔可夫定理(Gauss-Markov theorem)在给定经典线性回归的假定下,最小二乘估计量是具有最小方差(Best)的线性(Linear)无偏(Unbiased)估计量(Estimatior)。案例 个人可支配收入与娱乐支出0 17.70981 0.0784得到的样本回归线为:iiY 17.7098 0.0784 X样本回归线定义回归线上的点 是给定X值相对应的Yi的期望 值或均值的一个估计值。案例 个人可支配收入与娱乐支出回归线的斜率 =0.0784表示,每增加1美元的可支配收入(X),娱乐支出(Y)将平均增加0.0784美元。回归线的截距 为17.7098,通常可理解为是所有未包括在回归模型的变量对Y的综合影响。五、回归模型的评价和检验1.决定系数拟合 优度2.t检验3.F检验显著性 检验三、回归模型的评价和检验决定系数回归直线与各观测数据的接近程度称为回归直线的拟合优度(Goodness of Fit)。123度量回归直线的拟合优度最常用的指标是决定系数(Coefficient of Determination ,又称可决系数、判定系数)。该指标是建立在对总离差平方和进行分解的基础之上的。三、回归模型的评价和检验决定系数为:ii iiiSSRSST ( y y )2 ( y y )2R2 ( y y )2 ( y y )2 1 三、回归模型的评价和检验R2的取值范围是[0,1]。R2越接近于1,表明回归平方和占总离差平方和的比例越大,回归直线与各观测点越接近,回归直线的拟合程度就越好。在一元线性回归中,相关系数r的平方等于判定系数,符号与自变量x的系数一致。因此可以根据回归结果求出相关系数。决定系数的 取值案例 个人可支配收入与娱乐支出R2=0.8964,说明在个人收入与支出的变差中,有89.64%可以由个人可支配收入与娱乐支出之间的线性关系来解释。五、回归模型的评价和检验单个回归系数显著性的t检验提出假设。一般为第1步:确定检验的统计量。可以证明在回归模型的基本 假设成立时,如果零假设正确,则有第2步:H1 : 1 0H0 : 1 021 x x s isy 根据显著性水平α和自由度df=n-2确定检验统计量的临界值,t > t α / 2 时拒绝H0;或者p值< α时拒绝H0。五、回归模型的评价和检验单个回归系数显著性的t检验计算检验统计量的样本观测值或p值。第3步:进行决策第4步:五、回归模型的评价和检验为什么要检验回归系数是否等于0?我们也可以对常数项进行t检验,但大部分情况下我们并不关心常数项的检验结果。案例 个人可支配收入与娱乐支出t=10.606,p值=0.00000905拒绝 ,说明 1 0六、一元线性回归模型的预测点估计区间估计所谓预测,就是当自变量x取一个值x0时,估计y的取值。一般有点预测和区间预测两种。六、一元线性回归模型的预测案例 个人可支配收入与娱乐支出当x=400美元时,y=17.7098+0.0784×400=49.0698美元谢谢 展开更多...... 收起↑ 资源预览