资源简介 (共34张PPT)项目八 相关与回归分析学习目标【知识目标】掌握相关系数的含义、计算方法和应用掌握一元线性回归的基本原理【能力目标】掌握回归方程的显著性检验利用回归方程进行预测任务一 变量间关系的度量一、变量间的关系二、相关关系的描述与测度一、变量间的关系是一一对应的确定关系设有两个变量 x 和 y ,变量 y 随变量 x 一起变化,并完全依赖于 x ,当变量 x 取某个数值时, y 依确定的关系取相应的值,则称 y 是 x 的函数,记为 y = f (x),其中 x 称为自变量,y 称为因变量各观测点落在一条线上 xy函数关系的例子某种商品的销售额(y)与销售量(x)之间的关系可表示为 y = p x (p 为单价)圆的面积(S)与半径之间的关系可表示为S = R2企业的原材料消耗额(y)与产量(x1) 、单位产量消耗(x2) 、原材料价格(x3)之间的关系可表示为y = x1 x2 x3一、变量间的关系变量间关系是不确定的数量关系,不能用函数关系精确表达一个变量的取值不能由另一个变量唯一确定当变量 x 取某个值时,变量 y 的取值可能有几个各观测点分布在直线周围 xy一、变量间的关系相关关系的例子商品的消费量(y)与居民收入(x)之间的关系商品销售额(y)与广告费支出(x)之间的关系粮食亩产量(y)与施肥量(x1) 、降雨量(x2) 、温度(x3)之间的关系收入水平(y)与受教育程度(x)之间的关系父亲身高(y)与子女身高(x)之间的关系一、变量间的关系二、相关关系的描述与测度(一)散点图相关分析就是对两个变量之间关系的描述与度量,关注的是评价对象两两之间的相对变动,不需要明确区分自变量,因变量.散点图: 用坐标的横轴代表变量x,纵轴代表因变量y,每组数据( )在坐标系中用一个点表示,n组数据在坐标系中形成的n个点称为散点,由坐标及散点形成的二维数据图叫散点图.相关关系的图示 不相关 负线性相关 正线性相关 非线性相关 完全负线性相关完全正线性相关 (二)相关关系的类型1 按相关关系涉及变量(因素0的多少,可以分为单相关和复相关(多元相关)2 按相关形式可分为线性相关和非线性相关3 按相关的方向,线性相关可分为正相关和负相关4 按变量之间的相关程度,可分为完全相关,高度相关,低度相关和不相关(三)相关系数是对变量之间关系密切程度的度量根据线性相关变量的多少,分析问题的角度的不同,相关系数分为简单相关系数,偏相关系数,复相关系数反映曲线相关变量之间关系密切程度的曲线相关系数称为相关指数对两个变量之间线性相关程度的度量称为简单相关系数若相关系数是根据总体全部数据计算的,称为总体相关系数,记为 若是根据样本数据计算的,则称为样本相关系数,记为 r相关系数样本相关系数的计算公式或化简为相关系数(相关系数取值及其意义)r 的取值范围是 [-1,1]|r|=1,为完全相关r =1,为完全正相关r =-1,为完全负正相关r = 0,不存在线性相关-1 r<0,为负相关0|r|越趋于1表示关系越密切;|r|越趋于0表示关系越不密切通常:|r|>=0.8,高度相关; 0.5=<|r|<0.8,中度相关;o.3=< |r|<0.5,低度相关; |r|<0.3,不相关.相关系数的显著性检验1. 检验两个变量之间是否存在线性相关关系2.采用 t 检验3.检验的步骤为提出假设:H0: ;H1: 0计算检验的统计量:根据给定的显著性水平 和自由度(n-2),查t分布表找到相应的临界值,并作出决策若 t >t ,拒绝H0若 t 相关系数例题一位工业心理学家获得了10个工人的智商值和劳动生产率,试计算智商值和劳动生产率之间的相关系数,并对进行显著性检验.(样本序号 智商值x 劳动生产率y xy1 110 5.2 12100 27.04 572.02 120 6.0 14400 36.00 720.03 130 6.3 16900 39.69 819.04 126 5.7 15876 32.49 718.25 122 4.8 14884 23.04 585.66 121 4.2 14641 17.64 508.27 103 3.0 10609 9.00 309.08 98 2.9 9600 8.41 284.29 80 2.7 6400 7.29 216.010 97 3.2 9409 10.24 310.4合计 1107 44.0 124823 210.84 5042.6相关系数计算解:根据样本相关系数的计算公式有相关系数的显著性检验对计算的相关系数进行显著性检( 0.05)1提出假设:H0: ;H1: 02计算检验的统计量3根据显著性水平 =0.05,查t分布表得t (n-2)=2.306由于 t =4.921>t (10-2)=2.306,拒绝H0,即样本相关系数是显著的,说明智商值与劳动生产率之间确实存在线性关系任务二 一元线性回归一、一元线性回归模型二、最小二乘法什么是回归分析?侧重于考察变量之间的数量伴随关系从一组样本数据出发,确定变量之间的数学关系式对这些关系式的可信程度进行各种统计检验,并从影响某一特定变量(因变量)的诸多变量(自变量)中找出哪些变量的影响显著,哪些不显著利用所求的关系式,根据一个或几个变量的取值来预测或控制另一个特定变量的取值,并给出这种预测或控制的精确程度回归分析与相关分析的区别相关分析中,变量 x 变量 y 处于平等的地位;回归分析中,变量 y 称为因变量,处在被解释的地位,x 称为自变量,用于预测因变量的变化相关分析中所涉及的变量 x 和 y 都是随机变量;回归分析中,因变量 y 是随机变量,自变量 x 可以是随机变量,也可以是非随机的确定变量相关分析主要是描述两个变量之间线性关系的密切程度;回归分析不仅可以揭示变量 x 对变量 y 的影响大小,还可以由回归方程进行预测和控制回归模型1. 回答“变量之间是什么样的关系?”,描述因变量y如何依赖自变量 x和误差项 的方程2. 因变量: 在回归分析中,被预测或被解释的变 量,用y表示3.自变量: 在回归分析中,用来预测或用来解释因变量的一个或多个变量,用x表示4 主要用于预测和估计回归模型的类型一个自变量两个及两个以上自变量回归模型多元回归一元回归线性回归非线性回归线性回归非线性回归一、一元线性回归模型当只涉及一个自变量时称为一元回归,若因变量 y 与自变量 x 之间为线性关系时称为一元线性回归对于具有线性关系的两个变量,可以用一条线性方程来表示它们之间的关系描述因变量 y 如何依赖于自变量 x 和误差项 的方程称为回归模型对于只涉及一个自变量的简单线性回归模型可表示为y = b0 + b1 x + e模型中,y 是 x 的线性函数(部分)加上误差项线性部分反映了由于 x 的变化而引起的 y 的变化误差项 是随机变量反映了除 x 和 y 之间的线性关系之外的随机因素对 y 的影响是不能由 x 和 y 之间的线性关系所解释的变异性 0 和 1 称为模型的参数(一)回归方程描述 y 的平均值或期望值如何依赖于 x 的方程称为回归方程简单线性回归方程的形式如下E( y ) = 0+ 1 x方程的图示是一条直线,因此也称为直线回归方程 0是回归直线在 y 轴上的截距,是当 x=0 时 y 的期望值 1是直线的斜率,称为回归系数,表示当 x 每变动一个单位时,y 的平均变动值(二)估计(经验)的回归方程简单线性回归中估计的回归方程为其中: 是估计的回归直线在 y 轴上的截距, 是直线的斜率,它表示对于一个给定的 x 的值,是 y 的估计值,也表示 x 每变动一个单位时, y 的平均变动值用样本统计量 和 代替回归方程中的未知参数 和 ,就得到了估计的回归方程总体回归参数 和 是未知的,必需利用样本数据去估计二、最小二乘法使因变量的观察值与估计值之间的离差平方和达到最小来求得 和 的方法。即用最小二乘法拟合的直线来代表x与y之间的关系与实际数据的误差比其他任何直线都小(图示)xy(xn , yn)(x1 , y1) (x2 , y2)(xi , yi)}ei = yi-yi^( 和 的计算公式)根据最小二乘法的要求,可得求解 的标准方程如下估计方程例题一位工业心理学家获得了10个工人的智商值和劳动生产率,试计算智商值和劳动生产率之间的回归方程样本序号 智商值x 劳动生产率y xy1 110 5.2 12100 27.04 572.02 120 6.0 14400 36.00 720.03 130 6.3 16900 39.69 819.04 126 5.7 15876 32.49 718.25 122 4.8 14884 23.04 585.66 121 4.2 14641 17.64 508.27 103 3.0 10609 9.00 309.08 98 2.9 9600 8.41 284.29 80 2.7 6400 7.29 216.010 97 3.2 9409 10.24 310.4合计 1107 44.0 124823 210.84 5042.6估计方程的求法根据计算表中的数据,依据 和 的求解公式得^y = -3.9 + 0.075 x一个二元线性回归的例子(Excel 输出的结果) 展开更多...... 收起↑ 资源预览