资源简介 第八章 知识点清单目录第八章 成对数据的统计分析8. 1 成对数据的相关关系8. 2 一元线性回归模型及其应用8. 3 分类变量与列联表第八章 成对数据的统计分析8. 1 成对数据的相关关系一、变量的相关关系1. 相关关系:两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系.2. 散点图:将成对样本数据用直角坐标系中的点表示出来,由这些点组成的统计图就叫做散点图.3. 正相关与负相关:从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势,就称这两个变量正相关;当一个变量的值增加时,另一个变量的相应值呈现减小的趋势,就称这两个变量负相关.4. 线性相关:一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,就称这两个变量线性相关.5. 非线性相关:一般地,如果两个变量具有相关性,但不是线性相关,就称这两个变量非线性相关或曲线相关.二、样本相关系数1. 样本相关系数:r= ,r为变量x和变量y的样本相关系数,有时也称样本线性相关系数.2. 样本相关系数r的特征(1)r∈[-1,1].(2)当r>0时,称成对样本数据正相关;当r<0时,称成对样本数据负相关.(3)当|r|越接近1时,成对样本数据的线性相关程度越强;当|r|越接近0时,成对样本数据的线性相关程度越弱.2. 样本相关系数r是一个描述成对样本数据的数字特征,它的正负性可以反映成对样本数据的变化特征.三、两个变量相关性的判断1. 利用散点图判断两个变量的相关性(1)作两个变量的散点图,可观察它们的相关性.(2)若散点从左至右呈上升趋势,则这两个变量正相关;若散点从左至右呈下降趋势,则这两个变量负相关;若散点毫无规律,则这两个变量无相关关系;若散点大致分布在一条直线附近,则这两个变量线性相关,否则没有线性相关关系.2. 利用样本相关系数判断两个变量相关性的强弱样本相关系数r是从数值上来判断变量间的线性相关程度的量,是定量分析法.|r|刻画了样本点集中于某条直线的程度.|r|越接近1,散点图中的样本点分布越接近一条直线,两个变量的线性相关程度越强.8. 2 一元线性回归模型及其应用一、一元线性回归模型1. 把式子称为Y关于x的一元线性回归模型. 其中,Y称为因变量或响应变量, x称为自变量或解释变量;a和b为模型的未知参数,a称为截距参数,b称为斜率参数;e是Y与bx+a之间的随机误差. 如果e=0,那么Y与x之间的关系就可用一元线性函数模型来描述.二、经验回归方程与最小二乘法1. 设满足一元线性回归模型的两个变量的n对样本数据为(xi,yi)(i=1,2,…,n),通常用各散点到直线y=bx+a的竖直距离的平方之和Q= 来刻画各样本观测数据与该直线的“整体接近程度”.(1)当a,b的取值为 时,Q达到最小.(2)将=x+称为Y关于x的经验回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线. 这种求经验回归方程的方法叫做最小二乘法,求得的, 叫做b,a的最小二乘估计.三、残差分析1. 对于响应变量Y,通过观测得到的数据称为观测值,通过经验回归方程得到的称为预测值,观测值减去预测值称为残差. 残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.四、回归模型拟合效果的检验1. 刻画回归效果的方式(1)残差图法作图时以残差为纵坐标,横坐标可以选为样本编号,或身高数据,或体重估计值等,这样作出的图形称为残差图. 在残差图中,残差点比较均匀地落在以横轴为对称轴的水平的带状区域中,说明选用的模型比较合适,这样的带状区域的宽度越窄,说明模型拟合精度越高.(2)残差平方和法:残差平方和为 (yi-)2,残差平方和越小,模型拟合效果越好.(3)决定系数R2法:R2=1-.R2越大,残差平方和越小,即模型的拟合效果越好;R2越小,残差平方和越大,即模型的拟合效果越差.五、经验回归方程的求解与应用1. 利用经验回归方程可以对总体进行预测和估计,经验回归方程将部分观测值所反应的规律进行延伸,从而成为我们对有线性相关关系的两个变量进行分析和控制、依据自变量的取值估计和预报因变量值的基础和依据. 解决此类问题的步骤:(1)画出成对样本数据的散点图;(2)按照求经验回归方程的步骤和公式,写出经验回归方程;(3)利用经验回归方程进行分析,分析过程中注意函数思想的应用.六、非线性回归分析1. 研究两个变量的关系时,依据样本画出散点图,从整体上看,如果样本点没有分布在某个带状区域内,就称这两个变量之间不具有线性相关关系. 当两个变量不具有线性相关关系时,依据样本点的分布选择合适的曲线方程来拟合数据,可通过变量代换,利用一元线性回归模型建立两个变量间的非线性经验回归方程.2. 常见的非线性经验回归方程的转换方式如表所示:曲线方程 曲线(曲线的一部分) 变换公式 变换后的线性函数y=axb c=ln a,v=ln x, u=ln y u=c+bvy=aebx c=ln a,u=ln y u=c+bxy=a c=ln a,v=, u=ln y u=c+bvy=a+bln x v=ln x y=a+bv3. 建立非线性回归模型的基本步骤(1)确定研究对象,明确涉及的变量;(2)画出确定好的变量间的散点图,观察它们之间的关系(是否存在非线性关系);(3)由经验确定非线性经验回归方程的类型(如我们观察到数据有非线性关系,一般选用反比例函数型、指数函数型、对数函数型模型等);(4)通过换元,将非线性回归模型转化为一元线性回归模型;(5)按照公式计算经验回归方程中的参数,得到经验回归方程;(6)消去新元,得到非线性经验回归方程.8. 3 分类变量与列联表一、分类变量与列联表1. 分类变量:为了表述方便,我们经常会使用一种特殊的随机变量,以区别不同的现象或性质,这类随机变量称为分类变量. 分类变量的取值可以用实数表示.2. 2× 2列联表假设两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其2×2列联表为X Y 合计y1 y2x1 a b a+bx2 c d c+d合计 a+c b+d a+b+c+d 2×2列联表给出了成对分类变量数据的交叉分类频数.3. 两个分类变量之间关联关系的定性分析方法(1)频率分析法:通过对样本的每个分类变量的不同类别事件发生的频率大小进行比较来分析分类变量之间是否有关联关系. 通常通过列联表列出两个分类变量的频数表来进行分析.(2)图形分析法:与表格相比,图形更能直观地反映两个分类变量间是否互相影响,常用等高堆积条形图展示列联表中数据的频率特征.二、独立性检验1. 假定通过简单随机抽样得到了X和Y的抽样数据列联表,如表所示.X Y 合计Y=0 Y=1X=0 a B a+bX=1 c d c+d合计 a+c b+d n=a+b+c+d 则χ2=.2. 利用χ2的取值推断分类变量X和Y是否独立的方法称为χ2独立性检验,读作“卡方独立性检验”,简称独立性检验.3. χ2独立性检验中5个常用的小概率值和相应的临界值如下表所示.α 0. 1 0. 05 0. 01 0. 005 0. 001xα 2. 706 3. 841 6. 635 7. 879 10. 828独立性检验的实质是检验两个分类变量是否相关及相关的程度有多大,其应用过程如下: 根据观测数据计算出χ2的值,其值越大,说明“X与Y有关系”成立的可能性越大,在假设X与Y没有关系的前提下,可以通过查阅临界值表得到P(χ2≥xα),从而得到两变量相关的程度.三、由χ2进行独立性检验1. 应用独立性检验解决实际问题大致应包括以下几个主要环节:(1)提出零假设H0:分类变量X和Y相互独立,并给出在问题中的解释;(2)根据抽样数据整理出2×2列联表,计算χ2的值,并与临界值xα比较;(3)根据检验规则得出推断结论;(4)在X和Y不独立的情况下,根据需要,通过比较相应的频率,分析X和Y间的影响规律.【注】上述几个环节的内容可以根据不同情况进行调整. 例如,在有些时候,分类变量的抽样数据列联表是问题中给定的.四、独立性检验与统计、概率的综合应用1. 通过频率分布直方图的统计功能完善2×2列联表,从而对事件进行独立性检验,准确读取频率分布直方图中的数据,进行分组统计是解题的关键. 解决独立性检验的问题要注意明确两类主体,明确研究的两类问题,再就是准确列出2×2列联表,准确计算χ2. 在写出2×2列联表中a,b,c,d的值时,注意一定要按顺序. 展开更多...... 收起↑ 资源预览