资源简介 (共62张PPT)**统计学原理**第八章 相关与回归分析§1、相关分析§2、简单线性相关分析§3、一元线性回归分析§4、非线性回归分析**第一节 相关分析一、函数关系与相关关系二、相关关系的种类三、相关分析的内容**一、函数关系与相关关系(一)函数关系与相关关系的概念1.函数关系(Function)函数关系指客观现象之间确实存在的,且在数量上表现为确定性的,可以用数学表达式来描述的相互依存关系。2.相关关系(Correlation)相关关系指客观现象之间确实存在的,但在数量上表现为不确定的相互依存关系。**现象之间的关系一般可以区分为两种不同的类型:函数关系:当一个或几个变量取一定值时,另一个变量有确定值与之相对应,这种关系称为确定性的函数关系。[在函数关系中,一般把作为影响因素的变量称为自变量(x);把发生对应变化(结果)的变量称为因变量(y)。]相关关系:当一个或几个相互联系的变量取一定数值时,与之相对应的另一变量的值虽然不确定,但仍按某种规律在一定的范围内变化。变量间的这种相互关系,称为具有不确定性的相关关系。**(二)函数关系与相关关系的区别与联系1.区别:具有相关关系的变量之间的数量关系不确定,而具有函数关系的变量之间的数量关系是确定的。2.联系:函数关系往往通过相关关系表现出来,相关关系也常常借助函数关系的方式进行研究。由于认识局限和测量误差等原因,确定性的函数关系在实际中往往表现为相关关系;反之,当人们对事物的内部规律了解得更深刻的时候,相关关系又可能转化为确定性的函数关系。**二、相关关系的种类(一)按现象相关的因素多少划分为单相关与复相关。(二)按现象之间的相关方向划分正相关和负相关。(三)按现象之间相关的形式划分为直线相关与曲线相关。(四)按现象之间相关的程度划分为不相关、不完全相关和完全相关。**三、相关分析的内容(一)确定现象之间是否存在相关关系(二)确定相关关系的表现形式(三)判定相关关系的方向和密切程度**第二节 简单线性相关分析一、相关表与相关图二、相关系数**(一)相关表相关表是把取得的数据以表的形式显示出来,据此观察变量之间的数量变化是否有关,从而判断有无相关关系的方法。1.简单相关表2.分组相关表**(二)相关图相关图,亦称散点图,它是在直角坐标图中,将两个变量一个作横坐标,一个作纵坐标,把它们意义对应地绘制在二维图形上,通过观察数据点的分布情况,大致看出两个变量之间有无相关关系及类型。****二、相关系数(一)相关系数的概念(二)相关系数的计算(三)相关系数的检验**(一)相关系数的概念相关系数是在两个变量直线相关的条件下,测定变量之间相关方向和相关密切程度的统计指标,通常用r表示,其全称是直线积差相关系数。****判断标准:相关系数是在直线相关的条件下,说明两个现象之间相关关系密切程度的统计指标。相关系数的取值范围,是在-1和+1之间。计算结果r > 0 为正相关,r < 0为负相关。相关系数的数值越接近于1(+1或-1),表示相关关系越强。越接近于0,相关关系越弱。如果r =0,则表明两个现象之间完全没有直线相关关系。(但并不表明两个现象之间没有非线性相关)相关系数的绝对值 r 在0.3以下是无直线相关,在0.3—0.5是低度直线相关,在0.5—0.8是显著相关,0.8以上是高度相关。**第三节 一元线性回归分析一、回归分析的概念二、回归的种类三、相关分析与回归分析的关系四、一元线性回归五、一元线性回归方程的检验六、回归估计标准误差七、利用一元线性回归方程进行预测**一、回归分析的概念所谓回归分析,就是根据相关关系的具体形态,选择一个合适的数学表达式,来近似地表示变量间的平均变化关系。**二、回归的种类1.按变量之间相关的形式,分为线性回归与非线性回归。2.按自变量的个数,分为一元回归与多元回归。**三、相关分析与回归分析的关系(一)回归分析与相关分析的联系第一,相关分析要依靠回归分析来表现现象数量相关的具体形式。第二,回归分析必须依靠相关关系来表明变量之间的密切程度。从广义上讲,回归分析就是相关分析,从狭义上讲,相关关系只需确定变量间的关系,而回归分析还要在此基础上建立数学模型。**(二)回归分析与相关分析的区别第一,相关分析不说明谁是自变量,谁是因变量,而回归分析必须首先要确定谁是自变量,谁是因变量,不能颠倒。第二,相关分析中的每一个变量都是随机的;回归分析中自变量是一般变量,因变量是随机变量。**四、一元线性回归(一)一元线性回归的概念在回归分析中,我们用y表示要解释或预测的变量,称为因变量;用x表示用来解释或预测因变量的一个或多个变量,称为自变量。当自变量只有一个,且因变量y和自变量x之间的关系为线性时,称为一元线性回归。**(二)一元线性回归模型与一元线性回归方程1. 一元线性回归模型2.一元线性回归方程**(三)一元线性回归方程的估计a:是截距,表示当x等于0时,b:是斜率,表示x每增加一个单位时, 所平均增加的值。也是回归系数,它与相关系数 r 的取值方向一致:b为正值时,r为正,表示正相关;b为负值时,r为负,表示负相关。**五、一元线性回归方程的检验(一)理论意义检验(二)一级检验(三)二级检验**六、回归估计标准误差建立回归方程,不仅可以用已知数据推算出实际值的估计值,还可以用方程预测未知的数据。这就需要知道实际值与估计值之间的误差究竟有多大,这直接关系到预测的准确性。统计上用回归估计标准误差来测度误差的大小,反映回归方程的代表性大小。**(一)回归估计标准误差的概念回归估计标准误差是因变量的实际值与估计值的标准差,即以回归直线为中心反映各实际值与估计值之间的平均误差程度。**回归估计标准误差它可以衡量回归方程的代表性大小越小,表明实际观测点与所拟合的回归线的离差越小,即回归线有较强的代表性;越大,表明实际观测点与所拟合的回归线的离差越大,即回归线的代表性较差。**回归估计标准误差的计算公式:**七、利用一元线性回归方程进行预测(一)基本公式(二)区间预测**第四节* 非线性回归分析一、非线性回归分析的意义二、非线性方程形式的确定三、非线性回归方程的估计**第九章 抽样与抽样估计§1 抽样调查中常用的基本概念§2 抽样估计原理——大数定律及中心极限定理§3 总体平均数和总体比例的估计§4 必要的样本容量**§1 抽样调查中常用的基本概念一、随机抽样与非随机抽样二、重复抽样与不重复抽样三、总体分布、样本分布与抽样分布四、抽样误差**一、随机抽样与非随机抽样(一)非随机抽样(二)随机抽样1、简单随机抽样2、分层抽样3、整群抽样4、系统抽样。**二、重复抽样与不重复抽样(一)重复抽样(二)不重复抽样**(一)重复抽样是指从总体的N个单位中抽取一个容量为n的样本,每次抽出一个单位记录结果后,再将其放回总体中参加下一次抽取,这样连续抽n次即得到一个样本。用考虑顺序的简单随机重复抽样方法,从容量为N的总体中抽取单位数为n的样本,所有可能的样本个数为,每个样本被抽中的概率都等于 。**(二)不重复抽样又称无放回抽样,是指抽中单位不再放回总体中,而只能从余下的总体单位中抽取下一个样本单位。用不考虑顺序的简单随机不重复抽样的方法,从容量为N的总体中抽取单位数为n的样本,所有可能的样本个数为 ,每个样本被抽中的概率都等于 。**三、总体分布、样本分布与抽样分布(一)总体分布(二)样本分布(三)抽样分布**四、抽样误差抽样误差: 抽样调查中存在两类误差,即登记误差和代表性误差。登记误差不是抽样调查中特有的,它存在于一切调查当中,这在第二章中已经叙述过。**误 差登记性误差代表性误差系统性误差随机性误差登记性误差是指在调查和汇总过程中由于观察、测量、登记、计算等方法的差错或被调查者提供虚假资料而造成的误差。任何一种统计调查都可能产生登记性误差。代表性误差是指用样本指标推断总体指标时,由于样本结构与总体结构不一致、样本不能完全代表总体而产生的误差。系统性误差是指由于非随机因素引起的样本代表性不足而产生的误差,表现为样本估计量的值系统偏低或偏高。。随机性误差又称偶然性误差,是指遵循随机原则抽样,由于随机因素(偶然性因素)引起的误差。抽样估计中的所谓抽样误差,就是指的这种随机误差。**(一)抽样平均误差是指所有可能的样本指标与总体指标间的平均差异程度,即样本统计量的标准差。也称抽样分布的标准差。**抽样平均误差的计算公式:变量总体属性总体当N 很大时,重复抽样与不重复抽样的差别不大!**(二)抽样极限误差抽样极限误差又叫抽样绝对误差或最大允许误差。由于总体指标是一个确定的数,而样本抽样指标则围绕着总体指标左右变动,它与总体指标可能产生正离差,也可能产生负离差,为了表明偏离的程度,引入抽样极限误差的概念。**抽样极限误差:是抽样指标和总体指标之间抽样误差的可能范围。**基于理论上的要求,抽样极限误差通常需要以抽样平均误差为标准单位来衡量,把极限误差除以抽样平均误差,得出相对数 t,表示极限误差范围为抽样平均误差的若干倍。 t 称为概率度。这一变换称为概率的标准化过程。**(三)抽样误差系数与抽样估计精度在实际抽样工作中,往往需要计算误差系数和估计精度,用以表示抽样极限误差的相对大小。**第二节 抽样估计原理——大数定律及中心极限定理一、大数定律及中心极限定理的基本内容二、计算实例**一、大数定律及中心极限定理的基本内容(一)问题的提出(二)大数定律、中心极限定理**二、计算实例**第三节 总体平均数和总体比例的估计一、总体均值的估计二、对总体比例的估计**抽样估计必须包括三要素:估计值、估计值的误差范围及相应得概率保证程度,即可靠程度或置信度。对未知总体参数估计的方法有两种,即点估计和区间估计。**点估计(Point Estimation)设总体随机变量X的分布函数已知,但其一个或多个参数未知,利用样本数据对总体未知参数直接进行估计就称为点估计。点估计的主要方法有矩估计法、极大似然估计法等。根据矩估计的原理,可以样本均值估计总体均值,以样本标准差估计总体标准差等。**区间估计(Interval Estimation):区间估计就是根据样本指标和抽样极限误差以一定把握程度推断总体指标的区间范围内。即根据置信度的要求,计算极限误差,再利用抽样所得的样本指标值定出估计下限(Lower Limit)L,上限(Upper Limit) U, 区间被称为总体参数的置信区间。**置信度(Degree of Confidence):又称估计可靠程度或把握程度,也即估计的区间包含总体参数的可能性大小,常用 表示。**一、总体均值的估计(一)总体均值的点估计(二)总体均值的区间估计**(二)总体均值的区间估计1、总体方差已知时总体均值的区间估计2、总体方差未知时总体均值的区间估计**二、对总体比例的估计(一)总体比例与样本比例(二)样本比例p的分布特征(三)总体比例P的估计**第四节 必要的样本容量一、平均数的样本容量二、比例的样本容量**一、平均数的样本容量(一)重复抽样下的样本容量(二)不重复抽样下的样本容量**二、比例的样本容量(一)在重复抽样条件下(二)在不重复抽样下****(三)在确定抽样单位时要注意以下几点:1、抽样单位数受允许误差范围的制约。2、一个总体往往同时需要计算抽样平均数和抽样比例,由于它们的方差和允许误差范围不同,因而抽样单位数就可能不同。3、总体标准差σ一般是未知的,这时常以样本标准差s替代。4、测定比例方差时要首先知道比例P。5、当总体单位数N不大时,如果采用不重复抽样方法,必须应用不重复抽样的公式推算;而总体单位数很大时,虽应用不重复抽样方法,但可用重复抽样公式进行推算。 展开更多...... 收起↑ 资源预览