资源简介
(共43张PPT)
第7章 数据分析
—相关与回归分析法
*
工作任务
任务1:根据所学卡方、方差分析、相关回归分析的方法,选用合适的方法分析问卷调查的数据。
*
主要内容
7.1 相关关系与相关分析
7.2 常用的相关分析法
*
本章要点
相关关系与函数关系
卡方的应用
方差的应用
简单的线性回归:一元线性回归
*
7.1相关关系与相关分析
7.1.1.相关关系
1.定义
相关关系是指所研究现象之间存在的互相依存关系。相关分析则是对现象之间相关关系密切程度进行研究。
2.分类
1)依据关系性质的不同,通过前人的总结和研究,现象之间的相关关系主要可区分为两种不同的类型:关联关系、因果关系和函数关系。
2)依据现象种类的多少,可将相关关系分为单相关与复相关。
3)依据现象之间关系的方向可分为正相关与负相关。
4)依据现象之间在坐标图上的散布点图趋向可分为直线相关与曲线相关。
5)依据相关的程度可分为完全相关、不完全相关与不相关。
7.1.2 相关分析
1.内涵
相关分析就是对现象之间存在的相关关系进行分析,判断现象间是否存在关系。
2.判断方法
1)定性分析
2)相关表
3) 相关图
4)假设检验和相关系数
内涵
(2)直线相关系数的计算
相关系数的取值范围在-1≤r≤1之间。当r接
近于0时,说明x与y之间不相关;当r=1或r=-1
时,说明x与y完全相关;当-1与y之间不完全相关。
7.2 常用的相关分析法
卡方的应用、方差的应用和一元线性回归
7.2.1卡方的应用
1.内涵
卡方检验是以卡方分布为基础的一种常用假
设检验方法,主要用来测量品质标志之间的
关系。
2.方法
1)在应用过程中,一般先建立两种假设:H0:行品质标志与列品质标志之间不存在相关关系;H1:行品质标志与列品质标志之间存在相关关系。其次,计算列联表格中的次数值与期望值之间的差异程度
2)计算公式:
=0则表示观察到的次数值与期望值完全相同,二者没有关系。
例如:表7-6 不同性别与文理科人数
性别 文科 理科
男 10 30
女 20 15
①假设:
H0:性别与文理科之间不存在相关关系;
H1:性别与文理科之间存在相关关系。
②确定的显著水平为
③计算卡方值
④自由度为
⑤通过查卡方分布表,发现
故性别与文理科之间存在相关关系。
7.2.2 方差的应用
1.内涵
方差分析就是一般用来分析品质标志与数量标志之间的关系,品质标志作为自变量,数量标志作为因变量。方差分析就是检验总体间的均值是否有所不同,而不是方差是否有所不同,故又被称为均值分析。
2.方法
(1)建立假设
原假设
备择假设
TSS=BSS+RSS
(2)计算统计量
①总平方和TSS,组间平方和BSS,组内平方和RSS。
③自由度
④F分布与F检验
统计学上把两个均方之比值称为F值。即
F有两个自由度:
。
例如:表7-8 某年各地区城乡居民储蓄存款( 单位:亿元)
地区分类 分地区城乡居民储蓄存款
东部地区 12 4 10 11 18
中部地区 7 4 6 6 4
西部地区 9 2 4 0.2 2
解:第一,建立假设
原假设
备择假设
第二,计算统计量
①组间平方和BSS,组内平方和RSS。
通过查F分布表:
放弃原假设,接受备择假设,城乡居民储蓄存款存在地区差异。
7.2.3 一元线性回归的应用
1.回归分析的概念
1)定义
回归分析就是通过判断,确定现象之间不但存在相关关系,通过观察和计算,发现两个变量之间可以配合一条最适合的直线或曲线,用这条直线,反映它们之间数量变化的一般关系,即当自变量发生一个量的变化时,因变量一般会(或平均会)发生多大量的变化。它应用于现象之间的数量方面的分析,呈现的是一种函数关系。
2)特点
回归分析的两个变量是非对等关系,一个是因变量,一个是自变量。因变量是随机变量,自变量是可控变量。若自变量与因变量之间不存在明显的因果关系或主从关系,那么两个变量地位可以互换。
在直线回归方程中的回归系数有正负之分,与相关系数是一致的。
3)回归分析的内容
(1)建立数学模型
(2)测定数学模型的拟合精度。
2.一元线性回归模型
1)构建回归模型应具备的条件
(1)现象间确实存在数量上的相互依存的直线关系。通过观察相关表格中观测值的变量来分析变量之间的依存关系,也可通过画散点图来确定两个变量是否存在高度密切的直线相关关系,若有才能构建回归模型。
(2)具备一定数量的变量观测值。
2)直线回归方程的求法
表示自变量
表示因变量
式中:
是回归估计值。
通常用最小平方法来求,得之:
例如:表7-10 销售额与利润回归系数计算
日期 销售额(x) 利润(y) x2 x·y
1月 6000 756 36000000 4536000
2月 5000 520 25000000 2600000
3月 8000 1480 64000000 11840000
4月 1000 30 1000000 30000
5月 4000 324 16000000 1296000
6月 7000 1141 49000000 7987000
7月 6000 738 36000000 4428000
8月 3000 186 9000000 558000
9月 3000 198 9000000 594000
10月 7000 1176 49000000 8232000
合计 50000 6549 294000000 42101000
通过计算:
3.估计标准误差 1)定义
估计标准误差是衡量的实际值和估计值离差一般水平的分析指标。
2)标准误差的计算
(1)离差法:根据因变量实际值和估计值的离差计算估计标准误差的方法。
(2)参数法
、
的已知值来计算。
4.估计标准误差与相关系数
本章小结
展开更多......
收起↑