第4章第1节 成对数据的统计相关性 高中数学选择性必修二同步复习讲义(湘教版2020)

资源下载
  1. 二一教育资源

第4章第1节 成对数据的统计相关性 高中数学选择性必修二同步复习讲义(湘教版2020)

资源简介

第4章第1节 成对数据的统计相关性
题型1 散点图 题型2 变量间的相关关系
题型3 样本相关系数
▉题型1 散点图
【知识点的认识】
1.散点图的概念:
在考虑两个量的关系时,为了对变量之间的关系有一个大致的了解,人们常将变量所对应的点描出来,这些点就组成了变量之间的一个图,通常称这种图为变量之间的散点图.
2.曲线拟合的概念:
从散点图可以看出如果变量之间存在着某种关系,这些点会有一个集中的大致趋势,这种趋势通常可以用一条光滑的曲线来近似,这种近似的过程称为曲线拟合.
3.正相关和负相关:
(1)正相关:对于相关关系的两个变量,如果一个变量的值由小变大时,另一个变量的值也由小变大,这种相关称为正相关,正相关时散点图的点散布在从左下角到右上角的区域内.
(2)负相关:如果一个变量的值由小变大时,另一个变量的值由大变小,这种相关称为负相关,负相关时散点图的点散布在从左上角到右下角的区域.
3、注意:画散点图的关键是以成对的一组数据,分别为此点的横、纵坐标,在平面直角坐标系中把其找出来,其横纵坐标的单位长度的选取可以不同,应考虑数据分布的特征,散点图只是形象的描述点的分布,如果点的分布大致呈一种集中趋势,则两个变量可以初步判断具有相关关系,如图中数据大致分布在一条直线附近,则表示的关系是线性相关,如果两个变量统计数据的散点图呈现如下图所示的情况,则两个变量之间不具备相关关系,例如学生的身高和学生的英语成绩就没有相关关系.
4、散点图又称散点分布图,是以一个变量为横坐标,另一变量为纵坐标,利用散点(坐标点)的分布形态反映变量统计关系的一种图形.特点是能直观表现出影响因素和预测对象之间的总体关系趋势.优点是能通过直观醒目的图形方式反映变量间关系的变化形态,以便决定用何种数学表达方式来模拟变量之间的关系.散点图不仅可传递变量间关系类型的信息,也能反映变量间关系的明确程度.
1.对四组数据进行统计,获得以下散点图,关于其相关系数的比较,正确的是(  )
A.r2<r4<r3<r1 B.r2<r4<r1<r3
C.r4<r2<r1<r3 D.r4<r2<r3<r1
【答案】A
【解答】解:由题意知,图2与图4是负相关,相关系数小于0,
图1和图2的点相对更加集中,相关性更强,
所以r1接近于1,r2接近于﹣1,
由此可得r2<r4<0<r3<r1.
故选:A.
2.下面的散点图与相关系数r可能正确的是(  )
A. B.
C. D.
【答案】B
【解答】解:对于A,C项,变量x,y的散点图从左向右是下降的,
所以r<0,故A错误,C错误;
对于B,D项,变量x,y的散点图从左向右呈上升的带状分布,
所以0<r<1,故B正确,D错误.
故选:B.
▉题型2 变量间的相关关系
【知识点的认识】
1、变量之间的相关关系
两个变量之间的关系可能是确定的关系(如:函数关系),或非确定性关系.当自变量取值一定时,因变量也确定,则为确定关系;当自变量取值一定时,因变量带有随机性,这种变量之间的关系称为相关关系.相关关系是一种非确定性关系,如长方体的高与体积之间的关系就是确定的函数关系,而人的身高与体重的关系,学生的数学成绩好坏与物理成绩的关系等都是相关关系.
2、线性相关和非线性相关:
两个变量之间的相关关系又可分为线性相关和非线性相关,如果所有的样本点都落在某一函数曲线的附近,则变量之间具有相关关系(不确定性的关系),如果所有样本点都落在某一直线附近,那么变量之间具有线性相关关系,相关关系只说明两个变量在数量上的关系,不表明他们之间的因果关系,也可能是一种伴随关系.
3、两个变量相关关系与函数关系的区别和联系
(1)相同点:两者均是两个变量之间的关系.
(2)不同点:函数关系是一种确定的关系,如匀速直线运动中时间t与路程s的关系,相关关系是一种非确定的关系,如一块农田的小麦产量与施肥量之间的关系,函数关系是两个随机变量之间的关系,而相关关系是非随机变量与随机变量之间的关系;函数关系式一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系.
3.有以下几组(x,y)的统计数据:(1,1),(2,1.5),(3,3),(4,2.5),(5,7)要使剩下的数据具有较强的相关关系,应去掉的一组数据是(  )
A.(2,1.5) B.(3,3) C.(4,2.5) D.(5,7)
【答案】C
【解答】解:(1,1),(2,1.5),(3,3),(4,2.5),(5,7),在坐标系中画出五个点,
结果除去(4,2.5)之外,其余的点都在一条线附近,
去掉这个点以后剩下的数据更具有相关关系.
故选:C.
4.观察下图的等高条形图,其中最有把握认为两个分类变量x,y之间没有关系的是(  )
A. B.
C. D.
【答案】B
【解答】解:根据题意,在等高的条形图中,当x1,x2所占比例相差越大时,越有把握认为两个分类变量x,y之间有关系,
分析选项可得:B选项中,x1,x2所占比例最接近,
所以B选项最有把握认为两个分类变量x,y之间没有关系.
故选:B.
5.如图,在一组样本数据A(2,2),B(4,3),C(6,4),D(8,7),E(10,6)的散点图中,若去掉D(8,7)后,则下列说法正确的为(  )
A.样本相关系数r变小
B.残差平方和变大
C.相关指数R2变小
D.自变量x与因变量y的相关程度变强
【答案】D
【解答】解:由散点图知,去掉D(8,7)后,y与x的线性相关加强,且为正相关,所以r变大,R变大,残差平方和变小.
故选:D.
6.为了比较E、F、G、H四组数据的线性相关性强弱,某同学分别计算了E、F、G、H四组数据的线性相关系数,求得数值依次为0.92,﹣0.32,0.36,﹣0.95,则这四组数据中线性相关性最强的是 H 组数据.
【答案】H
【解答】解:因为线性相关系数的绝对值越大,线性相关性越强,
且|﹣0.95|>|0.92|>|0.36|>|﹣0.32|,
所以H组数据的线性相关性最强.
故答案为:H.
▉题型3 样本相关系数
【知识点的认识】
1、概念:
相关表和相关图可反映两个变量之间的相互关系及其相关方向,但无法确切地表明两个变量之间相关的程度.于是,著名统计学家卡尔 皮尔逊设计了统计指标﹣﹣相关系数.相关系数是用以反映变量之间相关关系密切程度的统计指标.相关系数是按积差方法计算,同样以两变量与各自平均值的离差为基础,通过两个离差相乘来反映两变量之间相关程度;着重研究线性的单相关系数.
2、相关系数用r表示,计算公式为
其中:当r>0时,表明两个变量正相关;当r<0时,表明两个变量负相关;|r|≤1,且|r|越接近于1,相关程度越大;|r|越接近于0,相关程度越小.
3、残差:
相关指数R2用来刻画回归的效果,其计算公式是
在含有一个解释变量的线性模型中,R2恰好等于相关系数r的平方.显然,R2取值越大,意味着残差平方和越小,也就是模型的拟合效果越好.
【解题方法点拨】
建立回归模型的基本步骤:
(1)确定研究对象,明确哪个变量是解释变量,哪个是预报变量;
(2)画出解释变量和预报变量的散点图,观察它们之间的关系;
(3)由经验确定回归方程的类型(如观察到数据呈线性关系,则选用线性回归方程:x);
(4)按一定规则估计回归方程中的参数(如最小二乘法);
(5)得出结果分析残差图是否有异常,若存在异常,则检查数据是否有误,或模型是否适当.当回归方程不是形如:x时,我们称之为非线性回归方程.
7.有一散点图如图所示,在A,B,C,D,E这5个点中去掉D(8,5)后,下列说法错误的是(  )
A.相关系数r变大
B.残差平方和变大
C.变量x,y正相关
D.解释变量x与预报变量y的相关性变强
【答案】B
【解答】解:选项A,去掉D(8,5)后,y与x的线性相关性变强,相关系数r变大,A正确;
选项B,残差平方和变小,B错误;
选项C,散点的分布是从左下到右上,故变量x,y正相关,C正确;
选项D,解释变量x与预报变量y的相关性变强,D正确.
故选:B.
8.已知一组具有线性相关关系的成对样本数据相关系数的绝对值为0.88,删除某个数据后仍然具有线性相关关系且线性相关程度增强,则此时的相关系数可能为(  )
A.0 B.﹣0.92 C.0.80 D.1.1
【答案】B
【解答】解:∵一组具有线性相关关系的成对样本数据相关系数的绝对值为0.88,
删除某个数据后仍然具有线性相关关系且线性相关程度增强,
∴此时的相关系数r的绝对值|r|>0.88,
∴此时的相关系数可能为﹣0.92.
故选:B.
9.下列说法正确的是(  )
A.一组数据的标准差为0,则这组数据中的数均相等
B.两组数据的标准差相等,则这两组数据的平均数相等
C.若两个变量的相关系数越接近于0,则这两个变量的相关性越强
D.残差图中,残差点所在的水平带状区域越窄,则回归方程的预报精确度越低
【答案】A
【解答】解:对于选项A,根据标准差的定义,一组数据x1,x2,…,xn的标准差时,
显然有,故A正确;
对于选项B,举例都为1和都为2的两组数据,它们的标准差均为0,但它们的平均数分别为1和2,
所以两组数据的标准差相等,这两组数据的平均数未必相等,故B错误;
对于选项C,若相关系数|r|越接近于1,则两个变量的相关性越强,故C错误;
对于选项D,残差图中,残差点所在的水平带状区域越窄,则回归方程的预报精确度越高,
水平带状区域越宽,则回归方程的预报精确度越低,故D错误.
故选:A.
10.现有一组样本数据,(1,8),(2,6),,(4,2)都在直线y=﹣2x+10上,则该组样本数据的相关系数r为(  )
A.﹣2 B.﹣1 C.1 D.2
【答案】B
【解答】解:因为样本数据,(1,8),(2,6),,(4,2)都在直线y=﹣2x+10上,
所以该组样本数据的相关系数r=﹣1.
故选:B.
11.对四组数据进行统计,获得以下散点图,关于其相关系数的比较,正确的是(  )
A.r2<r4<0<r3<r1 B.r4<r2<0<r1<r3
C.r4<r2<0<r3<r1 D.r2<r4<0<r1<r3
【答案】A
【解答】解:由给出的四组数据的散点图可以看出,
图1和图3是正相关,相关系数大于0,
图2和图4是负相关,相关系数小于0,
图1和图2的点相对更加集中,所以相关性要强,所以r1接近于1,r2接近于﹣1,
由此可得r2<r4<r3<r1.
故选:A.
12.关于线性回归的描述,下列表述错误的是(  )
A.回归直线一定经过样本中心点(,)
B.相关系数r越大,相关性越强
C.决定系数R2越接近1,拟合效果越好
D.残差图的带状区域越窄,拟合效果越好
【答案】B
【解答】解:对于A,根据回归直线方程中a知,回归直线一定经过样本中心点(,),故A正确;
对于B,相关系数|r|越大,相关性越强,故B错误;
对于C,决定系数R2越接近1,拟合效果越好,故C正确;
对于D,残差图的带状区域越窄,说明拟合效果越好,故D正确.
故选:B.
13.要判断成对数据的线性相关程度的强弱,可以通过比较它们的样本相关系数r的大小,以下是四组数据的相关系数的值,则线性相关最强的是(  )
A.r1=﹣0.95 B.r2=﹣0.55 C.r3=0.45 D.r4=0.85
【答案】A
【解答】解:当r>0时,表明两个变量正相关;当r<0时,表明两个变量负相关;|r|≤1,且|r|越接近于1,相关程度越大;|r|越接近于0,相关程度越小,因此线性相关最强的是A.
故选:A.
14.在两个变量Y与X的回归模型中,分别选择了4个不同的模型,它们的样本相关系数r如表所示,其中线性相关性最强的模型是(  )
模型 模型1 模型2 模型3 模型4
相关系数r 0.51 0.22 0.93 ﹣0.36
A.模型1 B.模型2 C.模型3 D.模型4
【答案】C
【解答】解:根据题意可得模型3的相关系数r的绝对值最接近于1,
故线性相关性最强的模型是模型3.
故选:C.
15.设变量X和变量Y的样本相关系数为r1,变量U和变量V的样本相关系数为r2,且r1=0.734,r2=﹣0.983,则(  )
A.X和Y之间呈正线性相关关系,且X和Y的线性相关程度强于U和V的线性相关程度
B.X和Y之间呈负线性相关关系,且X和Y的线性相关程度强于U和V的线性相关程度
C.U和V之间呈负线性相关关系,且X和Y的线性相关程度弱于U和V的线性相关程度
D.U和V之间呈正线性相关关系,且X和Y的线性相关程度弱于U和V的线性相关程度
【答案】C
【解答】解:∵r1=0.734>0,r2=﹣0.983<0,
∴X和Y之间呈正线性相关关系,
U和V之间呈负线性相关关系,
∴|r2|>|r1|,
∴X和Y的线性相关程度弱于U和V的线性相关程度,
故选:C.
(多选)16.市物价部门对5家商场的某商品一天的线上销售量及其价格进行调查,5家商场的售价x(元)和销售量y(件)之间的一组数据如表所示:
价格x 9 9.5 10 10.5 11
销售量y 11 10 8 6 5
按公式计算,y与x的回归直线方程是:,相关系数|r|=0.986,则下列说法正确的是(  )
A.
B.变量x,y线性负相关且相关性较强
C.相应于点(9.5,10)的残差约为﹣0.4
D.当x=8时,y的估计值为14.4
【答案】BD
【解答】解:对于选项A,,,
将(10,8)代入回归直线方程得,,
解得,故A错误;
对于选项B,从表可以看出,y随着x的增大而减小,又|r|=0.986,接近于1,
所以变量x,y线性负相关且相关性较强,故B正确;
对于选项C,因为回归直线方程为,
所以相应于点(9.5,10)的残差约为10﹣(﹣3.2×9.5+40)=0.4,故C错误;
对于选项D,因为回归直线方程为,
所以当x=8时,y的估计值为,故D正确.
故选:BD.
(多选)17.下列有关回归分析的结论中,正确的有(  )
A.决定系数R2的值越接近于0,回归模型的拟合效果越好
B.在经验回归方程中,当解释变量x每增加1个单位时,减少0.6个单位
C.在一元线性回归模型的残差图中,残差分布的带状区域的宽度越宽,说明模型拟合效果越好
D.样本相关系数r的绝对值越小,成对样本数据的线性相关程度越弱
【答案】BD
【解答】解:决定系数R2的值越接近于1,回归模型的拟合效果越好,故A错;
在经验回归方程中,当解释变量x每增加1个单位时,减少0.6个单位,B正确;
在一元线性回归模型的残差图中,残差分布的带状区域的宽度越宽,说明模型拟合效果越差,C错;
样本相关系数r的绝对值越小,成对样本数据的线性相关程度越弱,D正确.
故选:BD.
(多选)18.如图所示,5个(x,y)数据,去掉B(3,8)后,下列说法正确的是(  )
A.相关系数r变大
B.残差平方和变大
C.决定系数R2变小
D.解释变量x与响应变量y的相关性变强
【答案】AD
【解答】解:由散点图知,去掉离群点D后,x与y的相关性变强,且为正相关,
所以相关系数r的值变大,决定系数R2的值变大,残差平方和变小.
故选:AD.
19.甲、乙、丙、丁各自研究两个随机变量的数据,若甲、乙、丙、丁计算得到各自研究的两个随机变量的线性相关系数分别为r1=0.66,r2=﹣0.97,r3=0.92,r4=0.89,则这四人中, 乙  研究的两个随机变量的线性相关程度最高.
【答案】乙.
【解答】解:因为|r2|=0.97>|r3|>|r4|>|r1|,所以这四人中,乙研究的两个随机变量的线性相关程度最高.
故答案为:乙.
20.某公司对项目A进行投资,投资金额x与所获利润y之间有如下对应数据:
项目A投资金额x(百万元) 6 5 4 3 2
所获利润y(百万元) 0.9 0.8 0.4 0.2 0.2
(1)用相关系数说明y与x相关性的强弱(本题规定,相关系数r满足|r|≥0.95,则认为线性相关性较强;否则,线性相关性较弱);
(2)该公司有4位股东甲、乙、丙、丁,由于公司还有其它项目可供选择,需要股东对项目A是否投资发表意见,其中甲、乙、丙同意投资项目A的概率均为,丁同意投资的概率为,且4位股东是否同意相互独立,设4位股东同意的人数为随机变量ξ,求随机变量ξ的概率分布及数学期望.
参考公式:相关系数.
参考数据:统计数据表中.
【答案】(1)y与x线性相关性较强;
(2)ξ的概率分布见解析;.
【解答】(1)解:由题意,,
(6+5+4+3+2)=4,(0.9+0.8+0.4+0.3+0.2)=0.5,
80,510,5,
∴,
∴y与x线性相关性较强;
(2)由题可知ξ=0,1,2,3,4,
P(ξ=0),
P(ξ=1),
P(ξ=2),
P(ξ=3),
P(ξ=4),
则随机变量ξ的概率分布列为:
ξ 0 1 2 3 4
P
随机变量ξ的数学期望为:
E(ξ)=01234.
21.某景区试卖一款纪念品,现统计了该款纪念品的定价x(单位:元)与销量y(单位:百件)的对应数据,如下表所示:
x 12 12.5 13 13.5 14
y 14 13 11 9 8
(1)求该纪念品定价的平均值和销量的平均值;
(2)计算x与y的相关系数;
参考数据:.
参考公式:相关系数.
【答案】(1),;
(2)﹣0.992.
【解答】解:(1)由表格数据可知,,

(2)因为1+0.25+0+0.25+1=2.5,9+4+0+4+9=26,
所以.
22.为了了解高中学生课后自主学习数学时间(x分钟/每天)和他们的数学成绩(y分)的关系,某实验小组做了调查,得到一些数据(表一).
编号 1 2 3 4 5
学习时间x 30 40 50 60 70
数学成绩y 65 78 85 99 108
(1)求数学成绩y与学习时间x的相关系数(精确到0.001);
(2)请用相关系数说明该组数据中y与x之间的关系可用线性回归模型进行拟合,并求出y关于x的回归直线方程,并由此预测每天课后自主学习数学时间为100分钟时的数学成绩(参考数据:,xi的方差为200);
(3)基于上述调查,某校提倡学生周末在校自主学习.经过一学期的实施后,抽样调查了220位学生.按照是否参与周末在校自主学习以及成绩是否有进步统计,得到2×2列联表(表二).依据表中数据及小概率值α=0.001的独立性检验,分析“周末在校自主学习与成绩进步”是否有关.
没有进步 有进步 合计
参与周末在校自主学习 35 130 165
未参与周末不在校自主学习 25 30 55
合计 60 160 220
附:方差:
相关系数:
回归方程bx+a中斜率和截距的最小二乘估计公式分别为,,.
α 0.10 0.05 0.010 0.005 0.001
χα 2.706 3.841 6.635 7.879 10.828
【答案】(1)0.996;
(2)答案见解析;
(3)答案见解析.
【解答】解:(1),,
又xi(i=1,2,3, ,5)的方差为,
=484+81+4+144+441=1154,

(2)由(1)知r≈0.996接近1,故与之间具有极强的线性相关关系,可用线性回归直线方程模型进行拟合,
∴,

故,
当x=100时,y=140.5,
故预测每天课后自主学习数学时间达到100分钟时的数学成绩为140;
(3)零假设H0:周末在校自主学习与成绩进步无关,
根据数据,计算得到:

因为12.22>10.828,
所以依据α=0.001的独立性检验,可以认为“周末自主学习与成绩进步”有关.第4章第1节 成对数据的统计相关性
题型1 散点图 题型2 变量间的相关关系
题型3 样本相关系数
▉题型1 散点图
【知识点的认识】
1.散点图的概念:
在考虑两个量的关系时,为了对变量之间的关系有一个大致的了解,人们常将变量所对应的点描出来,这些点就组成了变量之间的一个图,通常称这种图为变量之间的散点图.
2.曲线拟合的概念:
从散点图可以看出如果变量之间存在着某种关系,这些点会有一个集中的大致趋势,这种趋势通常可以用一条光滑的曲线来近似,这种近似的过程称为曲线拟合.
3.正相关和负相关:
(1)正相关:对于相关关系的两个变量,如果一个变量的值由小变大时,另一个变量的值也由小变大,这种相关称为正相关,正相关时散点图的点散布在从左下角到右上角的区域内.
(2)负相关:如果一个变量的值由小变大时,另一个变量的值由大变小,这种相关称为负相关,负相关时散点图的点散布在从左上角到右下角的区域.
3、注意:画散点图的关键是以成对的一组数据,分别为此点的横、纵坐标,在平面直角坐标系中把其找出来,其横纵坐标的单位长度的选取可以不同,应考虑数据分布的特征,散点图只是形象的描述点的分布,如果点的分布大致呈一种集中趋势,则两个变量可以初步判断具有相关关系,如图中数据大致分布在一条直线附近,则表示的关系是线性相关,如果两个变量统计数据的散点图呈现如下图所示的情况,则两个变量之间不具备相关关系,例如学生的身高和学生的英语成绩就没有相关关系.
4、散点图又称散点分布图,是以一个变量为横坐标,另一变量为纵坐标,利用散点(坐标点)的分布形态反映变量统计关系的一种图形.特点是能直观表现出影响因素和预测对象之间的总体关系趋势.优点是能通过直观醒目的图形方式反映变量间关系的变化形态,以便决定用何种数学表达方式来模拟变量之间的关系.散点图不仅可传递变量间关系类型的信息,也能反映变量间关系的明确程度.
1.对四组数据进行统计,获得以下散点图,关于其相关系数的比较,正确的是(  )
A.r2<r4<r3<r1 B.r2<r4<r1<r3
C.r4<r2<r1<r3 D.r4<r2<r3<r1
2.下面的散点图与相关系数r可能正确的是(  )
A. B.
C. D.
▉题型2 变量间的相关关系
【知识点的认识】
1、变量之间的相关关系
两个变量之间的关系可能是确定的关系(如:函数关系),或非确定性关系.当自变量取值一定时,因变量也确定,则为确定关系;当自变量取值一定时,因变量带有随机性,这种变量之间的关系称为相关关系.相关关系是一种非确定性关系,如长方体的高与体积之间的关系就是确定的函数关系,而人的身高与体重的关系,学生的数学成绩好坏与物理成绩的关系等都是相关关系.
2、线性相关和非线性相关:
两个变量之间的相关关系又可分为线性相关和非线性相关,如果所有的样本点都落在某一函数曲线的附近,则变量之间具有相关关系(不确定性的关系),如果所有样本点都落在某一直线附近,那么变量之间具有线性相关关系,相关关系只说明两个变量在数量上的关系,不表明他们之间的因果关系,也可能是一种伴随关系.
3、两个变量相关关系与函数关系的区别和联系
(1)相同点:两者均是两个变量之间的关系.
(2)不同点:函数关系是一种确定的关系,如匀速直线运动中时间t与路程s的关系,相关关系是一种非确定的关系,如一块农田的小麦产量与施肥量之间的关系,函数关系是两个随机变量之间的关系,而相关关系是非随机变量与随机变量之间的关系;函数关系式一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系.
3.有以下几组(x,y)的统计数据:(1,1),(2,1.5),(3,3),(4,2.5),(5,7)要使剩下的数据具有较强的相关关系,应去掉的一组数据是(  )
A.(2,1.5) B.(3,3) C.(4,2.5) D.(5,7)
4.观察下图的等高条形图,其中最有把握认为两个分类变量x,y之间没有关系的是(  )
A. B.
C. D.
5.如图,在一组样本数据A(2,2),B(4,3),C(6,4),D(8,7),E(10,6)的散点图中,若去掉D(8,7)后,则下列说法正确的为(  )
A.样本相关系数r变小
B.残差平方和变大
C.相关指数R2变小
D.自变量x与因变量y的相关程度变强
6.为了比较E、F、G、H四组数据的线性相关性强弱,某同学分别计算了E、F、G、H四组数据的线性相关系数,求得数值依次为0.92,﹣0.32,0.36,﹣0.95,则这四组数据中线性相关性最强的是 组数据.
▉题型3 样本相关系数
【知识点的认识】
1、概念:
相关表和相关图可反映两个变量之间的相互关系及其相关方向,但无法确切地表明两个变量之间相关的程度.于是,著名统计学家卡尔 皮尔逊设计了统计指标﹣﹣相关系数.相关系数是用以反映变量之间相关关系密切程度的统计指标.相关系数是按积差方法计算,同样以两变量与各自平均值的离差为基础,通过两个离差相乘来反映两变量之间相关程度;着重研究线性的单相关系数.
2、相关系数用r表示,计算公式为
其中:当r>0时,表明两个变量正相关;当r<0时,表明两个变量负相关;|r|≤1,且|r|越接近于1,相关程度越大;|r|越接近于0,相关程度越小.
3、残差:
相关指数R2用来刻画回归的效果,其计算公式是
在含有一个解释变量的线性模型中,R2恰好等于相关系数r的平方.显然,R2取值越大,意味着残差平方和越小,也就是模型的拟合效果越好.
【解题方法点拨】
建立回归模型的基本步骤:
(1)确定研究对象,明确哪个变量是解释变量,哪个是预报变量;
(2)画出解释变量和预报变量的散点图,观察它们之间的关系;
(3)由经验确定回归方程的类型(如观察到数据呈线性关系,则选用线性回归方程:x);
(4)按一定规则估计回归方程中的参数(如最小二乘法);
(5)得出结果分析残差图是否有异常,若存在异常,则检查数据是否有误,或模型是否适当.当回归方程不是形如:x时,我们称之为非线性回归方程.
7.有一散点图如图所示,在A,B,C,D,E这5个点中去掉D(8,5)后,下列说法错误的是(  )
A.相关系数r变大
B.残差平方和变大
C.变量x,y正相关
D.解释变量x与预报变量y的相关性变强
8.已知一组具有线性相关关系的成对样本数据相关系数的绝对值为0.88,删除某个数据后仍然具有线性相关关系且线性相关程度增强,则此时的相关系数可能为(  )
A.0 B.﹣0.92 C.0.80 D.1.1
9.下列说法正确的是(  )
A.一组数据的标准差为0,则这组数据中的数均相等
B.两组数据的标准差相等,则这两组数据的平均数相等
C.若两个变量的相关系数越接近于0,则这两个变量的相关性越强
D.残差图中,残差点所在的水平带状区域越窄,则回归方程的预报精确度越低
10.现有一组样本数据,(1,8),(2,6),,(4,2)都在直线y=﹣2x+10上,则该组样本数据的相关系数r为(  )
A.﹣2 B.﹣1 C.1 D.2
11.对四组数据进行统计,获得以下散点图,关于其相关系数的比较,正确的是(  )
A.r2<r4<0<r3<r1 B.r4<r2<0<r1<r3
C.r4<r2<0<r3<r1 D.r2<r4<0<r1<r3
12.关于线性回归的描述,下列表述错误的是(  )
A.回归直线一定经过样本中心点(,)
B.相关系数r越大,相关性越强
C.决定系数R2越接近1,拟合效果越好
D.残差图的带状区域越窄,拟合效果越好
13.要判断成对数据的线性相关程度的强弱,可以通过比较它们的样本相关系数r的大小,以下是四组数据的相关系数的值,则线性相关最强的是(  )
A.r1=﹣0.95 B.r2=﹣0.55 C.r3=0.45 D.r4=0.85
14.在两个变量Y与X的回归模型中,分别选择了4个不同的模型,它们的样本相关系数r如表所示,其中线性相关性最强的模型是(  )
模型 模型1 模型2 模型3 模型4
相关系数r 0.51 0.22 0.93 ﹣0.36
A.模型1 B.模型2 C.模型3 D.模型4
15.设变量X和变量Y的样本相关系数为r1,变量U和变量V的样本相关系数为r2,且r1=0.734,r2=﹣0.983,则(  )
A.X和Y之间呈正线性相关关系,且X和Y的线性相关程度强于U和V的线性相关程度
B.X和Y之间呈负线性相关关系,且X和Y的线性相关程度强于U和V的线性相关程度
C.U和V之间呈负线性相关关系,且X和Y的线性相关程度弱于U和V的线性相关程度
D.U和V之间呈正线性相关关系,且X和Y的线性相关程度弱于U和V的线性相关程度
(多选)16.市物价部门对5家商场的某商品一天的线上销售量及其价格进行调查,5家商场的售价x(元)和销售量y(件)之间的一组数据如表所示:
价格x 9 9.5 10 10.5 11
销售量y 11 10 8 6 5
按公式计算,y与x的回归直线方程是:,相关系数|r|=0.986,则下列说法正确的是(  )
A.
B.变量x,y线性负相关且相关性较强
C.相应于点(9.5,10)的残差约为﹣0.4
D.当x=8时,y的估计值为14.4
(多选)17.下列有关回归分析的结论中,正确的有(  )
A.决定系数R2的值越接近于0,回归模型的拟合效果越好
B.在经验回归方程中,当解释变量x每增加1个单位时,减少0.6个单位
C.在一元线性回归模型的残差图中,残差分布的带状区域的宽度越宽,说明模型拟合效果越好
D.样本相关系数r的绝对值越小,成对样本数据的线性相关程度越弱
(多选)18.如图所示,5个(x,y)数据,去掉B(3,8)后,下列说法正确的是(  )
A.相关系数r变大
B.残差平方和变大
C.决定系数R2变小
D.解释变量x与响应变量y的相关性变强
19.甲、乙、丙、丁各自研究两个随机变量的数据,若甲、乙、丙、丁计算得到各自研究的两个随机变量的线性相关系数分别为r1=0.66,r2=﹣0.97,r3=0.92,r4=0.89,则这四人中,   研究的两个随机变量的线性相关程度最高.
20.某公司对项目A进行投资,投资金额x与所获利润y之间有如下对应数据:
项目A投资金额x(百万元) 6 5 4 3 2
所获利润y(百万元) 0.9 0.8 0.4 0.2 0.2
(1)用相关系数说明y与x相关性的强弱(本题规定,相关系数r满足|r|≥0.95,则认为线性相关性较强;否则,线性相关性较弱);
(2)该公司有4位股东甲、乙、丙、丁,由于公司还有其它项目可供选择,需要股东对项目A是否投资发表意见,其中甲、乙、丙同意投资项目A的概率均为,丁同意投资的概率为,且4位股东是否同意相互独立,设4位股东同意的人数为随机变量ξ,求随机变量ξ的概率分布及数学期望.
参考公式:相关系数.
参考数据:统计数据表中.
21.某景区试卖一款纪念品,现统计了该款纪念品的定价x(单位:元)与销量y(单位:百件)的对应数据,如下表所示:
x 12 12.5 13 13.5 14
y 14 13 11 9 8
(1)求该纪念品定价的平均值和销量的平均值;
(2)计算x与y的相关系数;
参考数据:.
参考公式:相关系数.
22.为了了解高中学生课后自主学习数学时间(x分钟/每天)和他们的数学成绩(y分)的关系,某实验小组做了调查,得到一些数据(表一).
编号 1 2 3 4 5
学习时间x 30 40 50 60 70
数学成绩y 65 78 85 99 108
(1)求数学成绩y与学习时间x的相关系数(精确到0.001);
(2)请用相关系数说明该组数据中y与x之间的关系可用线性回归模型进行拟合,并求出y关于x的回归直线方程,并由此预测每天课后自主学习数学时间为100分钟时的数学成绩(参考数据:,xi的方差为200);
(3)基于上述调查,某校提倡学生周末在校自主学习.经过一学期的实施后,抽样调查了220位学生.按照是否参与周末在校自主学习以及成绩是否有进步统计,得到2×2列联表(表二).依据表中数据及小概率值α=0.001的独立性检验,分析“周末在校自主学习与成绩进步”是否有关.
没有进步 有进步 合计
参与周末在校自主学习 35 130 165
未参与周末不在校自主学习 25 30 55
合计 60 160 220
附:方差:
相关系数:
回归方程bx+a中斜率和截距的最小二乘估计公式分别为,,.
α 0.10 0.05 0.010 0.005 0.001
χα 2.706 3.841 6.635 7.879 10.828

展开更多......

收起↑

资源列表