第4章第1节成对数据的统计相关性高中数学选择性必修二同步复习讲义（湘教版2020）

资源简介

第4章第1节成对数据的统计相关性
题型1 散点图题型2 变量间的相关关系
题型3 样本相关系数
▉题型1 散点图
【知识点的认识】
1．散点图的概念：
在考虑两个量的关系时，为了对变量之间的关系有一个大致的了解，人们常将变量所对应的点描出来，这些点就组成了变量之间的一个图，通常称这种图为变量之间的散点图．
2．曲线拟合的概念：
从散点图可以看出如果变量之间存在着某种关系，这些点会有一个集中的大致趋势，这种趋势通常可以用一条光滑的曲线来近似，这种近似的过程称为曲线拟合．
3．正相关和负相关：
（1）正相关：对于相关关系的两个变量，如果一个变量的值由小变大时，另一个变量的值也由小变大，这种相关称为正相关，正相关时散点图的点散布在从左下角到右上角的区域内．
（2）负相关：如果一个变量的值由小变大时，另一个变量的值由大变小，这种相关称为负相关，负相关时散点图的点散布在从左上角到右下角的区域．
3、注意：画散点图的关键是以成对的一组数据，分别为此点的横、纵坐标，在平面直角坐标系中把其找出来，其横纵坐标的单位长度的选取可以不同，应考虑数据分布的特征，散点图只是形象的描述点的分布，如果点的分布大致呈一种集中趋势，则两个变量可以初步判断具有相关关系，如图中数据大致分布在一条直线附近，则表示的关系是线性相关，如果两个变量统计数据的散点图呈现如下图所示的情况，则两个变量之间不具备相关关系，例如学生的身高和学生的英语成绩就没有相关关系．
4、散点图又称散点分布图，是以一个变量为横坐标，另一变量为纵坐标，利用散点（坐标点）的分布形态反映变量统计关系的一种图形．特点是能直观表现出影响因素和预测对象之间的总体关系趋势．优点是能通过直观醒目的图形方式反映变量间关系的变化形态，以便决定用何种数学表达方式来模拟变量之间的关系．散点图不仅可传递变量间关系类型的信息，也能反映变量间关系的明确程度．
1．对四组数据进行统计，获得以下散点图，关于其相关系数的比较，正确的是（　　）
A．r2＜r4＜r3＜r1 B．r2＜r4＜r1＜r3
C．r4＜r2＜r1＜r3 D．r4＜r2＜r3＜r1
【答案】A
【解答】解：由题意知，图2与图4是负相关，相关系数小于0，
图1和图2的点相对更加集中，相关性更强，
所以r1接近于1，r2接近于﹣1，
由此可得r2＜r4＜0＜r3＜r1．
故选：A．
2．下面的散点图与相关系数r可能正确的是（　　）
A． B．
C． D．
【答案】B
【解答】解：对于A，C项，变量x，y的散点图从左向右是下降的，
所以r＜0，故A错误，C错误；
对于B，D项，变量x，y的散点图从左向右呈上升的带状分布，
所以0＜r＜1，故B正确，D错误．
故选：B．
▉题型2 变量间的相关关系
【知识点的认识】
1、变量之间的相关关系
两个变量之间的关系可能是确定的关系（如：函数关系），或非确定性关系．当自变量取值一定时，因变量也确定，则为确定关系；当自变量取值一定时，因变量带有随机性，这种变量之间的关系称为相关关系．相关关系是一种非确定性关系，如长方体的高与体积之间的关系就是确定的函数关系，而人的身高与体重的关系，学生的数学成绩好坏与物理成绩的关系等都是相关关系．
2、线性相关和非线性相关：
两个变量之间的相关关系又可分为线性相关和非线性相关，如果所有的样本点都落在某一函数曲线的附近，则变量之间具有相关关系（不确定性的关系），如果所有样本点都落在某一直线附近，那么变量之间具有线性相关关系，相关关系只说明两个变量在数量上的关系，不表明他们之间的因果关系，也可能是一种伴随关系．
3、两个变量相关关系与函数关系的区别和联系
（1）相同点：两者均是两个变量之间的关系．
（2）不同点：函数关系是一种确定的关系，如匀速直线运动中时间t与路程s的关系，相关关系是一种非确定的关系，如一块农田的小麦产量与施肥量之间的关系，函数关系是两个随机变量之间的关系，而相关关系是非随机变量与随机变量之间的关系；函数关系式一种因果关系，而相关关系不一定是因果关系，也可能是伴随关系．
3．有以下几组（x，y）的统计数据：（1，1），（2，1.5），（3，3），（4，2.5），（5，7）要使剩下的数据具有较强的相关关系，应去掉的一组数据是（　　）
A．（2，1.5） B．（3，3） C．（4，2.5） D．（5，7）
【答案】C
【解答】解：（1，1），（2，1.5），（3，3），（4，2.5），（5，7），在坐标系中画出五个点，
结果除去（4，2.5）之外，其余的点都在一条线附近，
去掉这个点以后剩下的数据更具有相关关系．
故选：C．
4．观察下图的等高条形图，其中最有把握认为两个分类变量x，y之间没有关系的是（　　）
A． B．
C． D．
【答案】B
【解答】解：根据题意，在等高的条形图中，当x1，x2所占比例相差越大时，越有把握认为两个分类变量x，y之间有关系，
分析选项可得：B选项中，x1，x2所占比例最接近，
所以B选项最有把握认为两个分类变量x，y之间没有关系．
故选：B．
5．如图，在一组样本数据A（2，2），B（4，3），C（6，4），D（8，7），E（10，6）的散点图中，若去掉D（8，7）后，则下列说法正确的为（　　）
A．样本相关系数r变小
B．残差平方和变大
C．相关指数R2变小
D．自变量x与因变量y的相关程度变强
【答案】D
【解答】解：由散点图知，去掉D（8，7）后，y与x的线性相关加强，且为正相关，所以r变大，R变大，残差平方和变小．
故选：D．
6．为了比较E、F、G、H四组数据的线性相关性强弱，某同学分别计算了E、F、G、H四组数据的线性相关系数，求得数值依次为0.92，﹣0.32，0.36，﹣0.95，则这四组数据中线性相关性最强的是 H 组数据．
【答案】H
【解答】解：因为线性相关系数的绝对值越大，线性相关性越强，
且|﹣0.95|＞|0.92|＞|0.36|＞|﹣0.32|，
所以H组数据的线性相关性最强．
故答案为：H．
▉题型3 样本相关系数
【知识点的认识】
1、概念：
相关表和相关图可反映两个变量之间的相互关系及其相关方向，但无法确切地表明两个变量之间相关的程度．于是，著名统计学家卡尔皮尔逊设计了统计指标﹣﹣相关系数．相关系数是用以反映变量之间相关关系密切程度的统计指标．相关系数是按积差方法计算，同样以两变量与各自平均值的离差为基础，通过两个离差相乘来反映两变量之间相关程度；着重研究线性的单相关系数．
2、相关系数用r表示，计算公式为
其中：当r＞0时，表明两个变量正相关；当r＜0时，表明两个变量负相关；|r|≤1，且|r|越接近于1，相关程度越大；|r|越接近于0，相关程度越小．
3、残差：
相关指数R2用来刻画回归的效果，其计算公式是
在含有一个解释变量的线性模型中，R2恰好等于相关系数r的平方．显然，R2取值越大，意味着残差平方和越小，也就是模型的拟合效果越好．
【解题方法点拨】
建立回归模型的基本步骤：
（1）确定研究对象，明确哪个变量是解释变量，哪个是预报变量；
（2）画出解释变量和预报变量的散点图，观察它们之间的关系；
（3）由经验确定回归方程的类型（如观察到数据呈线性关系，则选用线性回归方程：x）；
（4）按一定规则估计回归方程中的参数（如最小二乘法）；
（5）得出结果分析残差图是否有异常，若存在异常，则检查数据是否有误，或模型是否适当．当回归方程不是形如：x时，我们称之为非线性回归方程．
7．有一散点图如图所示，在A，B，C，D，E这5个点中去掉D（8，5）后，下列说法错误的是（　　）
A．相关系数r变大
B．残差平方和变大
C．变量x，y正相关
D．解释变量x与预报变量y的相关性变强
【答案】B
【解答】解：选项A，去掉D（8，5）后，y与x的线性相关性变强，相关系数r变大，A正确；
选项B，残差平方和变小，B错误；
选项C，散点的分布是从左下到右上，故变量x，y正相关，C正确；
选项D，解释变量x与预报变量y的相关性变强，D正确．
故选：B．
8．已知一组具有线性相关关系的成对样本数据相关系数的绝对值为0.88，删除某个数据后仍然具有线性相关关系且线性相关程度增强，则此时的相关系数可能为（　　）
A．0 B．﹣0.92 C．0.80 D．1.1
【答案】B
【解答】解：∵一组具有线性相关关系的成对样本数据相关系数的绝对值为0.88，
删除某个数据后仍然具有线性相关关系且线性相关程度增强，
∴此时的相关系数r的绝对值|r|＞0.88，
∴此时的相关系数可能为﹣0.92．
故选：B．
9．下列说法正确的是（　　）
A．一组数据的标准差为0，则这组数据中的数均相等
B．两组数据的标准差相等，则这两组数据的平均数相等
C．若两个变量的相关系数越接近于0，则这两个变量的相关性越强
D．残差图中，残差点所在的水平带状区域越窄，则回归方程的预报精确度越低
【答案】A
【解答】解：对于选项A，根据标准差的定义，一组数据x1，x2，…，xn的标准差时，
显然有，故A正确；
对于选项B，举例都为1和都为2的两组数据，它们的标准差均为0，但它们的平均数分别为1和2，
所以两组数据的标准差相等，这两组数据的平均数未必相等，故B错误；
对于选项C，若相关系数|r|越接近于1，则两个变量的相关性越强，故C错误；
对于选项D，残差图中，残差点所在的水平带状区域越窄，则回归方程的预报精确度越高，
水平带状区域越宽，则回归方程的预报精确度越低，故D错误．
故选：A．
10．现有一组样本数据，（1，8），（2，6），，（4，2）都在直线y＝﹣2x+10上，则该组样本数据的相关系数r为（　　）
A．﹣2 B．﹣1 C．1 D．2
【答案】B
【解答】解：因为样本数据，（1，8），（2，6），，（4，2）都在直线y＝﹣2x+10上，
所以该组样本数据的相关系数r＝﹣1．
故选：B．
11．对四组数据进行统计，获得以下散点图，关于其相关系数的比较，正确的是（　　）
A．r2＜r4＜0＜r3＜r1 B．r4＜r2＜0＜r1＜r3
C．r4＜r2＜0＜r3＜r1 D．r2＜r4＜0＜r1＜r3
【答案】A
【解答】解：由给出的四组数据的散点图可以看出，
图1和图3是正相关，相关系数大于0，
图2和图4是负相关，相关系数小于0，
图1和图2的点相对更加集中，所以相关性要强，所以r1接近于1，r2接近于﹣1，
由此可得r2＜r4＜r3＜r1．
故选：A．
12．关于线性回归的描述，下列表述错误的是（　　）
A．回归直线一定经过样本中心点（，）
B．相关系数r越大，相关性越强
C．决定系数R2越接近1，拟合效果越好
D．残差图的带状区域越窄，拟合效果越好
【答案】B
【解答】解：对于A，根据回归直线方程中a知，回归直线一定经过样本中心点（，），故A正确；
对于B，相关系数|r|越大，相关性越强，故B错误；
对于C，决定系数R2越接近1，拟合效果越好，故C正确；
对于D，残差图的带状区域越窄，说明拟合效果越好，故D正确．
故选：B．
13．要判断成对数据的线性相关程度的强弱，可以通过比较它们的样本相关系数r的大小，以下是四组数据的相关系数的值，则线性相关最强的是（　　）
A．r1＝﹣0.95 B．r2＝﹣0.55 C．r3＝0.45 D．r4＝0.85
【答案】A
【解答】解：当r＞0时，表明两个变量正相关；当r＜0时，表明两个变量负相关；|r|≤1，且|r|越接近于1，相关程度越大；|r|越接近于0，相关程度越小，因此线性相关最强的是A．
故选：A．
14．在两个变量Y与X的回归模型中，分别选择了4个不同的模型，它们的样本相关系数r如表所示，其中线性相关性最强的模型是（　　）
模型模型1 模型2 模型3 模型4
相关系数r 0.51 0.22 0.93 ﹣0.36
A．模型1 B．模型2 C．模型3 D．模型4
【答案】C
【解答】解：根据题意可得模型3的相关系数r的绝对值最接近于1，
故线性相关性最强的模型是模型3．
故选：C．
15．设变量X和变量Y的样本相关系数为r1，变量U和变量V的样本相关系数为r2，且r1＝0.734，r2＝﹣0.983，则（　　）
A．X和Y之间呈正线性相关关系，且X和Y的线性相关程度强于U和V的线性相关程度
B．X和Y之间呈负线性相关关系，且X和Y的线性相关程度强于U和V的线性相关程度
C．U和V之间呈负线性相关关系，且X和Y的线性相关程度弱于U和V的线性相关程度
D．U和V之间呈正线性相关关系，且X和Y的线性相关程度弱于U和V的线性相关程度
【答案】C
【解答】解：∵r1＝0.734＞0，r2＝﹣0.983＜0，
∴X和Y之间呈正线性相关关系，
U和V之间呈负线性相关关系，
∴|r2|＞|r1|，
∴X和Y的线性相关程度弱于U和V的线性相关程度，
故选：C．
（多选）16．市物价部门对5家商场的某商品一天的线上销售量及其价格进行调查，5家商场的售价x（元）和销售量y（件）之间的一组数据如表所示：
价格x 9 9.5 10 10.5 11
销售量y 11 10 8 6 5
按公式计算，y与x的回归直线方程是：，相关系数|r|＝0.986，则下列说法正确的是（　　）
A．
B．变量x，y线性负相关且相关性较强
C．相应于点（9.5，10）的残差约为﹣0.4
D．当x＝8时，y的估计值为14.4
【答案】BD
【解答】解：对于选项A，，，
将（10，8）代入回归直线方程得，，
解得，故A错误；
对于选项B，从表可以看出，y随着x的增大而减小，又|r|＝0.986，接近于1，
所以变量x，y线性负相关且相关性较强，故B正确；
对于选项C，因为回归直线方程为，
所以相应于点（9.5，10）的残差约为10﹣（﹣3.2×9.5+40）＝0.4，故C错误；
对于选项D，因为回归直线方程为，
所以当x＝8时，y的估计值为，故D正确．
故选：BD．
（多选）17．下列有关回归分析的结论中，正确的有（　　）
A．决定系数R2的值越接近于0，回归模型的拟合效果越好
B．在经验回归方程中，当解释变量x每增加1个单位时，减少0.6个单位
C．在一元线性回归模型的残差图中，残差分布的带状区域的宽度越宽，说明模型拟合效果越好
D．样本相关系数r的绝对值越小，成对样本数据的线性相关程度越弱
【答案】BD
【解答】解：决定系数R2的值越接近于1，回归模型的拟合效果越好，故A错；
在经验回归方程中，当解释变量x每增加1个单位时，减少0.6个单位，B正确；
在一元线性回归模型的残差图中，残差分布的带状区域的宽度越宽，说明模型拟合效果越差，C错；
样本相关系数r的绝对值越小，成对样本数据的线性相关程度越弱，D正确．
故选：BD．
（多选）18．如图所示，5个（x，y）数据，去掉B（3，8）后，下列说法正确的是（　　）
A．相关系数r变大
B．残差平方和变大
C．决定系数R2变小
D．解释变量x与响应变量y的相关性变强
【答案】AD
【解答】解：由散点图知，去掉离群点D后，x与y的相关性变强，且为正相关，
所以相关系数r的值变大，决定系数R2的值变大，残差平方和变小．
故选：AD．
19．甲、乙、丙、丁各自研究两个随机变量的数据，若甲、乙、丙、丁计算得到各自研究的两个随机变量的线性相关系数分别为r1＝0.66，r2＝﹣0.97，r3＝0.92，r4＝0.89，则这四人中，　乙　研究的两个随机变量的线性相关程度最高．
【答案】乙．
【解答】解：因为|r2|＝0.97＞|r3|＞|r4|＞|r1|，所以这四人中，乙研究的两个随机变量的线性相关程度最高．
故答案为：乙．
20．某公司对项目A进行投资，投资金额x与所获利润y之间有如下对应数据：
项目A投资金额x（百万元） 6 5 4 3 2
所获利润y（百万元） 0.9 0.8 0.4 0.2 0.2
（1）用相关系数说明y与x相关性的强弱（本题规定，相关系数r满足|r|≥0.95，则认为线性相关性较强；否则，线性相关性较弱）；
（2）该公司有4位股东甲、乙、丙、丁，由于公司还有其它项目可供选择，需要股东对项目A是否投资发表意见，其中甲、乙、丙同意投资项目A的概率均为，丁同意投资的概率为，且4位股东是否同意相互独立，设4位股东同意的人数为随机变量ξ，求随机变量ξ的概率分布及数学期望．
参考公式：相关系数．
参考数据：统计数据表中．
【答案】（1）y与x线性相关性较强；
（2）ξ的概率分布见解析；．
【解答】（1）解：由题意，，
（6+5+4+3+2）＝4，（0.9+0.8+0.4+0.3+0.2）＝0.5，
80，510，5，
∴，
∴y与x线性相关性较强；
（2）由题可知ξ＝0，1，2，3，4，
P（ξ＝0），
P（ξ＝1），
P（ξ＝2），
P（ξ＝3），
P（ξ＝4），
则随机变量ξ的概率分布列为：
ξ 0 1 2 3 4
P
随机变量ξ的数学期望为：
E（ξ）＝01234．
21．某景区试卖一款纪念品，现统计了该款纪念品的定价x（单位：元）与销量y（单位：百件）的对应数据，如下表所示：
x 12 12.5 13 13.5 14
y 14 13 11 9 8
（1）求该纪念品定价的平均值和销量的平均值；
（2）计算x与y的相关系数；
参考数据：．
参考公式：相关系数．
【答案】（1），；
（2）﹣0.992．
【解答】解：（1）由表格数据可知，，
；
（2）因为1+0.25+0+0.25+1＝2.5，9+4+0+4+9＝26，
所以．
22．为了了解高中学生课后自主学习数学时间（x分钟/每天）和他们的数学成绩（y分）的关系，某实验小组做了调查，得到一些数据（表一）．
编号 1 2 3 4 5
学习时间x 30 40 50 60 70
数学成绩y 65 78 85 99 108
（1）求数学成绩y与学习时间x的相关系数（精确到0.001）；
（2）请用相关系数说明该组数据中y与x之间的关系可用线性回归模型进行拟合，并求出y关于x的回归直线方程，并由此预测每天课后自主学习数学时间为100分钟时的数学成绩（参考数据：，xi的方差为200）；
（3）基于上述调查，某校提倡学生周末在校自主学习．经过一学期的实施后，抽样调查了220位学生．按照是否参与周末在校自主学习以及成绩是否有进步统计，得到2×2列联表（表二）．依据表中数据及小概率值α＝0.001的独立性检验，分析“周末在校自主学习与成绩进步”是否有关．
没有进步有进步合计
参与周末在校自主学习 35 130 165
未参与周末不在校自主学习 25 30 55
合计 60 160 220
附：方差：
相关系数：
回归方程bx+a中斜率和截距的最小二乘估计公式分别为，，．
α 0.10 0.05 0.010 0.005 0.001
χα 2.706 3.841 6.635 7.879 10.828
【答案】（1）0.996；
（2）答案见解析；
（3）答案见解析．
【解答】解：（1），，
又xi（i＝1，2，3，，5）的方差为，
＝484+81+4+144+441＝1154，
．
（2）由（1）知r≈0.996接近1，故与之间具有极强的线性相关关系，可用线性回归直线方程模型进行拟合，
∴，
，
故，
当x＝100时，y＝140.5，
故预测每天课后自主学习数学时间达到100分钟时的数学成绩为140；
（3）零假设H0：周末在校自主学习与成绩进步无关，
根据数据，计算得到：
，
因为12.22＞10.828，
所以依据α＝0.001的独立性检验，可以认为“周末自主学习与成绩进步”有关．第4章第1节成对数据的统计相关性
题型1 散点图题型2 变量间的相关关系
题型3 样本相关系数
▉题型1 散点图
【知识点的认识】
1．散点图的概念：
在考虑两个量的关系时，为了对变量之间的关系有一个大致的了解，人们常将变量所对应的点描出来，这些点就组成了变量之间的一个图，通常称这种图为变量之间的散点图．
2．曲线拟合的概念：
从散点图可以看出如果变量之间存在着某种关系，这些点会有一个集中的大致趋势，这种趋势通常可以用一条光滑的曲线来近似，这种近似的过程称为曲线拟合．
3．正相关和负相关：
（1）正相关：对于相关关系的两个变量，如果一个变量的值由小变大时，另一个变量的值也由小变大，这种相关称为正相关，正相关时散点图的点散布在从左下角到右上角的区域内．
（2）负相关：如果一个变量的值由小变大时，另一个变量的值由大变小，这种相关称为负相关，负相关时散点图的点散布在从左上角到右下角的区域．
3、注意：画散点图的关键是以成对的一组数据，分别为此点的横、纵坐标，在平面直角坐标系中把其找出来，其横纵坐标的单位长度的选取可以不同，应考虑数据分布的特征，散点图只是形象的描述点的分布，如果点的分布大致呈一种集中趋势，则两个变量可以初步判断具有相关关系，如图中数据大致分布在一条直线附近，则表示的关系是线性相关，如果两个变量统计数据的散点图呈现如下图所示的情况，则两个变量之间不具备相关关系，例如学生的身高和学生的英语成绩就没有相关关系．
4、散点图又称散点分布图，是以一个变量为横坐标，另一变量为纵坐标，利用散点（坐标点）的分布形态反映变量统计关系的一种图形．特点是能直观表现出影响因素和预测对象之间的总体关系趋势．优点是能通过直观醒目的图形方式反映变量间关系的变化形态，以便决定用何种数学表达方式来模拟变量之间的关系．散点图不仅可传递变量间关系类型的信息，也能反映变量间关系的明确程度．
1．对四组数据进行统计，获得以下散点图，关于其相关系数的比较，正确的是（　　）
A．r2＜r4＜r3＜r1 B．r2＜r4＜r1＜r3
C．r4＜r2＜r1＜r3 D．r4＜r2＜r3＜r1
2．下面的散点图与相关系数r可能正确的是（　　）
A． B．
C． D．
▉题型2 变量间的相关关系
【知识点的认识】
1、变量之间的相关关系
两个变量之间的关系可能是确定的关系（如：函数关系），或非确定性关系．当自变量取值一定时，因变量也确定，则为确定关系；当自变量取值一定时，因变量带有随机性，这种变量之间的关系称为相关关系．相关关系是一种非确定性关系，如长方体的高与体积之间的关系就是确定的函数关系，而人的身高与体重的关系，学生的数学成绩好坏与物理成绩的关系等都是相关关系．
2、线性相关和非线性相关：
两个变量之间的相关关系又可分为线性相关和非线性相关，如果所有的样本点都落在某一函数曲线的附近，则变量之间具有相关关系（不确定性的关系），如果所有样本点都落在某一直线附近，那么变量之间具有线性相关关系，相关关系只说明两个变量在数量上的关系，不表明他们之间的因果关系，也可能是一种伴随关系．
3、两个变量相关关系与函数关系的区别和联系
（1）相同点：两者均是两个变量之间的关系．
（2）不同点：函数关系是一种确定的关系，如匀速直线运动中时间t与路程s的关系，相关关系是一种非确定的关系，如一块农田的小麦产量与施肥量之间的关系，函数关系是两个随机变量之间的关系，而相关关系是非随机变量与随机变量之间的关系；函数关系式一种因果关系，而相关关系不一定是因果关系，也可能是伴随关系．
3．有以下几组（x，y）的统计数据：（1，1），（2，1.5），（3，3），（4，2.5），（5，7）要使剩下的数据具有较强的相关关系，应去掉的一组数据是（　　）
A．（2，1.5） B．（3，3） C．（4，2.5） D．（5，7）
4．观察下图的等高条形图，其中最有把握认为两个分类变量x，y之间没有关系的是（　　）
A． B．
C． D．
5．如图，在一组样本数据A（2，2），B（4，3），C（6，4），D（8，7），E（10，6）的散点图中，若去掉D（8，7）后，则下列说法正确的为（　　）
A．样本相关系数r变小
B．残差平方和变大
C．相关指数R2变小
D．自变量x与因变量y的相关程度变强
6．为了比较E、F、G、H四组数据的线性相关性强弱，某同学分别计算了E、F、G、H四组数据的线性相关系数，求得数值依次为0.92，﹣0.32，0.36，﹣0.95，则这四组数据中线性相关性最强的是组数据．
▉题型3 样本相关系数
【知识点的认识】
1、概念：
相关表和相关图可反映两个变量之间的相互关系及其相关方向，但无法确切地表明两个变量之间相关的程度．于是，著名统计学家卡尔皮尔逊设计了统计指标﹣﹣相关系数．相关系数是用以反映变量之间相关关系密切程度的统计指标．相关系数是按积差方法计算，同样以两变量与各自平均值的离差为基础，通过两个离差相乘来反映两变量之间相关程度；着重研究线性的单相关系数．
2、相关系数用r表示，计算公式为
其中：当r＞0时，表明两个变量正相关；当r＜0时，表明两个变量负相关；|r|≤1，且|r|越接近于1，相关程度越大；|r|越接近于0，相关程度越小．
3、残差：
相关指数R2用来刻画回归的效果，其计算公式是
在含有一个解释变量的线性模型中，R2恰好等于相关系数r的平方．显然，R2取值越大，意味着残差平方和越小，也就是模型的拟合效果越好．
【解题方法点拨】
建立回归模型的基本步骤：
（1）确定研究对象，明确哪个变量是解释变量，哪个是预报变量；
（2）画出解释变量和预报变量的散点图，观察它们之间的关系；
（3）由经验确定回归方程的类型（如观察到数据呈线性关系，则选用线性回归方程：x）；
（4）按一定规则估计回归方程中的参数（如最小二乘法）；
（5）得出结果分析残差图是否有异常，若存在异常，则检查数据是否有误，或模型是否适当．当回归方程不是形如：x时，我们称之为非线性回归方程．
7．有一散点图如图所示，在A，B，C，D，E这5个点中去掉D（8，5）后，下列说法错误的是（　　）
A．相关系数r变大
B．残差平方和变大
C．变量x，y正相关
D．解释变量x与预报变量y的相关性变强
8．已知一组具有线性相关关系的成对样本数据相关系数的绝对值为0.88，删除某个数据后仍然具有线性相关关系且线性相关程度增强，则此时的相关系数可能为（　　）
A．0 B．﹣0.92 C．0.80 D．1.1
9．下列说法正确的是（　　）
A．一组数据的标准差为0，则这组数据中的数均相等
B．两组数据的标准差相等，则这两组数据的平均数相等
C．若两个变量的相关系数越接近于0，则这两个变量的相关性越强
D．残差图中，残差点所在的水平带状区域越窄，则回归方程的预报精确度越低
10．现有一组样本数据，（1，8），（2，6），，（4，2）都在直线y＝﹣2x+10上，则该组样本数据的相关系数r为（　　）
A．﹣2 B．﹣1 C．1 D．2
11．对四组数据进行统计，获得以下散点图，关于其相关系数的比较，正确的是（　　）
A．r2＜r4＜0＜r3＜r1 B．r4＜r2＜0＜r1＜r3
C．r4＜r2＜0＜r3＜r1 D．r2＜r4＜0＜r1＜r3
12．关于线性回归的描述，下列表述错误的是（　　）
A．回归直线一定经过样本中心点（，）
B．相关系数r越大，相关性越强
C．决定系数R2越接近1，拟合效果越好
D．残差图的带状区域越窄，拟合效果越好
13．要判断成对数据的线性相关程度的强弱，可以通过比较它们的样本相关系数r的大小，以下是四组数据的相关系数的值，则线性相关最强的是（　　）
A．r1＝﹣0.95 B．r2＝﹣0.55 C．r3＝0.45 D．r4＝0.85
14．在两个变量Y与X的回归模型中，分别选择了4个不同的模型，它们的样本相关系数r如表所示，其中线性相关性最强的模型是（　　）
模型模型1 模型2 模型3 模型4
相关系数r 0.51 0.22 0.93 ﹣0.36
A．模型1 B．模型2 C．模型3 D．模型4
15．设变量X和变量Y的样本相关系数为r1，变量U和变量V的样本相关系数为r2，且r1＝0.734，r2＝﹣0.983，则（　　）
A．X和Y之间呈正线性相关关系，且X和Y的线性相关程度强于U和V的线性相关程度
B．X和Y之间呈负线性相关关系，且X和Y的线性相关程度强于U和V的线性相关程度
C．U和V之间呈负线性相关关系，且X和Y的线性相关程度弱于U和V的线性相关程度
D．U和V之间呈正线性相关关系，且X和Y的线性相关程度弱于U和V的线性相关程度
（多选）16．市物价部门对5家商场的某商品一天的线上销售量及其价格进行调查，5家商场的售价x（元）和销售量y（件）之间的一组数据如表所示：
价格x 9 9.5 10 10.5 11
销售量y 11 10 8 6 5
按公式计算，y与x的回归直线方程是：，相关系数|r|＝0.986，则下列说法正确的是（　　）
A．
B．变量x，y线性负相关且相关性较强
C．相应于点（9.5，10）的残差约为﹣0.4
D．当x＝8时，y的估计值为14.4
（多选）17．下列有关回归分析的结论中，正确的有（　　）
A．决定系数R2的值越接近于0，回归模型的拟合效果越好
B．在经验回归方程中，当解释变量x每增加1个单位时，减少0.6个单位
C．在一元线性回归模型的残差图中，残差分布的带状区域的宽度越宽，说明模型拟合效果越好
D．样本相关系数r的绝对值越小，成对样本数据的线性相关程度越弱
（多选）18．如图所示，5个（x，y）数据，去掉B（3，8）后，下列说法正确的是（　　）
A．相关系数r变大
B．残差平方和变大
C．决定系数R2变小
D．解释变量x与响应变量y的相关性变强
19．甲、乙、丙、丁各自研究两个随机变量的数据，若甲、乙、丙、丁计算得到各自研究的两个随机变量的线性相关系数分别为r1＝0.66，r2＝﹣0.97，r3＝0.92，r4＝0.89，则这四人中，　　研究的两个随机变量的线性相关程度最高．
20．某公司对项目A进行投资，投资金额x与所获利润y之间有如下对应数据：
项目A投资金额x（百万元） 6 5 4 3 2
所获利润y（百万元） 0.9 0.8 0.4 0.2 0.2
（1）用相关系数说明y与x相关性的强弱（本题规定，相关系数r满足|r|≥0.95，则认为线性相关性较强；否则，线性相关性较弱）；
（2）该公司有4位股东甲、乙、丙、丁，由于公司还有其它项目可供选择，需要股东对项目A是否投资发表意见，其中甲、乙、丙同意投资项目A的概率均为，丁同意投资的概率为，且4位股东是否同意相互独立，设4位股东同意的人数为随机变量ξ，求随机变量ξ的概率分布及数学期望．
参考公式：相关系数．
参考数据：统计数据表中．
21．某景区试卖一款纪念品，现统计了该款纪念品的定价x（单位：元）与销量y（单位：百件）的对应数据，如下表所示：
x 12 12.5 13 13.5 14
y 14 13 11 9 8
（1）求该纪念品定价的平均值和销量的平均值；
（2）计算x与y的相关系数；
参考数据：．
参考公式：相关系数．
22．为了了解高中学生课后自主学习数学时间（x分钟/每天）和他们的数学成绩（y分）的关系，某实验小组做了调查，得到一些数据（表一）．
编号 1 2 3 4 5
学习时间x 30 40 50 60 70
数学成绩y 65 78 85 99 108
（1）求数学成绩y与学习时间x的相关系数（精确到0.001）；
（2）请用相关系数说明该组数据中y与x之间的关系可用线性回归模型进行拟合，并求出y关于x的回归直线方程，并由此预测每天课后自主学习数学时间为100分钟时的数学成绩（参考数据：，xi的方差为200）；
（3）基于上述调查，某校提倡学生周末在校自主学习．经过一学期的实施后，抽样调查了220位学生．按照是否参与周末在校自主学习以及成绩是否有进步统计，得到2×2列联表（表二）．依据表中数据及小概率值α＝0.001的独立性检验，分析“周末在校自主学习与成绩进步”是否有关．
没有进步有进步合计
参与周末在校自主学习 35 130 165
未参与周末不在校自主学习 25 30 55
合计 60 160 220
附：方差：
相关系数：
回归方程bx+a中斜率和截距的最小二乘估计公式分别为，，．
α 0.10 0.05 0.010 0.005 0.001
χα 2.706 3.841 6.635 7.879 10.828

展开更多......

收起↑

请用微信扫码

第4章第1节 成对数据的统计相关性 高中数学选择性必修二同步复习讲义（湘教版2020）

第4章第1节 成对数据的统计相关性 高中数学选择性必修二同步复习讲义（湘教版2020）

第4章第1节成对数据的统计相关性高中数学选择性必修二同步复习讲义（湘教版2020）

第4章第1节成对数据的统计相关性高中数学选择性必修二同步复习讲义（湘教版2020）