第8章第1节 成对数据的统计相关性 2025-2026学年高中数学选择性必修三同步复习讲义(人教A版2019)

资源下载
  1. 二一教育资源

第8章第1节 成对数据的统计相关性 2025-2026学年高中数学选择性必修三同步复习讲义(人教A版2019)

资源简介

第8章第1节 成对数据的统计相关性
题型1 变量间的相关关系 题型2 样本相关系数
▉题型1 变量间的相关关系
【知识点的认识】
1、变量之间的相关关系
两个变量之间的关系可能是确定的关系(如:函数关系),或非确定性关系.当自变量取值一定时,因变量也确定,则为确定关系;当自变量取值一定时,因变量带有随机性,这种变量之间的关系称为相关关系.相关关系是一种非确定性关系,如长方体的高与体积之间的关系就是确定的函数关系,而人的身高与体重的关系,学生的数学成绩好坏与物理成绩的关系等都是相关关系.
2、线性相关和非线性相关:
两个变量之间的相关关系又可分为线性相关和非线性相关,如果所有的样本点都落在某一函数曲线的附近,则变量之间具有相关关系(不确定性的关系),如果所有样本点都落在某一直线附近,那么变量之间具有线性相关关系,相关关系只说明两个变量在数量上的关系,不表明他们之间的因果关系,也可能是一种伴随关系.
3、两个变量相关关系与函数关系的区别和联系
(1)相同点:两者均是两个变量之间的关系.
(2)不同点:函数关系是一种确定的关系,如匀速直线运动中时间t与路程s的关系,相关关系是一种非确定的关系,如一块农田的小麦产量与施肥量之间的关系,函数关系是两个随机变量之间的关系,而相关关系是非随机变量与随机变量之间的关系;函数关系式一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系.
1.某市环保部门研究近十年空气质量数据,得到以下结论:
结论一:PM2.5浓度与机动车保有量的样本相关系数r1=0.92;
结论二:绿化覆盖率与呼吸道疾病发病率的样本相关系数r2=﹣0.12;
结论三:工业能耗与近地面臭氧浓度的样本相关系数r3=0.75.
下列说法正确的是(  )
A.由结论一可知,机动车保有量增加是PM2.5浓度升高的直接原因
B.由结论二可知,绿化覆盖率与呼吸道疾病发病率无关联
C.结论三表明工业能耗与近地面臭氧浓度呈正相关,且线性相关性比结论一更强
D.结论一中|r1|接近1,说明PM2.5浓度与机动车保有量存在极强的线性相关关系
2.有一散点图如图所示,在六组数据(xi,yi)(i=1,2, ,6)中去掉B点后重新进行回归分析,则下列说法正确的是(  )
A.样本数据的两变量x,y正相关
B.相关系数r的绝对值更接近于0
C.去掉B点后,回归直线的效果变弱
D.变量x与变量y相关性变强
3.在以下4幅散点图中,对于图中的y和x之间的关系判断不正确的是(  )
A.图(2)(3)(4)中的y和x之间存在相关关系
B.图(2)(4)中的y和x之间呈现正相关关系
C.图(2)(3)中的y和x之间呈现线性相关关系且(2)的相关性一定比(3)强
D.图(4)中的y和x之间呈现非线性相关关系
4.观察下列各图,其中两个分类变量x,y之间关系最强的是(  )
A. B.
C. D.
5.在下列各图中,两个变量具有线性相关关系的图是(  )
A. B.
C. D.
(多选)6.甲、乙、丙、丁各自研究两个随机变量的数据,甲、乙、丙、丁计算得到各自研究的两个随机变量的线性相关系数分别为r1=﹣0.95,r2=0.88,r3=﹣0.9,r4=0.93,则(  )
A.这四人中,丁研究的两个随机变量的线性相关程度最高
B.这四人中,乙研究的两个随机变量的线性相关程度最低
C.这四人中,甲研究的两个随机变量的线性相关程度最高
D.这四人中,甲研究的两个随机变量的线性相关程度最低
(多选)7.已知变量y与x存在线性相关关系,根据一组样本数据(xi,yi)(i=1,2,…,n),用最小二乘法建立的线性回归方程为y=﹣3x+120,则下列结论正确的是(  )
A.变量y与x具有负的线性相关关系
B.若r表示y与x之间的样本相关系数,则r=﹣3
C.当变量x=10时,变量y=90
D.当变量x=10时,变量y为90左右
(多选)8.下列命题正确的是(  )
A.若样本数据x1,x2,…,x6的方差为2,则数据2x1﹣1,2x2﹣1,…,2x6﹣1的方差为8
B.已知互不相同的30个样本数据,若去掉其中最大和最小的数据,剩下28个数据的20%分位数不等于原样本数据的20%分位数
C.若A,B两组成对数据的样本相关系数分别为rA=0.97,rB=﹣0.99,则A组数据比B组数据的线性相关程度更强
D.若决定系数R2的值越接近于1,则表示回归模型的拟合效果越好
9.甲、乙、丙各自研究两个随机变量的数据,若甲、乙、丙计算得到各自研究的两个随机变量的线性相关系数分别为r1=﹣0.96,r2=0.92,r3=0.89,则这三人中,   研究的两个随机变量的线性相关程度最高.
10.为了比较E、F、G、H四组数据的线性相关性强弱,某同学分别计算了E、F、G、H四组数据的线性相关系数,求得数值依次为0.92,﹣0.32,0.36,﹣0.95,则这四组数据中线性相关性最强的是 H 组数据.
11.某个男孩的年龄与身高的统计数据如表所示.
年龄x(岁) 1 2 3 4 5 6
身高y(cm) 78 87 98 108 115 120
(1)画出散点图;
(2)判断y与x是否具有线性相关关系.
▉题型2 样本相关系数
【知识点的认识】
1、概念:
相关表和相关图可反映两个变量之间的相互关系及其相关方向,但无法确切地表明两个变量之间相关的程度.于是,著名统计学家卡尔 皮尔逊设计了统计指标﹣﹣相关系数.相关系数是用以反映变量之间相关关系密切程度的统计指标.相关系数是按积差方法计算,同样以两变量与各自平均值的离差为基础,通过两个离差相乘来反映两变量之间相关程度;着重研究线性的单相关系数.
2、相关系数用r表示,计算公式为
其中:当r>0时,表明两个变量正相关;当r<0时,表明两个变量负相关;|r|≤1,且|r|越接近于1,相关程度越大;|r|越接近于0,相关程度越小.
3、残差:
相关指数R2用来刻画回归的效果,其计算公式是
在含有一个解释变量的线性模型中,R2恰好等于相关系数r的平方.显然,R2取值越大,意味着残差平方和越小,也就是模型的拟合效果越好.
【解题方法点拨】
建立回归模型的基本步骤:
(1)确定研究对象,明确哪个变量是解释变量,哪个是预报变量;
(2)画出解释变量和预报变量的散点图,观察它们之间的关系;
(3)由经验确定回归方程的类型(如观察到数据呈线性关系,则选用线性回归方程:x);
(4)按一定规则估计回归方程中的参数(如最小二乘法);
(5)得出结果分析残差图是否有异常,若存在异常,则检查数据是否有误,或模型是否适当.当回归方程不是形如:x时,我们称之为非线性回归方程.
12.已知r1表示变量x与y之间的相关系数,r2表示变量u与v之间的相关系数,且r1=0.836,r2=﹣0.958,则(  )
A.变量x与y之间呈正相关关系,且x与y之间的相关性强于u与v之间的相关性
B.变量x与y之间呈负相关关系,且x与y之间的相关性强于u与v之间的相关性
C.变量u与v之间呈负相关关系,且x与y之间的相关性弱于u与v之间的相关性
D.变量u与v之间呈正相关关系,且x与y之间的相关性弱于u与v之间的相关性
13.下面是不同成对数据的散点图,从左到右对应的样本相关系数是r1,r2,r3,r4,其中最大的是(  )
A.r1 B.r2 C.r3 D.r4
14.已知A,B,C,D四组成对样本数据对应的线性相关系数分别为r1=﹣0.98,r2=﹣0.68,r3=0.06,r4=0.89,则线性相关程度最强的是(  )
A.A组 B.B组 C.C组 D.D组
15.下列说法中,正确的个数是(  )
①若随机变量X服从正态分布X N(3,σ2),且P(X≤4)=0.7,则P(3<X<4)=0.3;
②可以用相关系数r刻画两个变量的相关程度强弱,r值越大两个变量的相关程度越强;
③残差图中,残差点所在的水平带状区域越窄,则回归方程的预报精确度越高;
④根据分类变量X与Y的成对样本数据,计算得到χ2=4.712,根据小概率值α=0.05的χ2独立性检验(x0.05=3.841),可判断X与Y有关联,此推断犯错误的概率不超过0.05;
⑤决定系数,甲、乙两个模型的R2分别约为0.98和0.80,则模型乙的拟合效果更好
A.1 B.2 C.3 D.4
16.下列说法正确的是(  )
A.若两个随机变量的线性相关性越强,则相关系数r的值越接近于1
B.若两个随机变量的线性相关性越强,则相关系数r的绝对值越接近于0
C.根据分类变量X与Y的成对样本数据,计算得到χ2=4.712,根据小概率值α=0.05的χ2独立性检验(χ0.05=3.841),可判断X与Y有关联,此推断犯错误的概率不超过0.05
D.由独立性检验可知,有99%的把握认为物理成绩与数学成绩有关,某人数学成绩优秀,则他有99%的可能物理优秀
17.有一散点图如图所示,在5个(x,y)数据中去掉D(3,10)后,下列说法错误的是(  )
A.残差平方和变小
B.相关系数r变大
C.决定系数R2变大
D.解释变量x与响应变量y的相关性变弱
18.为了研究变量y与x的线性相关关系,收集了5组样本数据(如表),若去掉样本点(3,1)后,则样本的相关系数r(  )
x 1 2 3 4 5
y 0.5 0.8 1 1.2 1.5
A.变大 B.变小 C.不变 D.不能确定
19.下面是不同成对数据的散点图,从左到右对应的样本相关系数是r1,r2,r3,r4,其中最小的是(  )
A.
B.
C.
D.
20.现有一组样本数据点,(3,2),,(6,3),则该组样本数据点的相关系数r=(  )
A.﹣1 B. C. D.1
21.下列说法错误的是(  )
A.线性相关系数|r|越接近1,两个变量的线性相关程度越强
B.独立性检验可以100%确定两个变量之间是否具有某种关系
C.在回归分析中,可用残差图判断模型的拟合效果,残差点比较均匀地落在水平的带状区域中,说明这样的模型比较合适,带状区域的宽度越窄,说明模型的拟合精度越高
D.甲、乙两个模型的决定系数R2分别约为0.88和0.80,则模型甲的拟合效果更好
22.已知样本相关系数,则成对样本数据(0,0),(1,﹣1),(2,3),(3,5),(4,3)的相关系数为    .
23.某公司收集了某商品销售收入y(单位:万元)与相应的广告支出x(单位:万元)共10组数据(xi,yi)(i=1,2,3,…,10),绘制出散点图,如图,并利用线性回归模型进行拟合.若将图中10个点中去掉A点后再重新进行线性回归分析,则下列说法错误的是    .
①决定系数R2变小
②残差平方和变小
③相关系数r的值变小
④自变量x与因变量y相关性变弱
24.2025年渝超联赛正如火如荼地进行,联赛分两个阶段,第一阶段为各赛区比赛,第二阶段为总决赛.联赛积分规则为:胜一场得3分,平一场得1分,负一场得0分.九龙坡区队属于中心城区赛区,该赛区共有11支球队进行单循环比赛(每支参赛队伍均与其他所有队伍恰好比赛一次).已知九龙坡区队在与赛区中任何一个对手比赛时,获胜的概率均为,平局的概率均为,失利的概率均为,且各场比赛结果相互独立.
(1)九龙坡区队教练组为研究观众人数对球队成绩的影响,用AI模拟了该球队在5种不同观众人数(单位:千人)下的比赛表现(每场均模拟完整的小组赛).模拟数据如下:
场均观众人数x(千人) 8 12 6 15 9
小组赛积分y 10 16 8 18 13
请计算场均观众人数x(千人)与小组赛积分y的样本相关系数r(精确到0.01),并说明两者之间的线性相关程度;
(2)九龙坡区队在9月13日的揭幕赛中以2:3失利于渝中区队,积0分.根据赛事规则推算,在中心城区赛区,球队至少需要获得23分才有晋级总决赛的可能.求九龙坡区队在第一阶段未来赛事中至少获得23分的概率.
附:相关系数,第8章第1节 成对数据的统计相关性
题型1 变量间的相关关系 题型2 样本相关系数
▉题型1 变量间的相关关系
【知识点的认识】
1、变量之间的相关关系
两个变量之间的关系可能是确定的关系(如:函数关系),或非确定性关系.当自变量取值一定时,因变量也确定,则为确定关系;当自变量取值一定时,因变量带有随机性,这种变量之间的关系称为相关关系.相关关系是一种非确定性关系,如长方体的高与体积之间的关系就是确定的函数关系,而人的身高与体重的关系,学生的数学成绩好坏与物理成绩的关系等都是相关关系.
2、线性相关和非线性相关:
两个变量之间的相关关系又可分为线性相关和非线性相关,如果所有的样本点都落在某一函数曲线的附近,则变量之间具有相关关系(不确定性的关系),如果所有样本点都落在某一直线附近,那么变量之间具有线性相关关系,相关关系只说明两个变量在数量上的关系,不表明他们之间的因果关系,也可能是一种伴随关系.
3、两个变量相关关系与函数关系的区别和联系
(1)相同点:两者均是两个变量之间的关系.
(2)不同点:函数关系是一种确定的关系,如匀速直线运动中时间t与路程s的关系,相关关系是一种非确定的关系,如一块农田的小麦产量与施肥量之间的关系,函数关系是两个随机变量之间的关系,而相关关系是非随机变量与随机变量之间的关系;函数关系式一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系.
1.某市环保部门研究近十年空气质量数据,得到以下结论:
结论一:PM2.5浓度与机动车保有量的样本相关系数r1=0.92;
结论二:绿化覆盖率与呼吸道疾病发病率的样本相关系数r2=﹣0.12;
结论三:工业能耗与近地面臭氧浓度的样本相关系数r3=0.75.
下列说法正确的是(  )
A.由结论一可知,机动车保有量增加是PM2.5浓度升高的直接原因
B.由结论二可知,绿化覆盖率与呼吸道疾病发病率无关联
C.结论三表明工业能耗与近地面臭氧浓度呈正相关,且线性相关性比结论一更强
D.结论一中|r1|接近1,说明PM2.5浓度与机动车保有量存在极强的线性相关关系
【答案】D
【解答】解:对于A,r1=0.92仅表明PM2.5浓度与机动车保有量线性正相关,且相关性很强,
但并不意味着机动车保有量增加是PM2.5浓度升高的直接原因,故A错误;
对于B,r2=﹣0.12表示绿化覆盖率与呼吸道疾病发病率线性负相关,且相关性极弱,
但仍有轻微线性相关性,且还可能存在非线性相关关系,所以不能判断无关联,故B错误;
对于C,因为|r3|=0.75<|r1|=0.92,
所以工业能耗与近地面臭氧浓度比结论一的线性相关性更弱,故C错误;
对于D,|r1|=0.92非常接近1,表明两者存在极强的线性相关关系,故D正确.
故选:D.
2.有一散点图如图所示,在六组数据(xi,yi)(i=1,2, ,6)中去掉B点后重新进行回归分析,则下列说法正确的是(  )
A.样本数据的两变量x,y正相关
B.相关系数r的绝对值更接近于0
C.去掉B点后,回归直线的效果变弱
D.变量x与变量y相关性变强
【答案】D
【解答】解:对A:由散点图走势可知,样本数据的两变量x,y负相关,故A错误;
对B:由图可知,点B相对于其它点,偏离直线更远,
相关系数r的绝对值更接近于1,故B错误;
对C,D:去掉B点后,回归直线的拟合效果变强,故C错误,D正确.
故选:D.
3.在以下4幅散点图中,对于图中的y和x之间的关系判断不正确的是(  )
A.图(2)(3)(4)中的y和x之间存在相关关系
B.图(2)(4)中的y和x之间呈现正相关关系
C.图(2)(3)中的y和x之间呈现线性相关关系且(2)的相关性一定比(3)强
D.图(4)中的y和x之间呈现非线性相关关系
【答案】C
【解答】解:根据题意,分析4个散点图:
(1)中点没有明显的变化趋势,
(2)中点有从左下向右上的线性变化趋势,y和x之间呈现正相关且为线性关系,
(3)中点有从左上向右下的线性变化趋势,y和x之间呈现负相关且为线性关系,
(4)中点有从左下向右上的非线性变化趋势,y和x之间呈现正相关且为非线性关系,
但(2)(3)相关性强弱不能从图中点的分布密度直接分析得出,故(2)的相关性不一定比(3)强,
分析选项:可得A、B、D正确,C错误.
故选:C.
4.观察下列各图,其中两个分类变量x,y之间关系最强的是(  )
A. B.
C. D.
【答案】D
【解答】解:在二维条形图中,主对角线上的两个条形高度的乘积与副对角线上的两个条形高度的乘积相差越大,
两者有关系的可能性就越大,
由图中所给的四个量x1,x2,y1,y2高度的大小来判断,D选项的两个分类变量关系最强,
故选:D.
5.在下列各图中,两个变量具有线性相关关系的图是(  )
A. B.
C. D.
【答案】C
【解答】解:对于A,两个变量为函数关系,不是线性相关关系,所以A错误;
对于B,所有点不是在一条直线附近波动,不是线性相关关系,故B错误;
对于C,对于两个变量x,y,y随着x的增加而减少,
且所有点都在一条直线附近波动,所以具有线性相关关系,故C正确;
对于D,两个变量不具有相关性,故D错误.
故选:C.
(多选)6.甲、乙、丙、丁各自研究两个随机变量的数据,甲、乙、丙、丁计算得到各自研究的两个随机变量的线性相关系数分别为r1=﹣0.95,r2=0.88,r3=﹣0.9,r4=0.93,则(  )
A.这四人中,丁研究的两个随机变量的线性相关程度最高
B.这四人中,乙研究的两个随机变量的线性相关程度最低
C.这四人中,甲研究的两个随机变量的线性相关程度最高
D.这四人中,甲研究的两个随机变量的线性相关程度最低
【答案】BC
【解答】解:由相关系数的性质可知,相关系数r的绝对值越接近于1,两个随机变量的线性相关程度越高,
因为|﹣0.95|>|0.93|>|﹣0.9|>|0.88|,
所以这四人中,乙研究的两个随机变量的线性相关程度最低,甲研究的两个随机变量的线性相关程度最高.
故选:BC.
(多选)7.已知变量y与x存在线性相关关系,根据一组样本数据(xi,yi)(i=1,2,…,n),用最小二乘法建立的线性回归方程为y=﹣3x+120,则下列结论正确的是(  )
A.变量y与x具有负的线性相关关系
B.若r表示y与x之间的样本相关系数,则r=﹣3
C.当变量x=10时,变量y=90
D.当变量x=10时,变量y为90左右
【答案】AD
【解答】解:因为y=﹣3x+120,可得,所以变量y与x具有负的线性相关关系,故A正确;
相关系数r与的正负一致,但数值没关系,故B错误;
当变量x=10时,变量的预测值是,变量不一定是90,故C错误;D正确.
故选:AD.
(多选)8.下列命题正确的是(  )
A.若样本数据x1,x2,…,x6的方差为2,则数据2x1﹣1,2x2﹣1,…,2x6﹣1的方差为8
B.已知互不相同的30个样本数据,若去掉其中最大和最小的数据,剩下28个数据的20%分位数不等于原样本数据的20%分位数
C.若A,B两组成对数据的样本相关系数分别为rA=0.97,rB=﹣0.99,则A组数据比B组数据的线性相关程度更强
D.若决定系数R2的值越接近于1,则表示回归模型的拟合效果越好
【答案】ABD
【解答】解:对于A,由方差的性质可知,数据2x1﹣1,2x2﹣1,…,2x6﹣1的方差为22×2=8,故A正确;
对于B,设原数据从小到大排列为x1,x2,…,x30,则去掉最大值x30和最小值x1后,剩余数据按从小到大排列为x2,x3,…,x29,
又因为30×20%=6,28×20%=5.6,
所以原样本数据的20%分位数为,剩下28个数据的20%分位数为x7,
又因为30个样本数据互不相同,所以剩下28个数据的20%分位数不等于原样本数据的20%分位数,故B正确;
对于C,因为|rB|>|rA|,所以B组数据比A组数据的线性相关程度更强,故C错误;
对于D,由决定系数R2的性质可知,D正确.
故选:ABD.
9.甲、乙、丙各自研究两个随机变量的数据,若甲、乙、丙计算得到各自研究的两个随机变量的线性相关系数分别为r1=﹣0.96,r2=0.92,r3=0.89,则这三人中, 甲  研究的两个随机变量的线性相关程度最高.
【答案】甲.
【解答】解:由甲、乙、丙的两个随机变量的线性相关系数分别为r1=﹣0.96,r2=0.92,r3=0.89,
可得|r1|>|r2|>|r3|,
因为线性相关系数r的绝对值越大,随机变量的线性相关程度越高,
所以这三人中,甲研究的两个随机变量的线性相关程度最高.
故答案为:甲.
10.为了比较E、F、G、H四组数据的线性相关性强弱,某同学分别计算了E、F、G、H四组数据的线性相关系数,求得数值依次为0.92,﹣0.32,0.36,﹣0.95,则这四组数据中线性相关性最强的是 H 组数据.
【答案】H
【解答】解:因为线性相关系数的绝对值越大,线性相关性越强,
且|﹣0.95|>|0.92|>|0.36|>|﹣0.32|,
所以H组数据的线性相关性最强.
故答案为:H.
11.某个男孩的年龄与身高的统计数据如表所示.
年龄x(岁) 1 2 3 4 5 6
身高y(cm) 78 87 98 108 115 120
(1)画出散点图;
(2)判断y与x是否具有线性相关关系.
【答案】(1)图见解析;
(2)具有.
【解答】解:(1)散点图如图所示.
(2)由图知,所有数据点接近一条直线排列,因此,认为y与x具有线性相关关系.
▉题型2 样本相关系数
【知识点的认识】
1、概念:
相关表和相关图可反映两个变量之间的相互关系及其相关方向,但无法确切地表明两个变量之间相关的程度.于是,著名统计学家卡尔 皮尔逊设计了统计指标﹣﹣相关系数.相关系数是用以反映变量之间相关关系密切程度的统计指标.相关系数是按积差方法计算,同样以两变量与各自平均值的离差为基础,通过两个离差相乘来反映两变量之间相关程度;着重研究线性的单相关系数.
2、相关系数用r表示,计算公式为
其中:当r>0时,表明两个变量正相关;当r<0时,表明两个变量负相关;|r|≤1,且|r|越接近于1,相关程度越大;|r|越接近于0,相关程度越小.
3、残差:
相关指数R2用来刻画回归的效果,其计算公式是
在含有一个解释变量的线性模型中,R2恰好等于相关系数r的平方.显然,R2取值越大,意味着残差平方和越小,也就是模型的拟合效果越好.
【解题方法点拨】
建立回归模型的基本步骤:
(1)确定研究对象,明确哪个变量是解释变量,哪个是预报变量;
(2)画出解释变量和预报变量的散点图,观察它们之间的关系;
(3)由经验确定回归方程的类型(如观察到数据呈线性关系,则选用线性回归方程:x);
(4)按一定规则估计回归方程中的参数(如最小二乘法);
(5)得出结果分析残差图是否有异常,若存在异常,则检查数据是否有误,或模型是否适当.当回归方程不是形如:x时,我们称之为非线性回归方程.
12.已知r1表示变量x与y之间的相关系数,r2表示变量u与v之间的相关系数,且r1=0.836,r2=﹣0.958,则(  )
A.变量x与y之间呈正相关关系,且x与y之间的相关性强于u与v之间的相关性
B.变量x与y之间呈负相关关系,且x与y之间的相关性强于u与v之间的相关性
C.变量u与v之间呈负相关关系,且x与y之间的相关性弱于u与v之间的相关性
D.变量u与v之间呈正相关关系,且x与y之间的相关性弱于u与v之间的相关性
【答案】C
【解答】解:因为已知r1表示变量x与y之间的相关系数,r2表示变量u与v之间的相关系数,
线性相关系数r1=0.836,r2=﹣0.958,
所以变量x与y之间呈正相关关系,变量u与v之间呈负相关关系.
因为|r|越接近1,两个变量的线性相关程度越高,
所以x与y之间的相关性弱于u与v之间的相关性.
故选:C.
13.下面是不同成对数据的散点图,从左到右对应的样本相关系数是r1,r2,r3,r4,其中最大的是(  )
A.r1 B.r2 C.r3 D.r4
【答案】A
【解答】解:由散点图的趋势,以及相关系数的性质可知r1>0且接近1,r2<0,r3与r4绝对值较小,
所以最大的是r1.
故选:A.
14.已知A,B,C,D四组成对样本数据对应的线性相关系数分别为r1=﹣0.98,r2=﹣0.68,r3=0.06,r4=0.89,则线性相关程度最强的是(  )
A.A组 B.B组 C.C组 D.D组
【答案】A
【解答】解:由题意可知,|﹣0.98|>|0.89|>|﹣0.68|>|0.06|,
所以|r1|>|r4|>|r2|>|r3|,
因为相关系数的绝对值越接近于1,线性相关程度越强,
所以线性相关程度最强的是A组.
故选:A.
15.下列说法中,正确的个数是(  )
①若随机变量X服从正态分布X N(3,σ2),且P(X≤4)=0.7,则P(3<X<4)=0.3;
②可以用相关系数r刻画两个变量的相关程度强弱,r值越大两个变量的相关程度越强;
③残差图中,残差点所在的水平带状区域越窄,则回归方程的预报精确度越高;
④根据分类变量X与Y的成对样本数据,计算得到χ2=4.712,根据小概率值α=0.05的χ2独立性检验(x0.05=3.841),可判断X与Y有关联,此推断犯错误的概率不超过0.05;
⑤决定系数,甲、乙两个模型的R2分别约为0.98和0.80,则模型乙的拟合效果更好
A.1 B.2 C.3 D.4
【答案】B
【解答】解:对于①,若随机变量X服从正态分布X N(3,σ2),且P(X≤4)=0.7,
所以P(3<X<4)=P(X≤4)﹣0.5=0.7﹣0.5=0.2,故①错误;
对于②,可以用相关系数r刻画两个变量的相关程度强弱,|r|值越大两个变量的相关程度越强,故②错误;
对于③,残差图中,残差点所在的水平带状区域越窄,则回归方程的预报精确度越高,故③正确;
对于④,因为χ2=4.712>3.841,所以根据小概率值α=0.05的χ2独立性检验(x0.05=3.841),可判断X与Y有关联,此推断犯错误的概率不超过0.05,故④正确;
对于⑤,因为决定系数R2越大,拟合效果越好,所以模型甲的拟合效果更好,故⑤错误.
所以正确的个数有2个.
故选:B.
16.下列说法正确的是(  )
A.若两个随机变量的线性相关性越强,则相关系数r的值越接近于1
B.若两个随机变量的线性相关性越强,则相关系数r的绝对值越接近于0
C.根据分类变量X与Y的成对样本数据,计算得到χ2=4.712,根据小概率值α=0.05的χ2独立性检验(χ0.05=3.841),可判断X与Y有关联,此推断犯错误的概率不超过0.05
D.由独立性检验可知,有99%的把握认为物理成绩与数学成绩有关,某人数学成绩优秀,则他有99%的可能物理优秀
【答案】C
【解答】解:对于A,若两个随机变量的线性相关性越强,则相关系数r的绝对值越接近于1,故A错误;
对于B,若两个随机变量的线性相关性越强,则相关系数r的绝对值越接近于1,故B错误;
对于C,因为χ2=4.712>3.841=x0.05,根据独立性检验可知:X与Y有关联,此推断犯错误的概率不超过0.05,故C正确;
对于D,由独立性检验可知,有99%的把握认为物理成绩与数学成绩有关,但某人数学成绩优秀,不能简单地认为他有99%的可能物理优秀,故D错误.
故选:C.
17.有一散点图如图所示,在5个(x,y)数据中去掉D(3,10)后,下列说法错误的是(  )
A.残差平方和变小
B.相关系数r变大
C.决定系数R2变大
D.解释变量x与响应变量y的相关性变弱
【答案】D
【解答】解:由散点图可知,若去掉D点,
则x与y的线性相关性变强,且是正相关,
所以相关系数r变大,决定系数R2变大,残差平方和变小.
故选:D.
18.为了研究变量y与x的线性相关关系,收集了5组样本数据(如表),若去掉样本点(3,1)后,则样本的相关系数r(  )
x 1 2 3 4 5
y 0.5 0.8 1 1.2 1.5
A.变大 B.变小 C.不变 D.不能确定
【答案】C
【解答】解:由题意可知,3,1,
所以样本中心点为(3,1),
所以去掉样本点(3,1)后,则样本的相关系数r不变.
故选:C.
19.下面是不同成对数据的散点图,从左到右对应的样本相关系数是r1,r2,r3,r4,其中最小的是(  )
A.
B.
C.
D.
【答案】D
【解答】解:由图可知:r1>0,r2>0,r3<0,r4<0,
且D的散点图更接近于一条直线,所以|r4|相对于|r3|更趋近于1,所以r4<r3.
故选:D.
20.现有一组样本数据点,(3,2),,(6,3),则该组样本数据点的相关系数r=(  )
A.﹣1 B. C. D.1
【答案】D
【解答】解:根据题意可知:这些样本数据点均在直线上,且直线的斜率大于0,
所以r=1.
故选:D.
21.下列说法错误的是(  )
A.线性相关系数|r|越接近1,两个变量的线性相关程度越强
B.独立性检验可以100%确定两个变量之间是否具有某种关系
C.在回归分析中,可用残差图判断模型的拟合效果,残差点比较均匀地落在水平的带状区域中,说明这样的模型比较合适,带状区域的宽度越窄,说明模型的拟合精度越高
D.甲、乙两个模型的决定系数R2分别约为0.88和0.80,则模型甲的拟合效果更好
【答案】B
【解答】解:由线性相关系数的定义可判断A正确,故A正确;
由独立性检验是存在某种程度的错误概率的,故B错误;
由回归分析残差概念以及残差图可判断C正确,故C正确;
决定系数R2的值越大,说明拟合效果越好,显然0.88>0.80,即模型甲的拟合效果更好,故D正确.
故选:B.
22.已知样本相关系数,则成对样本数据(0,0),(1,﹣1),(2,3),(3,5),(4,3)的相关系数为    .
【答案】.
【解答】解:由题意可知,2,2,
所以(﹣2)×(﹣2)+(﹣1)×(﹣3)+0×1+1×3+2×1=12,
4+1+0+1+4=10,4+9+1+9+1=24,
所以相关系数r.
故答案为:.
23.某公司收集了某商品销售收入y(单位:万元)与相应的广告支出x(单位:万元)共10组数据(xi,yi)(i=1,2,3,…,10),绘制出散点图,如图,并利用线性回归模型进行拟合.若将图中10个点中去掉A点后再重新进行线性回归分析,则下列说法错误的是  ①③④  .
①决定系数R2变小
②残差平方和变小
③相关系数r的值变小
④自变量x与因变量y相关性变弱
【答案】①③④.
【解答】解:从图中可以看出A点较其他点,偏离直线远,故去掉A点后,回归效果更好,
故决定系数R2会变大,残差平方和变小,
故①错误,②正确,
相关系数r的绝对值会更接近于1,
由图可得x与y正相关,故r会更接近于1,即相关系数r的值变大,自变量x与因变量y相关性变强,
故③错误,④错误.
故答案为:①③④.
24.2025年渝超联赛正如火如荼地进行,联赛分两个阶段,第一阶段为各赛区比赛,第二阶段为总决赛.联赛积分规则为:胜一场得3分,平一场得1分,负一场得0分.九龙坡区队属于中心城区赛区,该赛区共有11支球队进行单循环比赛(每支参赛队伍均与其他所有队伍恰好比赛一次).已知九龙坡区队在与赛区中任何一个对手比赛时,获胜的概率均为,平局的概率均为,失利的概率均为,且各场比赛结果相互独立.
(1)九龙坡区队教练组为研究观众人数对球队成绩的影响,用AI模拟了该球队在5种不同观众人数(单位:千人)下的比赛表现(每场均模拟完整的小组赛).模拟数据如下:
场均观众人数x(千人) 8 12 6 15 9
小组赛积分y 10 16 8 18 13
请计算场均观众人数x(千人)与小组赛积分y的样本相关系数r(精确到0.01),并说明两者之间的线性相关程度;
(2)九龙坡区队在9月13日的揭幕赛中以2:3失利于渝中区队,积0分.根据赛事规则推算,在中心城区赛区,球队至少需要获得23分才有晋级总决赛的可能.求九龙坡区队在第一阶段未来赛事中至少获得23分的概率.
附:相关系数,
【答案】(1)r≈0.98,具有很强的正线性相关关系;
(2).
【解答】解:(1)根据题意可知,,,
则,
,,
则,
因为r≈0.98>0,且接近于1,
故说明场均观众人数x与小组赛积分y之间具有很强的正线性相关关系;
(2)九龙坡区队在第一阶段未来赛事中至少获得23分,
则设剩余9场比赛中九龙坡区队比赛情况有以下几种:
一:9场比赛全胜,概率为:;
二:胜8场,平或负1场,概率为:;
三:胜7场,平2场,概率为:;
故九龙坡区队在第一阶段未来赛事中至少获得23分的概率为:

展开更多......

收起↑

资源列表