第4章第3节 统计模型 高中数学选择性必修二同步复习讲义(人教B版2019)

资源下载
  1. 二一教育资源

第4章第3节 统计模型 高中数学选择性必修二同步复习讲义(人教B版2019)

资源简介

第4章第3节 统计模型
题型1 散点图 题型2 变量间的相关关系
题型3 样本相关系数 题型4 经验回归方程与经验回归直线
题型5 回归分析 题型6 独立性检验
▉题型1 散点图
【知识点的认识】
1.散点图的概念:
在考虑两个量的关系时,为了对变量之间的关系有一个大致的了解,人们常将变量所对应的点描出来,这些点就组成了变量之间的一个图,通常称这种图为变量之间的散点图.
2.曲线拟合的概念:
从散点图可以看出如果变量之间存在着某种关系,这些点会有一个集中的大致趋势,这种趋势通常可以用一条光滑的曲线来近似,这种近似的过程称为曲线拟合.
3.正相关和负相关:
(1)正相关:对于相关关系的两个变量,如果一个变量的值由小变大时,另一个变量的值也由小变大,这种相关称为正相关,正相关时散点图的点散布在从左下角到右上角的区域内.
(2)负相关:如果一个变量的值由小变大时,另一个变量的值由大变小,这种相关称为负相关,负相关时散点图的点散布在从左上角到右下角的区域.
3、注意:画散点图的关键是以成对的一组数据,分别为此点的横、纵坐标,在平面直角坐标系中把其找出来,其横纵坐标的单位长度的选取可以不同,应考虑数据分布的特征,散点图只是形象的描述点的分布,如果点的分布大致呈一种集中趋势,则两个变量可以初步判断具有相关关系,如图中数据大致分布在一条直线附近,则表示的关系是线性相关,如果两个变量统计数据的散点图呈现如下图所示的情况,则两个变量之间不具备相关关系,例如学生的身高和学生的英语成绩就没有相关关系.
4、散点图又称散点分布图,是以一个变量为横坐标,另一变量为纵坐标,利用散点(坐标点)的分布形态反映变量统计关系的一种图形.特点是能直观表现出影响因素和预测对象之间的总体关系趋势.优点是能通过直观醒目的图形方式反映变量间关系的变化形态,以便决定用何种数学表达方式来模拟变量之间的关系.散点图不仅可传递变量间关系类型的信息,也能反映变量间关系的明确程度.
1.某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)的影响,对近8年的年宣传费xi和年销售量yi(i=1,2,…,8)数据作了初步处理,得到下面的散点图.根据散点图判断,下面四个回归模型中,最适合的是(  )
A.y=bx+a B.y=bx2+a C. D.y=bsinx+a
【答案】C
【解答】解:由散点图看出,样本点分布在开口向右的抛物线(上支)附近,
整体趋势递增,单位增长率逐渐变小,
所以函数较适宜.
故选:C.
▉题型2 变量间的相关关系
【知识点的认识】
1、变量之间的相关关系
两个变量之间的关系可能是确定的关系(如:函数关系),或非确定性关系.当自变量取值一定时,因变量也确定,则为确定关系;当自变量取值一定时,因变量带有随机性,这种变量之间的关系称为相关关系.相关关系是一种非确定性关系,如长方体的高与体积之间的关系就是确定的函数关系,而人的身高与体重的关系,学生的数学成绩好坏与物理成绩的关系等都是相关关系.
2、线性相关和非线性相关:
两个变量之间的相关关系又可分为线性相关和非线性相关,如果所有的样本点都落在某一函数曲线的附近,则变量之间具有相关关系(不确定性的关系),如果所有样本点都落在某一直线附近,那么变量之间具有线性相关关系,相关关系只说明两个变量在数量上的关系,不表明他们之间的因果关系,也可能是一种伴随关系.
3、两个变量相关关系与函数关系的区别和联系
(1)相同点:两者均是两个变量之间的关系.
(2)不同点:函数关系是一种确定的关系,如匀速直线运动中时间t与路程s的关系,相关关系是一种非确定的关系,如一块农田的小麦产量与施肥量之间的关系,函数关系是两个随机变量之间的关系,而相关关系是非随机变量与随机变量之间的关系;函数关系式一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系.
2.对变量x,y由观测数据得散点图1;对变量y,z由观测数据得散点图2.由这两个散点图可以判断(  )
A.变量x与y正相关,x与z正相关
B.变量x与y正相关,x与z负相关
C.变量x与y负相关,x与z正相关
D.变量x与y负相关,x与z负相关
【答案】D
【解答】解:由这两个散点图可以判断,变量x与y负相关,y与z正相关,则x与z负相关.
故选:D.
(多选)3.甲、乙、丙、丁各自研究两个随机变量的数据,甲、乙、丙、丁计算得到各自研究的两个随机变量的线性相关系数分别为r1=﹣0.95,r2=0.88,r3=﹣0.9,r4=0.93,则(  )
A.这四人中,丁研究的两个随机变量的线性相关程度最高
B.这四人中,乙研究的两个随机变量的线性相关程度最低
C.这四人中,甲研究的两个随机变量的线性相关程度最高
D.这四人中,甲研究的两个随机变量的线性相关程度最低
【答案】BC
【解答】解:由相关系数的性质可知,相关系数r的绝对值越接近于1,两个随机变量的线性相关程度越高,
因为|﹣0.95|>|0.93|>|﹣0.9|>|0.88|,
所以这四人中,乙研究的两个随机变量的线性相关程度最低,甲研究的两个随机变量的线性相关程度最高.
故选:BC.
4.为了比较E、F、G、H四组数据的线性相关性强弱,某同学分别计算了E、F、G、H四组数据的线性相关系数,求得数值依次为0.92,﹣0.32,0.36,﹣0.95,则这四组数据中线性相关性最强的是 H 组数据.
【答案】H
【解答】解:因为线性相关系数的绝对值越大,线性相关性越强,
且|﹣0.95|>|0.92|>|0.36|>|﹣0.32|,
所以H组数据的线性相关性最强.
故答案为:H.
▉题型3 样本相关系数
【知识点的认识】
1、概念:
相关表和相关图可反映两个变量之间的相互关系及其相关方向,但无法确切地表明两个变量之间相关的程度.于是,著名统计学家卡尔 皮尔逊设计了统计指标﹣﹣相关系数.相关系数是用以反映变量之间相关关系密切程度的统计指标.相关系数是按积差方法计算,同样以两变量与各自平均值的离差为基础,通过两个离差相乘来反映两变量之间相关程度;着重研究线性的单相关系数.
2、相关系数用r表示,计算公式为
其中:当r>0时,表明两个变量正相关;当r<0时,表明两个变量负相关;|r|≤1,且|r|越接近于1,相关程度越大;|r|越接近于0,相关程度越小.
3、残差:
相关指数R2用来刻画回归的效果,其计算公式是
在含有一个解释变量的线性模型中,R2恰好等于相关系数r的平方.显然,R2取值越大,意味着残差平方和越小,也就是模型的拟合效果越好.
5.关于样本相关系数r,下列说法错误的是(  )
A.﹣1≤r≤1
B.当|r|越接近1时,成对样本数据的线性相关程度越强
C.当|r|越接近0时,成对样本数据的线性相关程度越弱
D.当r=0时,表明成对样本数据间没有线性相关关系,也没有其他相关关系
【答案】D
【解答】解:对于A,相关系数取值范围为﹣1≤r≤1,故A正确;
对于B,C,|r|越接近1时,成对样本数据的线性相关程度越强,|r|越接近0时,成对样本数据的线性相关程度越弱,故B正确,C正确;
对于D,当r=0时,只表明成对样本数据间没有线性相关关系,但不排除它们之间有其他相关关系,故D错误.
故选:D.
6.对四组数据进行统计,获得以下散点图,关于其相关系数的比较,正确的是(  )
A.r2<r4<0<r3<r1 B.r4<r2<0<r1<r3
C.r4<r2<0<r3<r1 D.r2<r4<0<r1<r3
【答案】A
【解答】解:由给出的四组数据的散点图可以看出,
图1和图3是正相关,相关系数大于0,
图2和图4是负相关,相关系数小于0,
图1和图2的点相对更加集中,所以相关性要强,所以r1接近于1,r2接近于﹣1,
由此可得r2<r4<r3<r1.
故选:A.
7.下列说法中正确的个数是(  )
①设有一个回归方程y=3﹣5x,变量x增加1个单位时,y平均增加5个单位;
②将一组数据中的每一个数据都加上或减去同一个常数后,方差不变;
③某校共有女生2021人,用简单随机抽样的方法先剔除21人,再按简单随机抽样的方法抽取为200人,则每个女生被抽到的概率为;
④具有线性相关关系的两个变量x,y的相关系数为r,则|r|越接近于0,x,y之间的线性相关程度越高;
⑤在一个2×2列联表中,由计算得出K2=20.21,而P(K2≥10.828)≈0.001,则在犯错误的概率不超过0.001的前提下认为这两个变量之间有相关关系.
A.1 B.2 C.3 D.4
【答案】B
【解答】解:对于①,回归方程y=3﹣5x,变量x增加1个单位时,y平均减少5个单位,命题①错误;
对于②,一组数据中的每一个数据都加上或减去同一个常数后,它的平均数也会都加上或减去同一个常数,所以方差不变,命题②正确;
对于③,古典概型中,每个个体被抽到的概率都是一样的,都等于,命题③错误;
对于④,具有线性相关关系的两个变量x,y的相关系数为r,则|r|越接近于0,x,y之间的线性相关程度越低,命题④错误;
对于⑤,在一个2×2列联表中,由计算得出K2=20.21,而P(K2≥10.828)≈0.001,则在犯错误的概率不超过0.001的前提下,认为这两个变量之间有相关关系,命题⑤正确.
故选:B.
(多选)8.两个具有线性相关关系的变量的一组数据为(x1,y1),(x2,y2), ,(xn,yn),则下列说法正确的是(  )
A.若相关系数r<0,则两个变量负相关
B.相关系数r的值越小,成对样本数据的线性相关程度越弱
C.决定系数R2越大,残差平方和越小,模型的拟合效果越好
D.决定系数R2越小,残差平方和越小,模型的拟合效果越好
【答案】AC
【解答】解:对于A:因为r的符号反映相关关系的正负性,故A正确;
对于B:根据相关系数|r|越接近1,变量相关性越强,故B错误;
对于C:决定系数R2越大,残差平方和越小,效果越好,故C正确,D错误.
故选:AC.
9.工信部发布的《“十四五”促进中小企业发展规划》中明确提出建立“百十万千”的中小企业梯度培育体系,引导中小企业走向“专精特新”“小巨人”“隐形冠军”的发展方向,“专精特新”是指具备专业化、精细化、特色化、新颖化优势的中小企业.如表是某地2017﹣2021年新增企业数量的有关数据:
年份(年) 2017 2018 2019 2020 2021
年份代码(x) 1 2 3 4 5
新增企业数量(y) 8 17 29 24 42
(1)求x和y的相关系数r(精确到0.01),并推断x和y的线性相关程度(若|r|≥0.75,则线性相关程度很强;若0.30≤|r|<0.75,则线性相关程度一般);
(2)请根据表中所给的数据,求出y关于x的经验回归方程,并预测2025年此地新增企业的数量.
参考公式:相关系数,经验回归方程,其中

参考数据:.
【答案】(1)r≈0.93;线性相关程度很强.
(2);69.
【解答】解:(1),

可得相关系数,
∴变量x和y的线性相关程度很强.
(2)由(1)知,,
∴,
样本中心点在回归方程上,则,
∴;
预测2025年,即当x=9时,由经验回归方程可得,
∴估计2025年此地新增企业的数量约为69家.
▉题型4 经验回归方程与经验回归直线
【知识点的认识】
线性回归是利用数理统计中的回归分析,来确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法之一,运用十分广泛.分析按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析.如果在回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析.如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析.变量的相关关系中最为简单的是线性相关关系,设随机变量与变量之间存在线性相关关系,则由试验数据得到的点将散布在某一直线周围.因此,可以认为关于的回归函数的类型为线性函数.
10.已知由样本数据(xi,yi)(i=1,2,3,…,10)组成一个样本,可得到回归直线方程为,且3,4.7,则样本点(4,7)的残差为(  )
A.0.3 B.﹣0.3 C.1.3 D.﹣1.3
【答案】A
【解答】解:由回归直线方程为,且3,4.7,可得24.7﹣2×3=﹣1.3,
∴2x﹣1.3,∴当x=4时,6.7,
故残差为7﹣6.7=0.3.
故选:A.
11.某专营店统计了新产品A上市后第x(x=1,2,3,4,5)天到该专营店购物的人数y(单位:人).
x 1 2 3 4 5
y 15 20 35 80 150
根据表中数据,可知y与x的经验回归方程为,则(  )
A.﹣22 B.22 C.﹣39 D.39
【答案】C
【解答】解:;,
将代入回归方程33x,得:60=33×3,解得:a=60﹣99=﹣39.
故选:C.
12.已知变量x与y的取值如表:
x 1 2 3 4 5
y 5 7﹣m 8 9+m 11
且y对x呈现线性相关关系,则y与x的经验回归方程必经过的定点为(  )
A.(1,5) B.(2,7﹣m) C.(3,8) D.(5,11)
【答案】C
【解答】解:,
由线性回归方程的性质可知,
故则y与x的经验回归方程必经过的定点为(3,8).
故选:C.
13.用模型y=aekx拟合一组数(xi,yi)(i=1,2,…,10),若x1+x2+…+x10=10,,设z=lny,得变换后的线性回归方程为,则ak=(  )
A.12 B.3e4 C.4e3 D.7
【答案】B
【解答】解:∵x1+x2+…+x10=10,∴,
∵,且z=lny,
∴,
∵()在回归直线,
∴74,解得3,
由y=aekx,得z=lny=lna+kx,与3x+4比较可得,lna=4,k=3,
∴ak=3e4.
故选:B.
14.2020年春季,新冠肺炎疫情在全球范围内相继爆发,因为政治制度、文化背景等因素的不同,各个国家疫情防控的效果具有明显差异.如图是西方某国在60天内感染新冠肺炎的累计病例人数y(万人)与时间t(天)的散点图,则下列最适宜作为此模型的回归方程的类型是(  )
A.y=a+bt B.y=a+b C.y=a+bet D.y=a+blnt
【答案】C
【解答】解:函数图像随着自变量的变大,函数值增长速度越来越快,属于指数型函数的特征,
只有选项C为指数型函数.
故选:C.
15.以模型y=cekx去拟合一组数据时,为了求出回归方程,设z=lny,将其变换后得到线性方程z=0.2x+3,则c,k的值分别是(  )
A.e2,0.6 B.e2,0.3 C.e3,0.2 D.e4,0.6
【答案】C
【解答】解:对于y=cekx,两边取自然对数得z=lny=ln(cekx)=lnc+kx,
所以,解得k=0.2,c=e3.
故选:C.
(多选)16.2020年初以来,5G技术在我国已经进入高速发展的阶段,5G手机的销量也逐渐上升,某公司统计了近5个月来5G手机的实际销量,如表所示:若y(千部)与x线性相关,且求得线性回归方程为45x+5,则下列说法错误的是(  )
月份x 1 2 3 4 5
销量y 37 104 a 196 216
A.a=147
B.y与x正相关
C.y与x的相关系数为45
D.7月份该手机商城的5G手机销量约为27.5万部
【答案】CD
【解答】解:由表中数据可知,,
,即,
故37+104+a+196+216=140×5,解得a=147,故A正确,
由回归方程中的x的系数为正可知,y与x正相关,故B正确,
y与x的相关系数绝对值小于等于1,故C错误,
当x=7时,,故D错误.
故选:CD.
17.已知变量x和y的统计数据如下表:
x 2 4 5 6 8
y 3 4 6 5 t
若x和y线性相关,根据最小二乘法得到y关于x的经验回归方程为,则t= 7  .
【答案】7.
【解答】解:根据题意可知,,,
经验回归直线过点,
所以,
解得t=7.
故答案为:7.
18.近年来,共享单车行业在我国各城市迅猛发展,单车为人们的出行提供了便利,但也给城市的交通管理带来了一些困难,为掌握共享单车在省内的发展情况,某调查机构从省内抽取了5个城市,并统计了共享单车的A指标x和B指标y,数据如表所示:
城市1 城市2 城市3 城市4 城市5
A指标x 2 4 5 6 8
B指标y 3 4 4 4 5
(1)画出散点图;
(2)建立y关于x的经验回归方程,并预测当A指标为7时,B指标的估计值;
(3)若某城市的共享单车的A指标x在区间的右侧,则认为该城市共享单车数量过多,对城市的交通管理有较大的影响,交通管理部门将进行治理,直至A指标x在区间内.现已知省内某城市共享单车的A指标为13,则该城市的交通管理部门是否需要进行治理?试说明理由(其中.
参考公式:经验回归方程x中,斜率和截距的最小二乘估计分别为.
【答案】(1)散点图见解析;
(2),4.6;
(3)需要,理由见解析.
【解答】解:(1)散点图如图:
(2)由题意得,
所以,
则,4﹣0.3×5=2.5,所以y关于x的回归方程为,
当x=7时,0.3×7+2.5=4.6,即当A指标为7时,B指标的估计值为4.6;
(3)需要,理由如下:由题意得(3s,3s)=(﹣1,11),
因为13>11,所以该城市的交通管理部门需要进行治理.
19.2024年2月10日至17日(正月初一至初八),“2024 内江市中区新春极光焰火草地狂欢节”在川南大草原举行,共举行了8场精彩的烟花秀节目.前5场的观众人数(单位:万人)与场次的统计数据如表所示:
场次编号x 1 2 3 4 5
观众人数y 0.7 0.8 1 1.2 1.3
(1)已知可用线性回归模型拟合y与x的关系,请建立y关于x的线性回归方程;
(2)若该烟花秀节目分A、B、C三个等次的票价,某机构随机调查了该烟花秀节目现场200位观众的性别与购票情况,得到的部分数据如表所示,请将2×2列联表补充完整,并判断能否有90%的把握认为该烟花秀节目的观众是否购买A等票与性别有关.
购买A等票 购买非A等票 总计
男性观众 50
女性观众 60
总计 100 200
参考公式及参考数据:回归方程中斜率与截距的最小二乘法估计公式分别为,,,其中n=a+b+c+4
P(K2≥k) 0.100 0.050 0.010
k 2.706 3.841 6.635
【答案】(1)y=0.16x+0.52;
(2)2×2列联表如下:
购买A等票 购买非A等票 总计
男性观众 40 50 90
女性观众 60 50 110
总计 100 100 200
没有90%的把握认为该节目的观众是否购买A等票与性别有关.
【解答】解:(1)由表格知,,
所以,(﹣2)×(﹣0.3)+(﹣1)×(﹣0.2)+0×0+1×0.2+2×0.3=1.6,
则,
所以a=1﹣0.16×3=0.52,
故y关于x的线性回归方程为y=0.16x+0.52;
(2)依题意,补充2×2列联表如下:
购买A等票 购买非A等票 总计
男性观众 40 50 90
女性观众 60 50 110
总计 100 100 200
所以,
故没有90%的把握认为该节目的观众是否购买A等票与性别有关.
20.我国机床行业核心零部件对外依存度较高,我国整机配套的中高档功能部件大量依赖进口,根据中国机床工具工业协会的数据,国内高档系统自给率不到10%,约90%依赖进口.因此,迅速提高国产数控机床功能部件制造水平,加快国产数控机床功能部件产业化进程至关重要.通过对某机械上市公司近几年的年报公布的研发费用x(亿元)与产品的直接收益y(亿元)的数据进行统计,得到下表:
年份 2015 2016 2017 2018 2019 2020 2021
x 2 3 4 6 8 10 13
y 15 22 27 40 48 54 60
根据数据,可建立y关于x的两个回归模型:
模型①:;
模型②:.
(1)根据表格中的数据,分别求出模型①,②的相关指数R2的大小(结果保留三位有效数字);
(2)①根据(1)选择拟合精度更高、更可靠的模型;②若2022年该公司计划投入研发费用17亿元,使用①中的模型预测可为该公司带来多少直接收益.
回归模型 模型① 模型②
79.13 18.86
附:.
【答案】(1)模型①:0.955;模型②:0.989;
(2)①模型②; ②72.93亿元.
【解答】解:(1)因为,
所以,
则模型①的相关指数,
模型②的相关指数;
(2)①由(1)知,,所以模型②的拟合精度更高、更可靠;
②由回归方程,可得当x=17时,,
所以若2022年该公司计划投入研发费用17亿元,大约可为该公司带来72.93亿元的直接收益.
▉题型5 回归分析
【知识点的认识】
1、回归直线:
如果散点图中点的分布从整体上看大致在一条直线附近,我们就称这两个变量之间具有线性相关关系,这条直线叫作回归直线.记为:x.求回归直线方程的一般步骤:
①作出散点图(由样本点是否呈条状分布来判断两个量是否具有线性相关关系),若存在线性相关关系;
②求回归系数;
③写出回归直线方程,并利用回归直线方程进行预测说明.
2、回归分析:
对具有相关关系的两个变量进行统计分析的一种常用方法.
建立回归模型的基本步骤是:
①确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量;
②画好确定好的解释变量和预报变量的散点图,观察它们之间的关系(线性关系).
③由经验确定回归方程的类型.
④按一定规则估计回归方程中的参数 (最小二乘法);
⑤得出结论后在分析残差图是否异常,若存在异常,则检验数据是否有误,模型是否合适等.
(多选)21.下列说法正确的是(  )
A.对于单峰的频率分布直方图,单峰不对称且在右边“拖尾”,则平均数大于中位数
B.回归分析中,线性相关系数的取值范围为(﹣1,1)
C.回归分析中,决定系数越大,拟合效果越好
D.在独立性检验中,当χ2≥xα(xα为α的临界值)时,推断零假设H0不成立
【答案】ACD
【解答】解:根据频率分布直方图可得,单峰不对称且在右边“拖尾”,
则平均数变大,中位数变小,故平均数大于中位数,A正确;
回归分析中,线性相关系数的取值范围为[﹣1,1],故B错误;
回归分析中,决定系数越大,拟合效果越好,故C正确;
在独立性检验中,当χ2≥xα(xα为α的临界值)时,推断零假设H0不成立,故D正确.
故选:ACD.
▉题型6 独立性检验
【知识点的认识】
1、分类变量:
如果某种变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.
2、原理:假设性检验(类似反证法原理).
一般情况下:假设分类变量X和Y之间没有关系,通过计算K2值,然后查表对照相应的概率P,发现这种假设正确的概率P很小,从而推翻假设,最后得出X和Y之间有关系的可能性为(1﹣P),也就是“X和Y有关系”.(表中的k就是K2的观测值,即k=K2).
其中n=a+b+c+d(考试给出)
3、2×2列联表:
4、范围:K2∈(0,+∞);性质:K2越大,说明变量间越有关系.
5、解题步骤:
(1)认真读题,取出相关数据,作出2×2列联表;
(2)根据2×2列联表中的数据,计算K2的观测值k;
(3)通过观测值k与临界值k0比较,得出事件有关的可能性大小.
23.下列关于独立性检验的说法正确的是(  )
A.独立性检验是对两个变量是否具有线性相关关系的一种检验
B.独立性检验可以100%确定两个变量之间是否具有某种关系
C.利用χ2独立性检验推断吸烟与患肺病的关联中,若有99%的把握认为吸烟与患肺病有关系时,我们则可以说在100个吸烟的人中,有99人患肺病
D.在一个2×2列联表中,由计算得χ2的值,则χ2的值越大,判断两个变量间有关联的把握就越大
【答案】D
【解答】解:选项A,独立性检验是判断两个变量是否存在关联,并非检验二者是否是线性相关,故选项A错误;
选项B,独立性检验并不能100%确定两个变量相关,故选项B错误;
选项C,99%是指“抽烟”和“患肺病”存在关联的可能性大小,并非抽烟人中患肺病的发病率,故选项C错误;
选项D,根据卡方计算的定义可知,χ2的值越大,判断两个变量间有关联的把握就越大,故选项D正确.
故选:D.
24.通过随机调查140名性别不同的社区居民是否喜欢看电视剧,得到如下的列联表:
男 女 总计
喜欢 50 40 90
不喜欢 20 30 50
总计 70 70 140
由公式算得:K2≈3.11附:,
P(K2≥k0) 0.10 0.05 0.010 0.001
k0 2.706 3.841 6.635 10.828
其中n=a+b+c+d参照附表,得到的正确结论是(  )
A.有99%的把握认为“居民是否喜欢看电视剧”与性别有关
B.有99.9%的把握认为“居民是否喜欢看电视剧”与性别有关
C.有90%的把握认为“居民是否喜欢看电视剧”与性别有关
D.有95%的把握认为“居民是否喜欢看电视剧”与性别有关
【答案】C
【解答】解:由题意知,K2≈3.11>2.706,所以有90%的把握认为“居民是否喜欢看电视剧”与性别有关.
故选:C.
(多选)25.针对“中学生追星问题”,某校团委对“学生性别和中学生追星是否有关”进行调查,调查样本中女生人数是男生人数的,男生追星人数占男生人数的,女生追星的人数占女生人数的,若根据小概率值α=0.05的独立性检验,可以推断追星和性别有关,则调查样本中男生人数可以是(  )
(参考公式及数据:χ2,临界值χ0.05=3.841)
A.10 B.11 C.12 D.18
【答案】CD
【解答】解:设男生人数为m,则女生人数是m,
所以男生追星人数为,女生追星的人数为,
列出2×2列联表如下:
追星 不追星 合计
男生 m
女生 m
合计 m
则χ2,
若根据小概率值α=0.05的独立性检验,可以推断追星和性别有关,则χ2≥3.841,
即3.841,解得m≥10.243,
又因为m∈N+且m为偶数,所以m的值可以是12或18.
故选:CD.
(多选)26.为了探究某次数学测试中成绩达到优秀等级是否与性别存在关联,小华进行了深入的调查,并绘制了下侧所示的2×2列联表(个别数据暂用字母表示):
数学成绩 性别 合计
男 女
优秀 m 27 77
非优秀 58 n 110
合计 a b 180
经计算得:χ2≈1.315,参照下表:
P(χ2≥x0) 0.10 0.05 0.025 0.010 0.005 0.001
x0 2.706 3.841 5.024 6.635 7.879 10.828
则下列选项正确的为(  )
A.m=43
B.b=79
C.可以在犯错误的概率不超过5%的前提下认为“数学达到优秀等级与性别有关”
D.没有充分的证据显示“数学达到优秀等级与性别有关”
【答案】ABD
【解答】解:对于A,由2×2列联表知,m=70﹣27=43,故A正确;
对于B,n=110﹣58=52,b=27+n=79,故B正确;
对于CD,由χ2≈1.315<2.706<3.841知,没有充分的证据显示“数学达到优秀等级与性别有关”,
故C错误,D正确.
故选:ABD.
27.我校数学小组为了解喜欢看篮球赛是否与性别有关,随机调查了部分学生,在被调查的学生中,男生人数是女生人数的2倍,男生喜欢看篮球赛的人数占男生人数的,女生喜欢看篮球赛的人数占女生人数的,若被调查的男生人数为n,且有95%的把握认为喜欢看篮球赛与性别有关,则n的最小值为  12  .
【答案】12.
【解答】解:根据题意,得到2×2列联表如下:
男生 女生 合计
喜欢 n n n
不喜欢 n n n
合计 n n n
由表知,χ2,
因为有95%的把握认为喜欢看篮球赛与性别有关,
所以χ23.841,解得n>10.243,
又都是整数,所以n的最小值为12.
故答案为:12.
28.考取驾照是一个非常严格的过程,有的人并不能够一次性通过,需要补考.现在有一张某驾校学员第一次考试结果汇总表,由于保管不善,只残留了如下数据(见下表):
成绩 性别 合格 不合格 合计
男性 45 10
女性 30
合计 105
(1)完成此表;
(2)根据此表判断:是否可以认为性别与考试是否合格有关?如果可以,请问有多大把握;如果不可以,试说明理由.
参考公式:①相关性检验的临界值表:
P(k2≥x0) 0.40 0.25 0.15 0.10 0.05 0.025 0.10
x0 0.708 1.323 2.072 2.706 3.841 5.024 6.635
②卡方值计算公式:k2.其中n=a+b+c+d.
【答案】(1)2×2列联表见解析;(2)有97.5%的把握认为性别与考试是否合格有关.
【解答】解:(1)2×2列联表如下:
成绩 性别 合格 不合格 合计
男性 45 10 55
女性 30 20 50
合计 75 30 105
(2)∵k26.109>5.024,
∴有97.5%的把握认为性别与考试是否合格有关.
29.某学校高三年级有学生1000名,经调查,其中750名同学经常参加体育锻炼(称为A类同学),另外250名同学不经常参加体育锻炼(称为B类同学).现用分层抽样方法(按A类、B类分两层)从该年级的学生中共抽查200名同学,如果以身高达到165cm作为达标的标准,对抽取的200名学生,得到以下列联表:
身高达标 身高不达标 总计
经常参加体育锻炼 80
不经常参加体育锻炼 30
总计 200
(1)完成上表;
(2)能否在犯错误的概率不超过0.05的前提下认为经常参加体育锻炼与身高达标有关系.
附:,其中n=a+b+c+d.
P(K2≥k0) 0.10 0.05 0.010 0.001
k0 2.706 3.841 6.635 10.828
【答案】(1)列联表见试题解析;
(2)不能.
【解答】解:(1)由题意可得:列联表如下:
身高达标 身高不达标 总计
经常参加体育锻炼 80 70 150
不经常参加体育锻炼 20 30 50
总计 100 100 200
(2)由列联表中的数据可得,
所以在犯错误的概率不超过0.05的前提下,不能认为经常参加锻炼与身高达标有关系.
30.为了研究学生的性别与是否喜欢运动的关联性,随机调查了某中学的100名学生,整理得到如下列联表:
男学生 女学生 合计
喜欢运动 40 20 60
不喜欢运动 20 20 40
合计 60 40 100
(1)依据α=0.1的独立性检验,能否认为学生的性别与是否喜欢运动有关联?
(2)按学生的性别以及是否喜欢运动用分层随机抽样的方法从这100名学生中选取10人,再从这10人中任选2人,求至少有1名喜欢运动的男学生被选中的概率.
附:,其中n=a+b+c+d.
α 0.1 0.05 0.01
xα 2.706 3.841 6.635
【答案】见试题解答内容
【解答】解:(1)零假设为H0:学生的性别与是否喜欢运动无关,
根据列联表中的数据,计算得到,
根据α=0.1的独立性检验,我们推断H0不成立,即学生的性别与是否喜欢运动有关.
(2)由题意得选取的喜欢运动的男学生人数为,则不喜欢运动的男学生、喜欢运动的女学生、不喜欢运动的女学生的人数之和为10﹣4=6,
则至少有1名喜欢运动的男学生被选中的概率为.
31.为了研究体育锻炼对某年龄段的人患某种慢性病的影响,某人随机走访了200个该年龄段的人,得到的数据如下:
慢性病 体育锻炼 合计
经常 不经常
未患病 100 70 170
患病 10 20 30
合计 110 90 200
(1)定义分类变量X,Y如下:X,Y,以频率估计概率,求条件概率P(X=1|Y=0)与P(X=1|Y=1)的值;
(2)根据小概率值α=0.010的独立性检验,分析经常进行体育锻炼是否对患该种慢性病有影响.
附:χ2
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
【答案】(1)P(X=1|Y=0),P(X=1|Y=1);
(2)我们推断经常锻炼对患有某种慢性病有影响,此推断犯错误的概率不大于0.01.
【解答】解:(1),;
(2)零假设为H0:经常进行体育锻炼对患该种慢性病无影响,
将列联表中的数据代入公式计算得,
根据小概率值α=0.010的独立性检验,我们推断H0不成立,即认为经常锻炼对患有某种慢性病有影响,此推断犯错误的概率不大于0.01.
32.某中学为了丰富学生的课余生活,欲利用每周一下午的自主活动时间,面向本校高二学生开设“厨艺探秘”“盆景栽培”“家庭摄影”“名画鉴赏”四门选修课,由学生自主申报,每人只能报一门,也可以不报.该校高二有文科班和理科班(各有2个班)两种班型,据调查这4个班中有100人报名参加了此次选修课,报名情况统计如下:
厨艺探秘 盆景栽培 家庭摄影 名画鉴赏
文科1班 11 5 14 6
文科2班 12 7 11 4
理科1班 3 1 9 3
理科2班 5 1 6 2
(Ⅰ)若把“厨艺探秘”“盆景栽培”统称为“劳育课程”,把“家庭摄影”“名画鉴赏”统称为“美育课程”.请根据所给数据,完成下面的2×2列联表:
报名班型 课程 合计
“劳育课程” “美育课程”
文科班
理科班
合计
(Ⅱ)根据(Ⅰ)中列联表所填数据,判断是否有90%的把握认为课程的选择与班型有关.
附:,n=a+b+c+d.
P(K2≥k0) 0.10 0.05 0.025 0.0100 0.005
k0 2.706 3.841 5.024 6.6357 7.879
【答案】(Ⅰ)2×2列联表如下:
报名班型 课程 合计
“劳育课程” “美育课程”
文科班 35 35 70
理科班 10 20 30
合计 45 55 100
(Ⅱ)没有.
【解答】解:(Ⅰ)由题意,完成的2×2列联表如下:
报名班型 课程 合计
“劳育课程” “美育课程”
文科班 35 35 70
理科班 10 20 30
合计 45 55 100
(Ⅱ)零假设H0:课程的选择与班型无关,
则,
依据小概率值α=0.10的独立性检验,我们推断H0成立,即没有90%的把握认为“劳育课程”“美育课程”的选择与文理科有关.
33.为调查学生住宿情况,某教育主管部门从甲、乙两所学校各抽取200名学生参与调查,调查结果分为“住校”与“走读”两类,结果统计如下表:
住校人数 走读人数 合计
甲校 80 120 200
乙校 60 140 200
合计 140 260 400
(1)分别估计甲,乙两所学校学生住校的概率;
(2)能否有95%的把握认为住校人数与不同的学校有关?
【答案】(1)0.4,0.3;(2)有95%的把握认为住校人数与不同的学校有关.
【解答】解:(1)由表格数据得,
甲校学生住校的概率P1,
乙校学生住校的概率P2.
(2)由题意可得K2,
所以有95%的把握认为住校人数与不同的学校有关.第4章第3节 统计模型
题型1 散点图 题型2 变量间的相关关系
题型3 样本相关系数 题型4 经验回归方程与经验回归直线
题型5 回归分析 题型6 独立性检验
▉题型1 散点图
【知识点的认识】
1.散点图的概念:
在考虑两个量的关系时,为了对变量之间的关系有一个大致的了解,人们常将变量所对应的点描出来,这些点就组成了变量之间的一个图,通常称这种图为变量之间的散点图.
2.曲线拟合的概念:
从散点图可以看出如果变量之间存在着某种关系,这些点会有一个集中的大致趋势,这种趋势通常可以用一条光滑的曲线来近似,这种近似的过程称为曲线拟合.
3.正相关和负相关:
(1)正相关:对于相关关系的两个变量,如果一个变量的值由小变大时,另一个变量的值也由小变大,这种相关称为正相关,正相关时散点图的点散布在从左下角到右上角的区域内.
(2)负相关:如果一个变量的值由小变大时,另一个变量的值由大变小,这种相关称为负相关,负相关时散点图的点散布在从左上角到右下角的区域.
3、注意:画散点图的关键是以成对的一组数据,分别为此点的横、纵坐标,在平面直角坐标系中把其找出来,其横纵坐标的单位长度的选取可以不同,应考虑数据分布的特征,散点图只是形象的描述点的分布,如果点的分布大致呈一种集中趋势,则两个变量可以初步判断具有相关关系,如图中数据大致分布在一条直线附近,则表示的关系是线性相关,如果两个变量统计数据的散点图呈现如下图所示的情况,则两个变量之间不具备相关关系,例如学生的身高和学生的英语成绩就没有相关关系.
4、散点图又称散点分布图,是以一个变量为横坐标,另一变量为纵坐标,利用散点(坐标点)的分布形态反映变量统计关系的一种图形.特点是能直观表现出影响因素和预测对象之间的总体关系趋势.优点是能通过直观醒目的图形方式反映变量间关系的变化形态,以便决定用何种数学表达方式来模拟变量之间的关系.散点图不仅可传递变量间关系类型的信息,也能反映变量间关系的明确程度.
1.某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)的影响,对近8年的年宣传费xi和年销售量yi(i=1,2,…,8)数据作了初步处理,得到下面的散点图.根据散点图判断,下面四个回归模型中,最适合的是(  )
A.y=bx+a B.y=bx2+a C. D.y=bsinx+a
▉题型2 变量间的相关关系
【知识点的认识】
1、变量之间的相关关系
两个变量之间的关系可能是确定的关系(如:函数关系),或非确定性关系.当自变量取值一定时,因变量也确定,则为确定关系;当自变量取值一定时,因变量带有随机性,这种变量之间的关系称为相关关系.相关关系是一种非确定性关系,如长方体的高与体积之间的关系就是确定的函数关系,而人的身高与体重的关系,学生的数学成绩好坏与物理成绩的关系等都是相关关系.
2、线性相关和非线性相关:
两个变量之间的相关关系又可分为线性相关和非线性相关,如果所有的样本点都落在某一函数曲线的附近,则变量之间具有相关关系(不确定性的关系),如果所有样本点都落在某一直线附近,那么变量之间具有线性相关关系,相关关系只说明两个变量在数量上的关系,不表明他们之间的因果关系,也可能是一种伴随关系.
3、两个变量相关关系与函数关系的区别和联系
(1)相同点:两者均是两个变量之间的关系.
(2)不同点:函数关系是一种确定的关系,如匀速直线运动中时间t与路程s的关系,相关关系是一种非确定的关系,如一块农田的小麦产量与施肥量之间的关系,函数关系是两个随机变量之间的关系,而相关关系是非随机变量与随机变量之间的关系;函数关系式一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系.
2.对变量x,y由观测数据得散点图1;对变量y,z由观测数据得散点图2.由这两个散点图可以判断(  )
A.变量x与y正相关,x与z正相关
B.变量x与y正相关,x与z负相关
C.变量x与y负相关,x与z正相关
D.变量x与y负相关,x与z负相关
(多选)3.甲、乙、丙、丁各自研究两个随机变量的数据,甲、乙、丙、丁计算得到各自研究的两个随机变量的线性相关系数分别为r1=﹣0.95,r2=0.88,r3=﹣0.9,r4=0.93,则(  )
A.这四人中,丁研究的两个随机变量的线性相关程度最高
B.这四人中,乙研究的两个随机变量的线性相关程度最低
C.这四人中,甲研究的两个随机变量的线性相关程度最高
D.这四人中,甲研究的两个随机变量的线性相关程度最低
4.为了比较E、F、G、H四组数据的线性相关性强弱,某同学分别计算了E、F、G、H四组数据的线性相关系数,求得数值依次为0.92,﹣0.32,0.36,﹣0.95,则这四组数据中线性相关性最强的是 组数据.
▉题型3 样本相关系数
【知识点的认识】
1、概念:
相关表和相关图可反映两个变量之间的相互关系及其相关方向,但无法确切地表明两个变量之间相关的程度.于是,著名统计学家卡尔 皮尔逊设计了统计指标﹣﹣相关系数.相关系数是用以反映变量之间相关关系密切程度的统计指标.相关系数是按积差方法计算,同样以两变量与各自平均值的离差为基础,通过两个离差相乘来反映两变量之间相关程度;着重研究线性的单相关系数.
2、相关系数用r表示,计算公式为
其中:当r>0时,表明两个变量正相关;当r<0时,表明两个变量负相关;|r|≤1,且|r|越接近于1,相关程度越大;|r|越接近于0,相关程度越小.
3、残差:
相关指数R2用来刻画回归的效果,其计算公式是
在含有一个解释变量的线性模型中,R2恰好等于相关系数r的平方.显然,R2取值越大,意味着残差平方和越小,也就是模型的拟合效果越好.
5.关于样本相关系数r,下列说法错误的是(  )
A.﹣1≤r≤1
B.当|r|越接近1时,成对样本数据的线性相关程度越强
C.当|r|越接近0时,成对样本数据的线性相关程度越弱
D.当r=0时,表明成对样本数据间没有线性相关关系,也没有其他相关关系
6.对四组数据进行统计,获得以下散点图,关于其相关系数的比较,正确的是(  )
A.r2<r4<0<r3<r1 B.r4<r2<0<r1<r3
C.r4<r2<0<r3<r1 D.r2<r4<0<r1<r3
7.下列说法中正确的个数是(  )
①设有一个回归方程y=3﹣5x,变量x增加1个单位时,y平均增加5个单位;
②将一组数据中的每一个数据都加上或减去同一个常数后,方差不变;
③某校共有女生2021人,用简单随机抽样的方法先剔除21人,再按简单随机抽样的方法抽取为200人,则每个女生被抽到的概率为;
④具有线性相关关系的两个变量x,y的相关系数为r,则|r|越接近于0,x,y之间的线性相关程度越高;
⑤在一个2×2列联表中,由计算得出K2=20.21,而P(K2≥10.828)≈0.001,则在犯错误的概率不超过0.001的前提下认为这两个变量之间有相关关系.
A.1 B.2 C.3 D.4
(多选)8.两个具有线性相关关系的变量的一组数据为(x1,y1),(x2,y2), ,(xn,yn),则下列说法正确的是(  )
A.若相关系数r<0,则两个变量负相关
B.相关系数r的值越小,成对样本数据的线性相关程度越弱
C.决定系数R2越大,残差平方和越小,模型的拟合效果越好
D.决定系数R2越小,残差平方和越小,模型的拟合效果越好
9.工信部发布的《“十四五”促进中小企业发展规划》中明确提出建立“百十万千”的中小企业梯度培育体系,引导中小企业走向“专精特新”“小巨人”“隐形冠军”的发展方向,“专精特新”是指具备专业化、精细化、特色化、新颖化优势的中小企业.如表是某地2017﹣2021年新增企业数量的有关数据:
年份(年) 2017 2018 2019 2020 2021
年份代码(x) 1 2 3 4 5
新增企业数量(y) 8 17 29 24 42
(1)求x和y的相关系数r(精确到0.01),并推断x和y的线性相关程度(若|r|≥0.75,则线性相关程度很强;若0.30≤|r|<0.75,则线性相关程度一般);
(2)请根据表中所给的数据,求出y关于x的经验回归方程,并预测2025年此地新增企业的数量.
参考公式:相关系数,经验回归方程,其中

参考数据:.
▉题型4 经验回归方程与经验回归直线
【知识点的认识】
线性回归是利用数理统计中的回归分析,来确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法之一,运用十分广泛.分析按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析.如果在回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析.如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析.变量的相关关系中最为简单的是线性相关关系,设随机变量与变量之间存在线性相关关系,则由试验数据得到的点将散布在某一直线周围.因此,可以认为关于的回归函数的类型为线性函数.
10.已知由样本数据(xi,yi)(i=1,2,3,…,10)组成一个样本,可得到回归直线方程为,且3,4.7,则样本点(4,7)的残差为(  )
A.0.3 B.﹣0.3 C.1.3 D.﹣1.3
11.某专营店统计了新产品A上市后第x(x=1,2,3,4,5)天到该专营店购物的人数y(单位:人).
x 1 2 3 4 5
y 15 20 35 80 150
根据表中数据,可知y与x的经验回归方程为,则(  )
A.﹣22 B.22 C.﹣39 D.39
12.已知变量x与y的取值如表:
x 1 2 3 4 5
y 5 7﹣m 8 9+m 11
且y对x呈现线性相关关系,则y与x的经验回归方程必经过的定点为(  )
A.(1,5) B.(2,7﹣m) C.(3,8) D.(5,11)
13.用模型y=aekx拟合一组数(xi,yi)(i=1,2,…,10),若x1+x2+…+x10=10,,设z=lny,得变换后的线性回归方程为,则ak=(  )
A.12 B.3e4 C.4e3 D.7
14.2020年春季,新冠肺炎疫情在全球范围内相继爆发,因为政治制度、文化背景等因素的不同,各个国家疫情防控的效果具有明显差异.如图是西方某国在60天内感染新冠肺炎的累计病例人数y(万人)与时间t(天)的散点图,则下列最适宜作为此模型的回归方程的类型是(  )
A.y=a+bt B.y=a+b C.y=a+bet D.y=a+blnt
15.以模型y=cekx去拟合一组数据时,为了求出回归方程,设z=lny,将其变换后得到线性方程z=0.2x+3,则c,k的值分别是(  )
A.e2,0.6 B.e2,0.3 C.e3,0.2 D.e4,0.6
(多选)16.2020年初以来,5G技术在我国已经进入高速发展的阶段,5G手机的销量也逐渐上升,某公司统计了近5个月来5G手机的实际销量,如表所示:若y(千部)与x线性相关,且求得线性回归方程为45x+5,则下列说法错误的是(  )
月份x 1 2 3 4 5
销量y 37 104 a 196 216
A.a=147
B.y与x正相关
C.y与x的相关系数为45
D.7月份该手机商城的5G手机销量约为27.5万部
17.已知变量x和y的统计数据如下表:
x 2 4 5 6 8
y 3 4 6 5 t
若x和y线性相关,根据最小二乘法得到y关于x的经验回归方程为,则t=  .
18.近年来,共享单车行业在我国各城市迅猛发展,单车为人们的出行提供了便利,但也给城市的交通管理带来了一些困难,为掌握共享单车在省内的发展情况,某调查机构从省内抽取了5个城市,并统计了共享单车的A指标x和B指标y,数据如表所示:
城市1 城市2 城市3 城市4 城市5
A指标x 2 4 5 6 8
B指标y 3 4 4 4 5
(1)画出散点图;
(2)建立y关于x的经验回归方程,并预测当A指标为7时,B指标的估计值;
(3)若某城市的共享单车的A指标x在区间的右侧,则认为该城市共享单车数量过多,对城市的交通管理有较大的影响,交通管理部门将进行治理,直至A指标x在区间内.现已知省内某城市共享单车的A指标为13,则该城市的交通管理部门是否需要进行治理?试说明理由(其中.
参考公式:经验回归方程x中,斜率和截距的最小二乘估计分别为.
19.2024年2月10日至17日(正月初一至初八),“2024 内江市中区新春极光焰火草地狂欢节”在川南大草原举行,共举行了8场精彩的烟花秀节目.前5场的观众人数(单位:万人)与场次的统计数据如表所示:
场次编号x 1 2 3 4 5
观众人数y 0.7 0.8 1 1.2 1.3
(1)已知可用线性回归模型拟合y与x的关系,请建立y关于x的线性回归方程;
(2)若该烟花秀节目分A、B、C三个等次的票价,某机构随机调查了该烟花秀节目现场200位观众的性别与购票情况,得到的部分数据如表所示,请将2×2列联表补充完整,并判断能否有90%的把握认为该烟花秀节目的观众是否购买A等票与性别有关.
购买A等票 购买非A等票 总计
男性观众 50
女性观众 60
总计 100 200
参考公式及参考数据:回归方程中斜率与截距的最小二乘法估计公式分别为,,,其中n=a+b+c+4
P(K2≥k) 0.100 0.050 0.010
k 2.706 3.841 6.635
20.我国机床行业核心零部件对外依存度较高,我国整机配套的中高档功能部件大量依赖进口,根据中国机床工具工业协会的数据,国内高档系统自给率不到10%,约90%依赖进口.因此,迅速提高国产数控机床功能部件制造水平,加快国产数控机床功能部件产业化进程至关重要.通过对某机械上市公司近几年的年报公布的研发费用x(亿元)与产品的直接收益y(亿元)的数据进行统计,得到下表:
年份 2015 2016 2017 2018 2019 2020 2021
x 2 3 4 6 8 10 13
y 15 22 27 40 48 54 60
根据数据,可建立y关于x的两个回归模型:
模型①:;
模型②:.
(1)根据表格中的数据,分别求出模型①,②的相关指数R2的大小(结果保留三位有效数字);
(2)①根据(1)选择拟合精度更高、更可靠的模型;②若2022年该公司计划投入研发费用17亿元,使用①中的模型预测可为该公司带来多少直接收益.
回归模型 模型① 模型②
79.13 18.86
附:.
▉题型5 回归分析
【知识点的认识】
1、回归直线:
如果散点图中点的分布从整体上看大致在一条直线附近,我们就称这两个变量之间具有线性相关关系,这条直线叫作回归直线.记为:x.求回归直线方程的一般步骤:
①作出散点图(由样本点是否呈条状分布来判断两个量是否具有线性相关关系),若存在线性相关关系;
②求回归系数;
③写出回归直线方程,并利用回归直线方程进行预测说明.
2、回归分析:
对具有相关关系的两个变量进行统计分析的一种常用方法.
建立回归模型的基本步骤是:
①确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量;
②画好确定好的解释变量和预报变量的散点图,观察它们之间的关系(线性关系).
③由经验确定回归方程的类型.
④按一定规则估计回归方程中的参数 (最小二乘法);
⑤得出结论后在分析残差图是否异常,若存在异常,则检验数据是否有误,模型是否合适等.
(多选)21.下列说法正确的是(  )
A.对于单峰的频率分布直方图,单峰不对称且在右边“拖尾”,则平均数大于中位数
B.回归分析中,线性相关系数的取值范围为(﹣1,1)
C.回归分析中,决定系数越大,拟合效果越好
D.在独立性检验中,当χ2≥xα(xα为α的临界值)时,推断零假设H0不成立
▉题型6 独立性检验
【知识点的认识】
1、分类变量:
如果某种变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.
2、原理:假设性检验(类似反证法原理).
一般情况下:假设分类变量X和Y之间没有关系,通过计算K2值,然后查表对照相应的概率P,发现这种假设正确的概率P很小,从而推翻假设,最后得出X和Y之间有关系的可能性为(1﹣P),也就是“X和Y有关系”.(表中的k就是K2的观测值,即k=K2).
其中n=a+b+c+d(考试给出)
3、2×2列联表:
4、范围:K2∈(0,+∞);性质:K2越大,说明变量间越有关系.
5、解题步骤:
(1)认真读题,取出相关数据,作出2×2列联表;
(2)根据2×2列联表中的数据,计算K2的观测值k;
(3)通过观测值k与临界值k0比较,得出事件有关的可能性大小.
23.下列关于独立性检验的说法正确的是(  )
A.独立性检验是对两个变量是否具有线性相关关系的一种检验
B.独立性检验可以100%确定两个变量之间是否具有某种关系
C.利用χ2独立性检验推断吸烟与患肺病的关联中,若有99%的把握认为吸烟与患肺病有关系时,我们则可以说在100个吸烟的人中,有99人患肺病
D.在一个2×2列联表中,由计算得χ2的值,则χ2的值越大,判断两个变量间有关联的把握就越大
24.通过随机调查140名性别不同的社区居民是否喜欢看电视剧,得到如下的列联表:
男 女 总计
喜欢 50 40 90
不喜欢 20 30 50
总计 70 70 140
由公式算得:K2≈3.11附:,
P(K2≥k0) 0.10 0.05 0.010 0.001
k0 2.706 3.841 6.635 10.828
其中n=a+b+c+d参照附表,得到的正确结论是(  )
A.有99%的把握认为“居民是否喜欢看电视剧”与性别有关
B.有99.9%的把握认为“居民是否喜欢看电视剧”与性别有关
C.有90%的把握认为“居民是否喜欢看电视剧”与性别有关
D.有95%的把握认为“居民是否喜欢看电视剧”与性别有关
(多选)25.针对“中学生追星问题”,某校团委对“学生性别和中学生追星是否有关”进行调查,调查样本中女生人数是男生人数的,男生追星人数占男生人数的,女生追星的人数占女生人数的,若根据小概率值α=0.05的独立性检验,可以推断追星和性别有关,则调查样本中男生人数可以是(  )
(参考公式及数据:χ2,临界值χ0.05=3.841)
A.10 B.11 C.12 D.18
(多选)26.为了探究某次数学测试中成绩达到优秀等级是否与性别存在关联,小华进行了深入的调查,并绘制了下侧所示的2×2列联表(个别数据暂用字母表示):
数学成绩 性别 合计
男 女
优秀 m 27 77
非优秀 58 n 110
合计 a b 180
经计算得:χ2≈1.315,参照下表:
P(χ2≥x0) 0.10 0.05 0.025 0.010 0.005 0.001
x0 2.706 3.841 5.024 6.635 7.879 10.828
则下列选项正确的为(  )
A.m=43
B.b=79
C.可以在犯错误的概率不超过5%的前提下认为“数学达到优秀等级与性别有关”
D.没有充分的证据显示“数学达到优秀等级与性别有关”
27.我校数学小组为了解喜欢看篮球赛是否与性别有关,随机调查了部分学生,在被调查的学生中,男生人数是女生人数的2倍,男生喜欢看篮球赛的人数占男生人数的,女生喜欢看篮球赛的人数占女生人数的,若被调查的男生人数为n,且有95%的把握认为喜欢看篮球赛与性别有关,则n的最小值为 .
28.考取驾照是一个非常严格的过程,有的人并不能够一次性通过,需要补考.现在有一张某驾校学员第一次考试结果汇总表,由于保管不善,只残留了如下数据(见下表):
成绩 性别 合格 不合格 合计
男性 45 10
女性 30
合计 105
(1)完成此表;
(2)根据此表判断:是否可以认为性别与考试是否合格有关?如果可以,请问有多大把握;如果不可以,试说明理由.
参考公式:①相关性检验的临界值表:
P(k2≥x0) 0.40 0.25 0.15 0.10 0.05 0.025 0.10
x0 0.708 1.323 2.072 2.706 3.841 5.024 6.635
②卡方值计算公式:k2.其中n=a+b+c+d.
29.某学校高三年级有学生1000名,经调查,其中750名同学经常参加体育锻炼(称为A类同学),另外250名同学不经常参加体育锻炼(称为B类同学).现用分层抽样方法(按A类、B类分两层)从该年级的学生中共抽查200名同学,如果以身高达到165cm作为达标的标准,对抽取的200名学生,得到以下列联表:
身高达标 身高不达标 总计
经常参加体育锻炼 80
不经常参加体育锻炼 30
总计 200
(1)完成上表;
(2)能否在犯错误的概率不超过0.05的前提下认为经常参加体育锻炼与身高达标有关系.
附:,其中n=a+b+c+d.
P(K2≥k0) 0.10 0.05 0.010 0.001
k0 2.706 3.841 6.635 10.828
30.为了研究学生的性别与是否喜欢运动的关联性,随机调查了某中学的100名学生,整理得到如下列联表:
男学生 女学生 合计
喜欢运动 40 20 60
不喜欢运动 20 20 40
合计 60 40 100
(1)依据α=0.1的独立性检验,能否认为学生的性别与是否喜欢运动有关联?
(2)按学生的性别以及是否喜欢运动用分层随机抽样的方法从这100名学生中选取10人,再从这10人中任选2人,求至少有1名喜欢运动的男学生被选中的概率.
附:,其中n=a+b+c+d.
α 0.1 0.05 0.01
xα 2.706 3.841 6.635
31.为了研究体育锻炼对某年龄段的人患某种慢性病的影响,某人随机走访了200个该年龄段的人,得到的数据如下:
慢性病 体育锻炼 合计
经常 不经常
未患病 100 70 170
患病 10 20 30
合计 110 90 200
(1)定义分类变量X,Y如下:X,Y,以频率估计概率,求条件概率P(X=1|Y=0)与P(X=1|Y=1)的值;
(2)根据小概率值α=0.010的独立性检验,分析经常进行体育锻炼是否对患该种慢性病有影响.
附:χ2
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
32.某中学为了丰富学生的课余生活,欲利用每周一下午的自主活动时间,面向本校高二学生开设“厨艺探秘”“盆景栽培”“家庭摄影”“名画鉴赏”四门选修课,由学生自主申报,每人只能报一门,也可以不报.该校高二有文科班和理科班(各有2个班)两种班型,据调查这4个班中有100人报名参加了此次选修课,报名情况统计如下:
厨艺探秘 盆景栽培 家庭摄影 名画鉴赏
文科1班 11 5 14 6
文科2班 12 7 11 4
理科1班 3 1 9 3
理科2班 5 1 6 2
(Ⅰ)若把“厨艺探秘”“盆景栽培”统称为“劳育课程”,把“家庭摄影”“名画鉴赏”统称为“美育课程”.请根据所给数据,完成下面的2×2列联表:
报名班型 课程 合计
“劳育课程” “美育课程”
文科班
理科班
合计
(Ⅱ)根据(Ⅰ)中列联表所填数据,判断是否有90%的把握认为课程的选择与班型有关.
附:,n=a+b+c+d.
P(K2≥k0) 0.10 0.05 0.025 0.0100 0.005
k0 2.706 3.841 5.024 6.6357 7.879
33.为调查学生住宿情况,某教育主管部门从甲、乙两所学校各抽取200名学生参与调查,调查结果分为“住校”与“走读”两类,结果统计如下表:
住校人数 走读人数 合计
甲校 80 120 200
乙校 60 140 200
合计 140 260 400
(1)分别估计甲,乙两所学校学生住校的概率;
(2)能否有95%的把握认为住校人数与不同的学校有关?

展开更多......

收起↑

资源列表