资源简介 第二讲 成对数据的统计分析知 识 梳 理知识点一 变量的相关关系1.相关关系两个变量有关系,但又没有确切到可由其中的一个 去精确地决定 另一个的程度,这种关系称为相关关系.2.散点图每一个序号下的成对样本数据都可用直角坐标系中的 点 表示出来,由这些点组成的统计图称为散点图.3.正相关、负相关如果从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现 增加 的趋势,我们就称这两个变量正相关;如果当一个变量的值增加时,另一个变量的相应值呈现 减小 的趋势,则称这两个变量负相关.4.变量的线性相关如果两个变量的取值呈现 正相关或负相关 ,而且散点落在 一条直线 附近,我们就称这两个变量线性相关.一般地,如果两个变量具有相关性,但不是线性相关,那么我们就称这两个变量 非线性相关或曲线相关 .5.样本相关系数称r=为变量x和变量y的相关系数.r∈[-1,1],当r>0时,成对样本数据 正相关 ;当r<0时,成对样本数据 负相关 ;当|r|接近1时,成对样本数据的线性相关程度 越强 ;当|r|接近0时,成对样本数据的线性相关程度 越弱 .知识点二 一元线性回归模型1.一元线性回归模型我们称上式为Y关于x的一元线性回归模型.其中,Y称为 因变量或响应变量 ,x称为 自变量或解释变量 ;a和b为模型的未知参数,a称为截距参数,b称为斜率参数;e是Y与bx+a之间的随机误差.2.经验回归方程记=i,=i,因此当a,b的取值为(,)称为样本点的中心.我们将=x+称为Y关于x的经验回归方程,也称经验回归函数或经验回归公式,其图形称为 经验回归直线 ,这种求经验回归方程的方法叫做 最小二乘法 ,求得的,叫做b,a的 最小二乘估计 .注:经验回归直线必过样本点中心.3.残差分析(1)对于响应变量Y,通过观测得到的数据称为 观测值 ,通过经验回归方程得到的称为 预测值 ,观测值减去预测值称为 残差 .残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为 残差分析 .(2)残差的散点图残差比较均匀地集中分布在以横轴为对称轴的水平带状区域内,则满足一元线性回归模型对随机误差的假设.(3)决定系数R2=1-.在R2表达式中,(yi-)2与经验回归方程无关,残差平方和 (yi-i)2 与经验回归方程有关.因此R2越大,意味着残差平方和越 小 ,即模型的拟合效果越 好 ;R2越小,表示残差平方和越 大 ,即模型的拟合效果越 差 .在线性回归模型中,R2表示解释变量对响应变量的贡献率,R2越接近1,拟合效果越好.知识点三 独立性检验1.分类变量:用以区别不同的现象或性质的随机变量.2.2×2列联表设X,Y为两个分类变量,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(2×2列联表)如下:y1 y2 总计x1 a b a+b x2 c d c+d总计 a+c b+d a+b+c+d 3.独立性检验(1)零假设(或原假设)以Ω为样本空间的古典概型.设X和Y为定义在Ω上,取值于{0,1}的成对分类变量.H0: P(Y=1|X=0)=P(Y=1|X=1) 称为零假设.(2)临界值χ2= .对于任何小概率值α,可以找到相应的正实数xα,使得下面关系成立:P(?2≥xα)=α.称xα为α的 临界值 ,这个临界值就可作为判断χ2大小的标准.概率值α越小,临界值xα越大.(3)独立性检验基于小概率值α的检验规则是:当χ2≥xα时,我们就推断H0不成立,即认为X和Y 不独立 ,该推断犯错误的概率不 超过α ;当χ2这种利用χ2的取值推断分类变量X和Y是否独立的方法称为?2独立性检验,读作“卡方独立性检验”,简称独立性检验.4.独立性检验解决实际问题的一般步骤(1)提出零假设H0:X与Y相互独立,并给出在问题中的解释.(2)根据抽样数据整理出2×2列联表,计算χ2值,并与临界值xα比较.(3)根据经验规则得出推断结论.(4)在X和Y不独立的情况下,根据需要,通过比较相应的频率,分析X和Y间的影响规律.归 纳 拓 展1.回归分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图大致呈线性分布时,求出的经验回归方程才有实际意义,否则,求出的经验回归方程毫无意义.根据经验回归方程进行预报,仅是一个预报值,而不是真实发生的值.2.相关系数r=.3.独立性检验是对两个变量的关系的可信程度的判断,而不是对其是否有关系的判断.根据?2的值可以判断两个分类变量有关的可信程度,并用来指导科研和实际生活.双 基 自 测题组一 走出误区1.判断下列结论是否正确(请在括号中打“√”或“×”)(1)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系.( √ )(2)两个随机变量的线性相关性越强,相关系数的绝对值越接近于0.( × )(3)只有两个变量有相关关系,所得到的回归模型才有预测价值.( √ )(4)某同学研究卖出的热饮杯数y与气温x(℃)之间的关系,得回归方程=-2.352x+147.767,则气温为2 ℃时,一定可卖出143杯热饮.( × )(5)事件x,y关系越密切,则由观测数据计算得到的χ2的观测值越大.( √ )(6)由独立性检验可知,在犯错误的概率不超过1%的前提下认为物理成绩优秀与数学成绩有关,某人数学成绩优秀,则他有99%的可能物理优秀.( × )题组二 走进教材2.(多选题)(选择性必修3P113T5)对变量y和x的一组样本数据(x1,y1),(x2,y2),…,(xn,yn)进行回归分析,建立回归模型,则( BD )A.残差平方和越大,模型的拟合效果越好B.若由样本数据得到经验回归直线=x+,则其必过点(,)C.用决定系数R2来刻画回归效果,R2越小,说明模型的拟合效果越好D.若y和x的样本相关系数r=-0.95,则y和x之间具有很强的负线性相关关系3.(选择性必修3P132例3)某儿童医院用甲、乙两种疗法治疗小儿消化不良.采用有放回简单随机抽样的方法对治疗情况进行检查,得到了如下数据:抽到接受甲种疗法的患儿67名,其中未治愈15名、治愈52名;抽到接受乙种疗法的患儿69名,其中未治愈6名,治愈63名.试根据小概率值α=0.005的独立性检验,分析甲、乙两种疗法的效果,结论为 两种疗法效果没有差异 .附:α 0.1 0.05 0.01 0.005 0.001xα 2.706 3.841 6.635 7.879 10.828[解析] 由题意的两种疗法数据的列联表疗法 疗效 合计未治愈 治愈甲 15 52 67乙 6 63 69合计 21 115 136根据列联表中的数据,经计算得到χ2=≈4.881<7.879=x0.005.根据小概率值α=0.005的独立性检验,认为两种疗法效果没有差异.题组三 走向高考4.(2023·高考天津卷)调查某种群花萼长度和花瓣长度,所得数据如图所示,其中相关系数r=0.824 5,下列说法正确的是( C )A.花瓣长度和花萼长度没有相关性B.花瓣长度和花萼长度呈现负相关C.花瓣长度和花萼长度呈现正相关D.若从样本中抽取一部分,则这部分的相关系数一定是0.824 5[解析] 根据散点的集中程度可知,花瓣长度和花萼长度有相关性,A选项错误;散点的分布是从左下到右上,从而花瓣长度和花萼长度呈现正相关性,B选项错误,C选项正确;由于r=0.824 5是全部数据的相关系数,取出来一部分数据,相关性可能变强,可能变弱,即取出的数据的相关系数不一定是0.824 5,D选项错误.故选C.5.(2022·全国高考甲卷(节选))甲、乙两城之间的长途客车均由A和B两家公司运营,为了解这两家公司长途客车的运行情况,随机调查了甲、乙两城之间的500个班次,得到下面列联表:准点班次数 未准点班次数A 240 20B 210 30能否有90%的把握认为甲、乙两城之间的长途客车是否准点与客车所属公司有关?附:χ2=,P(?2≥xα) 0.100 0.050 0.010xα 2.706 3.841 6.635[解析] 根据已知数据得到列联表如下:公司 准点班次数 未准点班次数 合计A 240 20 260B 210 30 240合计 450 50 500χ2==≈3.205>2.706.所以有90%的把握认为甲、乙两城之间的长途客车是否准点与客车所属公司有关.第一讲 随机抽样 用样本估计总体知 识 梳 理普查——对每一个调查对象都进行调查的方法.抽样调查——根据一定目的,从总体中 抽取一部分个体 进行调查,并以此为依据对总体的情况作出估计和推断的调查方法.调查对象的 全体 称为总体,组成总体的 每一个调查对象 称为个体.从总体中抽取的那部分个体称为样本, 样本中包含的个体数 称为样本容量,简称样本量.知识点一 简单随机抽样1.定义:一般地,设一个总体含有N(N为正整数)个个体,从中 逐个 抽取n(1≤n2.常用方法: 抽签法 和 随机数法 .注:本章所称的简单随机抽样指不放回简单随机抽样.知识点二 分层随机抽样1.定义:一般地,按一个或多个变量把总体划分成若干个子总体,每个个体属于且仅属于一个子总体,在每个子总体中独立地进行简单随机抽样,再把所有子总体中抽取的样本合在一起作为总样本,这样的抽样方法称为 分层随机抽样 ,每一个子总体称为 层 .在分层随机抽样中,如果每层样本量都与层的大小成比例,那么称这种样本量的分配方式为 比例分配 .2.分层随机抽样的应用范围:当总体是由差异明显的几个部分组成时,往往选用分层随机抽样.知识点三 总体取值规律的估计频率分布表与频率分布直方图频率分布表和频率分布直方图,是从各个小组数据在样本容量中所占比例大小的角度,来表示数据分布规律,从中可以看到整个样本数据的频率分布情况.绘制频率分布直方图的步骤为:1. 求极差 ——求一组数据中 最大值 与 最小值 的差.2. 决定组距与组数 ——决定组距与组数:组距与组数的确定没有固定的标准.若为整数,则= 组数 ;若不为整数,则+1= 组数 .3. 将数据分组 ——通常对组内数据取左闭右开区间,最后一组数据取闭区间.4. 列频率分布表 ——计算各小组的频率,绘制成表格.5. 画频率分布直方图 ——画图时,以横轴表示分组,纵轴(大长方形的高度)表示.知识点四 总体百分位数的估计一般地,一组数据的第p百分位数是这样一个值,它使得这组数据中至少有p%的数据小于或等于这个值,且至少有(100-p)%的数据大于或等于这个值.计算一组n个数据的第p百分位数的步骤:第1步,按从小到大的顺序排列原始数据;第2步,计算i=n×p%;第3步,若i不是整数,而大于i的比邻整数为j,则第p百分位数为第j项数据;若i是整数,则第p百分位数为第i项与第(i+1)项数据的平均值.知识点五 总体集中趋势与离散程度的估计1.众数:一组数据中出现次数最多的数.2.中位数:将数据从小到大排列,若有奇数个数,则最中间的数是中位数;若有偶数个数,则中间两数的平均数是中位数.3.平均数:= i ,反映了一组数据的平均水平.注:(1)平均数表示“平均水平”,中位数表示“中等水平”,众数表示“多数水平”,它们都有各自的使用范围,在实际应用中要注意选择.(2)一组数据的平均数、中位数都是唯一的.众数不唯一,也可以有多个.(3)众数一定是原数据中的数,平均数和中位数都不一定是原始数据中的数.4.设一组样本数据是x1,x2,…,xn,用表示其平均值,则(1)方差s2=(xi-)2=-2.(2)标准差s==.标准差刻画了数据的离散程度或波动幅度,标准差越大,数据的离散程度越大;标准差越小,数据的离散程度越小.归 纳 拓 展1.两种抽样方法的区别与联系类别 共同点 各自特点 联系 适用范围简单随机抽样 ①抽样过程中每个个体被抽到的可能性相等;②每次抽出个体后不再将它放回,即不放回抽样. 从总体中直接随机抽取,是一种等可能抽样. 最基本的抽样方法.常用方法抽签法和随机数法. 总体个数不多,且希望被抽取的个体带有随机性,无固定间隔.分层抽样 将总体分成互不交叉的层,分层进行抽取,是一种等比例抽样. 各层抽样时,采用简单随机抽样. 总体由差异明显的几部分组成.2.若一组数据xi(i=1,2,…,n)的平均数为,方差为s2,则数据组axi+b(i=1,2,…,n,a,b为常数)的平均数为a+b,方差为a2s2.3.频率分布直方图与众数、中位数与平均数的关系(1)最高的小长方形底边中点的横坐标即是众数.(2)中位数左边和右边的小长方形的面积和是相等的,均为.(3)平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘以小长方形底边中点的横坐标之和.双 基 自 测题组一 走出误区1.判断下列结论是否正确(请在括号中打“√”或“×”)(1)抽签法中,先抽的人抽中的可能性大.( × )(2)分层抽样中,每个个体被抽到的可能性与层数及分层有关.( × )(3)从频率分布直方图得不出原始的数据内容,把数据表示成直方图后,原有的具体数据信息就被抹掉了.( √ )(4)在频率分布直方图中,最高的小长方形底边中点的横坐标是众数.( √ )(5)1,2,2,3,5的80%分位数是3.( × )(6)对单峰频率直方图,和中位数相比,平均数总是在“长尾巴”那边.( √ )题组二 走进教材2.(必修2P184T3改编)高二年级有男生490人,女生510人,男生、女生进行分层,通过分层随机抽样的方法,得到男生、女生的平均身高分别为170.2 cm和160.8 cm.各层中按比例分配样本,总样本量为100,那么在男生中应抽取了 49 名,在这种情况下,估计高二年级全体学生的平均身高为 165.4 cm.[解析] 由=得x=49.由×170.2+×160.8≈165.4(cm).3.(必修2P197T1改编)从某小区抽取100户居民用户进行用电量调查,发现他们的用电量都在50~350 kW·h之间,进行适当分组后(每组为左闭右开的区间),画出频率分布直方图如图所示,则直方图中x= 0.004 4 ,在被调查的用户中,用电量的平均值为 186 kW·h,用电量落在区间[100,250)内的户数为 70 .[解析] (0.002 4+0.003 6+0.006 0+x+0.002 4+0.001 2)×50=1,计算得x=0.004 4.50×(75×0.002 4+125×0.003 6+175×0.006+225×0.004 4+275×0.002 4+325×0.001 2)=186.(0.003 6+0.006 0+0.004 4)×50×100=70.题组三 走向高考4.(2021·全国甲卷)为了解某地农村经济情况,对该地农户家庭年收入进行抽样调查,将农户家庭年收入的调查数据整理得到频率分布直方图:根据此频率分布直方图,下面结论中不正确的是( C )A.该地农户家庭年收入低于4.5万元的农户比率估计为6%B.该地农户家庭年收入不低于10.5万元的农户比率估计为10%C.估计该地农户家庭年收入的平均值不超过6.5万元D.估计该地有一半以上的农户,其家庭年收入介于4.5万元至8.5万元之间[解析] 因为频率直方图中的组距为1,所以各组的直方图的高度等于频率.样本频率直方图中的频率即可作为总体的相应比率的估计值.该地农户家庭年收入低于4.5万元的农户的比率估计值为0.02+0.04=0.06=6%,故A正确;该地农户家庭年收入不低于10.5万元的农户比率估计值为0.04+0.02×3=0.10=10%,故B正确;该地农户家庭年收入介于4.5万元至8.5万元之间的比例估计值为0.10+0.14+0.20×2=0.64=64%>50%,故D正确;该地农户家庭年收入的平均值的估计值为3×0.02+4×0.04+5×0.10+6×0.14+7×0.20+8×0.20+9×0.10+10×0.10+11×0.04+12×0.02+13×0.02+14×0.02=7.68(万元),超过6.5万元,故C错误.故选C.5.(多选题)(2021·新高考Ⅰ)有一组样本数据x1,x2,…,xn,由这组数据得到新样本数据y1,y2,…,yn,其中yi=xi+c(i=1,2,…,n),c为非零常数,则( CD )A.两组样本数据的样本平均数相同B.两组样本数据的样本中位数相同C.两组样本数据的样本标准差相同D.两组样本数据的样本极差相同[解析] 两组数据的平均数的差为c,故A错误;两组样本数据的样本中位数的差是c,故B错误;∵标准差D(yi)=D(xi+c)=D(xi),∴两组样本数据的样本标准差相同,故C正确;∵yi=xi+c(i=1,2,…,n),c为非零常数,x的极差为xmax-xmin,y的极差为(xmax+c)-(xmin+c)=xmax-xmin,∴两组样本数据的样本极差相同,故D正确.故选CD. 展开更多...... 收起↑ 资源列表 2025版高考数学一轮总复习知识梳理第9章统计成对数据的统计分析第1讲随机抽样用样本估计总体.doc 2025版高考数学一轮总复习知识梳理第9章统计成对数据的统计分析第2讲成对数据的统计分析.doc