资源简介
统计与统计案例
全国卷五年考情图解
高考命题规律把握
1.考查形式高考在本章一般命制1~2道小题或者1道解答题.分值占5~22分.2.考查内容统计与统计案例的命题以一道小题或一道大题的形式考查,难度中等.主要以生活中的实际问题为背景,考查随机抽样与样本估计总体、线性回归方程的求解与运用、独立性检验问题.
随机抽样
[考试要求]
1.理解随机抽样的必要性和重要性.
2.会用简单随机抽样方法从总体中抽取样本.
3.了解分层抽样和系统抽样方法.4.会用随机抽样的基本方法解决一些简单的实际问题.
1.简单随机抽样
(1)定义:设一个总体含有N个个体,从中逐个不放回地抽取n个个体作为样本(n≤N),如果每次抽取时总体内的各个个体被抽到的机会都相等,就把这种抽样方法叫做简单随机抽样.
(2)最常用的简单随机抽样的方法:抽签法和随机数法.
2.系统抽样的步骤
假设要从容量为N的总体中抽取容量为n的样本.
(1)先将总体的N个个体编号.
(2)确定分段间隔k,对编号进行分段,当是整数时,取k=,当不是整数时,随机从总体中剔除余数,再取k=(N′为从总体中剔除余数后的总数).
(3)在第1段用简单随机抽样确定第一个个体编号l(l≤k).
(4)按照一定的规则抽取样本,通常是将l加上间隔k得到第2个个体编号l+k,再加k得到第3个个体编号l+2k,依次进行下去,直到获取整个样本.
3.分层抽样
(1)定义:在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样方法叫做分层抽样.
(2)分层抽样的应用范围
当总体由差异明显的几个部分组成时,往往选用分层抽样.
1.不论哪种抽样方法,总体中的每一个个体入样的概率都是相同的.
2.系统抽样一般也称为等距抽样,入样个体的编号相差分段间隔k的整数倍.
3.分层抽样是按比例抽样,每一层入样的个体数为该层的个体数乘抽样比.
一、易错易误辨析(正确的打“√”,错误的打“×”)
(1)简单随机抽样中每个个体被抽到的机会不一样,与先后有关.( )
(2)系统抽样在起始部分抽样时采用简单随机抽样.( )
(3)要从1
002个学生中用系统抽样的方法选取一个容量为20的样本,需要剔除2个学生,这样对被剔除者不公平.( )
(4)分层抽样中,每个个体被抽到的可能性与层数及分层有关.( )
[答案] (1)× (2)√ (3)× (4)×
二、教材习题衍生
1.在“世界读书日”前夕,为了了解某地5
000名居民某天的阅读时间,从中抽取了200名居民的阅读时间进行统计分析.在这个问题中,5
000名居民的阅读时间的全体是( )
A.总体
B.个体
C.样本的容量
D.从总体中抽取的一个样本
A [由题目条件知,5
000名居民的阅读时间的全体是总体;其中1名居民的阅读时间是个体;从5
000名居民某天的阅读时间中抽取的200名居民的阅读时间是从总体中抽取的一个样本,样本容量是200.]
2.某学校为了了解高中一年级、二年级、三年级这三个年级之间的学生视力是否存在显著差异,拟从这三个年级中按人数比例抽取部分学生进行调查,则最合理的抽样方法是( )
A.抽签法
B.系统抽样法
C.分层抽样法
D.随机数法
C [总体由差异明显的几部分组成,故最合理的抽样方法是分层抽样法.故选C.]
3.某班共有52人,现根据学生的学号,用系统抽样的方法,抽取一个容量为4的样本,已知3号,29号,42号学生在样本中,那么样本中还有一个学生的学号是( )
A.10
B.11
C.12
D.16
D [由题意可知,分段间隔k==13,
∴样本中还有一个学生的学号为3+13=16,故选D.]
4.某工厂生产甲、乙、丙、丁四种不同型号的产品,产量分别为200,400,300,100件.为检验产品的质量,现用分层抽样的方法从以上所有的产品中抽取60件进行检验,则应从丙种型号的产品中抽取________件.
18 [∵==,
∴应从丙种型号的产品中抽取×300=18(件).]
考点一 简单随机抽样
1.简单随机抽样的四个特点
(1)被抽取样本的总体的个体数有限;
(2)逐个抽取;
(3)是不放回抽取;
(4)是等可能抽取.
2.简单随机抽样的适用范围
简单随机抽样常用抽签法(适用于总体中个体数较少的情况)、随机数法(适用于个体数较多的情况).
1.下列抽取样本的方式属于简单随机抽样的个数为( )
①从无限多个个体中抽取100个个体作为样本;
②盒子里共有80个零件,从中选出5个零件进行质量检验.在抽样操作时,从中任意拿出一个零件进行质量检验后再把它放回盒子里;
③从20件玩具中一次性抽取3件进行质量检验;
④某班有56名同学,指定个子最高的5名同学参加学校组织的篮球赛.
A.0
B.1
C.2
D.3
A [①不是简单随机抽样,因为被抽取样本的总体的个数是无限的,而不是有限的;②不是简单随机抽样,因为它是有放回抽样;③不是简单随机抽样,因为这是“一次性”抽取,而不是“逐个”抽取;④不是简单随机抽样,因为不是等可能抽样.故选A.]
2.总体由编号为01,02,03,…,49,50的50个个体组成,利用随机数表(以下选取了随机数表中的第1行和第2行)选取5个个体,选取方法是从随机数表第1行的第9列和第10列数字开始由左向右读取,则选出来的第4个个体的编号为( )
66
67
40
67
14
64
05
71
95
86
11
05
65
09
68
76
83
20
37
90
57
16
00
11
66
14
90
84
45
11
75
73
88
05
90
52
83
20
37
90
A.05
B.09
C.11
D.20
B [从随机数表第1行的第9列和第10列数字开始由左向右读取,符合条件的编号有14,05,11,05,09,因为05出现了两次,所以选出来的第4个个体的编号为09.故选B.]
3.利用简单随机抽样,从n个个体中抽取一个容量为10的样本.若第二次抽取时,余下的每个个体被抽到的概率为,则在整个抽样过程中,每个个体被抽到的概率为( )
A.
B.
C.
D.
C [根据题意得,=,解得n=28.故每个个体被抽到的概率为=.]
考点二 系统抽样
(1)系统抽样适用的条件是总体容量较大,样本容量也较大.
(2)使用系统抽样的方法抽取样本时,若总体容量不能被样本容量整除,则应先从总体中随机地剔除几个个体,再确定分段间隔.
(3)起始编号的确定应用简单随机抽样的方法,一旦起始编号确定,其他编号便随之确定.
[典例1] (1)(2019·全国卷Ⅰ)某学校为了解1
000名新生的身体素质,将这些学生编号为1,2,…,1
000,从这些新生中用系统抽样方法等距抽取100名学生进行体质测验,若46号学生被抽到,则下面4名学生中被抽到的是( )
A.8号学生
B.200号学生
C.616号学生
D.815号学生
(2)采用系统抽样方法从1
000人中抽取50人做问卷调查,将他们随机编号1,2,…,1
000.适当分组后在第一组采用简单随机抽样的方法抽到的号码为8.若抽到的50人中,编号落入区间[1,400]的人做问卷A,编号落入区间[401,750]的人做问卷B,其余的人做问卷C,则抽到的人中,做问卷C的人数为( )
A.12
B.13
C.14
D.15
(1)C (2)A [(1)∵从1
000名学生中抽取一个容量为100的样本,∴系统抽样的分段间隔为=10,∵46号学生被抽到,则根据系统抽样的性质可知,第一组随机抽取一个号码为6,以后每个号码都比前一个号码增加10,所有号码数是以6为首项,10为公差的等差数列,设其数列为{an},则an=6+10(n-1)=10n-4,当n=62时,a62=616,即在第62组抽到616.故选C.
(2)根据系统抽样的特点可知,所有做问卷调查的人的编号构成首项为8,公差d==20的等差数列{an},
∴通项公式an=8+20(n-1)=20n-12,令751≤20n-12≤1
000,得≤n≤,又∵n∈N
,∴39≤n≤50,
∴做问卷C的共有12人,故选A.]
点评:系统抽样又称作等间隔抽样,其样本编号成等差数列,因此有关抽样号码的问题常借助等差数列通项公式求解,如本例(2).
1.利用系统抽样法从编号分别为1,2,3,…,80的80件不同产品中抽取一个容量为16的样本,如果抽出的产品中有一个产品的编号为13,则抽到产品的最大编号为( )
A.73
B.78
C.77
D.76
B [样本的分段间隔为=5,所以13号在第三组,则最大的编号为13+(16-3)×5=78.]
2.某电视台为了解观众对某综艺节目的意见,准备从502名现场观众中抽取10%进行座谈,现用系统抽样的方法完成这一抽样,则在进行分组时,需剔除________个个体,抽样间隔为________.
2 10 [把502名观众平均分成50组,由于502除以50的商是10,余数是2,所以每组有10名观众,还剩2名观众,采用系统抽样的方法抽样时,应先用简单随机抽样的方法从502名观众中抽取2名观众,这2名观众不参加座谈;再将剩下的500名观众编号为1,2,3,…,500,并均匀分成50段,每段含=10(个)个体.所以需剔除2个个体,抽样间隔为10.]
考点三 分层抽样
分层抽样问题类型及解题思路
(1)求某层应抽个体数量:按该层所占总体的比例计算.
(2)已知某层个体数量,求总体容量或反之:根据分层抽样就是按比例抽样,列比例式进行计算.
(3)确定是否应用分层抽样:分层抽样适用于总体中个体差异较大的情况.
[典例2] (1)某公司有大量客户,且不同年龄段客户对其服务的评价有较大差异.为了解客户的评价,该公司准备进行抽样调查,可供选择的抽样方法有简单随机抽样、分层抽样和系统抽样,则最合适的抽样方法是________.
(2)已知某地区中小学生人数和近视情况分别如图甲和图乙所示.为了了解该地区中小学生的近视形成原因,用分层抽样的方法抽取2%的学生进行调查,则样本容量和抽取的高中生近视人数分别为( )
图甲 图乙
A.100,10
B.100,20
C.200,10
D.200,20
(1)分层抽样 (2)D [(1)因为不同年龄段的客户对公司的服务评价有较大差异,所以需按年龄进行分层抽样,才能了解到不同年龄段的客户对公司服务的客观评价.
(2)由题得样本容量为(3
500+2
000+4
500)×2%=10
000×2%=200,
抽取的高中生人数为2
000×2%=40人,则近视人数为40×0.5=20人,故选D.]
点评:进行分层抽样的相关计算时,常用到的两个关系
(1)抽样比==.
(2)总体中某两层的个体数之比等于样本中这两层抽取的个体数之比.
1.交通管理部门为了解机动车驾驶员(简称驾驶员)对某新法规的知晓情况,对甲、乙、丙、丁四个社区做分层抽样调查.假设四个社区驾驶员的总人数为N,其中甲社区有驾驶员96人.若在甲、乙、丙、丁四个社区抽取驾驶员的人数分别为12,21,25,43,则这四个社区驾驶员的总人数N为( )
A.101
B.808
C.1
212
D.2
012
B [甲社区每个个体被抽取的概率为=,样本容量为12+21+25+43=101,所以四个社区中驾驶员的总人数N==808.]
2.为了了解高一、高二、高三学生的身体状况,现用分层抽样的方法抽取一个容量为1
200的样本,三个年级学生人数之比依次为k∶5∶3,已知高一年级共抽取了240人,则高三年级抽取的人数为________.
360 [因为高一年级抽取学生的比例为=,所以=,解得k=2,故高三年级抽取的人数为1
200×=360.] 用样本估计总体
[考试要求]
1.了解分布的意义与作用,能根据频率分布表画频率分布直方图、频率折线图、茎叶图,体会它们各自的特点.
2.理解样本数据标准差的意义和作用,会计算数据标准差.
3.能从样本数据中提取基本的数字特征(如平均数、标准差),并做出合理的解释.
4.会用样本的频率分布估计总体分布,会用样本的基本数字特征估计总体的基本数字特征.理解用样本估计总体的思想,会用样本估计总体的思想解决一些简单的实际问题.
1.常用统计图表
(1)作频率分布直方图的步骤:
①求极差(即一组数据中最大值与最小值的差).
②决定组距与组数.
③将数据分组.
④列频率分布表.
⑤画频率分布直方图.
(2)频率分布直方图:反映样本频率分布的直方图(如图)
横轴表示样本数据,纵轴表示,每个小矩形的面积表示样本数据落在该组内的频率.各小矩形的面积和为1.
(3)频率分布折线图和总体密度曲线
①频率分布折线图:将频率分布直方图中各相邻的矩形的上底边的中点顺次连接起来,就得到频率分布折线图.
②总体密度曲线:随着样本容量的增加,作图时所分的组数增加,组距减小,相应的频率折线图会越来越接近于一条光滑曲线,统计中称这条光滑曲线为总体密度曲线.
(4)茎叶图的画法步骤:
第一步:将每个数据分为茎(高位)和叶(低位)两部分;
第二步:将最小茎与最大茎之间的数按大小次序排成一列;
第三步:将各个数据的叶依次写在其茎的右(左)侧.
2.样本的数字特征
(1)众数:一组数据中出现次数最多的那个数据,叫做这组数据的众数.
(2)中位数:把n个数据按大小顺序排列,处于最中间位置的一个数据(或最中间两个数据的平均数)叫做这组数据的中位数.
(3)平均数:把=称为x1,x2,…,xn这n个数的平均数.
(4)标准差与方差:设一组数据x1,x2,x3,…,xn的平均数为,则这组数据的标准差和方差分别是
s=;
s2=[(x1-)2+(x2-)2+…+(xn-)2].
1.频率分布直方图中的常见结论
(1)众数的估计值为最高矩形的中点对应的横坐标.
(2)平均数的估计值等于频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标之和.
(3)中位数的估计值的左边和右边的小矩形的面积和是相等的.
2.平均数、方差的公式推广
(1)若数据x1,x2,…,xn的平均数为,那么mx1+a,mx2+a,mx3+a,…,mxn+a的平均数是m+a.
(2)数据x1,x2,…,xn的方差为s2.
①数据x1+a,x2+a,…,xn+a的方差也为s2;
②数据ax1,ax2,…,axn的方差为a2s2.
一、易错易误辨析(正确的打“√”,错误的打“×”)
(1)平均数、众数与中位数从不同的角度描述了一组数据的集中趋势.( )
(2)一组数据的方差越大,说明这组数据越集中.
( )
(3)频率分布直方图中,小矩形的面积越大,表示样本数据落在该区间的频率越高.( )
(4)茎叶图一般左侧的叶按从大到小的顺序写,右侧的叶按从小到大的顺序写,相同的数据可以只记一次.( )
[答案] (1)√ (2)× (3)√ (4)×
二、教材习题衍生
1.一个容量为32的样本,已知某组样本的频率为0.25,则该组样本的频数为( )
A.4
B.8
C.12
D.16
B [设频数为n,则=0.25,
∴n=32×0.25=8.]
2.若某校高一年级8个班参加合唱比赛的得分分别为87,89,90,91,92,93,94,96,则这组数据的中位数和平均数分别是( )
A.91.5和91.5
B.91.5和92
C.91和91.5
D.92和92
A [∵这组数据为87,89,90,91,92,93,94,96,∴中位数是=91.5,
平均数==91.5.]
3.如图是100位居民月均用水量的频率分布直方图,则月均用水量为[2,2.5)范围内的居民有________人.
25 [0.5×0.5×100=25.]
考点一 样本的数字特征的计算与应用
利用样本的数字特征解决决策问题的依据
(1)平均数反映了数据取值的平均水平;标准差、方差描述了一组数据围绕平均数波动的大小.标准差、方差越大,数据的离散程度越大,越不稳定;标准差、方差越小,数据的离散程度越小,越稳定.
(2)方差的简化计算公式:s2=[(x+x+…+x)-n2],或写成s2=(x+x+…+x)-2,即方差等于原数据平方的平均数减去平均数的平方.
1.(2020·济南模拟)已知某7个数的平均数为4,方差为2,现加入一个新数据4,此时这8个数的平均数为,方差为s2,则( )
A.=4,s2<2
B.=4,s2>2
C.>4,s2<2
D.>4,s2>2
A [∵某7个数的平均数为4,∴这7个数的和为4×7=28,∵加入一个新数据4,∴==4.又∵这7个数的方差为2,且加入一个新数据4,∴这8个数的方差s2==<2,故选A.]
2.甲、乙两人在一次射击比赛中各射靶5次,两人成绩的条形统计图如图所示,则( )
甲 乙
A.甲的成绩的平均数小于乙的成绩的平均数
B.甲的成绩的中位数等于乙的成绩的中位数
C.甲的成绩的方差小于乙的成绩的方差
D.甲的成绩的极差小于乙的成绩的极差
C [根据条形统计图可知甲的中靶情况为4环、5环、6环、7环、8环;乙的中靶情况为5环、5环、5环、6环、9环.甲=x
(4+5+6+7+8)=6,乙=x(5×3+6+9)=6,甲的成绩的方差为=2,乙的成绩的方差为=2.4;甲的成绩的极差为4环,乙的成绩的极差为4环;甲的成绩的中位数为6环,乙的成绩的中位数为5环,综上可知C正确,故选C.]
3.某人5次上班途中所花的时间(单位:分钟)分别为x,y,10,11,9.已知这组数据的平均数为10,方差为2,则|x-y|的值为( )
A.1
B.2
C.3
D.4
D [由题意可知
∴
∴(x+y)2=x2+y2+2xy,即208+2xy=400,∴xy=96.
∴(x-y)2=x2+y2-2xy=16,
∴|x-y|=4,故选D.]
4.(2020·全国卷Ⅰ)某厂接受了一项加工业务,加工出来的产品(单位:件)按标准分为A,B,C,D四个等级.加工业务约定:对于A级品、B级品、C级品,厂家每件分别收取加工费90元,50元,20元;对于D级品,厂家每件要赔偿原料损失费50元.该厂有甲、乙两个分厂可承接加工业务.甲分厂加工成本费为25元/件,乙分厂加工成本费为20元/件.厂家为决定由哪个分厂承接加工业务,在两个分厂各试加工了100件这种产品,并统计了这些产品的等级,整理如下:
甲分厂产品等级的频数分布表
等级
A
B
C
D
频数
40
20
20
20
乙分厂产品等级的频数分布表
等级
A
B
C
D
频数
28
17
34
21
(1)分别估计甲、乙两分厂加工出来的一件产品为A级品的概率;
(2)分别求甲、乙两分厂加工出来的100件产品的平均利润,以平均利润为依据,厂家应选哪个分厂承接加工业务?
[解] (1)由试加工产品等级的频数分布表知,
甲分厂加工出来的一件产品为A级品的概率的估计值为=0.4;
乙分厂加工出来的一件产品为A级品的概率的估计值为=0.28.
(2)由数据知甲分厂加工出来的100件产品利润的频数分布表为
利润
65
25
-5
-75
频数
40
20
20
20
因此甲分厂加工出来的100件产品的平均利润为=15.
由数据知乙分厂加工出来的100件产品利润的频数分布表为
利润
70
30
0
-70
频数
28
17
34
21
因此乙分厂加工出来的100件产品的平均利润为
=10.
比较甲、乙两分厂加工的产品的平均利润,应选甲分厂承接加工业务.
考点二 茎叶图
1.茎叶图的三个关注点
(1)“叶”的位置只有一个数字,而“茎”的位置的数字位数一般不需要统一.
(2)重复出现的数据要重复记录,不能遗漏.
(3)给定两组数据的茎叶图,估计数字特征,茎上的数字由小到大排列,一般“重心”下移者平均数较大,数据集中者方差较小.注意“叶”中数不一定按大小次数排列.
2.利用茎叶图解题的关键是抓住“叶”的分布特征,准确从中提炼信息.
3.以茎叶图为载体,一般考查中位数、平均数、方差.
1.(2020·平顶山模拟)中国诗词大会的播出引发了全民的读书热,某小学语文老师在班里开展了一次诗词默写比赛,班里40名学生得分数据的茎叶图如图所示.若规定得分不小于85分的学生得到“诗词达人”的称号,小于85分且不小于70分的学生得到“诗词能手”的称号,其他学生得到“诗词爱好者”的称号,根据该次比赛的成绩,按照称号的不同进行分层抽样抽选10名学生,则抽选的学生中获得“诗词达人”称号的人数为( )
A.2
B.4
C.5
D.6
A [由茎叶图可得,获“诗词达人”称号的有8人,据该次比赛的成绩按照称号的不同进行分层抽样抽选10名学生,则抽选的学生中获得“诗词达人”称号的人数为8×=2(人).]
2.(2020·长沙质检)为比较甲乙两地某月11时的气温情况,随机选取该月5天11时的气温数据(单位:℃)制成如图所示的茎叶图,已知甲地该月11时的平均气温比乙地该月11时的平均气温高1
℃,则甲地该月11时的平均气温的标准差为( )
A.2
B.
C.10
D.
B [甲地该月5天11时的气温数据(单位:℃)为28,29,30,30+m,32;
乙地该月5天11时的气温数据(单位:℃)为26,28,29,31,31,
则乙地该月11时的平均气温为(26+28+29+31+31)÷5=29(℃),
所以甲地该月11时的平均气温为30
℃,
故(28+29+30+30+m+32)÷5=30,解得m=1.
则甲地该月11时的平均气温的标准差为
=.]
3.空气质量指数
(Air
Quality
Index,简称AQI)是定量描述空气质量状况的指数,空气质量按照AQI大小分为六级,0~50为优;51~100为良;101~150为轻度污染;151~200为中度污染;201~300为重度污染;大于300为严重污染.从某地一环保人士某年的AQI记录数据中,随机抽取10个,用茎叶图记录如图.根据该统计数据,估计此地该年AQI大于100的天数约为________(该年为365天).
146 [该样本中AQI大于100的频数是4,频率为,
由此估计该地全年AQI大于100的频率为,
估计此地该年AQI大于100的天数约为365×=146.]
考点三 频率分布直方图
频率、频数、样本容量的计算方法
(1)×组距=频率.
(2)=频率,=样本容量,样本容量×频率=频数.
[典例] (1)为了了解某校九年级1
600名学生的体能情况,随机抽查了部分学生,测试1分钟仰卧起坐的成绩(次数),将数据整理后绘制成如图所示的频率分布直方图,根据统计图的数据,下列结论错误的是( )
A.该校九年级学生1分钟仰卧起坐的次数的中位数为26.25
B.该校九年级学生1分钟仰卧起坐的次数的众数为27.5
C.该校九年级学生1分钟仰卧起坐的次数超过30的人数约为320
D.该校九年级学生1分钟仰卧起坐的次数少于20的人数约为32
(2)(2019·全国卷Ⅲ)为了解甲、乙两种离子在小鼠体内的残留程度,进行如下试验:将200只小鼠随机分成A,B两组,每组100只,其中A组小鼠给服甲离子溶液,B组小鼠给服乙离子溶液,每只小鼠给服的溶液体积相同、摩尔浓度相同.经过一段时间后用某种科学方法测算出残留在小鼠体内离子的百分比,根据试验数据分别得到如下直方图:
甲离子残留百分比直方图
乙离子残留百分比直方图
记C为事件:“乙离子残留在体内的百分比不低于5.5”,根据直方图得到P(C)的估计值为0.70.
①求乙离子残留百分比直方图中a,b的值;
②分别估计甲、乙离子残留百分比的平均值(同一组中的数据用该组区间的中点值为代表).
(1)D [由频率分布直方图可知,中位数是频率分布直方图面积等分线对应的数值,是26.25;众数是最高矩形的中间值27.5;1分钟仰卧起坐的次数超过30的频率为0.2,所以估计1分钟仰卧起坐的次数超过30的人数为320;1分钟仰卧起坐的次数少于20的频率为0.1,所以估计1分钟仰卧起坐的次数少于20的人数为160.故选D.]
(2)[解] ①由已知得0.70=a+0.20+0.15,故
a=0.35.
b=1-0.05-0.15-0.70=0.10.
②甲离子残留百分比的平均值的估计值为
2×0.15+3×0.20+4×0.30+5×0.20+6×0.10+7×0.05=4.05.
乙离子残留百分比的平均值的估计值为
3×0.05+4×0.10+5×0.15+6×0.35+7×0.20+8×0.15=6.00.
点评:(1)频率分布直方图的纵坐标是,而不是频率,切莫与条形图混淆.
(2)频率分布直方图考查时,重视求平均数、中位数、方差,计算要准确,解决突破口是各个矩形面积之和为1.
1.为了了解某校高三学生的视力情况,随机地抽查了该校100名高三学生的视力情况,得到频率分布直方图如图,由于不慎将部分数据丢失,但知道后5组频数和为62,设视力在4.6到4.8之间的学生数为a,最大频率为0.32,则a的值为( )
A.64
B.54
C.48
D.27
B [前两组中的频数为100×(0.05+0.11)=16.因为后五组频数和为62,所以前三组为38.所以第三组频数为22.又最大频率为0.32,对应的最大频数为0.32×100=32.所以a=22+32=54.]
2.(2020·石家庄模拟)“一带一路”是“丝绸之路经济带”和“21世纪海上丝绸之路”的简称.某市为了了解人们对“一带一路”的认知程度,对不同年龄和不同职业的人举办了一次“一带一路”知识竞赛,满分为100分(90分及以上为认知程度高).现从参赛者中抽取了x人,按年龄分成5组,第一组:[20,25),第二组:[25,30),第三组:[30,35),第四组:[35,40),第五组:[40,45],得到如图所示的频率分布直方图,已知第一组有6人.
(1)求x;
(2)求抽取的x人的年龄的中位数(结果保留整数);
(3)从该市大学生、军人、医务人员、工人、个体户五种人中用分层抽样的方法依次抽取6人,42人,36人,24人,12人,分别记为1~5组,从这5个按年龄分的组和5个按职业分的组中每组各选派1人参加知识竞赛,分别代表相应组的成绩,年龄组中1~5组的成绩分别为93,96,97,94,90,职业组中1~5组的成绩分别为93,98,94,95,90.
(ⅰ)分别求5个年龄组和5个职业组成绩的平均数和方差;
(ⅱ)以上述数据为依据,评价5个年龄组和5个职业组对“一带一路”的认知程度,并谈谈你的感想.
[解] (1)根据频率分布直方图得第一组的频率为0.01×5=0.05,
∴=0.05,∴x=120.
(2)设中位数为a,则0.01×5+0.07×5+(a-30)×0.06=0.5,
∴a=≈32,则中位数为32.
(3)(ⅰ)5个年龄组成绩的平均数为1=×(93+96+97+94+90)=94,方差为s=×[(-1)2+22+32+02+(-4)2]=6.
5个职业组成绩的平均数为2=×(93+98+94+95+90)=94,方差为s=×[(-1)2+42+02+12+(-4)2]=6.8.
(ⅱ)从平均数来看两组的认知程度相同,从方差来看年龄组的认知程度更稳定(感想合理即可). 变量间的相关关系、统计案例
[考试要求]
1.会做两个有关联变量的数据的散点图,并利用散点图认识变量间的相关关系.
2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程(线性回归系数公式不要求记忆).
3.了解回归分析的基本思想、方法及其简单应用.4.了解独立性检验(只要求2×2列联表)的思想、方法及其初步应用.
1.两个变量的线性相关
(1)正相关
在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关.
(2)负相关
在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.
(3)线性相关关系、回归直线
如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.
2.回归方程
(1)最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法.
(2)回归方程:方程=x+是两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),…,(xn,yn)的回归方程,其中,是待定参数.
3.回归分析
(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法.
(2)样本点的中心
对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn),其中(,)称为样本点的中心,即回归直线经过点(,).
(3)相关系数
当r>0时,表明两个变量正相关;
当r<0时,表明两个变量负相关.
r的绝对值越接近于1,表明两个变量的线性相关性越强.r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r|大于0.75时,认为两个变量有很强的线性相关性.
4.独立性检验
(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量.
(2)列联表:列出两个分类变量的频数表,称为列联表.假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为
变量
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计
a+c
b+d
a+b+c+d
构造一个随机变量K2=,其中n=a+b+c+d为样本容量.
1.回归直线必过样本点的中心(,).
2.当两个变量的相关系数|r|=1时,两个变量呈函数关系.
一、易错易误辨析(正确的打“√”,错误的打“×”)
(1)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系.( )
(2)通过回归直线方程=x+可以估计预报变量的取值和变化趋势.( )
(3)因为由任何一组观测值都可以求得一个线性回归方程,所以没有必要进行相关性检验.( )
(4)事件X,Y关系越密切,则由观测数据计算得到的K2的观测值越大.( )
[答案] (1)√ (2)√ (3)× (4)√
二、教材习题衍生
1.在两个变量y与x的回归模型中,分别选择了4个不同模型,它们的相关指数R2如下,其中拟合效果最好的是( )
A.模型1的相关指数R2为0.98
B.模型2的相关指数R2为0.80
C.模型3的相关指数R2为0.50
D.模型4的相关指数R2为0.25
A [R2越接近于1,其拟合效果越好.]
2.下面是2×2列联表:
变量
y1
y2
总计
x1
a
21
73
x2
22
25
47
总计
b
46
120
则表中a,b的值分别为( )
A.94,72
B.52,50
C.52,74
D.74,52
C [∵a+21=73,∴a=52.又a+22=b,∴b=74.]
3.为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:
性别
理科
文科
男
13
10
女
7
20
已知P(K2≥3.841)≈0.05,P(K2≥5.024)≈0.025.
根据表中数据,得到K2的观测值k=≈4.844.则认为选修文科与性别有关系出错的可能性约为________.
5% [K2的观测值k≈4.844,这表明小概率事件发生.根据独立性检验,应该断定“是否选修文科与性别之间有关系”成立,并且这种判断出错的可能性约为5%.]
4.某同学家里开了一个小卖部,为了研究气温对某种冷饮销售量的影响,他收集了一段时间内这种冷饮每天的销售量y(杯)与当天最高气温x(℃)的有关数据,通过描绘散点图,发现y和x呈线性相关关系,并求得其回归方程=2x+60.如果气象预报某天的最高气温为34
℃,则可以预测该天这种饮料的销售量为__________杯.
128 [由题意x=34时,该小卖部大约能卖出冷饮的杯数=2×34+60=128杯.]
考点一 相关关系的判断
判定两个变量正、负相关的方法
(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.
(2)相关系数:r>0时,正相关;r<0时,负相关.
(3)线性回归直线方程中:>0时,正相关;<0时,负相关.
1.观察下列各图形,其中两个变量x,y具有相关关系的图是( )
① ②
③ ④
A.①②
B.①④
C.③④
D.②③
C [由散点图知③中的点都分布在一条直线附近.④中的点都分布在一条曲线附近,所以③④中的两个变量具有相关关系.]
2.已知变量x和y近似满足关系式y=-0.1x+1,变量y与z正相关.下列结论中正确的是( )
A.x与y正相关,x与z负相关
B.x与y正相关,x与z正相关
C.x与y负相关,x与z负相关
D.x与y负相关,x与z正相关
C [由y=-0.1x+1,知x与y负相关,即y随x的增大而减小,又y与z正相关,所以z随y的增大而增大,减小而减小,所以z随x的增大而减小,x与z负相关.]
3.对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是( )
相关系数为r1 相关系数为r2
相关系数为r3 相关系数为r4
A.r2<r4<0<r3<r1
B.r4<r2<0<r1<r3
C.r4<r2<0<r3<r1
D.r2<r4<0<r1<r3
A [由相关系数的定义以及散点图可知r2<r4<0<r3<r1.]
4.x和y的散点图如图所示,则下列说法中所有正确命题的序号为________.
①x,y是负相关关系;
②在该相关关系中,若用y=c1ec2x拟合时的相关系数为r1,用=x+拟合时的相关系数为r2,则|r1|>|r2|;
③x,y之间不能建立线性回归方程.
①② [在散点图中,点散布在从左上角到右下角的区域,因此x,y是负相关关系,故①正确;由散点图知用y=c1ec2x拟合比用=x+拟合效果要好,则|r1|>|r2|,故②正确;x,y之间可以建立线性回归方程,但拟合效果不好,故③错误.]
考点二 回归分析
用最小二乘法求线性回归方程的步骤
线性回归分析
[典例1-1] (2020·贵阳模拟)某地随着经济的发展,居民收入逐年增长,下表1是该地一建设银行连续五年的储蓄存款(年底余额),
年份x
2013
2014
2015
2016
2017
储蓄存款y/千亿元
5
6
7
8
10
表1
为了研究计算的方便,工作人员将上表的数据进行了处理,t=x-2
012,z=y-5得到下表2:
时间代号t
1
2
3
4
5
z
0
1
2
3
5
表2
(1)求z关于t的线性回归方程;
(2)通过(1)中的方程,求出y关于x的回归方程;
(3)用所求回归方程预测到2022年年底,该地储蓄存款额可达多少?
(附:对于线性回归方程=x+,其中=,=-)
[解] (1)=3,=2.2,tizi=45,t=55,
==1.2,
=-=2.2-3×1.2=-1.4,
所以=1.2t-1.4.
(2)将t=x-2
012,z=y-5,代入=1.2t-1.4,
得y-5=1.2(x-2
012)-1.4,即=1.2x-2
410.8.
(3)因为=1.2×2
022-2
410.8=15.6,所以预测到2022年年底,该地储蓄存款额可达15.6千亿元.
点评:在线性回归分析中,只需利用公式求出回归直线方程并利用其进行预测即可(注意回归直线过样本点的中心(,)),利用回归方程进行预测,常把线性回归方程看作一次函数,求函数值.利用回归直线方程求出的是估算值,非准确值.
非线性回归方程
[典例1-2] 某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响.对近8年的年宣传费xi和年销售量yi(i=1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.
(xi-)2
(wi-)2
(xi-)(yi-)
(wi-)·(yi-)
46.6
563
6.8
289.8
1.6
1
469
108.8
表中wi=,w]=wi.
(1)根据散点图判断,y=a+bx与y=c+d哪一个适宜作为年销售量y关于年宣传费x的回归方程类型;(给出判断即可,不必说明理由)
(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程;
(3)已知这种产品的年利润z与x,y的关系为z=0.2y-x.根据(2)的结果回答下列问题:
①年宣传费x=49时,年销售量及年利润的预报值是多少?
②年宣传费x为何值时,年利润的预报值最大?
附:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其回归直线=+u的斜率和截距的最小二乘估计分别为=,=-.
[解] (1)由散点图可以判断,y=c+d适宜作为年销售量y关于年宣传费x的回归方程类型.
(2)令w=,先建立y关于w的线性回归方程.
由于===68,
=-
=563-68×6.8=100.6,
所以y关于w的线性回归方程为=100.6+68w,
因此y关于x的回归方程为=100.6+68.
(3)①由(2)知,当x=49时,
年销售量y的预报值=100.6+68=576.6,
年利润z的预报值=576.6×0.2-49=66.32.
②根据(2)的结果知,年利润z的预报值
=0.2(100.6+68)-x=-x+13.6+20.12.
所以当==6.8,即x=46.24时,取得最大值.
故年宣传费为46.24千元时,年利润的预报值最大.
点评:对于非线性回归分析问题,应先进行变量代换,求出代换后的回归直线方程,再求非线性回归方程.
1.(2020·全国卷Ⅱ)某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加,为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据(xi,yi)(i=1,2,…,20),其中xi和yi分别表示第i个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得xi=60,yi=1
200,
(xi-)2=80,
(yi-)2=9
000,
(xi-)(yi-)=800.
(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘以地块数);
(2)求样本(xi,yi)(i=1,2,…,20)的相关系数(精确到0.01);
(3)根据现有统计资料,各地块间植物覆盖面积差异很大,为提高样本的代表性以获得该地区这种野生动物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由.
附:相关系数r=,≈1.414.
[解] (1)由已知得样本平均数=i=60,从而该地区这种野生动物数量的估计值为60×200=12
000.
(2)样本(xi,yi)(i=1,2,…,20)的相关系数
r===≈0.94.
(3)分层抽样:根据植物覆盖面积的大小对地块分层,再对200个地块进行分层抽样.
理由如下:由(2)知各样区的这种野生动物数量与植物覆盖面积有很强的正相关.由于各地块间植物覆盖面积差异很大,从而各地块间这种野生动物数量差异也很大,采用分层抽样的方法较好地保持了样本结构与总体结构的一致性,提高了样本的代表性,从而可以获得该地区这种野生动物数量更准确的估计.
2.十九大报告指出,必须树立“绿水青山就是金山银山”的生态文明发展理念,这一理念将进一步推动新能源汽车产业的迅速发展.以下是近几年我国新能源汽车的年销量数据及其散点图(如图所示):
年份
2013
2014
2015
2016
2017
年份代码x
1
2
3
4
5
新能源汽车的年销量y/万辆
1.5
5.9
17.7
32.9
55.6
(1)请根据散点图判断=x+与=x2+中哪个更适宜作为新能源汽车年销量y关于年份代码x的回归方程模型;(给出判断即可,不必说明理由)
(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程,并预测2022年我国新能源汽车的年销量.(精确到0.1)
=,=-.
附:令wi=x.
(xi-)2
(wi-)2
(xi-)·(yi-)
(wi-)·(yi-)
22.72
10
374
135.2
851.2
[解] (1)根据散点图得,=x2+更适宜作为年销量y关于年份代码x的回归方程.
(2)依题意得,==11,==≈2.28,
则=-=22.72-2.28×11=-2.36,
∴=2.28x2-2.36.
令x=10,则=2.28×100-2.36=225.64≈225.6,
故预测2022年我国新能源汽车的年销量为225.6万辆.
考点三 独立性检验
1.比较几个分类变量有关联的可能性大小的方法
(1)通过计算K2的大小判断:K2越大,两变量有关联的可能性越大.
(2)通过计算|ad-bc|的大小判断:|ad-bc|越大,两变量有关联的可能性越大.
2.独立性检验的一般步骤
(1)根据样本数据制成2×2列联表.
(2)根据公式K2=计算K2的观测值k.
(3)比较观测值k与临界值的大小关系,作统计推断.
[典例2] (2020·全国卷Ⅲ)某学生兴趣小组随机调查了某市100天中每天的空气质量等级和当天到某公园锻炼的人次,整理数据得到下表(单位:天):
空气质量等级
锻炼人次
[0,200]
(200,400]
(400,600]
1(优)
2
16
25
2(良)
5
10
12
3(轻度污染)
6
7
8
4(中度污染)
7
2
0
(1)分别估计该市一天的空气质量等级为1,2,3,4的概率;
(2)求一天中到该公园锻炼的平均人次的估计值(同一组中的数据用该组区间的中点值为代表);
(3)若某天的空气质量等级为1或2,则称这天“空气质量好”;若某天的空气质量等级为3或4,则称这天“空气质量不好”.根据所给数据,完成下面的2×2列联表,并根据列联表,判断是否有95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关?
项目
人次≤400
人次>400
空气质量好
空气质量不好
附:K2=,
P(K2≥k)
0.050
0.010
0.001
k
3.841
6.635
10.828
.
[解] (1)由所给数据,该市一天的空气质量等级为1,2,3,4的概率的估计值如表:
空气质量等级
1
2
3
4
概率的估计值
0.43
0.27
0.21
0.09
(2)一天中到该公园锻炼的平均人次的估计值为
×(100×20+300×35+500×45)=350.
(3)根据所给数据,可得2×2列联表:
项目
人次≤400
人次>400
空气质量好
33
37
空气质量不好
22
8
根据列联表得
K2=≈5.820.
由于5.820>3.841,故有95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关.
点评:独立性检验是判断两个分类变量之间是否有关系的一种方法.在判断两个分类变量之间是否有关系时,作出等高条形图只能近似地判断两个分类变量是否有关系,而独立性检验可以精确地得到可靠的结论.
1.党的十九大报告明确提出:在共享经济等领域培育增长点、形成新动能.共享经济是公众将闲置资源通过社会化平台与他人共享,进而获得收入的经济现象.为考察共享经济对企业经济活跃度的影响,在四个不同的企业各取两个部门进行共享经济对比试验,根据四个企业得到的试验数据画出如下四个等高条形图,最能体现共享经济对该部门的发展有显著效果的图形是( )
A B
C D
D [根据四个选项中的等高条形图可知,选项D中共享与不共享的企业经济活跃度的差异较大,且最能体现共享经济对该部门的发展有显著效果,故选D.]
2.(2020·新高考全国卷Ⅰ)为加强环境保护,治理空气污染,环境监测部门对某市空气质量进行调研,随机抽查了100天空气中的PM2.5和SO2浓度(单位:μg/m3),得下表:
PM2.5
SO2
[0,50]
(50,150]
(150,475]
[0,35]
32
18
4
(35,75]
6
8
12
(75,115]
3
7
10
(1)估计事件“该市一天空气中PM2.5浓度不超过75,且SO2浓度不超过150”的概率;
(2)根据所给数据,完成下面的2×2列联表:
PM2.5
SO2
[0,150]
(150,475]
[0,75]
(75,115]
(3)根据(2)中的列联表,判断是否有99%的把握认为该市一天空气中PM2.5浓度与SO2浓度有关?
附:K2=,
P(K2≥k)
0.050
0.010
0.001
k
3.841
6.635
10.828
.
[解] (1)根据抽查数据,该市100天空气中的PM2.5浓度不超过75,且SO2浓度不超过150的天数为32+18+6+8=64,因此,该市一天空气中PM2.5浓度不超过75,且SO2浓度不超过150的概率的估计值为=0.64.
(2)根据抽查数据,可得2×2列联表:
SO2PM2.5
[0,150]
(150,475]
[0,75]
64
16
(75,115]
10
10
(3)根据(2)的列联表得
K2=≈7.484.
由于7.484>6.635,故有99%的把握认为该市一天空气中PM2.5浓度与SO2浓度有关.
展开更多......
收起↑