资源简介 9.2 用样本估计总体一、频率分布直方图制作频率分布直方图的步骤(1)求极差;(2)决定组距与组数;(3)将数据分组;(4)列频率分布表;(5)画频率分布直方图.注意点:(1)组数太多或太少,都会影响我们了解数据的分布情况.组距与组数的确定没有固定的标准,常常需要一个尝试和选择的过程.决定组距与组数:当样本容量不超过100时,常分成5~12组,为了方便起见,一般取等长组距,并且组距应力求“取整”.(2)分点的确定:若数据为整数,则分点数据减去0.5;若数据是小数点后有一位数字的数,则分点数据减去0.05,以此类推.分组时,通常对组内数值所在的区间取左闭右开区间,最后一组取闭区间.二、频率分布直方图的应用(1)频率分布直方图的性质①因为小矩形的面积=组距×=频率,所以各小矩形的面积表示相应各组的频率.这样,频率分布直方图就以面积的形式反映了数据落在各个小组内的频率大小.②在频率分布直方图中,各小矩形的面积之和等于1.③=样本容量.(2)频率分布直方图反映了样本在各个范围内取值的可能性,由抽样的代表性利用样本在某一范围内的频率,可近似地估计总体在这一范围内的可能性.三、几种不同的统计图(1)不同的统计图在表示数据上有不同的特点.如:扇形图主要用于直观描述各类数据占总数的比例,条形图和直方图主要用于直观描述不同类别或分组数据的频数和频率,折线图主要用于描述数据随时间的变化趋势.(2)不同的统计图适用的数据类型也不同.例如,条形图适用于描述离散型的数据,直方图适用于描述连续型数据等.四、利用各种统计图表对数据进行分析对于涉及扇形图、条形图的性质等问题,要充分考虑到图形所提供的各类信息,从中提取信息进行计算.(1)条形图是用一个单位长度表示一定的数量或频率,根据数量的多少或频率的大小画成长短不同的矩形条,条形图能清楚地表示出每个项目的具体数目或频率.(2)扇形图是用整个圆面积表示总数(100%),用圆内的扇形面积表示各个部分所占总数的百分数.(3)在画折线图时,要注意明确横轴、纵轴的实际含义.五、百分位数的定义1.计算一组n个数据的第p百分位数的步骤:第1步,按从小到大排列原始数据.第2步,计算i=n×p%.第3步,若i不是整数,而大于i的比邻整数为j,则第p百分位数为第j项数据;若i是整数,则第p百分位数为第i项与第(i+1)项数据的平均数.2.一般地,一组数据的第p百分位数是这样一个值,它使得这组数据中至少有p%的数据小于或等于这个值,且至少有(100-p)%的数据大于或等于这个值.注意点:(1)中位数相当于是第50百分位数.除了中位数外,常用的分位数还有第25百分位数,第75百分位数.(2)第25,50,75百分位数,这三个分位数把一组由小到大排列后的数据分成四等份,因此称为四分位数.(3)第25百分位数也称为第一四分位数或下四分位数等,第75百分位数也称为第三四分位数或上四分位数等.六、由样本数据求百分位数计算一组n个数据的第p百分位数的一般步骤第1步:按照从小到大排列原始数据.第2步:计算i=n×p%.第3步:若i不是整数,大于i的比邻整数为j,则第p百分位数为第j项数据;若i是整数,则第p百分位数为第i项和第(i+1)项数据的平均数.七、由频数(频率)分布表求百分位数由频率分布直方图求百分位数的方法(1)要注意频率分布直方图中小矩形的面积,就是数据落在该组的频率.(2)一般采用方程的思想,设出第p百分位数,根据其意义列出方程并求解即可.八、众数、中位数、平均数1.众数:一组数据中出现次数最多的数.2.中位数:把一组数据按从小到大(或从大到小)的顺序排列,处在中间位置的数(或中间两个数的平均数)叫做这组数据的中位数.3.平均数:如果有n个数x1,x2,…,xn,那么=(x1+x2+…+xn)叫做这n个数的平均数.九、总体集中趋势的估计众数、中位数、平均数的意义(1)样本的众数、中位数和平均数常用来表示样本数据的“中心值”,其中众数和中位数容易计算,不受少数几个极端值的影响,但只能表达样本数据中的少量信息,平均数代表了数据更多的信息,但受样本中每个数据的影响,越极端的数据对平均数的影响也越大.(2)当一组数据中有不少数据重复出现时,其众数往往更能反映问题,当一组数据中个别数据较大时,可用中位数描述其集中趋势.十、利用频率分布直方图估计总体的集中趋势利用频率分布直方图求众数、中位数以及平均数的方法(1)众数即为出现次数最多的数,所以它的频率最大,在最高的小矩形中.中位数即为从小到大中间的数(或中间两数的平均数).平均数为每个小矩形底边中点的横坐标与小矩形面积乘积之和.(2)用频率分布直方图求得的众数、中位数不一定是样本中的具体数.十一、方差、标准差1.假设一组数据为x1,x2,…,xn,则这组数据的平均数=,方差为s2=(xi-)2,标准差s=.2.如果总体中所有个体的变量值分别为Y1,Y2,…,YN,总体平均数为,则称S2=(Yi-)2为总体方差,S=为总体标准差.如果总体的N个变量值中,不同的值共有k(k≤N)个,不妨记为Y1,Y2,…,Yk,其中Yi出现的频数为fi(i=1,2,…,k),则总体方差为S2=i(Yi-)2.十二、方差、标准差与统计图表的综合应用反思感悟 折线统计图中数字特征的求解技巧根据折线统计图研究样本数据的数字特征与横坐标和纵坐标的统计意义有关,但一般情况下,整体分布位置较高的平均数大,数据波动性小的方差小.十三、分层随机抽样的方差假设第一层有m个数,分别为x1,x2,…,xm,平均数为,方差为s2;第二层有n个数,分别为y1,y2,…,yn,平均数为,方差为t2.则=i,s2=(xi-)2,=i,t2=(yi-)2.若记样本均值为,样本方差为b2,则可以算出=(i+i)=,b2==.考点一 总体取值规律的估计【例1】(2021·全国高一课时练习)某市2020年4月1日~4月30日对空气污染指数的监测数据如下(主要污染物为可吸入颗粒物):61,76,70,56,81,91,92,91,75,81,88,67,101,103,95,91,77,86,81,83,82,82,64,79,86,85,75,71,49,45,(1)完成频率分布表;(2)作出频率分布直方图;(3)根据国家标准,污染指数在0~50之间时,空气质量为优;在51~100之间时,空间质量为良;在101~150之间时,空间质量为轻微污染;在151~200之间时,空间质量为轻度污染.请你依据所给数据和上述标准,对该市的空气质量给出一个简短评价.【答案】(1)频率分布表见解析;(2)频率分布直方图见解析;(3)该市空气质量有待进一步改善.【解析】(1)频率分布表分组 频数 频率 分组 频数 频率[41,51) 2 [81,91) 10[51,61) 1 [91,101) 5[61,71) 4 [101,111) 2[71,81) 6(2)频率分布直方图(3)答对下述两条中的一条即可:①该市一个月中空气污染指数有2天处于优的水平,占当月天数的;有26天处于良的水平,占当月天数的;处于优或良的天数共有28天,占当月天数的.说明该市空气质量基本良好.②轻微污染有2天,占当月天数的.污染指数在80以上的接近轻微污染的天数有15天,加上处于轻微污染的天数,共有17天,占当月天数的,超过50%.说明该市空气质量有待进一步改善.【练1】(2020·江苏苏州市·星海实验中学高一期中)为了解学生课外阅读的情况,随机统计了名学生的课外阅读时间,所得数据都在中,其频率分布直方图如图所示.已知在中的频数为100,则的值是( )A.500 B.1000 C.10000 D.25000【答案】B【解析】由图可得在中的频率为,所以,故选:B.考点二 总体百分数的估计【例2】(2020·天津和平区)已知一组数据为第百分位数是( )A. B. C. D.【答案】C【解析】因为有6位数,所以,所以第百分位数是第三个数6.故选:C【练2】(2020·全国高一课时练习)一组数据12,34,15,24,39,25,31,48,32,36,36,37,42,50的第25,75百分位数分别是______、________.【答案】25 39【解析】把数据从小到大排序为12,15,24,25,31,32,34,36,36,37,39,42,48,50共14个数,14×25%=3.5, 14×75%=10.5, 所以第25,75百分位数分别是第4,11项数据,即是25,39.故答案为:25,39.考点三 总体集中趋势的估计【例3】(2021·湖北荆州市)因受新冠疫情的影响,某企业的产品销售面临困难.为了改变现状,该企业欲借助电商和“网红”直播带货扩大销售.受网红效应的影响,产品销售取得了较好的效果.现将该企业一段时间内网上销售的日销售额统计整理后绘制成如下图所示的频率分布直方图:请根据图中所给数据,求:(1)实数a的值;(2)该企业网上销售日销售额的众数和中位数;(3)该企业在统计时间段内网上销售日销售额的平均数.【答案】(1)0.012;(2)55万元,57万元;(3)57.4万元.【解析】(1)由频率分布直方图知:,解得:;(2)用频率分布直方图中最高矩形所在区间的中点值作为众数的近似值,得众数为55万元;因为第一个小矩形的面积为0.08,第二个小矩形的面积为0.12,第三个小矩形的面积为0.16,,设第四个小矩形中底边的一部分长为x,则,解得,所以中位数为万元;(3)依题意,日销售额的平均值为:所以该企业在统计时间段内网上销售日销售额的平均数为57.4万元.【练3】(2020·全国高一课时练习)名工人某天生产同一零件,生产的件数是、、、、、、、、、.设其平均数为,中位数为,众数为,则有( )A. B. C. D.【答案】B【解析】将生产的件数由小到大排列为:、、、、、、、、、,,中位数为,众数为.因此,.故选:B.考点四 总体离散程度的估计【例4】(2020·全国高一)已知数据的平均数为,方差为,则,,…,的平均数和方差分别为( )A.和 B.和C.和 D.和【答案】B【解析】因为数据的平均数为,方差为,所以,,…,的平均数和方差分别为和故选:B【练4】(2020·甘肃白银市·高一期末)已知数据的中位数为,众数为,平均数为,方差为,则下列说法中,错误的是( )A.数据的中位数为B.数据的众数为C.数据的平均数为D.数据的方差为【答案】D【解析】若数据的中位数为,众数为,平均数为,则由性质知数据的中位数,众数,平均数均变为原来的2倍,故正确;则由方差的性质知数据的方差为4p,故D错误;故选D.课后练习(2021高二上·湖南月考)某校1000名学生参加数学竞赛,随机抽取了20名学生的考试成绩(单位:分),成绩的频率分布直方图如图所示,则下列说法正确的是( )A. 频率分布直方图中 的值为0.004 B. 估计这20名学生数学考试成绩的第60百分位数为80C. 估计这20名学生数学考试成绩的众数为80 D. 估计总体中成绩落在 内的学生人数为160【答案】 B【考点】频率分布直方图,众数、中位数、平均数【解析】由 可得 ,A不符合题意前三个矩形的面积和为 ,所以这20名学生数学考试成绩的第60百分位数为80,B符合题意这20名学生数学考试成绩的众数为75,C不符合题意总体中成绩落在 内的学生人数为 ,D不符合题意故答案为:B【分析】 对于A,由频率分布直方图的性质列方程能求出a;对于B,求出[50, 80)的频率为0.6,由此能估计这20名学生数学考试成绩的第60百分位数为80;对于C, [70, 80)对应的小矩形最高,由此能估计这20名学生数学考试成绩的众数;对于D,求出总体在[60, 70)的频率,由此能估计总体中成绩落在[60, 70)内的学生人数.(2017高二下·普宁开学考)在“世界读书日”前夕,为了了解某地5000名居民某天的阅读时间,从中抽取了200名居民的阅读时间进行统计分析,在这个问题中,5000名居民的阅读时间的全体是( )A. 总体 B. 个体 C. 样本的容量 D. 从总体中抽取的一个样本【答案】 A【考点】用样本的频率分布估计总体分布【解析】解:根据题意,结合总体、个体、样本、样本容量的定义可得,5000名居民的阅读时间的全体是总体,故选:A.【分析】根据题意,结合总体、个体、样本、样本容量的定义可得结论.(2018高一下·西华期末)在中秋的促销活动中,某商场对9月14日9时到14时的销售额进行统计,其频率分布直方图如图所示,已知12时到14时的销售额为 万元,则10时到11时的销售额为( )A. 万元 B. 万元 C. 万元 D. 万元【答案】 C【考点】频率分布直方图【解析】解:设总的销售额为x,则 .10时到11时的销售额的频率为1-0.1-0.4-0.25-0.1=0.15.所以10时到11时的销售额为 .故答案为:C.【分析】求出总的销售额,计算10时到11时的销售额的频率,可得10时到11时的销售额。(2020·淮北模拟)国庆70周年庆典磅礴而又欢快的场景,仍历历在目.已知庆典中某省的游行花车需要用到某类花卉,而该类花卉有甲、乙两个品种,花车的设计团队对这两个品种进行了检测.现从两个品种中各抽测了10株的高度,得到如下茎叶图.下列描述正确的是( )A. 甲品种的平均高度大于乙品种的平均高度,且甲品种比乙品种长的整齐B. 甲品种的平均高度大于乙品种的平均高度,但乙品种比甲品种长的整齐C. 乙品种的平均高度大于甲品种的平均高度,且乙品种比甲品种长的整齐D. 乙品种的平均高度大于甲品种的平均高度,但甲品种比乙品种长的整齐【答案】 D【考点】茎叶图,众数、中位数、平均数,极差、方差与标准差【解析】通过茎叶图数据可知:甲品种的平均高度为: ;乙品种的平均高度为: ,所以乙品种的平均高度大于甲品种的平均高度,但是乙品种的10株高度在分散,没有甲品种10株的高度集中,都集中在25左右,故乙品种的平均高度大于甲品种的平均高度,但甲品种比乙品种长的整齐.故答案为:D【分析】根据茎叶图所反映出数据的分布情况进行判断即可.(2018·新疆模拟)一个社会调查机构就某地居民的月收入调查了10000人,并根据所得数据画了样本的频率分布直方图.为了分析居民的收入与年龄、学历、职业等方面的关系,要从这10000人中再用分层抽样方法抽出100人作进一步调查,则在 (元)月收入段应抽出 人.【答案】 25【考点】频率分布直方图【解析】由频率分布直方图可知在 (元)/月收入段的频率为 ,则从 人中在 (元)/月收入段应抽取 人,故答案为 .【分析】计算该区间的概率,乘以总人数,即可得出答案。(2020高一下·苏州期末)为抗击新型冠状病毒,普及防护知识,某校开展了“疫情防护”网络知识竞赛活动,现从参加该活动的学生中随机抽取了100名学生,将他们的比赛成绩(满分为100分)分为5组: , , , , ,得到如图所示的频率分布直方图,则该100名学生中成绩在80分(含80分)以上的人数为________.【答案】 40【考点】频率分布直方图【解析】由题可得 ,解得: ;该100名学生中成绩在80分(含80分)以上的人数为 人,故答案为:40.【分析】根据各小矩形面积之和为1,即可解方程求出a的值,再求出在80分(含80分)以上的频率,可得答案.(2018高二上·沧州期中)已知一组数据 的方差为2,若数据 的方差为8,则 的值为________.【答案】 2【考点】众数、中位数、平均数,极差、方差与标准差【解析】设数据 的平均数为 ,则 ,且数据 的平均数 .所以数据 的方差为,由题意得 ,解得 或 (舍去),故 .故答案为:2.【分析】利用平均数方差公式把数值代入公式计算出结果即可得关于a的方程求解出其值即可得到答案。(2021·漳州模拟)根据下面的数据:1 2 3 432 48 72 88求得 关于 的回归直线方程为 ,则这组数据相对于所求的回归直线方程的4个残差的方差为 .(注:残差是指实际观察值与估计值之间的差.)【答案】 3.2【考点】极差、方差与标准差,线性回归方程【解析】把x=1,2,3,4依次代入回归直线方程为 ,所得估计值依次为: , ,对应的残差依次为:0.8,-2.4,2.4,-0.8,它们的平均数为0,所以4个残差的方差为 .故答案为:3.2【分析】把x=1,2,3,4依次代入回归直线方程为 ,所得估计值依次为: , ,根据方差的公式进行计算即可。(2018高一下·芜湖期末)已知一组数据4.7,4.8,5.1,5.4,5.5,则该组数据的方差是 .【答案】 0.1【考点】极差、方差与标准差【解析】这组数据的平均数为 , .故答案应填:0.1【分析】利用平均数公式、方差公式,可得结论。(2021·浦东模拟)若从总体中随机抽取的样本为:-2 -2 -1 1 1 3 2 2 4 2,则该总体标准差的点估计值是 .(精确到0.1)【答案】 1.9【考点】众数、中位数、平均数,极差、方差与标准差【解析】解:由已知,样本的平均值为 ,所以样本标准差的点估计值为,所以总体标准差的点估计值是1.9,故答案为:1.9.【分析】 先求出偶样本数据的平均数,然后总体标准差的点估计值的求解公式计算即可.(2018高二上·思南月考)某健康协会从某地区睡前看手机的居民中随机选取了 人进行调查,得到如右图所示的频率分布直方图,则可以估计睡前看手机在 分钟的人数为________. 【答案】 81【考点】频率分布直方图【解析】根据频率分布直方图知,睡前看手机在 分钟的频率为,所以,估计睡前看手机在 分钟的人数为,故答案为81 .【分析】根据频率分布直方图可得睡前看手机在 分钟的频率,依此可估计睡前看手机在 分钟的人数 .(2020高一下·东莞期末)2020年5月28日,十三届全国人大三次会议表决通过了《中华人民共和国民法典》,此法典被称为“社会生活的百科全书”,是新中国第一部以法典命名的法律,在法律体系中居于基础性地位,也是市场经济的基本法.民法典与百姓生活密切相关,某大学为了解学生对民法典的认识程度,选取了120人进行测试,测试得分情况如图所示.(1)试求出图中实数a的值,并求出成绩落在 的人数;(2)如果抽查的测试平均分超过75分,就表示该学校通过测试.试判断该校能否通过测试;(3)如果在 中抽取3人,在 中抽取2人,再从抽取的5人中选取2人进行民法典的宣传,那么选取的2人中恰好1人成绩落在 的概率是多少?【答案】 (1)解:根据直方图知组距 ,由 ,解得 .则 的频率为 ,故成绩落在 的人数 (人)(2)解:依题意可得故能够通过测试(3)解:记成绩落在 中的2人为 , ,成绩落在 中的3人为 , , ,则从中任选2人的基本事件有 , , , , , , , , , 共10个,其中恰好1人成绩落在 中的基本事件有 , , , , , 共6个,故所求概率为【考点】频率分布直方图,列举法计算基本事件数及事件发生的概率【解析】 (1)由频率分布直方图的性质列出方程,能求出a的值.(2)由频率分布直方图的性质求出平均分,从而得以该校能通过测试。(3)基本事件总数n=10,选取的2人中恰好1人成绩落在[90,100]内包含的基本事件个数m=6,由此能求出选取的2人中恰好1人成绩落在[90,100]的概率.(2021高二下·威宁县期末)2020年初,湖北出现由新型冠状病毒引发的肺炎.为防止病毒蔓延,各级政府相继启动重大突发公共卫生事件一级响应,全国人民团结一心抗击疫情.某社区组织^80名社区居民参加防疫知识竞赛,他们的成绩全部在40分至100分之间,现将成绩按如下方式分成6组:第一组,成绩大于等于40分且小于50分;第二组,成绩大于等于50分且小于60分;……第六组,成绩大于等于90分且小于等于100分,据此绘制了如图所示的频率分布直方图.(1)求社区居民成绩的众数及 的值;(2)我们将成绩大于等于80分称为优秀,成绩小于60分称为不合格.用分层抽样的方法从这80个成绩中抽取20个成绩继续分析,成绩不合格和优秀各抽了多少个?再从抽取的不合格成绩和优秀成绩中任选3个成绩,记优秀成绩的个数为 个,求 的分布列和数学期望.【答案】 (1)由频率分布直方图得众数为 ,由于所有矩形的面积和为1,则 ,得 ;(2)成绩不合格有 个,优秀有 个, 可能取值为0、1、2、3,, , , ,的分布列为0 1 2 3.【考点】频率分布直方图,众数、中位数、平均数,离散型随机变量及其分布列,离散型随机变量的期望与方差【解析】(1)由频率分布直方图中最高小长方形求得众数,利用频率和为1求出a的值;(2)由题意知随机变量x的可能取值,计算对应的概率值,写出分布列,计算数学期望值.(2021高二上·厦门开学考)为了解我市高三学生参加体育活动的情况,市直属某校高三学生500人参加“体育基本素质技能”比赛活动,按某项比赛结果所在区间分组:第1组:[25,30),第2组:[30,35),第3组:[35,40),第4组:[40,45),第5组:[45,50],得到不完整的人数统计表如下:比赛结果所在区间 [25,30) [30,35) [35,40) [40,45) [45,50].人数 50 50 a 150 b其频率分布直方图为:(1)求人数统计表中的a和b的值;(2)根据频率分布直方图,估计该项比赛结果的中位数;(3)用分层抽样的方法从第1,2,3组中共抽取6人,再从这6人中随机抽取2人参加上一级比赛活动,求参加上一级比赛活动中至少有1人的比赛结果在第3组的概率.【答案】 (1)由频率分布直方图得,比赛结果在 内的频率为: ,则 ,比赛结果在 内的频率为: ,则 ,所以人数统计表中的a和b的值分别为200,50;(2)由频率分布直方图知,比赛结果在 内的频率为0.2,比赛结果在 内的频率为0.6,则中位数应在 内,所以估计该项比赛结果的中位数为: ;(3)因第1,2,3组的频率分别为0.1,0.1,0.4,则利用分层抽样在第1,2,3组中抽的人数比为 ,于是得抽取的6人中,第1组抽取1人,第2组抽取1人,第3组抽取4人,记第1组抽取的1位同学为A,第2组抽取的1位同学为B,第3组抽取的4位同学为 , , , ,则从6位同学中抽两位同学有: , , , , , , , , ,, , , , , ,共有15种等可能结果,其中2人比赛结果都不在第3组的有: ,共1种可能,所以至少有1人比赛结果在第3组的概率为 .【考点】频率分布直方图,众数、中位数、平均数,列举法计算基本事件数及事件发生的概率【解析】 (1)根据题意由频率分布图中的数据代入公式计算出结果即可。 (2)根据频率分布直方图,能估计该项比赛结果的中位数.(3)第1,2,3组共有300人,利用分层抽样在300名学生中抽取6名学生,第1组抽取的人数为1人,第2组抽取的人数为1人,第3组抽取的人数为4人,由此能求至少有1人比赛结果在第3组的概率.9.2 用样本估计总体一、频率分布直方图制作频率分布直方图的步骤(1)求极差;(2)决定组距与组数;(3)将数据分组;(4)列频率分布表;(5)画频率分布直方图.注意点:(1)组数太多或太少,都会影响我们了解数据的分布情况.组距与组数的确定没有固定的标准,常常需要一个尝试和选择的过程.决定组距与组数:当样本容量不超过100时,常分成5~12组,为了方便起见,一般取等长组距,并且组距应力求“取整”.(2)分点的确定:若数据为整数,则分点数据减去0.5;若数据是小数点后有一位数字的数,则分点数据减去0.05,以此类推.分组时,通常对组内数值所在的区间取左闭右开区间,最后一组取闭区间.二、频率分布直方图的应用(1)频率分布直方图的性质①因为小矩形的面积=组距×=频率,所以各小矩形的面积表示相应各组的频率.这样,频率分布直方图就以面积的形式反映了数据落在各个小组内的频率大小.②在频率分布直方图中,各小矩形的面积之和等于1.③=样本容量.(2)频率分布直方图反映了样本在各个范围内取值的可能性,由抽样的代表性利用样本在某一范围内的频率,可近似地估计总体在这一范围内的可能性.三、几种不同的统计图(1)不同的统计图在表示数据上有不同的特点.如:扇形图主要用于直观描述各类数据占总数的比例,条形图和直方图主要用于直观描述不同类别或分组数据的频数和频率,折线图主要用于描述数据随时间的变化趋势.(2)不同的统计图适用的数据类型也不同.例如,条形图适用于描述离散型的数据,直方图适用于描述连续型数据等.四、利用各种统计图表对数据进行分析对于涉及扇形图、条形图的性质等问题,要充分考虑到图形所提供的各类信息,从中提取信息进行计算.(1)条形图是用一个单位长度表示一定的数量或频率,根据数量的多少或频率的大小画成长短不同的矩形条,条形图能清楚地表示出每个项目的具体数目或频率.(2)扇形图是用整个圆面积表示总数(100%),用圆内的扇形面积表示各个部分所占总数的百分数.(3)在画折线图时,要注意明确横轴、纵轴的实际含义.五、百分位数的定义1.计算一组n个数据的第p百分位数的步骤:第1步,按从小到大排列原始数据.第2步,计算i=n×p%.第3步,若i不是整数,而大于i的比邻整数为j,则第p百分位数为第j项数据;若i是整数,则第p百分位数为第i项与第(i+1)项数据的平均数.2.一般地,一组数据的第p百分位数是这样一个值,它使得这组数据中至少有p%的数据小于或等于这个值,且至少有(100-p)%的数据大于或等于这个值.注意点:(1)中位数相当于是第50百分位数.除了中位数外,常用的分位数还有第25百分位数,第75百分位数.(2)第25,50,75百分位数,这三个分位数把一组由小到大排列后的数据分成四等份,因此称为四分位数.(3)第25百分位数也称为第一四分位数或下四分位数等,第75百分位数也称为第三四分位数或上四分位数等.六、由样本数据求百分位数计算一组n个数据的第p百分位数的一般步骤第1步:按照从小到大排列原始数据.第2步:计算i=n×p%.第3步:若i不是整数,大于i的比邻整数为j,则第p百分位数为第j项数据;若i是整数,则第p百分位数为第i项和第(i+1)项数据的平均数.七、由频数(频率)分布表求百分位数由频率分布直方图求百分位数的方法(1)要注意频率分布直方图中小矩形的面积,就是数据落在该组的频率.(2)一般采用方程的思想,设出第p百分位数,根据其意义列出方程并求解即可.八、众数、中位数、平均数1.众数:一组数据中出现次数最多的数.2.中位数:把一组数据按从小到大(或从大到小)的顺序排列,处在中间位置的数(或中间两个数的平均数)叫做这组数据的中位数.3.平均数:如果有n个数x1,x2,…,xn,那么=(x1+x2+…+xn)叫做这n个数的平均数.九、总体集中趋势的估计众数、中位数、平均数的意义(1)样本的众数、中位数和平均数常用来表示样本数据的“中心值”,其中众数和中位数容易计算,不受少数几个极端值的影响,但只能表达样本数据中的少量信息,平均数代表了数据更多的信息,但受样本中每个数据的影响,越极端的数据对平均数的影响也越大.(2)当一组数据中有不少数据重复出现时,其众数往往更能反映问题,当一组数据中个别数据较大时,可用中位数描述其集中趋势.十、利用频率分布直方图估计总体的集中趋势利用频率分布直方图求众数、中位数以及平均数的方法(1)众数即为出现次数最多的数,所以它的频率最大,在最高的小矩形中.中位数即为从小到大中间的数(或中间两数的平均数).平均数为每个小矩形底边中点的横坐标与小矩形面积乘积之和.(2)用频率分布直方图求得的众数、中位数不一定是样本中的具体数.十一、方差、标准差1.假设一组数据为x1,x2,…,xn,则这组数据的平均数=,方差为s2=(xi-)2,标准差s=.2.如果总体中所有个体的变量值分别为Y1,Y2,…,YN,总体平均数为,则称S2=(Yi-)2为总体方差,S=为总体标准差.如果总体的N个变量值中,不同的值共有k(k≤N)个,不妨记为Y1,Y2,…,Yk,其中Yi出现的频数为fi(i=1,2,…,k),则总体方差为S2=i(Yi-)2.十二、方差、标准差与统计图表的综合应用反思感悟 折线统计图中数字特征的求解技巧根据折线统计图研究样本数据的数字特征与横坐标和纵坐标的统计意义有关,但一般情况下,整体分布位置较高的平均数大,数据波动性小的方差小.十三、分层随机抽样的方差假设第一层有m个数,分别为x1,x2,…,xm,平均数为,方差为s2;第二层有n个数,分别为y1,y2,…,yn,平均数为,方差为t2.则=i,s2=(xi-)2,=i,t2=(yi-)2.若记样本均值为,样本方差为b2,则可以算出=(i+i)=,b2==.考点一 总体取值规律的估计【例1】(2021·全国高一课时练习)某市2020年4月1日~4月30日对空气污染指数的监测数据如下(主要污染物为可吸入颗粒物):61,76,70,56,81,91,92,91,75,81,88,67,101,103,95,91,77,86,81,83,82,82,64,79,86,85,75,71,49,45,(1)完成频率分布表;(2)作出频率分布直方图;(3)根据国家标准,污染指数在0~50之间时,空气质量为优;在51~100之间时,空间质量为良;在101~150之间时,空间质量为轻微污染;在151~200之间时,空间质量为轻度污染.请你依据所给数据和上述标准,对该市的空气质量给出一个简短评价.【练1】(2020·江苏苏州市·星海实验中学高一期中)为了解学生课外阅读的情况,随机统计了名学生的课外阅读时间,所得数据都在中,其频率分布直方图如图所示.已知在中的频数为100,则的值是( )A.500 B.1000 C.10000 D.25000考点二 总体百分数的估计【例2】(2020·天津和平区)已知一组数据为第百分位数是( )A. B. C. D.【练2】(2020·全国高一课时练习)一组数据12,34,15,24,39,25,31,48,32,36,36,37,42,50的第25,75百分位数分别是______、________.考点三 总体集中趋势的估计【例3】(2021·湖北荆州市)因受新冠疫情的影响,某企业的产品销售面临困难.为了改变现状,该企业欲借助电商和“网红”直播带货扩大销售.受网红效应的影响,产品销售取得了较好的效果.现将该企业一段时间内网上销售的日销售额统计整理后绘制成如下图所示的频率分布直方图:请根据图中所给数据,求:(1)实数a的值;(2)该企业网上销售日销售额的众数和中位数;(3)该企业在统计时间段内网上销售日销售额的平均数.【练3】(2020·全国高一课时练习)名工人某天生产同一零件,生产的件数是、、、、、、、、、.设其平均数为,中位数为,众数为,则有( )A. B. C. D.考点四 总体离散程度的估计【例4】(2020·全国高一)已知数据的平均数为,方差为,则,,…,的平均数和方差分别为( )A.和 B.和C.和 D.和【练4】(2020·甘肃白银市·高一期末)已知数据的中位数为,众数为,平均数为,方差为,则下列说法中,错误的是( )A.数据的中位数为B.数据的众数为C.数据的平均数为D.数据的方差为课后练习(2021高二上·湖南月考)某校1000名学生参加数学竞赛,随机抽取了20名学生的考试成绩(单位:分),成绩的频率分布直方图如图所示,则下列说法正确的是( )A. 频率分布直方图中 的值为0.004 B. 估计这20名学生数学考试成绩的第60百分位数为80C. 估计这20名学生数学考试成绩的众数为80 D. 估计总体中成绩落在 内的学生人数为160(2017高二下·普宁开学考)在“世界读书日”前夕,为了了解某地5000名居民某天的阅读时间,从中抽取了200名居民的阅读时间进行统计分析,在这个问题中,5000名居民的阅读时间的全体是( )A. 总体 B. 个体 C. 样本的容量 D. 从总体中抽取的一个样本(2018高一下·西华期末)在中秋的促销活动中,某商场对9月14日9时到14时的销售额进行统计,其频率分布直方图如图所示,已知12时到14时的销售额为 万元,则10时到11时的销售额为( )A. 万元 B. 万元 C. 万元 D. 万元(2020·淮北模拟)国庆70周年庆典磅礴而又欢快的场景,仍历历在目.已知庆典中某省的游行花车需要用到某类花卉,而该类花卉有甲、乙两个品种,花车的设计团队对这两个品种进行了检测.现从两个品种中各抽测了10株的高度,得到如下茎叶图.下列描述正确的是( )A. 甲品种的平均高度大于乙品种的平均高度,且甲品种比乙品种长的整齐B. 甲品种的平均高度大于乙品种的平均高度,但乙品种比甲品种长的整齐C. 乙品种的平均高度大于甲品种的平均高度,且乙品种比甲品种长的整齐D. 乙品种的平均高度大于甲品种的平均高度,但甲品种比乙品种长的整齐(2018·新疆模拟)一个社会调查机构就某地居民的月收入调查了10000人,并根据所得数据画了样本的频率分布直方图.为了分析居民的收入与年龄、学历、职业等方面的关系,要从这10000人中再用分层抽样方法抽出100人作进一步调查,则在 (元)月收入段应抽出 人.(2020高一下·苏州期末)为抗击新型冠状病毒,普及防护知识,某校开展了“疫情防护”网络知识竞赛活动,现从参加该活动的学生中随机抽取了100名学生,将他们的比赛成绩(满分为100分)分为5组: , , , , ,得到如图所示的频率分布直方图,则该100名学生中成绩在80分(含80分)以上的人数为________.(2018高二上·沧州期中)已知一组数据 的方差为2,若数据 的方差为8,则 的值为________.(2021·漳州模拟)根据下面的数据:1 2 3 432 48 72 88求得 关于 的回归直线方程为 ,则这组数据相对于所求的回归直线方程的4个残差的方差为 .(注:残差是指实际观察值与估计值之间的差.)(2018高一下·芜湖期末)已知一组数据4.7,4.8,5.1,5.4,5.5,则该组数据的方差是 .(2021·浦东模拟)若从总体中随机抽取的样本为:-2 -2 -1 1 1 3 2 2 4 2,则该总体标准差的点估计值是 .(精确到0.1)(2018高二上·思南月考)某健康协会从某地区睡前看手机的居民中随机选取了 人进行调查,得到如右图所示的频率分布直方图,则可以估计睡前看手机在 分钟的人数为________. (2020高一下·东莞期末)2020年5月28日,十三届全国人大三次会议表决通过了《中华人民共和国民法典》,此法典被称为“社会生活的百科全书”,是新中国第一部以法典命名的法律,在法律体系中居于基础性地位,也是市场经济的基本法.民法典与百姓生活密切相关,某大学为了解学生对民法典的认识程度,选取了120人进行测试,测试得分情况如图所示.(1)试求出图中实数a的值,并求出成绩落在 的人数;(2)如果抽查的测试平均分超过75分,就表示该学校通过测试.试判断该校能否通过测试;(3)如果在 中抽取3人,在 中抽取2人,再从抽取的5人中选取2人进行民法典的宣传,那么选取的2人中恰好1人成绩落在 的概率是多少?(2021高二下·威宁县期末)2020年初,湖北出现由新型冠状病毒引发的肺炎.为防止病毒蔓延,各级政府相继启动重大突发公共卫生事件一级响应,全国人民团结一心抗击疫情.某社区组织^80名社区居民参加防疫知识竞赛,他们的成绩全部在40分至100分之间,现将成绩按如下方式分成6组:第一组,成绩大于等于40分且小于50分;第二组,成绩大于等于50分且小于60分;……第六组,成绩大于等于90分且小于等于100分,据此绘制了如图所示的频率分布直方图.(1)求社区居民成绩的众数及 的值;(2)我们将成绩大于等于80分称为优秀,成绩小于60分称为不合格.用分层抽样的方法从这80个成绩中抽取20个成绩继续分析,成绩不合格和优秀各抽了多少个?再从抽取的不合格成绩和优秀成绩中任选3个成绩,记优秀成绩的个数为 个,求 的分布列和数学期望.(2021高二上·厦门开学考)为了解我市高三学生参加体育活动的情况,市直属某校高三学生500人参加“体育基本素质技能”比赛活动,按某项比赛结果所在区间分组:第1组:[25,30),第2组:[30,35),第3组:[35,40),第4组:[40,45),第5组:[45,50],得到不完整的人数统计表如下:比赛结果所在区间 [25,30) [30,35) [35,40) [40,45) [45,50].人数 50 50 a 150 b其频率分布直方图为:(1)求人数统计表中的a和b的值;(2)根据频率分布直方图,估计该项比赛结果的中位数;(3)用分层抽样的方法从第1,2,3组中共抽取6人,再从这6人中随机抽取2人参加上一级比赛活动,求参加上一级比赛活动中至少有1人的比赛结果在第3组的概率.精讲答案【例1】【答案】(1)频率分布表见解析;(2)频率分布直方图见解析;(3)该市空气质量有待进一步改善.【解析】(1)频率分布表分组 频数 频率 分组 频数 频率[41,51) 2 [81,91) 10[51,61) 1 [91,101) 5[61,71) 4 [101,111) 2[71,81) 6(2)频率分布直方图(3)答对下述两条中的一条即可:①该市一个月中空气污染指数有2天处于优的水平,占当月天数的;有26天处于良的水平,占当月天数的;处于优或良的天数共有28天,占当月天数的.说明该市空气质量基本良好.②轻微污染有2天,占当月天数的.污染指数在80以上的接近轻微污染的天数有15天,加上处于轻微污染的天数,共有17天,占当月天数的,超过50%.说明该市空气质量有待进一步改善.【练1】【答案】B【解析】由图可得在中的频率为,所以,故选:B.【例2】【答案】C【解析】因为有6位数,所以,所以第百分位数是第三个数6.故选:C【练2】【解析】把数据从小到大排序为12,15,24,25,31,32,34,36,36,37,39,42,48,50共14个数,14×25%=3.5, 14×75%=10.5, 所以第25,75百分位数分别是第4,11项数据,即是25,39.故答案为:25,39.【例3】【答案】(1)0.012;(2)55万元,57万元;(3)57.4万元.【解析】(1)由频率分布直方图知:,解得:;(2)用频率分布直方图中最高矩形所在区间的中点值作为众数的近似值,得众数为55万元;因为第一个小矩形的面积为0.08,第二个小矩形的面积为0.12,第三个小矩形的面积为0.16,,设第四个小矩形中底边的一部分长为x,则,解得,所以中位数为万元;(3)依题意,日销售额的平均值为:所以该企业在统计时间段内网上销售日销售额的平均数为57.4万元.【练3】【答案】B【解析】将生产的件数由小到大排列为:、、、、、、、、、,,中位数为,众数为.因此,.故选:B.【例4】【答案】B【解析】因为数据的平均数为,方差为,所以,,…,的平均数和方差分别为和故选:B【练4】【答案】D【解析】若数据的中位数为,众数为,平均数为,则由性质知数据的中位数,众数,平均数均变为原来的2倍,故正确;则由方差的性质知数据的方差为4p,故D错误;故选D.练习答案【答案】B【考点】频率分布直方图,众数、中位数、平均数【解析】由 可得 ,A不符合题意前三个矩形的面积和为 ,所以这20名学生数学考试成绩的第60百分位数为80,B符合题意这20名学生数学考试成绩的众数为75,C不符合题意总体中成绩落在 内的学生人数为 ,D不符合题意故答案为:B【分析】 对于A,由频率分布直方图的性质列方程能求出a;对于B,求出[50, 80)的频率为0.6,由此能估计这20名学生数学考试成绩的第60百分位数为80;对于C, [70, 80)对应的小矩形最高,由此能估计这20名学生数学考试成绩的众数;对于D,求出总体在[60, 70)的频率,由此能估计总体中成绩落在[60, 70)内的学生人数.【答案】 A【考点】用样本的频率分布估计总体分布【解析】解:根据题意,结合总体、个体、样本、样本容量的定义可得,5000名居民的阅读时间的全体是总体,故选:A.【分析】根据题意,结合总体、个体、样本、样本容量的定义可得结论.【答案】 C【考点】频率分布直方图【解析】解:设总的销售额为x,则 .10时到11时的销售额的频率为1-0.1-0.4-0.25-0.1=0.15.所以10时到11时的销售额为 .故答案为:C.【分析】求出总的销售额,计算10时到11时的销售额的频率,可得10时到11时的销售额。【答案】 D【考点】茎叶图,众数、中位数、平均数,极差、方差与标准差【解析】通过茎叶图数据可知:甲品种的平均高度为: ;乙品种的平均高度为: ,所以乙品种的平均高度大于甲品种的平均高度,但是乙品种的10株高度在分散,没有甲品种10株的高度集中,都集中在25左右,故乙品种的平均高度大于甲品种的平均高度,但甲品种比乙品种长的整齐.故答案为:D【分析】根据茎叶图所反映出数据的分布情况进行判断即可.【答案】 25【考点】频率分布直方图【解析】由频率分布直方图可知在 (元)/月收入段的频率为 ,则从 人中在 (元)/月收入段应抽取 人,故答案为 .【分析】计算该区间的概率,乘以总人数,即可得出答案。【答案】 40【考点】频率分布直方图【解析】由题可得 ,解得: ;该100名学生中成绩在80分(含80分)以上的人数为 人,故答案为:40.【分析】根据各小矩形面积之和为1,即可解方程求出a的值,再求出在80分(含80分)以上的频率,可得答案.【答案】 2【考点】众数、中位数、平均数,极差、方差与标准差【解析】设数据 的平均数为 ,则 ,且数据 的平均数 .所以数据 的方差为,由题意得 ,解得 或 (舍去),故 .故答案为:2.【分析】利用平均数方差公式把数值代入公式计算出结果即可得关于a的方程求解出其值即可得到答案。【答案】 3.2【考点】极差、方差与标准差,线性回归方程【解析】把x=1,2,3,4依次代入回归直线方程为 ,所得估计值依次为: , ,对应的残差依次为:0.8,-2.4,2.4,-0.8,它们的平均数为0,所以4个残差的方差为 .故答案为:3.2【分析】把x=1,2,3,4依次代入回归直线方程为 ,所得估计值依次为: , ,根据方差的公式进行计算即可。【答案】 0.1【考点】极差、方差与标准差【解析】这组数据的平均数为 , .故答案应填:0.1【分析】利用平均数公式、方差公式,可得结论。【答案】 1.9【考点】众数、中位数、平均数,极差、方差与标准差【解析】解:由已知,样本的平均值为 ,所以样本标准差的点估计值为,所以总体标准差的点估计值是1.9,故答案为:1.9.【分析】 先求出偶样本数据的平均数,然后总体标准差的点估计值的求解公式计算即可.【答案】 81【考点】频率分布直方图【解析】根据频率分布直方图知,睡前看手机在 分钟的频率为,所以,估计睡前看手机在 分钟的人数为,故答案为81 .【分析】根据频率分布直方图可得睡前看手机在 分钟的频率,依此可估计睡前看手机在 分钟的人数 .【答案】 (1)解:根据直方图知组距 ,由 ,解得 .则 的频率为 ,故成绩落在 的人数 (人)(2)解:依题意可得故能够通过测试(3)解:记成绩落在 中的2人为 , ,成绩落在 中的3人为 , , ,则从中任选2人的基本事件有 , , , , , , , , , 共10个,其中恰好1人成绩落在 中的基本事件有 , , , , , 共6个,故所求概率为【考点】频率分布直方图,列举法计算基本事件数及事件发生的概率【解析】 (1)由频率分布直方图的性质列出方程,能求出a的值.(2)由频率分布直方图的性质求出平均分,从而得以该校能通过测试。(3)基本事件总数n=10,选取的2人中恰好1人成绩落在[90,100]内包含的基本事件个数m=6,由此能求出选取的2人中恰好1人成绩落在[90,100]的概率.【答案】 (1)由频率分布直方图得众数为 ,由于所有矩形的面积和为1,则 ,得 ;(2)成绩不合格有 个,优秀有 个, 可能取值为0、1、2、3,, , , ,的分布列为0 1 2 3.【考点】频率分布直方图,众数、中位数、平均数,离散型随机变量及其分布列,离散型随机变量的期望与方差【解析】(1)由频率分布直方图中最高小长方形求得众数,利用频率和为1求出a的值;(2)由题意知随机变量x的可能取值,计算对应的概率值,写出分布列,计算数学期望值.【答案】 (1)由频率分布直方图得,比赛结果在 内的频率为: ,则 ,比赛结果在 内的频率为: ,则 ,所以人数统计表中的a和b的值分别为200,50;(2)由频率分布直方图知,比赛结果在 内的频率为0.2,比赛结果在 内的频率为0.6,则中位数应在 内,所以估计该项比赛结果的中位数为: ;(3)因第1,2,3组的频率分别为0.1,0.1,0.4,则利用分层抽样在第1,2,3组中抽的人数比为 ,于是得抽取的6人中,第1组抽取1人,第2组抽取1人,第3组抽取4人,记第1组抽取的1位同学为A,第2组抽取的1位同学为B,第3组抽取的4位同学为 , , , ,则从6位同学中抽两位同学有: , , , , , , , , ,, , , , , ,共有15种等可能结果,其中2人比赛结果都不在第3组的有: ,共1种可能,所以至少有1人比赛结果在第3组的概率为 .【考点】频率分布直方图,众数、中位数、平均数,列举法计算基本事件数及事件发生的概率【解析】 (1)根据题意由频率分布图中的数据代入公式计算出结果即可。 (2)根据频率分布直方图,能估计该项比赛结果的中位数.(3)第1,2,3组共有300人,利用分层抽样在300名学生中抽取6名学生,第1组抽取的人数为1人,第2组抽取的人数为1人,第3组抽取的人数为4人,由此能求至少有1人比赛结果在第3组的概率. 展开更多...... 收起↑ 资源列表 人教A版(2019)高一数学必修第二册 讲义 9.2用样本估计总体(学生版).docx 人教A版(2019)高一数学必修第二册 讲义 9.2用样本估计总体(教师版).docx