备战2024年高考数学易错题(新高考专用)专题13 统计 学案 (原卷版+解析版)

资源下载
  1. 二一教育资源

备战2024年高考数学易错题(新高考专用)专题13 统计 学案 (原卷版+解析版)

资源简介

专题13 统计
易错点一:统计用表中概念不清、识图不准致误(频率分布直方图、总体取值规律)
频率分布直方图
作频率分布直方图的步骤
①求极差:极差为一组数据中最大值与最小值的差.
②决定组距与组数
将数据分组时,一般取等长组距,并且组距应力求“取整”,组数应力求合适,以使数据的分布规律能较清楚地呈现出来.
③将数据分组
④列频率分布表
各小组的频率=.
⑤画频率分布直方图
纵轴表示,实际上就是频率分布直方图中各小长方形的高度,小长方形的面积=组距×=频率.
频率分布直方图的性质
①因为小矩形的面积=组距×=频率,所以各小矩形的面积表示相应各组的频率.这样,频率分布直方图就以面积的形式反映了数据落在各个小组内的频率大小.
②在频率分布直方图中,各小矩形的面积之和等于1.
③=样本容量.
④频率分布直方图反映了样本在各个范围内取值的可能性,由抽样的代表性利用样本在某一范围内的频率,可近似地估计总体在这一范围内的可能性.
易错提醒:频率分布条形图和频率分布直方图是两个完全不同的概念,考生应注意两者之间的区别.虽然它们的横轴表示的内容是相同的,但是频率分布条形图的纵轴表示频率;频率分布直方图的纵轴表示频率与组距的比值,其各小组的频率等于该小组上的矩形的面积.
例:如图所示是某公司(共有员工300人)2021年员工年薪情况的频率分布直方图,由此可知,员工中年薪在1.4万元~1.6万元之间的共有______人.
易错分析:解本题容易出现的错误是审题不细,对所给图形观察不细心,认为员工中年薪在1.4万元~1.6万元之间的频率为,从而得到员工中年薪在1.4万元~1.6万元之间的共有(人)的错误结论.
正解:由所给图形,可知员工中年薪在1.4万元~1.6万元之间的频率为,所以员工中年薪在1.4万元~1.6万元之间的共有(人).故72.
易错警示:考生误认为频率分布直方图中纵轴表示的是频率,这是错误的,而是“频率/组距”,所以频率对应的是各矩形的面积.
变式1:某大学有男生名.为了解该校男生的身体体重情况,随机抽查了该校名男生的体重,并将这名男生的体重(单位:)分成以下六组:、、、、、,绘制成如下的频率分布直方图:
该校体重(单位:)在区间上的男生大约有 人.
变式2:现对某类文物进行某种物性指标检测,从件中随机抽取了件,测量物性指标值,得到如下频率分布直方图,据此估计这件文物中物性指标值不小于的件数为 .
变式3:如图是根据我国部分城市某年6月份的平均气温数据得到的样本频率分布直方图,其中平均气温的范围是[20,26], 样本数据的分组为[20,21), [21,22),[22, 23),[23, 24), [24, 25),[25,26]. 已知样本中平均气温低于22°C的城市个数为11,样本中平均气温不低于25°C的城市个数是 .
1.已知某班全体学生在某次数学考试中的成绩(单位:分)的频率分布直方图如图所示,则图中a所代表的数值是 .
2.某校共有400名学生参加了趣味知识竞赛(满分:150分),且每位学生的竞赛成绩均不低于90分.将这400名学生的竞赛成绩分组如下:,得到的频率分布直方图如图所示,则这400名学生中竞赛成绩不低于120分的人数为 .
3.从某小学所有学生中随机抽取100名学生,将他们的身高(单位:)数据绘制成频率分布直方图(如图),其中样本数据分组,则= .

4.某工厂抽取100件产品测其重量(单位:).其中每件产品的重量范围是.数据的分组依次为,据此绘制出如图所示的频率分布直方图,则重量在内的产品件数为 .

5.某研究小组经过研究发现某种疾病的患病者与未患病者的某项医学指标有明显差异,经过大量调查,得到如下的患病者和未患病者该指标的频率分布直方图:

利用该指标制定一个检测标准,需要确定临界值,将该指标大于的人判定为阳性,小于或等于的人判定为阴性,此检测标准的漏诊率是将患病者判定为阴性的概率,记为;误诊率是将未患病者判定为阳性的概率,记为.假设数据在组内均匀分布,以事件发生的频率作为相应事件发生的概率.设函数,则函数在区间取得最小值时 .
6.某大学有男生10000名.为了解该校男生的身体体重情况,随机抽查了该校100名男生的体重,并将这100名男生的体重(单位:kg)分成以下六组:、、、、、,绘制成如图所示的频率分布直方图,该校体重(单位:)在区间上的男生大约有 人.

7.某中学为了解高三男生的体能情况,通过随机抽样,获得了200名男生的100米体能测试成绩(单位:秒),将数据按照,,…,分成9组,制成了如图所示的频率分布直方图.由直方图估计本校高三男生100米体能测试成绩大于13.25秒的频率是 .

8.某工厂对一批产品的长度(单位:)进行检验,将抽查的产品所得数据分为五组,整理后得到的频率分布直方图如图所示,若长度在以下的产品有30个,则长度在区间内的产品个数为 .

9.某中学为了解学生的数学学习情况,在全体学生中随机抽取200名,统计这200名学生某次数学考试的成绩,将所得的数据分为7组:,,…,,,并整理得到如下频率分布直方图,则在被抽取的学生中,该次数学考试成绩不低于80分的人数为 .

10.某区为了解全区名高二学生的体能素质情况,在全区高二学生中随机抽取了名学生进行体能测试,并将这名的体能测试成绩整理成如下频率分布直方图.根据此频率分布直方图,这名学生平均成绩的估计值为 .

11.将一个容量为100的样本数据,按照从小到大的顺序分为8个组,如下表:
组号 1 2 3 4 5 6 7 8
频数 10 16 18 15 11 9
若第6组的频率是第3组频率的2倍,则第6组的频率是 .
12.节约用水是中华民族的传统美德,某市政府希望在本市试行居民生活用水定额管理,即确定一个合理的居民月用水量标准(吨),用水量不超过的部分按平价收费,超过的部分按议价收费.为此希望已经学习过统计的小明,来给出建议.为了了解全市居民用水量的分布情况,小明通过随机走访,获得了100位居民某年的月均用水量(单位:吨),将数据按照分成9组,制成了如图所示的频率分布直方图.若该市政府希望使的居民每月的用水量不超过标准(吨),如果你是小明,你觉得的估计值为 (精确到小数点后1位)
易错点二:统计中的数字特征的实际意义理解不清楚致误(频率分布直方图特征数考查)
众数、中位数、平均数
①众数:一组数据中出现次数最多的数.
②中位数:把一组数据按从小到大(或从大到小)的顺序排列,处在中间位置的数(或中间两个数的平均数)叫做这组数据的中位数.
③平均数:如果n个数x1,x2,…,xn,那么叫做这n个数的平均数.
总体集中趋势的估计
①平均数、中位数和众数等都是刻画“中心位置”的量,它们从不同角度刻画了一组数据的集中趋势.
②一般地,对数值型数据(如用水量、身高、收入、产量等)集中趋势的描述,可以用平均数、中位数;而对分类型数据(如校服规格、性别、产品质量等级等)集中趋势的描述,可以用众数.
频率分布直方图中平均数、中位数、众数的求法
①样本平均数:可以用每个小矩形底边中点的横坐标与小矩形面积的乘积之和近似代替.
②在频率分布直方图中,中位数左边和右边的直方图的面积应相等.
③将最高小矩形所在的区间中点作为众数的估计值.
易错提醒:利用频率分布直方图求众数、中位数与平均数时,易出错,应注意区分这三者.在频率分布直方图中:
(1)最高的小长方形底边中点的横坐标即是众数;
(2)中位数左边和右边的小长方形的面积和是相等的;
(3)平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘以小长方形底边中点的横坐标之和.
例.某班名学生期中考试数学成绩的频率分布直方图如图所示.根据频率分布直方图,估计该班本次测试众数为 .
变式1:为响应自己城市倡导的低碳出行,小李上班可以选择自行车,他记录了次骑车所用时间(单位:分钟),得到频率分布直方图,则骑车时间的众数的估计值是 分钟

变式2:数学兴趣小组的四名同学各自抛掷骰子5次,分别记录每次骰子出现的点数,四名同学的部分统计结果如下:
甲同学:中位数为3,方差为2.8; 乙同学:平均数为3.4,方差为1.04;
丙同学:中位数为3,众数为3; 丁同学:平均数为3,中位数为2.
根据统计结果,数据中肯定没有出现点数6的是 同学.
变式3:以下5个命题中真命题的序号有 .
①样本数据的数字特征中,与众数、中位数比较起来,平均数可以反映出更多的关于样本数据全体的信息;
②若数据,,,…,的标准差为S,则数据,,,…,的标准差为aS;
③将二进制数转化成十进制数是200;
④x是区间[0,5]内任意一个整数,则满足“”的概率是.
1.2022年11月卡塔尔世界杯如期举行,这是世界足球的一场盛宴.为了了解全民对足球的热爱程度,组委会在某场比赛结束后,随机抽取了1000名观众进行对足球“喜爱度”的调查评分,将得到的分数分成6段:,,,,,,得到如图所示的频率分布直方图.图中部分数据丢失,若已知这1000名观众评分的中位数估计值为87.5,则m= .

2.为了普及环保知识,增强环保意识,某中学随机抽取30名学生参加环保知识测试,得分(十分制)如图所示,假设得分值的中位数为,众数为,平均数为,则的大小关系是 .
3.《中国居民膳食指南()》数据显示,岁至岁儿童青少年超重肥胖率高达.为了解某地中学生的体重情况,某机构从该地中学生中随机抽取名学生,测量他们的体重(单位:千克),根据测量数据,按,,,,,分成六组,得到的频率分布直方图如图所示.根据调查的数据,估计该地中学生体重的中位数是 .
4.为了解某校高三学生的数学成绩,随机地抽查了该校100名高三学生的期中考试数学成绩,得到频率分布直方图如图所示.请根据以上信息,估计该校高三学生数学成绩的中位数为 .(结果保留到小数点后两位)
5.2021年某省高考体育百米测试中,成绩全部介于12秒与18秒之间,抽取其中100个样本,将测试结果按如下方式分成六组:第一组,第二组,…,第六组,得到如下频率分布直方图.则该100名考生的成绩的中位数(保留一位小数)是 .
6.200辆汽车通过某一段公路时的时速的频率分布直方图如图所示,则时速的众数、中位数的估计值分别为 .

7.某快递驿站统计了近期每天代收快件的数量,并制成如下图所示的频率分布直方图.
则该快递驿站每天代收包裹数量的中位数为 .
8.某质检部门对某新产品的质量指标随机抽取100件检测,由检测结果得到如图所示的频率分布直方图.
由频率分布直方图可以认为,该产品的质量指标值服从正态分布,其中近似为样本平均数近似为样本方差.设表示从该种产品中随机抽取10件,其质量指标值位于的件数,则的数学期望= .(精确到)
注:①同一组数据用该区间的中点值作代表,计算得样本标准差;②若,则,.
9.由于受到网络电商的冲击,某品牌的洗衣机在线下的销售受到影响,承受了一定的经济损失,现将地区200家实体店该品牌洗衣机的月经济损失统计如图所示,估算月经济损失的平均数为,中位数为n,则 .
10.某大学天文台随机调查了该校100位天文爱好者的年龄,得到如下样本数据频率分布直方图,则估计该校100名天文爱好者的平均岁数为 .

11.众数 平均数和中位数都描述了数据的集中趋势,它们的大小关系和数据分布的形态有关.在如图的分布形态中,分别表示众数 平均数 中位数,则中最小值为 .

12.如图为某工厂工人生产能力频率分布直方图,则估计此工厂工人生产能力的平均值为 .

易错点三:运用数字特征作评价时考虑不周(方差、标准差的求算)
方差、标准差
①假设一组数据为,则这组数据的平均数,
方差为,
标准差
②若假设一组数据为,它的平均数为,方差为,
则一组数据为,的平均数为,方差为。
③标准差刻画了数据的离散程度或波动幅度,标准差越大,数据的离散程度越大;标准差越小,数据的离散程度越小.
易错提醒:方差(标准差)越大,说明数据的离散性越大;方差(标准差)越小,说明数据的离散性越小,数据越集中、稳定.用样本的数字特征估计总体的数字特征时,如果抽样的方法比较合理,那么样本可以反映总体的信息,但从样本得到的信息会有偏差,这些偏差是由样本的随机性引起的.虽然样本的数字特征并不是总体真正的数字特征,而是总体的一个估计,但这种估计是合理的,特别是当样本容量很大时,样本的数字特征稳定于总体的数字特征.
例、若甲、乙两台机床同时加工直径为100 mm的零件,为了检验产品的质量,从产品中随机抽取6件进行测量,测得数据如下:(单位:mm):甲:99,100,98,100,103;乙:99,100,102,99,100,100.通过计算,请你说明哪一台机床加工的零件更符合要求.
【错解】==100,
==100,
因为两个机床所加工零件的平均数相等,平均数描绘了数据的平均水平,
所以两台机床加工的零件都符合要求.
【错因】平均数对数据有“取齐”作用,它描述了一组数据的平均水平,定量地反映了数据的集中趋势,因此平均数是与样本数据最接近、最理想的近似值,但由于样本选取的随机性,有时用平均数衡量总体的特征会失之偏颇,因此应进一步计算方差或标准差来比较它们的波动大小.
【正解】==100,
==100,
s=×[(99-100)2+3×(100-100)2+(98-100)2+(103-100)2]=,
s=×[2×(99-100)2+3×(100-100)2+(102-100)2]=1.
s>s,说明甲机床加工的零件波动比较大.
故乙机床加工的零件更符合要求.
变式1:泉州,作为古代海上丝绸之路的起点,具有深厚的历史文化底蕴,是全国同时拥有联合国三大类非遗项目的唯一城市.为高效统筹整合优质文旅资源,文旅局在“五一”假期精心策划文旅活动,使得来泉旅游人数突破了万人次.某数学兴趣小组为了解来泉游客的旅游体验满意度,用问卷的方式随机调查了名来泉旅游的游客,被抽到的游客根据旅游体验给出满意度分值(满分分),该兴趣小组将收集到的数据分成五段:,,,,,处理后绘制了如下频率分布直方图.

(1)求图中的值并估计名游客满意度分值的中位数(结果用分数表示);
(2)已知在的平均数为,方差为,在的平均数为,方差为,试求被调查的名游客的满意度分值的平均数及方差.
变式2:拔尖创新人才是21世纪社会经济发展的巨大动力,培养拔尖创新人才也成为世界各国教育的主要任务.某市为了解市民对拔尖人才培养理念的关注程度,举办了“拔尖人才素养必备”知识普及竞赛,从所有答卷中随机抽取100份作为样本,将样本的成绩(满分100分,成绩均为不低于40分的整数)分成六段:,得到如图所示的频率分布直方图.
(1)求频率分布直方图中的值,并估计该市这次竞赛成绩的众数;
(2)已知落在的平均成绩,方差,落在的平均成绩,方差,求这两组成绩的总平均数和总方差.
变式3:为了研究网民的上网习惯,某机构随机抽取了年龄在10岁到60岁的网民进行问卷调查,按年龄分为5组,即,,,,,并绘制出频率分布直方图,如图所示.

(1)若按分层抽样的方法,从上述网民中抽取n人做采访,其中年龄在中被抽取的人数为7,求n;
(2)若各区间的值以该区间的中点值作代表,求上述网民年龄的方差的估计值.
1.已知甲、乙两位同学在一次射击练习中各射靶10次,射中环数频率分布如图所示:

令,分别表示甲、乙射中环数的均值;,分别表示甲、乙射中环数的方差,则( )
A., B.,
C., D.,
2.某学校组织学生参加数学测试,某班成绩的频率分布直方图如图,数据的分组依次为.若不低于分的人数是人,且同一组中的数据用该组区间的中点值代表,则下列说法中正确的是(  )

A.该班的学生人数是
B.成绩在的学生人数是
C.估计该班成绩的众数是分
D.估计该班成绩的方差为
3.从某企业生产的某种产品中抽取500件,测量这些产品的一项质量指标值,由测量结果得频率分布直方图,则这500件产品质量指标值的样本方差是 (同一组中的数据用该组区间的中点值作代表).
4.在一次区域统考中,为了了解各学科的成绩情况,从所有考生成绩中随机抽出20位考生的成绩进行统计分析,其中数学学科的频率分布直方图如图所示,据此估计,在本次考试中数学成绩的方差为 .(同一组中的数据用该组区间的中点值作代表)
5.为了解本市居民的生活成本,甲 乙 丙三名同学利用假期分别对三个社区进行了“家庭每月日常消费额”的调查.他们将调查所得的数据分别绘制成频率分布直方图(如图所示),记甲 乙 丙所调查数据的标准差分别为,,,则它们的大小关系为 .
6.某工厂从生产的一批产品中随机抽出一部分,对这些产品的一项质量指标进行了检测,整理检测结果得到如下频率分布表:
质量指标分组
频率 0.1 0.6 0.3
据此可估计这批产品的此项质量指标的方差为 .
7.2023年10月22日,汉江生态城2023襄阳马拉松在湖北省襄阳市成功举行,志愿者的服务工作是马拉松成功举办的重要保障,襄阳市新时代文明实践中心承办了志愿者选拔的面试工作.现随机抽取了100名候选者的面试成绩,并分成五组:第一组,第二组,第三组,第四组,第五组,绘制成如图所示的频率分布直方图.已知第一、二组的频率之和为0.3,第一组和第五组的频率相同.

(1)估计这100名候选者面试成绩的平均数和第25百分位数;
(2)现从以上各组中用分层随机抽样的方法选取20人,担任本市的宣传者.
①现计划从第一组和第二组抽取的人中,再随机抽取2名作为组长.求选出的两人来自不同组的概率.
②若本市宣传者中第二组面试者的面试成绩的平均数和方差分别为62和40,第四组面试者的面试成绩的平均数和方差分别为80和70,据此估计这次第二组和第四组面试者所有人的方差.
8.古人云“民以食为天”,某校为了了解学生食堂服务的整体情况,进一步提高食堂的服务质量,营造和谐的就餐环境,使同学们能够获得更好的饮食服务为此做了一次全校的问卷调查,问卷所涉及的问题均量化成对应的分数(满分100分),从所有答卷中随机抽取100份分数作为样本,将样本的分数(成绩均为不低于40分的整数)分成六段:,得到如图所示的频数分布表.
样本分数段
频数 5 10 20 a 25 10
频率 0.05 0.1 0.2 b 0.25 0.1
(1)求频数分布表中a和b的值,并求样本成绩的中位数和平均数;
(2)已知落在的分数的平均值为56,方差是7;落在的分数的平均值为65,方差是4,求两组成绩的总平均数和总方差.
9.某电信运营公司为响应国家5G网络建设政策,拟实行5G网络流量阶梯定价,每人月用流量中不超过一种流量计算单位的部分按元收费,超过kGB的部分按2元收费,从用户群中随机调查了10000位用户,获得了他们某月的流量使用数据,整理得到如下的频率分布直方图.已知用户月使用流量的中位数为
(1)求表中的
(2)若k为整数,依据本次调查为使以上用户在该月的流量价格为元,则k至少定为多少
(3)为了进一步了解用户使用5G流量与年龄的相关关系,由频率分布直方图中流量在和两组用户中,按人数比例分配的分层抽样方法中抽取了100名用户,已知组用户平均年龄为30,方差为36,流量在组用户的平均年龄为20,方差为16,求抽取的100名用户年龄的方差.
10.为建立健全国家学生体质健康监测评价机制,激励学生积极参加身体锻炼,教育部印发《国家学生体质健康标准》,要求各学校每学年开展覆盖本校各年级学生的《标准》测试工作.为做好全省的迎检工作,成都市在高三年级开展了一次体质健康模拟测试,并从中随机抽取了200名学生的数据,根据他们的健康指数绘制了如图所示的频率分布直方图.

(1)估计这200名学生健康指数的平均数和样本方差(同一组数据用该组区间的中点值作代表);
(2)从健康指数在的两组中利用分层抽样抽出7人进行电话回访,并再随机抽出2人赠送奖品,求从7人中抽出的2人来自不同组的概率.
11.年入冬以来,为进一步做好疫情防控工作,避免疫情的再度爆发,地区规定居民出行或者出席公共场合均需佩戴口罩,现将地区个居民一周的口罩使用个数统计如下表所示,其中每周的口罩使用个数在以上(含)的有人.
口罩使用数量
频率

(1)求的值,根据表中数据,完善上面的频率分布直方图;(只画图,不要过程)
(2)根据频率分布直方图估计地区居民一周口罩使用个数的分位数和中位数;(四舍五入,精确到)
(3)根据频率分布直方图估计地区居民一周口罩使用个数的平均数以及方差.(每组数据用每组中点值代替)
12.某市为了制定合理的节水方案,对居民用水情况进行了调查.通过抽样,获得了某年100户居民每人的月均用水量(单位:吨).将数据按照,,…,分成9组,制成了如下图所示的频率分布直方图.

(1)求直方图中a的值;
(2)用每组区间的中点作为每组用水量的平均值,这9组居民每人的月均用水量前四组的方差都为0.3,后5组的方差都为0.4,求这100户居民月均用水量的方差.
13.亚洲运动会简称亚运会,是亚洲规模最大的综合性运动会,由亚洲奥林匹克理事会的成员国轮流主办,每四年举办一届.1951年第1届亚运会在印度首都新德里举行,七十多年来亚洲运动员已成为世界体坛上一支不可忽视的力量,而中国更是世界的体育大国和亚洲的体育霸主.第19届杭州2022年亚运会将于2023年9月23日至10月8日举办,为普及体育知识,增强群众体育锻炼意识,某地举办了亚运知识竞赛活动.活动分为男子组和女子组进行,最终决赛男女各有40名选手参加,右图是其中男子组成绩的频率分布直方图(成绩介于85到145之间),

(1)求图中缺失部分的直方图的高度,并估算男子组成绩排名第10的选手分数;
(2)若计划从男子组中105分以下的选手中随机抽样调查2个同学的答题状况,则抽到的选手中至少有1位是95分以下选手的概率是多少?
(3)若女子组40位选手的平均分为117,标准差为12,试求所有选手的平均分和方差.
14.某中学组织了数学知识竞赛,从参加考试的学生中抽出40名学生,将其成绩(均为整数)分成六组,其部分频率分布直方图如图所示.观察图形,回答下列问题.
(1)求成绩在的频率,并补全这个频率分布直方图;
(2)估计这次考试成绩的众数,平均分和方差.
15.某学校为了了解高二年级学生数学运算能力,对高二年级的300名学生进行了一次测试.已知参加此次测试的学生的分数全部介于45分到95分之间,该校将所有分数分成5组:,整理得到如下频率分布直方图(同组数据以这组数据的中间值作为代表).

(1)求的值,并估计此次校内测试分数的平均值;
(2)学校要求按照分数从高到低选拔前30名的学生进行培训,试估计这30名学生的最低分数;
(3)试估计这300名学生的分数的方差,并判断此次得分为52分和94分的两名同学的成绩是否进入到了范围内?
(参考公式:,其中为各组频数;参考数据:)
易错点四:忽略百分位数两种情况的选取(百分位数的考查)
百分位数
①百分位数定义:一般地,一组数据的第p百分位数是这样一个值,它使得这组数据中至少有p%的数据小于或等于这个值,且至少有(100-p)%的数据大于或等于这个值.
②常用的百分位数
1.四分位数:第25百分位数,第50百分位数,第75百分位数.
2.其它常用的百分位数:第1百分位数,第5百分位数,第95百分位数,第99百分位数.
③计算一组n个数据的第p百分位数的一般步骤如下:
第一步:按从小到大排列原始数据;
第二步:计算i=n×p%;
第三步:若i不是整数,而大于i的比邻整数为j,则第p百分位数为第j项数据;若i是整数,则第p百分位数为第i项与第(i+1)项数据的平均数.
易错提醒:若i不是整数,而大于i的比邻整数为j,则第p百分位数为第j项数据;若i是整数,则第p百分位数为第i项与第(i+1)项数据的平均数.
例.某高校承办了杭州亚运会志愿者选拔的面试工作.现随机抽取了100名候选者的面试成绩,并分成五组:第一组,第二组,第三组,第四组,第五组,绘制成如图所示的频率分布直方图.已知第三、四、五组的频率之和为0.7,第一组和第五组的频率相同.

(1)求,的值;
(2)估计这100名候选者面试成绩的第65百分位数(分位数精确到0.1);
(3)在第四,第五两组志愿者中,采用分层抽样的方法从中抽取5人,然后再从这5人中选出2人,以确定组长人选,求选出的两人来自同一组的概率.
变式1.某市政府为了倡议市民节约用电,计划对居民生活用电费用实施阶梯式电价制度,即确定一户居民月均用电量标准 a,用电量不超过 a的部分按照平价收费,超出部分按议价收费.为了确定一个合理的标准,从某小区抽取了100户居民进行用电量调查单位,并绘制了如图所示的频率分布直方图:
(1)求x的值:
(2)求被调查用户的月用电量平均值:同一组数据用该区间的中点值作代表
(3)若使居民用户的水费支出不受影响,应确定a值为多少?
变式2.长沙市某中学近几年加大了对学生奥赛的培训,为了选择培训的对象,2023年5月该中学进行一次数学竞赛,从参加竞赛的同学中,选取50名同学将其成绩(百分制,均为整数)分成六组:第1组,第2组,第3组,第4组,第5组,第6组,得到频率分布直方图(如图),观察图中信息,回答下列问题:

(1)根据频率分布直方图,估计本次考试成绩的平均数和第71百分位数(同一组中的数据用该组区间的中点值作代表);
(2)已知学生成绩评定等级有优秀、良好、一般三个等级,其中成绩不小于90分时为优秀等级,若从成绩在第5组和第6组的学生中,随机抽取2人,求所抽取的2人中至少有1人成绩优秀的概率.
变式3.一个容量为20的样本,其数据按从小到大的顺序排列为:1,2,2,3,5,6,6,7,8,8,9,10,13,13,14,15,17,17,18,18,则该组数据的第75百分位数为 ,第86百分位数为 .
1.以下数据为某学校参加学科节数学竞赛决赛的10人的成绩:(单位:分)72,78,79,80,81,83,84,86,88,90.这10人成绩的第百分位数是85,则( )
A.65 B.70 C.75 D.80
2.某校排球社的同学为训练动作组织了垫排球比赛,以下为根据排球社位同学的垫球个数画的频率分布直方图,所有同学垫球数都在之间.估计垫球数的样本数据的第百分位数是( )
A. B. C. D.
3.“幸福感指数”是指人们主观地评价自己目前生活状态的满意程度的指标,常用区间内的一个数来表示,该数越接近10表示满意程度越高.现随机抽取10位某小区居民,他们的幸福感指数分别为3,4,5,5,6,6,7,8,9,10,则这组数据的第80百分位数是( )
A.7.5 B.8 C.8.5 D.9
4.为了进一步学习贯彻党的二十大精神,推进科普宣传教育,激发学生的学习热情,营造良好的学习氛围,不断提高学生对科学 法律 健康等知识的了解,某学校组织全校班级开展“红色百年路 科普万里行”知识竞赛.现抽取10个班级的平均成绩:,据此估计该校各个班级平均成绩的第40百分位数为( )
A.77 B.78 C.76 D.80
5.某地一年之内12个月的月降水量分别为:46,51, 48,53,56, 53,56,64,58,56,66,71,则下列说法正确的是( )
A.该地区的月降水量20%分位数为51
B.该地区的月降水量50%分位数为53
C.该地区的月降水量75%分位数为61
D.该地区的月降水量80%分位数为64
6.习近平总书记强调,要坚持健康第一的教育理念,加强学校体育工作,推动青少年文化学习和体育锻炼协调发展.某学校对高一年级学生每周在校体育锻炼时长(单位:小时)进行了统计,得到如下频率分布表:
分组
频率 0.25 0.30 0.20 0.25
则下列关于高一年级学生每周体育锻炼时长的说法中正确的是( )
A.众数约为2.5
B.中位数约为3.83
C.平均数为3.95
D.第80百分位数约为5.2
7.某公司为了解用户对其产品的满意度,随机调查了10个用户,得到用户对产品的满意度评分如表所示,评分用区间内的一个数来表示,该数越接近10表示满意度越高,则下列说法正确的( )
7 8 9 7 5 4 10 9 4 7
A.这组数据的平均数为0
B.这组数据的众数为7
C.这组数据的极差为6
D.这组数据的第75百分位数为9
8.人均国内生产总值是人们了解和把握一个国家或地区的宏观经济运行状况的有效工具,即“人均GDP”,常作为发展经济学中衡量经济发展状况的指标,是最重要的宏观经济指标之一.在国家统计局的官网上可以查询到我国2013年至2022年人均国内生产总值(单位:元)的数据,如图所示,则( )
A.2013年至2022年人均国内生产总值逐年递增
B.2013年至2022年人均国内生产总值的极差为42201
C.这10年的人均国内生产总值的80%分位数是71828
D.这10年的人均国内生产总值的增长量最小的是2020年
9.已知互不相同的30个样本数据,若去掉其中最大和最小的数据,设剩下的28个样本数据的方差为,平均数为;去掉的两个数据的方差为,平均数为﹔原样本数据的方差为,平均数为,若=,则下列说法正确的是( )
A.
B.
C.剩下28个数据的中位数大于原样本数据的中位数
D.剩下28个数据的22%分位数不等于原样本数据的22%分位数
10.8名学生参加跑的成绩(单位:s)分别为13.10,12.99,13.01,13.20,13.01,13.20,12.91,13.01,则( )
A.极差为0.29 B.众数为13.01
C.平均数近似为13.05 D.第75百分位数为13.10
11.党的二十大报告提出,要加快发展数字经济,促进数字经济与实体经济的深度融合,数字化构建社区服务新模式成为一种时尚.某社区为优化数字化社区服务,问卷调查调研数字化社区服务的满意度,满意度采用计分制(满分100分),统计满意度绘制成如下频率分布直方图,图中.则下列结论正确的是( )
A.
B.满意度计分的众数为80分
C.满意度计分的分位数是85分
D.满意度计分的平均分是76.5
12.某校1500名学生参加数学竞赛,随机抽取了40名学生的竞赛成绩(单位:分),成绩的频率分布直方图如图所示,则( )

A.频率分布直方图中a的值为0.005 B.估计这40名学生的竞赛成绩的第60百分位数为75
C.估计这40名学生的竞赛成绩的众数为80 D.估计总体中成绩落在内的学生人数为225
13.甘肃省2017到2022年常住人口变化图如图所示:

则( )
A.甘肃省2017到2020年这4年的常住人口呈递增趋势
B.甘肃省2017到2022年这6年的常住人口的第40百分位数为2501.98万
C.甘肃省2017到2022年这6年的常住人口的极差为156.41万
D.从2017到2022年这6年中任选1年,则该年的甘肃省常住人口大于2500万的概率为
14.下表是某公司的月固定工资统计表:
总工程师 工程师 技术员A 技术员B 技术员C 技术员D 技术员E 见习技术员
固定工资(元) 9000 7000 4000 3200 2600 2000 1500 1000
由该表能判断出该公司职工固定工资的75%分位数是 元.
15.某城市30天的空气质量指数如下:29,26,28,29,38,29,26,26,40,31,35,44,33,28,80,86,65,53,70,34,36,,31,38,63,60,56,34,74,34.则这组数据的第75百分位数为 .
易错点五:忽略相关性检验而出错(统计案例)
Ⅰ:变量间的相关关系
1.变量之间的相关关系
当自变量取值一定时,因变量的取值带有一定的随机性,则这两个变量之间的关系叫相关关系.由于相关关系的不确定性,在寻找变量之间相关关系的过程中,统计发挥着非常重要的作用.我们可以通过收集大量的数据,在对数据进行统计分析的基础上,发现其中的规律,对它们的关系作出判断.
注意:相关关系与函数关系是不同的,相关关系是一种非确定的关系,函数关系是一种确定的关系,而且函数关系是一种因果关系,但相关关系不一定是因果关系,也可能是伴随关系.
2.散点图
将样本中的个数据点描在平面直角坐标系中,所得图形叫做散点图.根据散点图中点的分布可以直观地判断两个变量之间的关系.
(1)如果散点图中的点散布在从左下角到右上角的区域内,对于两个变量的这种相关关系,我们将它称为正相关,如图(1)所示;
(2)如果散点图中的点散布在从左上角到右下角的区域内,对于两个变量的这种相关关系,我们将它称为负相关,如图(2)所示.
3.相关系数
若相应于变量的取值,变量的观测值为,则变量与的相关系数,通常用来衡量与之间的线性关系的强弱,的范围为.
(1)当时,表示两个变量正相关;当时,表示两个变量负相关.
(2)越接近,表示两个变量的线性相关性越强;越接近,表示两个变量间几乎不存在线性相关关系.当时,所有数据点都在一条直线上.
(3)通常当时,认为两个变量具有很强的线性相关关系.
Ⅱ:线性回归
1.线性回归
线性回归是研究不具备确定的函数关系的两个变量之间的关系(相关关系)的方法.
对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn),其回归方程的求法为
其中,,,(,)称为样本点的中心.
2.残差分析
对于预报变量,通过观测得到的数据称为观测值,通过回归方程得到的称为预测值,观测值减去预测值等于残差,称为相应于点的残差,即有.残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.
(1)残差图
通过残差分析,残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,其中这样的带状区域的宽度越窄,说明模型拟合精确度越高;反之,不合适.
(2)通过残差平方和分析,如果残差平方和越小,则说明选用的模型的拟合效果越好;反之,不合适.
(3)相关指数
用相关指数来刻画回归的效果,其计算公式是:.
越接近于,说明残差的平方和越小,也表示回归的效果越好.
Ⅲ:非线性回归
解答非线性拟合问题,要先根据散点图选择合适的函数类型,设出回归方程,通过换元将陌生的非线性回归方程化归转化为我们熟悉的线性回归方程.
求出样本数据换元后的值,然后根据线性回归方程的计算方法计算变换后的线性回归方程系数,还原后即可求出非线性回归方程,再利用回归方程进行预报预测,注意计算要细心,避免计算错误.
1.建立非线性回归模型的基本步骤:
(1)确定研究对象,明确哪个是解释变量,哪个是预报变量;
(2)画出确定好的解释变量和预报变量的散点图,观察它们之间的关系(是否存在非线性关系);
(3)由经验确定非线性回归方程的类型(如我们观察到数据呈非线性关系,一般选用反比例函数、二次函数、指数函数、对数函数、幂函数模型等);
(4)通过换元,将非线性回归方程模型转化为线性回归方程模型;
(5)按照公式计算线性回归方程中的参数(如最小二乘法),得到线性回归方程;
(6)消去新元,得到非线性回归方程;
(7)得出结果后分析残差图是否有异常.若存在异常,则检查数据是否有误,或模型是否合适等.
Ⅳ:独立性检验
1.分类变量和列联表
(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.
(2)列联表:
①定义:列出的两个分类变量的频数表称为列联表.
②2×2列联表.
一般地,假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为
总计
总计
从列表中,依据与的值可直观得出结论:两个变量是否有关系.
2.等高条形图
(1)等高条形图和表格相比,更能直观地反映出两个分类变量间是否相互影响,常用等高条形图表示列联表数据的频率特征.
(2)观察等高条形图发现与相差很大,就判断两个分类变量之间有关系.
3.独立性检验
(1)定义:利用独立性假设、随机变量来确定是否有一定把握认为“两个分类变量有关系”的方法称为两个分类变量的独立性检验.
(2)公式:,其中为样本容量.
(3)独立性检验的具体步骤如下:
①计算随机变量的观测值,查下表确定临界值:
0.5 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001
0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828
②如果,就推断“与有关系”,这种推断犯错误的概率不超过;否则,就认为在犯错误的概率不超过的前提下不能推断“与有关系”.
【常用结论】
常见的非线性回归模型
(1)指数函数型(且,)
两边取自然对数,,即,
令,原方程变为,然后按线性回归模型求出,.
(2)对数函数型
令,原方程变为,然后按线性回归模型求出,.
(3)幂函数型
两边取常用对数,,即,
令,原方程变为,然后按线性回归模型求出,.
(4)二次函数型
令,原方程变为,然后按线性回归模型求出,.
(5)反比例函数型型
令,原方程变为,然后按线性回归模型求出,.
易错提醒:已知数据求回归直线方程,应根据散点图分析变量之间是否满足线性关系,或求相关系数r进行线性相关性的检验,如是非线性的关系,应转化为线性关系,再求解.
例.某乡政府为提高当地农民收入,指导农民种植药材,取得较好的效果.以下是某农户近5年种植药材的平均收入的统计数据:
年份 2018 2019 2020 2021 2022
年份代码x 1 2 3 4 5
平均收入y(千元) 59 61 64 68 73
(1)根据表中数据,现有与两种模型可以拟合y与x之间的关系,请分别求出两种模型的回归方程;(结果保留一位小数)
(2)统计学中常通过比较残差的平方和来比较两个模型的拟合效果,已知的残差平方和是3.5,请根据残差平方和说明上述两个方程哪一个拟合效果更好,并据此预测2023年该农户种植药材的平均收入.
参考数据及公式:,,其中.,.
变式1.国务院印发《新时期促进集成电路产业和软件产业高质量发展的若干政策》.某科技公司响应国家号召,加大了芯片研究投入力度.从2022年起,芯片的经济收入逐月攀升,该公司在2022年的第一月份至第六月份的月经济收入(单位:百万元)关于月份的数据如下表所示:
时间(月份) 1 2 3 4 5 6
月收入(百万元) 6 9 15 22 33 47
(1)请你根据提供数据,判断与(均为常数)哪一个适宜作为该公司月经济收入关于月份的回归方程类型?(给出判断即可,不必说明理由)
(2)根据(1)的结果及表中的数据,求出关于的回归方程;
(3)从这6个月中抽取3个,记月收入超过16百万的个数为,求的分布列和数学期望.参考数据:
2.86 17.50 142 7.29
其中设
参考公式和数据:对于一组具有线性相关关系的数据,其回归直线的斜率和截距的最小二乘估计公式分别为:.
变式2.2020年11月,国务院办公厅印发《新能源汽车产业发展规划(2021-2035年)》,要求深入实施发展新能源汽车国家战略,推动中国新能源汽车产业高质量可持续发展,加快建设汽车强国.同时为了推广新能源替代传统非绿色能源,除了财政补贴、税收优惠等激励性政策外,可间接通过前期技术研发支持等政策引导能源发展方向.某企业多年前就开始进行新能源汽车方面的研发,现对近10年的年技术创新投入和每件产品成本(,2,3,…,10)的数据进行分析,得到如下散点图,

并计算得:,,,,.
(1)根据散点图可知,可用函数模型拟合y与x的关系,试建立y关于x的回归方程;
(2)已知该产品的年销售额m(单位:千万元)与每件产品成本y的关系为.该企业的年投入成本除了年技术创新投入,还要投入其他成本10千万元,根据(1)的结果回答:当年技术创新投入x为何值时,年利润的预报值最大 (注:年利润年销售额年投入成本)
参考公式:对于一组数据,,…,,其回归直线的斜率和截距的最小二乘估计分别为:,.
变式3.台山市镇海湾蚝是台山市著名的特产,因镇海湾的生蚝田处于咸淡水交汇之地,所以这里的生蚝长得比其他地方肥大,味道更加鲜美.2023年镇海湾某养殖基地考虑增加人工投入,根据市场调研与模拟,得到人工投入增量x人与年收益增量y万元的数据和散点图分别如下:
x 2 3 4 6 8 10 13
y 13 22 31 42 50 56 58

根据散点图,建立了y与x的两个回归模型:
模型①:;模型②:
(1)求出模型②中y关于x的回归方程(精确到0.1);
(2)比较模型①,②的决定系数的大小,说明哪个模型拟合效果更好,并用该模型预测,要使年收益增量超过80万元,人工投入增量至少需要多少人?(精确到1)
线性回归方程的系数:
,;
模型的决定系数:.
参考数据:令,则,且,,,;模型①中;模型②中.
1.为帮助乡村脱贫,某勘探队计划了解当地矿脉某金属的分布情况,测得了平均金属含量(单位:)与样本对原点的距离(单位:m)的数据,并作了初步处理,得到了下面的一些统计理的值.(表中,)
6 97.90 0.21 60 0.14 14.12 26.13
(1)利用样本相关系数的知识,判断与哪一个更适宜作为平均金属含量关于样本对原点的距离的回归方程类型?
(2)根据(1)的结果回答下列问题:
①建立关于的回归方程;
②样本对原点的距离时,金属含量的预报值是多少?
附:对于一组数据,其线性相关系数,其回归直线的斜率和截距的最小二乘估计分别为:,.
2.一座城市的夜间经济不仅有助于拉动本地居民内需,还能延长外地游客、商务办公者等的留存时间,带动当地经济发展,是衡量一座城市生活质量、消费水平、投资环境及文化发展活力的重要指标.数据显示,近年来中国各地政府对夜间经济的扶持力度加大,夜间经济的市场发展规模保持稳定增长,下表为2017—2022年中国夜间经济的市场发展规模(单位:万亿元),其中2017—2022年对应的年份代码依次为1~6.
年份代码 1 2 3 4 5 6
中国夜间经济的市场发展规模万亿元 20.5 22.9 26.4 30.9 36.4 42.4
(1)已知可用函数模型拟合与的关系,请建立关于的回归方程(的值精确到0.01);
(2)某传媒公司预测2023年中国夜间经济的市场规模将达到48.1万亿元,现用(1)中求得的回归方程预测2023年中国夜间经济的市场规模,若两个预测规模误差不超过1万亿元,则认为(1)中求得的回归方程是理想的,否则是不理想的,判断(1)中求得的回归方程是否理想.参考数据:
3.366 73.282 17.25 1.16 2.83
其中.
参考公式:对于一组数据,其回归直线的斜率和截距的最小二乘估计分别为.
3.中国茶文化博大精深,饮茶深受大众喜爱,茶水的口感与茶叶类型和水的温度有关,某数学建模小组为了获得茶水温度y(单位:)关于时间x(单位:min)的回归方程模型,通过实验收集在室温,用同一温度的水冲泡的条件下,茶水温度随时间变化的7组数据,并对数据做初步处理得到如图所示散点图以及如表所示数据.

73.5 3.85
表中:,
(1)根据散点图判断,①与②哪一个更适宜作为该茶水温度y关于时间x的回归方程类型?(给出判断即可,不必说明理由)请根据你的判断结果及表中数据建立该茶水温度y关于时间x的回归方程;
(2)已知该茶水温度降至口感最佳,根据(1)中的回归方程,求在相同条件下冲泡的茶水,大约需要放置多长时间才能达到最佳饮用口感?
附:(1)对于一组数据,…,,其回归直线的斜率和截距的最小二乘估计分别为,
(2)参考数据:,,,,
4.当前,新一轮科技革命和产业变革蓬勃兴起,以区块链为代表的新一代信息技术迅猛发展,现收集某地近6年区块链企业总数量相关数据,如下表:
年份 2017 2018 2019 2020 2021 2022
编号 1 2 3 4 5 6
企业总数量(单位:百个) 50 78 124 121 137 352
(1)若用模型拟合与的关系,根据提供的数据,求出与的经验回归方程;
(2)为了促进公司间的合作与发展,区块链联合总部决定进行一次信息化技术比赛,邀请甲、乙、丙三家区块链公司参赛.比赛规则如下:①每场比赛有两个公司参加,并决出胜负;②每场比赛获胜的公司与未参加此场比赛的公司进行下一场的比赛;③在比赛中,若有一个公司首先获胜两场,则本次比赛结束,该公司获得此次信息化比赛的“优胜公司”.已知在每场比赛中,甲胜乙的概率为,甲胜丙的概率为,乙胜丙的概率为,若首场由甲乙比赛,求甲公司获得“优胜公司”的概率.
参考数据:,其中,
参考公式:对于一组数据,其经验回归直线的斜率和截距的最小二乘估计分别为
5.某出版社单册图书的成本费y(元)与印刷册数x(千册)有关,经统计得到数据如下:
x 1 2 3 5 7 10 11 20 25 30
y 9.02 5.27 4.06 3.03 2.59 2.28 2.21 1.89 1.80 1.75
(1)根据以上数据画出散点图(可借助统计软件),并根据散点图判断:与中哪一个适宜作为回归方程模型
(2)根据(1)的判断结果,试建立成本费y关于印刷册数x的回归方程;
(3)利用回归方程估计印刷26000册图书的单册成本(结果保留两位小数).
6.红蜘蛛是柚子的主要害虫之一,能对柚子树造成严重伤害,每只红蜘蛛的平均产卵数y(个)和平均温度x(℃)有关,现收集了以往某地的7组数据,得到下面的散点图及一些统计量的值.

(1)根据散点图判断,与(其中…为自然对数的底数)哪一个更适合作为平均产卵数y(个)关于平均温度x(℃)的回归方程类型?(给出判断即可,不必说明理由)
(2)由(1)的判断结果及表中数据,求出y关于x的回归方程.(计算结果精确到0.1)
附:回归方程中,,
参考数据()
5215 17713 714 27 81.3 3.6
(3)根据以往每年平均气温以及对果园年产值的统计,得到以下数据:平均气温在22℃以下的年数占60%,对柚子产量影响不大,不需要采取防虫措施;平均气温在22℃至28℃的年数占30%,柚子产量会下降20%;平均气温在28℃以上的年数占10%,柚子产量会下降50%.为了更好的防治红蜘蛛虫害,农科所研发出各种防害措施供果农选择.
在每年价格不变,无虫害的情况下,某果园年产值为200万元,根据以上数据,以得到最高收益(收益=产值-防害费用)为目标,请为果农从以下几个方案中推荐最佳防害方案,并说明理由.
方案1:选择防害措施A,可以防止各种气温的红蜘蛛虫害不减产,费用是18万;
方案2:选择防害措施B,可以防治22℃至28℃的蜘蛛虫害,但无法防治28℃以上的红蜘蛛虫害,费用是10万;
方案3:不采取防虫害措施.
7.在一次抽样调查中测得个样本点,得到下表及散点图.

(1)根据散点图判断与哪一个适宜作为关于的回归方程;(给出判断即可,不必说明理由)
(2)根据(1)的判断结果试建立与的回归方程;(计算结果保留整数)
参考公式:
8.为了研究某种细菌随天数变化的繁殖个数,收集数据如下:
天数 1 2 3 4 5 6
繁殖个数 6 12 25 49 95 190
(1)在图中作出繁殖个数关于天数变化的散点图,并由散点图判断(为常数)与(为常数,且)哪一个适宜作为繁殖个数关于天数变化的回归方程类型?(给出判断即可,不必说明理由)
(2)对于非线性回归方程(为常数,且),令,可以得到繁殖个数的对数z关于天数x具有线性关系及一些统计量的值.
3.50 62.83 3.53 17.50 596.57 12.09
(ⅰ)证明:“对于非线性回归方程,令,可以得到繁殖个数的对数关于天数具有线性关系(即为常数)”;
(ⅱ)根据(ⅰ)的判断结果及表中数据,建立关于的回归方程(系数保留2位小数).
附:对于一组数据,其回归直线方程的斜率和截距的最小二乘估计分别为.
9.抗体药物的研发是生物技术制药领域的一个重要组成部分,抗体药物的摄入量与体内抗体数量的关系成为研究抗体药物的一个重要方面.某研究团队收集了10组抗体药物的摄入量与体内抗体数量的数据,并对这些数据作了初步处理,得到了如图所示的散点图及一些统计量的值,抗体药物摄入量为x(单位:),体内抗体数量为y(单位:).
29.2 12 16 34.4

(1)根据经验,我们选择作为体内抗体数量y关于抗体药物摄入量x的回归方程,将两边取对数,得,可以看出与具有线性相关关系,试根据参考数据建立关于的回归方程,并预测抗体药物摄入量为时,体内抗体数量的值;
(2)经技术改造后,该抗体药物的有效率z大幅提高,经试验统计得z服从正态分布,那这种抗体药物的有效率超过0.54的概率约为多少?
附:①对于一组数据,其回归直线的斜率和截距的最小二乘估计分别为,;
②若随机变量,则有,,;
③取.专题13 统计
易错点一:统计用表中概念不清、识图不准致误(频率分布直方图、总体取值规律)
频率分布直方图
作频率分布直方图的步骤
①求极差:极差为一组数据中最大值与最小值的差.
②决定组距与组数
将数据分组时,一般取等长组距,并且组距应力求“取整”,组数应力求合适,以使数据的分布规律能较清楚地呈现出来.
③将数据分组
④列频率分布表
各小组的频率=.
⑤画频率分布直方图
纵轴表示,实际上就是频率分布直方图中各小长方形的高度,小长方形的面积=组距×=频率.
频率分布直方图的性质
①因为小矩形的面积=组距×=频率,所以各小矩形的面积表示相应各组的频率.这样,频率分布直方图就以面积的形式反映了数据落在各个小组内的频率大小.
②在频率分布直方图中,各小矩形的面积之和等于1.
③=样本容量.
④频率分布直方图反映了样本在各个范围内取值的可能性,由抽样的代表性利用样本在某一范围内的频率,可近似地估计总体在这一范围内的可能性.
易错提醒:频率分布条形图和频率分布直方图是两个完全不同的概念,考生应注意两者之间的区别.虽然它们的横轴表示的内容是相同的,但是频率分布条形图的纵轴表示频率;频率分布直方图的纵轴表示频率与组距的比值,其各小组的频率等于该小组上的矩形的面积.
例:如图所示是某公司(共有员工300人)2021年员工年薪情况的频率分布直方图,由此可知,员工中年薪在1.4万元~1.6万元之间的共有______人.
易错分析:解本题容易出现的错误是审题不细,对所给图形观察不细心,认为员工中年薪在1.4万元~1.6万元之间的频率为,从而得到员工中年薪在1.4万元~1.6万元之间的共有(人)的错误结论.
正解:由所给图形,可知员工中年薪在1.4万元~1.6万元之间的频率为,所以员工中年薪在1.4万元~1.6万元之间的共有(人).故72.
易错警示:考生误认为频率分布直方图中纵轴表示的是频率,这是错误的,而是“频率/组距”,所以频率对应的是各矩形的面积.
变式1:某大学有男生名.为了解该校男生的身体体重情况,随机抽查了该校名男生的体重,并将这名男生的体重(单位:)分成以下六组:、、、、、,绘制成如下的频率分布直方图:
该校体重(单位:)在区间上的男生大约有 人.
【详解】由频率分布直方图可知,该校体重(单位:)在区间上的男生的人数为
.
故答案为:.
变式2:现对某类文物进行某种物性指标检测,从件中随机抽取了件,测量物性指标值,得到如下频率分布直方图,据此估计这件文物中物性指标值不小于的件数为 .
【详解】抽取的件文物中,物性指标值不小于的频率为,
由此估计出件文物中,物性指标值不小于的频率约为,
∴估计这件文物中物性指标值不小于的有件.
故答案为:.
变式3:如图是根据我国部分城市某年6月份的平均气温数据得到的样本频率分布直方图,其中平均气温的范围是[20,26], 样本数据的分组为[20,21), [21,22),[22, 23),[23, 24), [24, 25),[25,26]. 已知样本中平均气温低于22°C的城市个数为11,样本中平均气温不低于25°C的城市个数是 .
【详解】由题意可得:平均气温低于22°C的频率为,平均气温不低于25°C的频率为,
∴样本中平均气温低于22°C的城市个数为11,则样本容量为,
故样本中平均气温不低于25°C的城市的个数为.
故答案为:9.
1.已知某班全体学生在某次数学考试中的成绩(单位:分)的频率分布直方图如图所示,则图中a所代表的数值是 .
【答案】0.015
【分析】根据频率分布直方图结合频率和为1运算求解.
【详解】由频率分布直方图可知每组频率依次为:,
则,解得.
故答案为:0.015.
2.某校共有400名学生参加了趣味知识竞赛(满分:150分),且每位学生的竞赛成绩均不低于90分.将这400名学生的竞赛成绩分组如下:,得到的频率分布直方图如图所示,则这400名学生中竞赛成绩不低于120分的人数为 .
【答案】
【分析】由频率分布直方图的面积和为求出,再计算出结果即可.
【详解】由频率分布直方图可知,解得,
这400名学生中竞赛成绩不低于120分的人数为,
故答案为:
3.从某小学所有学生中随机抽取100名学生,将他们的身高(单位:)数据绘制成频率分布直方图(如图),其中样本数据分组,则= .

【答案】
【分析】根据频率和为,结合图表中数据,列式计算即可.
【详解】根据图表数据可得:,
即,.
故答案为:.
4.某工厂抽取100件产品测其重量(单位:).其中每件产品的重量范围是.数据的分组依次为,据此绘制出如图所示的频率分布直方图,则重量在内的产品件数为 .

【答案】40
【分析】根据直方图确定各组的频率,进而求出的频率,最后估算出对应的产品件数.
【详解】由题设对应频率依次为,
所以的频率为,故重量在内的产品件数为.
故答案为:40
5.某研究小组经过研究发现某种疾病的患病者与未患病者的某项医学指标有明显差异,经过大量调查,得到如下的患病者和未患病者该指标的频率分布直方图:

利用该指标制定一个检测标准,需要确定临界值,将该指标大于的人判定为阳性,小于或等于的人判定为阴性,此检测标准的漏诊率是将患病者判定为阴性的概率,记为;误诊率是将未患病者判定为阳性的概率,记为.假设数据在组内均匀分布,以事件发生的频率作为相应事件发生的概率.设函数,则函数在区间取得最小值时 .
【答案】100
【分析】根据题意结合频率分布直方图求出函数的解析式,然后利用函数的性质求出最小值时的自变量的值即可.
【详解】当时,

有函数在单调递减,
所以,
当时,

有函数在单调递增,
所以,
所以,
所以在上有最小值0.02,
当时取到最小值.
故答案为:100.
6.某大学有男生10000名.为了解该校男生的身体体重情况,随机抽查了该校100名男生的体重,并将这100名男生的体重(单位:kg)分成以下六组:、、、、、,绘制成如图所示的频率分布直方图,该校体重(单位:)在区间上的男生大约有 人.

【答案】
【分析】由频率分布直方图求得体重在区间上男生的频率,由此求得正确答案.
【详解】体重在区间上男生的频率为,
所以在区间上的男生大约有人.
故答案为:
7.某中学为了解高三男生的体能情况,通过随机抽样,获得了200名男生的100米体能测试成绩(单位:秒),将数据按照,,…,分成9组,制成了如图所示的频率分布直方图.由直方图估计本校高三男生100米体能测试成绩大于13.25秒的频率是 .

【答案】0.63/
【分析】根据频率分布直方图中各矩形面积之和为1,可求得a的值,再结合频率分布直方图即可求得答案.
【详解】由频率分布直方图中各矩形面积之和为1,
可得,
解得,
故体能测试成绩大于13.25秒的频率是,
故答案为:0.63
8.某工厂对一批产品的长度(单位:)进行检验,将抽查的产品所得数据分为五组,整理后得到的频率分布直方图如图所示,若长度在以下的产品有30个,则长度在区间内的产品个数为 .

【答案】55
【分析】先根据频率分布直方图求出长度在区间内的频率,根据频率分布直方图求出长度在以下的频率,后用比例相等即可得答案.
【详解】由频率分布直方图可知,长度在区间内的频率为

长度在以下的频率为
则长度在区间内的产品个数为,
故答案为:55.
9.某中学为了解学生的数学学习情况,在全体学生中随机抽取200名,统计这200名学生某次数学考试的成绩,将所得的数据分为7组:,,…,,,并整理得到如下频率分布直方图,则在被抽取的学生中,该次数学考试成绩不低于80分的人数为 .

【答案】
【分析】由频率分布直方图求出在被抽取的学生中,该次数学考试成绩不低于80分的频率,再由频率与频数的关系数学考试成绩不低于80分的人数.
【详解】由频率分布直方图可得在被抽取的学生中,该次数学考试成绩不低于80分的频率为,
所以在被抽取的学生中,该次数学考试成绩不低于80分的人数为,
故答案为:.
10.某区为了解全区名高二学生的体能素质情况,在全区高二学生中随机抽取了名学生进行体能测试,并将这名的体能测试成绩整理成如下频率分布直方图.根据此频率分布直方图,这名学生平均成绩的估计值为 .

【答案】
【分析】根据所有矩形面积之和为求出的值,将每个矩形底边的中点值乘以对应矩形的面积,相加可得这名学生平均成绩.
【详解】由于频率分布直方图中所有矩形面积之和为,
可得,解得,
由频率分布直方图可知,这名学生平均成绩的估计值为
分.
故答案为:.
11.将一个容量为100的样本数据,按照从小到大的顺序分为8个组,如下表:
组号 1 2 3 4 5 6 7 8
频数 10 16 18 15 11 9
若第6组的频率是第3组频率的2倍,则第6组的频率是 .
【答案】/
【分析】求出第6组的频数即得解.
【详解】由题得第3组和第6组的频数和为,
所以第6组的频数为.
所以第6组的频率是.
故答案为:
12.节约用水是中华民族的传统美德,某市政府希望在本市试行居民生活用水定额管理,即确定一个合理的居民月用水量标准(吨),用水量不超过的部分按平价收费,超过的部分按议价收费.为此希望已经学习过统计的小明,来给出建议.为了了解全市居民用水量的分布情况,小明通过随机走访,获得了100位居民某年的月均用水量(单位:吨),将数据按照分成9组,制成了如图所示的频率分布直方图.若该市政府希望使的居民每月的用水量不超过标准(吨),如果你是小明,你觉得的估计值为 (精确到小数点后1位)
【答案】2.9
【分析】由频率分布直方图解得值,估计的居民每月的用水量所在区间后可计算的.
【详解】由频率分布直方图知, ,
解得;
计算月均用水量小于2.5吨的居民人数所占的百分比为,
即71%的居民月均用水量小于2.5吨;
计算月均用水量小于3吨的居民人数所占的百分比为,
即88%的居民月均用水量小于3吨;
故,
假设月均用水量平均分布,则(吨),
即的居民每月用水量不超过标准为吨.
故答案为:2.9.
易错点二:统计中的数字特征的实际意义理解不清楚致误(频率分布直方图特征数考查)
众数、中位数、平均数
①众数:一组数据中出现次数最多的数.
②中位数:把一组数据按从小到大(或从大到小)的顺序排列,处在中间位置的数(或中间两个数的平均数)叫做这组数据的中位数.
③平均数:如果n个数x1,x2,…,xn,那么叫做这n个数的平均数.
总体集中趋势的估计
①平均数、中位数和众数等都是刻画“中心位置”的量,它们从不同角度刻画了一组数据的集中趋势.
②一般地,对数值型数据(如用水量、身高、收入、产量等)集中趋势的描述,可以用平均数、中位数;而对分类型数据(如校服规格、性别、产品质量等级等)集中趋势的描述,可以用众数.
频率分布直方图中平均数、中位数、众数的求法
①样本平均数:可以用每个小矩形底边中点的横坐标与小矩形面积的乘积之和近似代替.
②在频率分布直方图中,中位数左边和右边的直方图的面积应相等.
③将最高小矩形所在的区间中点作为众数的估计值.
易错提醒:利用频率分布直方图求众数、中位数与平均数时,易出错,应注意区分这三者.在频率分布直方图中:
(1)最高的小长方形底边中点的横坐标即是众数;
(2)中位数左边和右边的小长方形的面积和是相等的;
(3)平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘以小长方形底边中点的横坐标之和.
例.某班名学生期中考试数学成绩的频率分布直方图如图所示.根据频率分布直方图,估计该班本次测试众数为 .
解:由题意,因为众数的估计值是频率分布直方图中最高矩形底边的中点的横坐标,
∴众数为.
故答案为:.
变式1:为响应自己城市倡导的低碳出行,小李上班可以选择自行车,他记录了次骑车所用时间(单位:分钟),得到频率分布直方图,则骑车时间的众数的估计值是 分钟

【详解】由频率分布直方图可知,骑车时间的众数的估计值是分钟.
故答案为:.
变式2:数学兴趣小组的四名同学各自抛掷骰子5次,分别记录每次骰子出现的点数,四名同学的部分统计结果如下:
甲同学:中位数为3,方差为2.8; 乙同学:平均数为3.4,方差为1.04;
丙同学:中位数为3,众数为3; 丁同学:平均数为3,中位数为2.
根据统计结果,数据中肯定没有出现点数6的是 同学.
【详解】对于甲同学,当投掷骰子出现结果为1,2,3,3,6时,满足中位数为3,
平均数为:,方差为,可以出现点数6;
对于乙同学,若平均数为3.4,且出现点数6,则方差,
所以当平均数为3.4,方差为1.04时,一定不会出现点数6;
对于丙同学,当掷骰子出现的结果为1,2,3,3,6时,满足中位数为3,众数为3,可以出现点数6;
对于丁同学,当投掷骰子出现的结果为时,满足平均数为,中位数为,可以出现点数.
综上,根据统计结果,数据中肯定没有出现点数6的是乙同学.
故答案为:乙
变式3:以下5个命题中真命题的序号有 .
①样本数据的数字特征中,与众数、中位数比较起来,平均数可以反映出更多的关于样本数据全体的信息;
②若数据,,,…,的标准差为S,则数据,,,…,的标准差为aS;
③将二进制数转化成十进制数是200;
④x是区间[0,5]内任意一个整数,则满足“”的概率是.
【详解】对于命题①,平均数与每一个样本的数据有关,任何一个样本数据的改变都会引起平均数的改变,这是众数、中位数都不具有的性质,故与众数、中位数比较起来,平均数可以反映出更多的关于样本数据全体的信息,命题①是真命题;
对于命题②,数据,,,…,的平均数,,
而数据,,,…,的平均数为,
方差为,
所以,命题②是真命题;
对于命题③,,命题③是真命题;
对于命题④,x是区间[0,5]内任意一个整数,则x可取0、1、2、3、4、5共6种结果,满足“”的有0、1、2共3种结果,故概率为,命题④不是真命题.
故答案为:①②③.
1.2022年11月卡塔尔世界杯如期举行,这是世界足球的一场盛宴.为了了解全民对足球的热爱程度,组委会在某场比赛结束后,随机抽取了1000名观众进行对足球“喜爱度”的调查评分,将得到的分数分成6段:,,,,,,得到如图所示的频率分布直方图.图中部分数据丢失,若已知这1000名观众评分的中位数估计值为87.5,则m= .

【答案】/
【分析】根据中位数之前的矩形面积之和对于列方程求解即可.
【详解】由题可知,,解得.
故答案为:
2.为了普及环保知识,增强环保意识,某中学随机抽取30名学生参加环保知识测试,得分(十分制)如图所示,假设得分值的中位数为,众数为,平均数为,则的大小关系是 .
【答案】
【分析】根据题意求中位数、众数和平均数,进而可对结果.
【详解】由条形统计图可知,30名学生的得分为
得分 3 4 5 6 7 8 9 10
频数 2 3 10 6 3 2 2 2
因为中位数为第15,16个数(分别为5,6)的平均数,所以,
且5出现次数最多,故,
平均数,
因为,即.
故答案为:.
3.《中国居民膳食指南()》数据显示,岁至岁儿童青少年超重肥胖率高达.为了解某地中学生的体重情况,某机构从该地中学生中随机抽取名学生,测量他们的体重(单位:千克),根据测量数据,按,,,,,分成六组,得到的频率分布直方图如图所示.根据调查的数据,估计该地中学生体重的中位数是 .
【答案】
【分析】根据频率分布直方图估计中位数的方法直接计算即可.
【详解】,,
该地中学生体重的中位数位于内,
设中位数为,则,解得:.
故答案为:.
4.为了解某校高三学生的数学成绩,随机地抽查了该校100名高三学生的期中考试数学成绩,得到频率分布直方图如图所示.请根据以上信息,估计该校高三学生数学成绩的中位数为 .(结果保留到小数点后两位)
【答案】
【分析】依据频率分布直方图,计算时对应的数值,即为中位数.
【详解】解:,,所以中位数在之间,
设中位数为,则有,
所以
故答案为:.
5.2021年某省高考体育百米测试中,成绩全部介于12秒与18秒之间,抽取其中100个样本,将测试结果按如下方式分成六组:第一组,第二组,…,第六组,得到如下频率分布直方图.则该100名考生的成绩的中位数(保留一位小数)是 .
【答案】15.3
【分析】由频率分布直方图估计样本的中位数时,可知中位数出现在概率为的地方,即可求解.
【详解】因为前三组频率直方图面积和为,前四组频率直方图面积和为,所以中位数位于第四组内,
设中位数为,则,解得,
故答案为:15.3.
6.200辆汽车通过某一段公路时的时速的频率分布直方图如图所示,则时速的众数、中位数的估计值分别为 .

【答案】65,62.5.
【分析】根据矩形的高确定众数,先计算面积确定中位数所在的区间,再利用公式求出中位数.
【详解】解:∵最高的矩形为第三个矩形,
∴时速的众数的估计值为.
前两个矩形的面积为(0.01+0.03)×10=0.4<,
前三个矩形的面积为(0.01+0.03+0.04)×10=0.8>,
所以中位数在区间,设中位数为,
由题得,解之得.
∴中位数的估计值为62.5.
故答案为:65,62.5.
7.某快递驿站统计了近期每天代收快件的数量,并制成如下图所示的频率分布直方图.
则该快递驿站每天代收包裹数量的中位数为 .
【答案】260
【分析】先确定中位数在区间内,设其为,解方程即得解.
【详解】解:左边第一个矩形的面积为,
左边第二个矩形的面积为,
左边第三个矩形的面积为,
因为,
所以中位数在区间内,设其为,
所以,
所以.
故答案为:260
8.某质检部门对某新产品的质量指标随机抽取100件检测,由检测结果得到如图所示的频率分布直方图.
由频率分布直方图可以认为,该产品的质量指标值服从正态分布,其中近似为样本平均数近似为样本方差.设表示从该种产品中随机抽取10件,其质量指标值位于的件数,则的数学期望= .(精确到)
注:①同一组数据用该区间的中点值作代表,计算得样本标准差;②若,则,.
【答案】
【分析】先求出的近似值即样本平均数,然后结合条件以及注释即可求解.
【详解】计算得,
由条件,从而.
故从该种产品中随机抽取1件,其质量指标值位于的概率是,
所以抽取10件的期望值为.
故答案为:
9.由于受到网络电商的冲击,某品牌的洗衣机在线下的销售受到影响,承受了一定的经济损失,现将地区200家实体店该品牌洗衣机的月经济损失统计如图所示,估算月经济损失的平均数为,中位数为n,则 .
【答案】360
【解析】先计算第一块小矩形的面积,第二块小矩形的面积,,面积和超过0.5,所以中位数在第二块求解,然后再求得平均数作差即可.
【详解】第一块小矩形的面积,第二块小矩形的面积,
故;
而,
故.
故答案为:360.
【点睛】本题考查频率分布直方图、样本的数字特征,考查运算求解能力以及数形结合思想,属于基础题.
10.某大学天文台随机调查了该校100位天文爱好者的年龄,得到如下样本数据频率分布直方图,则估计该校100名天文爱好者的平均岁数为 .

【答案】21.4
【分析】根据频率分布直方图的平均数的计算公式,准确计算,即求解.
【详解】根据频率分布直方图的平均数的计算公式,可得估计该校100名天文爱好者的平均岁数为:
.
故答案为:.
11.众数 平均数和中位数都描述了数据的集中趋势,它们的大小关系和数据分布的形态有关.在如图的分布形态中,分别表示众数 平均数 中位数,则中最小值为 .

【答案】
【分析】将所给的直方图近似看作为一个梯形,再根据众数,平均数和中位数的定义求解.
【详解】将所给的直方图近似看作为一个梯形,则众数m出现在最大的矩形(即从左边数第6个矩形)内,
平均数n出现在从左边数第4个矩形内,中位数p必须保证中位数p两边矩形面积相等,所以出现在从左边数第5个矩形内,
所以n最小;
故答案为:n.
12.如图为某工厂工人生产能力频率分布直方图,则估计此工厂工人生产能力的平均值为 .

【答案】/
【分析】先根据面积之和为1求x,然后根据直方图估计平均值的计算方法求解即可.
【详解】由解得,
所以.
故答案为:
易错点三:运用数字特征作评价时考虑不周(方差、标准差的求算)
方差、标准差
①假设一组数据为,则这组数据的平均数,
方差为,
标准差
②若假设一组数据为,它的平均数为,方差为,
则一组数据为,的平均数为,方差为。
③标准差刻画了数据的离散程度或波动幅度,标准差越大,数据的离散程度越大;标准差越小,数据的离散程度越小.
易错提醒:方差(标准差)越大,说明数据的离散性越大;方差(标准差)越小,说明数据的离散性越小,数据越集中、稳定.用样本的数字特征估计总体的数字特征时,如果抽样的方法比较合理,那么样本可以反映总体的信息,但从样本得到的信息会有偏差,这些偏差是由样本的随机性引起的.虽然样本的数字特征并不是总体真正的数字特征,而是总体的一个估计,但这种估计是合理的,特别是当样本容量很大时,样本的数字特征稳定于总体的数字特征.
例、若甲、乙两台机床同时加工直径为100 mm的零件,为了检验产品的质量,从产品中随机抽取6件进行测量,测得数据如下:(单位:mm):甲:99,100,98,100,103;乙:99,100,102,99,100,100.通过计算,请你说明哪一台机床加工的零件更符合要求.
【错解】==100,
==100,
因为两个机床所加工零件的平均数相等,平均数描绘了数据的平均水平,
所以两台机床加工的零件都符合要求.
【错因】平均数对数据有“取齐”作用,它描述了一组数据的平均水平,定量地反映了数据的集中趋势,因此平均数是与样本数据最接近、最理想的近似值,但由于样本选取的随机性,有时用平均数衡量总体的特征会失之偏颇,因此应进一步计算方差或标准差来比较它们的波动大小.
【正解】==100,
==100,
s=×[(99-100)2+3×(100-100)2+(98-100)2+(103-100)2]=,
s=×[2×(99-100)2+3×(100-100)2+(102-100)2]=1.
s>s,说明甲机床加工的零件波动比较大.
故乙机床加工的零件更符合要求.
变式1:泉州,作为古代海上丝绸之路的起点,具有深厚的历史文化底蕴,是全国同时拥有联合国三大类非遗项目的唯一城市.为高效统筹整合优质文旅资源,文旅局在“五一”假期精心策划文旅活动,使得来泉旅游人数突破了万人次.某数学兴趣小组为了解来泉游客的旅游体验满意度,用问卷的方式随机调查了名来泉旅游的游客,被抽到的游客根据旅游体验给出满意度分值(满分分),该兴趣小组将收集到的数据分成五段:,,,,,处理后绘制了如下频率分布直方图.

(1)求图中的值并估计名游客满意度分值的中位数(结果用分数表示);
(2)已知在的平均数为,方差为,在的平均数为,方差为,试求被调查的名游客的满意度分值的平均数及方差.
【详解】(1)由频率分布直方图可得:,解得

由频率分布直方图,

因此,中位数落在区间内,

可以估计名游客满意度分值的中位数为
(2)把在的平均数记为,方差记为;在的平均数记为,方差记为;在的平均数记为,方差记为
由题得,,,,,
在的频率为,
在的频率为


可得
即被调查的名游客的满意度分值的方差为
变式2:拔尖创新人才是21世纪社会经济发展的巨大动力,培养拔尖创新人才也成为世界各国教育的主要任务.某市为了解市民对拔尖人才培养理念的关注程度,举办了“拔尖人才素养必备”知识普及竞赛,从所有答卷中随机抽取100份作为样本,将样本的成绩(满分100分,成绩均为不低于40分的整数)分成六段:,得到如图所示的频率分布直方图.
(1)求频率分布直方图中的值,并估计该市这次竞赛成绩的众数;
(2)已知落在的平均成绩,方差,落在的平均成绩,方差,求这两组成绩的总平均数和总方差.
【详解】(1)由频率分布直方图可知,,
该市这次竞赛成绩的众数为75分.
(2)落在与的人数比为.
所以,
.
变式3:为了研究网民的上网习惯,某机构随机抽取了年龄在10岁到60岁的网民进行问卷调查,按年龄分为5组,即,,,,,并绘制出频率分布直方图,如图所示.

(1)若按分层抽样的方法,从上述网民中抽取n人做采访,其中年龄在中被抽取的人数为7,求n;
(2)若各区间的值以该区间的中点值作代表,求上述网民年龄的方差的估计值.
【详解】(1)由题意得,,
解得,年龄在中人数所占比例为
则.
(2),,,,五组的频率分别为,
若各区间的值以该区间的中点值作代表,则上述网民年龄的平均值的估计值为(岁)
方差的估计值为
1.已知甲、乙两位同学在一次射击练习中各射靶10次,射中环数频率分布如图所示:

令,分别表示甲、乙射中环数的均值;,分别表示甲、乙射中环数的方差,则( )
A., B.,
C., D.,
【答案】D
【分析】根据频率分布图分别计算,,比较大小可得.
【详解】由图可知,


所以,.
故选:D.
2.某学校组织学生参加数学测试,某班成绩的频率分布直方图如图,数据的分组依次为.若不低于分的人数是人,且同一组中的数据用该组区间的中点值代表,则下列说法中正确的是(  )

A.该班的学生人数是
B.成绩在的学生人数是
C.估计该班成绩的众数是分
D.估计该班成绩的方差为
【答案】ACD
【分析】根据频率与总数关系、频率和为、频率分布直方图估计众数、平均数和方差的方法依次判断各个选项即可.
【详解】对于A,不低于分对应的频率为,
该班的学生人数为,A正确;
对于B,,,
成绩在的学生人数为,B错误;
对于C,成绩在对应的矩形面积最大,估计该班成绩的众数为分,C正确;
对于D,估计该班成绩的平均数为,
方差为,D正确.
故选:ACD.
3.从某企业生产的某种产品中抽取500件,测量这些产品的一项质量指标值,由测量结果得频率分布直方图,则这500件产品质量指标值的样本方差是 (同一组中的数据用该组区间的中点值作代表).
【答案】110
【分析】由频率分布直方图可得数据的平均值,再由方差的公式运算即可得解.
【详解】由频率分布直方图得抽取产品的质量指标值的样本平均值为:

∴样本方差

故答案为:110.
【点睛】本题考查了利用频率分布直方图求数据的方差,考查了运算求解能力,属于基础题.
4.在一次区域统考中,为了了解各学科的成绩情况,从所有考生成绩中随机抽出20位考生的成绩进行统计分析,其中数学学科的频率分布直方图如图所示,据此估计,在本次考试中数学成绩的方差为 .(同一组中的数据用该组区间的中点值作代表)
【答案】110
【解析】根据频率分布直方图,直接利用平均数与方差的公式,即可得到本题答案.
【详解】由题,得

方差
.
故答案为:110
【点睛】本题主要考查利用频率分布图求数据平均数与方差的问题.
5.为了解本市居民的生活成本,甲 乙 丙三名同学利用假期分别对三个社区进行了“家庭每月日常消费额”的调查.他们将调查所得的数据分别绘制成频率分布直方图(如图所示),记甲 乙 丙所调查数据的标准差分别为,,,则它们的大小关系为 .
【答案】
【解析】第二组数据是单峰的每一个小长方形的差别比较小,数字数据较分散,各个段内分布均匀,第一组数据的两端数字较多,绝大部分数字都处在两端最分散,而第三组数据绝大部分数字都在平均数左右,是集中,由此得到结果.
【详解】解:根据三个频率分步直方图知,
第一组数据的两端数字较多,绝大部分数字都处在两端数据偏离平均数远,最分散,其方差最大;
第二组数据绝大部分数字都在平均数左右,数据最集中,故其方差最小,
而第三组数据是单峰的每一个小长方形的差别比较小,数字分布均匀,数据不如第一组偏离平均数大,方差比第一组中数据中的方差小,
总上可知,
故答案为:,
【点睛】本题考查频率分步直方图,考查三组数据的标准差,考查标准差的意义,是比较几组数据的波动大小的量,属于基础题.
6.某工厂从生产的一批产品中随机抽出一部分,对这些产品的一项质量指标进行了检测,整理检测结果得到如下频率分布表:
质量指标分组
频率 0.1 0.6 0.3
据此可估计这批产品的此项质量指标的方差为 .
【答案】144
【分析】由每组数据中点值代替这组数据值,乘以频率相加得平均值,再由方差公式计算方差.
【详解】由题意得这批产品的此项质量指标的平均数为,
故方差为.
故答案为:144.
7.2023年10月22日,汉江生态城2023襄阳马拉松在湖北省襄阳市成功举行,志愿者的服务工作是马拉松成功举办的重要保障,襄阳市新时代文明实践中心承办了志愿者选拔的面试工作.现随机抽取了100名候选者的面试成绩,并分成五组:第一组,第二组,第三组,第四组,第五组,绘制成如图所示的频率分布直方图.已知第一、二组的频率之和为0.3,第一组和第五组的频率相同.

(1)估计这100名候选者面试成绩的平均数和第25百分位数;
(2)现从以上各组中用分层随机抽样的方法选取20人,担任本市的宣传者.
①现计划从第一组和第二组抽取的人中,再随机抽取2名作为组长.求选出的两人来自不同组的概率.
②若本市宣传者中第二组面试者的面试成绩的平均数和方差分别为62和40,第四组面试者的面试成绩的平均数和方差分别为80和70,据此估计这次第二组和第四组面试者所有人的方差.
【答案】(1)平均数为,第25百分位数为63
(2)①;②
【分析】(1)由频率分布直方图列出方程组解出,然后分别计算出平均数和百分位数即可;
(2)①先利用分层抽样的方法计算样本,然后利用古典概型概率求解,然后根据题意计算方差即可.
【详解】(1)由题意可知:,
解得,
可知每组的频率依次为:,
所以平均数等于,
因为,
设第25百分位数为,
则,
解得,
第25百分位数为63.
(2)①根据分层抽样,和的频率比为,
故在和中分别选取1人和5人,分别编号为A和1,2,3,4,5,
则在这6人中随机抽取两个的样本空间包含的样本点有:
,,,,A5,12,13,14,15,23,24,25,34,35,45,
共15个,即,
记事件B“两人来自不同组”,则B包含的样本点有,,,,共5个,
即,所以
②设第二组、第四组的平均数与方差分别为,,,,
且两组频率之比为,
成绩在第二组、第四组的平均数
成绩在第二组、第四组的方差

故估计成绩在第二组、第四组的方差是.
8.古人云“民以食为天”,某校为了了解学生食堂服务的整体情况,进一步提高食堂的服务质量,营造和谐的就餐环境,使同学们能够获得更好的饮食服务为此做了一次全校的问卷调查,问卷所涉及的问题均量化成对应的分数(满分100分),从所有答卷中随机抽取100份分数作为样本,将样本的分数(成绩均为不低于40分的整数)分成六段:,得到如图所示的频数分布表.
样本分数段
频数 5 10 20 a 25 10
频率 0.05 0.1 0.2 b 0.25 0.1
(1)求频数分布表中a和b的值,并求样本成绩的中位数和平均数;
(2)已知落在的分数的平均值为56,方差是7;落在的分数的平均值为65,方差是4,求两组成绩的总平均数和总方差.
【答案】(1),,,
(2)两组市民成绩的总平均数是,总方差是
【分析】(1)根据频率分布直方图的性质,求得,结合中位数、平均数的计算公式,即可求解;
(2)根据分层抽样的分法,得到分数在和的人数,结合分层抽样的方差的计算方法,即可求解.
【详解】(1)解:(1)由,解得,则,
由,所以,
由成绩在的频率为,所以中位数为,
平均数为.
(2)解:由表可知,分数在的市民人数为10人,成绩在的市民人数为20人,
故,
则,
所以两组市民成绩的总平均数是,总方差是.
9.某电信运营公司为响应国家5G网络建设政策,拟实行5G网络流量阶梯定价,每人月用流量中不超过一种流量计算单位的部分按元收费,超过kGB的部分按2元收费,从用户群中随机调查了10000位用户,获得了他们某月的流量使用数据,整理得到如下的频率分布直方图.已知用户月使用流量的中位数为
(1)求表中的
(2)若k为整数,依据本次调查为使以上用户在该月的流量价格为元,则k至少定为多少
(3)为了进一步了解用户使用5G流量与年龄的相关关系,由频率分布直方图中流量在和两组用户中,按人数比例分配的分层抽样方法中抽取了100名用户,已知组用户平均年龄为30,方差为36,流量在组用户的平均年龄为20,方差为16,求抽取的100名用户年龄的方差.
【答案】(1)
(2)
(3)48
【分析】(1)根据频率分布直方图的特征即可求解;
(2)根据频率分布直方图,结合百分位数的求法即可求解;
(3)根据频率分布直方图,结合方差的计算公式即可求解.
【详解】(1),,
(2)通过直方图可知第85百分位数落在第组,

解得,,;
(3)按分层抽样在组抽取40人记为,,,,
则,

在组抽取60人,记为,,
同理可得,平均值为,
抽取的100名用户的方差
10.为建立健全国家学生体质健康监测评价机制,激励学生积极参加身体锻炼,教育部印发《国家学生体质健康标准》,要求各学校每学年开展覆盖本校各年级学生的《标准》测试工作.为做好全省的迎检工作,成都市在高三年级开展了一次体质健康模拟测试,并从中随机抽取了200名学生的数据,根据他们的健康指数绘制了如图所示的频率分布直方图.

(1)估计这200名学生健康指数的平均数和样本方差(同一组数据用该组区间的中点值作代表);
(2)从健康指数在的两组中利用分层抽样抽出7人进行电话回访,并再随机抽出2人赠送奖品,求从7人中抽出的2人来自不同组的概率.
【答案】(1)平均数为60,方差为86
(2)
【分析】(1)根据频率分布直方图求各组频率,结合平均数、方差公式运算求解;
(2)根据分层抽样求分层人数,利用列举法结合古典概型运算求解.
【详解】(1)由频率分布直方图可知分组的频率依次为:,
所以平均数,
方差

所以这200名学生体重的平均数为60,方差为86.
(2)由(1)可知健康指数在的两组的频率之比为,
所以抽取的7人中,有人,记为;
有人,记为.
随机试验的所有可能结果有:,,,,,,,,,
,,,,,,,,,,,共21个基本事件,
其中来自不同组的结果有:,,,,,,,,,,,,共12个基本事件,
所以所求概率为.
11.年入冬以来,为进一步做好疫情防控工作,避免疫情的再度爆发,地区规定居民出行或者出席公共场合均需佩戴口罩,现将地区个居民一周的口罩使用个数统计如下表所示,其中每周的口罩使用个数在以上(含)的有人.
口罩使用数量
频率

(1)求的值,根据表中数据,完善上面的频率分布直方图;(只画图,不要过程)
(2)根据频率分布直方图估计地区居民一周口罩使用个数的分位数和中位数;(四舍五入,精确到)
(3)根据频率分布直方图估计地区居民一周口罩使用个数的平均数以及方差.(每组数据用每组中点值代替)
【答案】(1),;频率分布直方图见解析
(2)分位数为个,中位数为个
(3)平均数为个,方差为.
【分析】(1)根据频数与频率关系可构造方程求得,由此可补全频率分布直方图;
(2)由频率分布直方图估计百分位数和中位数的方法直接求解即可;
(3)由频率分布直方图估计平均数和方差的方法直接求解即可.
【详解】(1)由每周的口罩使用个数在以上(含)的有人得:,解得:,

则频率分布直方图如下:

(2),,
分位数位于,设其为,
则,解得:,即估计分位数为个;
,,
中位数位于,设其为,
则,解得:,即估计中位数为个.
(3)由频率分布直方图得一周内使用口罩的平均数为:(个),
方差为,
则所求平均数估计为个,方差估计为.
12.某市为了制定合理的节水方案,对居民用水情况进行了调查.通过抽样,获得了某年100户居民每人的月均用水量(单位:吨).将数据按照,,…,分成9组,制成了如下图所示的频率分布直方图.

(1)求直方图中a的值;
(2)用每组区间的中点作为每组用水量的平均值,这9组居民每人的月均用水量前四组的方差都为0.3,后5组的方差都为0.4,求这100户居民月均用水量的方差.
【答案】(1)0.30;
(2)1.1136.
【分析】(1)根据给定的频率分布直方图,利用各小矩形面积和为1求出a值作答.
(2)求出100户居民月均用水量的平均数,再列式计算方差作答.
【详解】(1)由频率分布直方图知,数据在
的频率依次,
则由,解得,
所以直方图中a的值为0.30.
(2)由频率分布直方图得100户居民月均用水量的平均数为:

所以这100户居民月均用水量的方差为:
.
13.亚洲运动会简称亚运会,是亚洲规模最大的综合性运动会,由亚洲奥林匹克理事会的成员国轮流主办,每四年举办一届.1951年第1届亚运会在印度首都新德里举行,七十多年来亚洲运动员已成为世界体坛上一支不可忽视的力量,而中国更是世界的体育大国和亚洲的体育霸主.第19届杭州2022年亚运会将于2023年9月23日至10月8日举办,为普及体育知识,增强群众体育锻炼意识,某地举办了亚运知识竞赛活动.活动分为男子组和女子组进行,最终决赛男女各有40名选手参加,右图是其中男子组成绩的频率分布直方图(成绩介于85到145之间),

(1)求图中缺失部分的直方图的高度,并估算男子组成绩排名第10的选手分数;
(2)若计划从男子组中105分以下的选手中随机抽样调查2个同学的答题状况,则抽到的选手中至少有1位是95分以下选手的概率是多少?
(3)若女子组40位选手的平均分为117,标准差为12,试求所有选手的平均分和方差.
【答案】(1),
(2)
(3)平均分为,方差为
【分析】(1)先求出所有矩形的面积,再用1减去这个面积可得缺失部分的面积,除以10可得其高度,可求得第10名的成绩是第75百分位数,然后利用百分位数的定义可求得结果;
(2)求得105以下合计6个人,对这6人编号后,利用列举法求解;
(3)利用平均数和方差的定义求解即可.
【详解】(1)因为已有矩形的面积和为,
所以缺失的矩形面积为,
所以高度为,
由于,所以第10名记为第75百分位数,
设第10名的成绩为,则位于第5组,且,解得,
所以成绩排名第10的选手分数为129;
(2)105以下合计6个人,将6人依次编号为1,2,3,4,5,6(95分以下的人编号为1,2),任选2个人的方法数,
列举出所有样本点:12,13,14,15,16,23,24,25,26,34,35,36,45,46,56共计15种,
包含1,2的有9种,故概率为;
(3)男子组选手的平均分

男子组得分的方差
所有选手的平均得分为,
所以所有选手得分的方差.
14.某中学组织了数学知识竞赛,从参加考试的学生中抽出40名学生,将其成绩(均为整数)分成六组,其部分频率分布直方图如图所示.观察图形,回答下列问题.
(1)求成绩在的频率,并补全这个频率分布直方图;
(2)估计这次考试成绩的众数,平均分和方差.
【答案】(1)0.3,直方图见解析
(2)众数为75,平均分为71分,方差194.
【分析】(1)根据各组的频率和为1可求出的频率,从而可补全频率分布直方图;
(2)根据众数,平均分和方差的定义结合频率分布直方图求解.
【详解】(1)因为各组的频率之和等于1,所以成绩在的频率为
补全频率分布直方图如图所示:

(2)由频率分布直方图可得,这次考试成绩在区间内的最多,因此这次考试成绩的众数为75
利用中值估算学生成绩的平均分:,
方差:,
所以本次考试的众数为75,平均分为71分,方差194.
15.某学校为了了解高二年级学生数学运算能力,对高二年级的300名学生进行了一次测试.已知参加此次测试的学生的分数全部介于45分到95分之间,该校将所有分数分成5组:,整理得到如下频率分布直方图(同组数据以这组数据的中间值作为代表).

(1)求的值,并估计此次校内测试分数的平均值;
(2)学校要求按照分数从高到低选拔前30名的学生进行培训,试估计这30名学生的最低分数;
(3)试估计这300名学生的分数的方差,并判断此次得分为52分和94分的两名同学的成绩是否进入到了范围内?
(参考公式:,其中为各组频数;参考数据:)
【答案】(1),75分
(2)90分
(3)答案见解析
【分析】(1)先由各组的频率和为1,求出,然后利用平均数的定义可求出,
(2)先求出这30 名学生的最低分数就是该次校内测试分数的90%分位数,然后利用百分位的定义求解即可,
(3)先利用方差公式求出方差后再判断即可
【详解】(1),所以,
所以该次校内考试测试分数的平均数的估计值为:
分.
(2)因为,
所以这30名学生的最低分数就是该次校内测试分数的分位数.
该次校内考试测试分数的分位数为
这30名学生的最低分数的估计值为90分.
(3)


得分为52分的同学的成绩没有进入到内,
得分为94分的同学的成绩进入到了内.
即:得分为52分的同学的成绩没有进入到范围,
得分为94分的同学的成绩进入到范围了.
易错点四:忽略百分位数两种情况的选取(百分位数的考查)
百分位数
①百分位数定义:一般地,一组数据的第p百分位数是这样一个值,它使得这组数据中至少有p%的数据小于或等于这个值,且至少有(100-p)%的数据大于或等于这个值.
②常用的百分位数
1.四分位数:第25百分位数,第50百分位数,第75百分位数.
2.其它常用的百分位数:第1百分位数,第5百分位数,第95百分位数,第99百分位数.
③计算一组n个数据的第p百分位数的一般步骤如下:
第一步:按从小到大排列原始数据;
第二步:计算i=n×p%;
第三步:若i不是整数,而大于i的比邻整数为j,则第p百分位数为第j项数据;若i是整数,则第p百分位数为第i项与第(i+1)项数据的平均数.
易错提醒:若i不是整数,而大于i的比邻整数为j,则第p百分位数为第j项数据;若i是整数,则第p百分位数为第i项与第(i+1)项数据的平均数.
例.某高校承办了杭州亚运会志愿者选拔的面试工作.现随机抽取了100名候选者的面试成绩,并分成五组:第一组,第二组,第三组,第四组,第五组,绘制成如图所示的频率分布直方图.已知第三、四、五组的频率之和为0.7,第一组和第五组的频率相同.

(1)求,的值;
(2)估计这100名候选者面试成绩的第65百分位数(分位数精确到0.1);
(3)在第四,第五两组志愿者中,采用分层抽样的方法从中抽取5人,然后再从这5人中选出2人,以确定组长人选,求选出的两人来自同一组的概率.
【详解】(1)因为第三、四、五组的频率之和为0.7,所以,解得,
所以前两组的频率之和为,即,所以;
(2)前两个分组频率之和为0.3,前三个分组频率之和为0.75,所以第65百分位数在65和75之间,
即为;
(3)第四、第五两组志愿者分别有20人,5人,
故按照分层抽样抽得的第四组志愿者人数为4,分别设为,,,,第五组志愿者人数为1,设为,
这5人中选出2人,所有情况有,,,,,,,,,共有10种情况,
其中选出的两人来自同一组的有,,,,,,共6种情况,故选出的两人来自同一组的概率为.
变式1.某市政府为了倡议市民节约用电,计划对居民生活用电费用实施阶梯式电价制度,即确定一户居民月均用电量标准 a,用电量不超过 a的部分按照平价收费,超出部分按议价收费.为了确定一个合理的标准,从某小区抽取了100户居民进行用电量调查单位,并绘制了如图所示的频率分布直方图:
(1)求x的值:
(2)求被调查用户的月用电量平均值:同一组数据用该区间的中点值作代表
(3)若使居民用户的水费支出不受影响,应确定a值为多少?
【详解】(1),解得;
(2)

(3);

故分位数在之间,设为,

解得.
变式2.长沙市某中学近几年加大了对学生奥赛的培训,为了选择培训的对象,2023年5月该中学进行一次数学竞赛,从参加竞赛的同学中,选取50名同学将其成绩(百分制,均为整数)分成六组:第1组,第2组,第3组,第4组,第5组,第6组,得到频率分布直方图(如图),观察图中信息,回答下列问题:

(1)根据频率分布直方图,估计本次考试成绩的平均数和第71百分位数(同一组中的数据用该组区间的中点值作代表);
(2)已知学生成绩评定等级有优秀、良好、一般三个等级,其中成绩不小于90分时为优秀等级,若从成绩在第5组和第6组的学生中,随机抽取2人,求所抽取的2人中至少有1人成绩优秀的概率.
【详解】(1),
所以本次考试成绩的平均分约为66.8;
因为成绩在的频率为,
成绩在的频率为,
所以第71百分位数位于,
设其为,则,
解得,所以第71百分位数为75;
(2)第5组的人数为:人,可记为,,,;
第6组的人数为:人,可记为,,;
则从中任取2人,有,,,,,,,,
,,,,,,,,,,
,,,共21种情况,
其中至少有1人成绩优秀的情况有,,,,,,
,,,,,,,,共15种情况.
所以至少有1人成绩优秀的概率.
变式3.一个容量为20的样本,其数据按从小到大的顺序排列为:1,2,2,3,5,6,6,7,8,8,9,10,13,13,14,15,17,17,18,18,则该组数据的第75百分位数为 ,第86百分位数为 .
【详解】,
第75百分位数为;

第86百分位数为第18个数据17.故答案为:;17.
1.以下数据为某学校参加学科节数学竞赛决赛的10人的成绩:(单位:分)72,78,79,80,81,83,84,86,88,90.这10人成绩的第百分位数是85,则( )
A.65 B.70 C.75 D.80
【答案】B
【分析】由样本数据第百分位的定义求解即可得出答案.
【详解】因为人成绩的第百分位数是,
而,即第位与第位的平均值,
所以是这人成绩的第百分为数.
故选:B.
2.某校排球社的同学为训练动作组织了垫排球比赛,以下为根据排球社位同学的垫球个数画的频率分布直方图,所有同学垫球数都在之间.估计垫球数的样本数据的第百分位数是( )
A. B. C. D.
【答案】D
【分析】根据频率分布直方图可计算得到第百分位数位于区间内,根据百分位数估算的方法可求得结果.
【详解】垫球数在区间内的人数占总数的;
垫球数在区间内的人数占总数的;
第百分位数位于区间内,且,
估计垫球数的样本数据的第百分位数是.
故选:D.
3.“幸福感指数”是指人们主观地评价自己目前生活状态的满意程度的指标,常用区间内的一个数来表示,该数越接近10表示满意程度越高.现随机抽取10位某小区居民,他们的幸福感指数分别为3,4,5,5,6,6,7,8,9,10,则这组数据的第80百分位数是( )
A.7.5 B.8 C.8.5 D.9
【答案】C
【分析】计算得,然后由第8个数据和第9个数据求平均数可得.
【详解】因为,
所以第80百分位数是.
故选:C
4.为了进一步学习贯彻党的二十大精神,推进科普宣传教育,激发学生的学习热情,营造良好的学习氛围,不断提高学生对科学 法律 健康等知识的了解,某学校组织全校班级开展“红色百年路 科普万里行”知识竞赛.现抽取10个班级的平均成绩:,据此估计该校各个班级平均成绩的第40百分位数为( )
A.77 B.78 C.76 D.80
【答案】A
【分析】由第p百分位数计算公式可得答案.
【详解】因共10个数据,则,故该组数据的第40百分位数为从小到大排列第4个数据与第5个数据的平均数,即.
故选:A
5.某地一年之内12个月的月降水量分别为:46,51, 48,53,56, 53,56,64,58,56,66,71,则下列说法正确的是( )
A.该地区的月降水量20%分位数为51
B.该地区的月降水量50%分位数为53
C.该地区的月降水量75%分位数为61
D.该地区的月降水量80%分位数为64
【答案】ACD
【分析】把12个月的月降水量数据从小到大排列,利用百分位数的定义求解即得.
【详解】12个月的月降水量数据从小到大排列为:46,48,51,53,53,56,56,56,58,64, 66,71,
由,该地区的月降水量20%分位数为51,A正确;
由,该地区的月降水量50%分位数为,B错误;
由,该地区的月降水量75%分位数为,C正确;
由,该地区的月降水量80%分位数为64,D正确.
故选:ACD
6.习近平总书记强调,要坚持健康第一的教育理念,加强学校体育工作,推动青少年文化学习和体育锻炼协调发展.某学校对高一年级学生每周在校体育锻炼时长(单位:小时)进行了统计,得到如下频率分布表:
分组
频率 0.25 0.30 0.20 0.25
则下列关于高一年级学生每周体育锻炼时长的说法中正确的是( )
A.众数约为2.5
B.中位数约为3.83
C.平均数为3.95
D.第80百分位数约为5.2
【答案】BCD
【分析】根据众数的定义,中位数的定义,平均数的定义,百分位数的定义即可求解.
【详解】对A,因为最大频率的组的中点值为3.5,则众数大约为3.5,故A错误;
对B,由表可知,中位数在第二组中,设其为,
则,解得,故B正确;
对C,因为平均数为,故C正确;
对D,因为前三组的频率和为0.75,则第80百分位数位于第4组,设其为,
可得,解得,故D正确.
故选:BCD.
7.某公司为了解用户对其产品的满意度,随机调查了10个用户,得到用户对产品的满意度评分如表所示,评分用区间内的一个数来表示,该数越接近10表示满意度越高,则下列说法正确的( )
7 8 9 7 5 4 10 9 4 7
A.这组数据的平均数为0
B.这组数据的众数为7
C.这组数据的极差为6
D.这组数据的第75百分位数为9
【答案】BCD
【分析】先将这组数据从小到大依次排列,然后根据平均数、众数、极差、百分位数的概念,计算求解,即可得出答案.
【详解】将这组数据从小到大依次排列,为4,4,5,7,7,7,8,9,9,10.
对于A项,这组数据的平均数为,选项A错误;
对于B项,这组数据的众数是7,选项B正确;
对于C项,这组数据的极差是,选项C正确;
对于D项,因为,且第8个数是9,所以这组数据的第75百分位数为9,选项D正确.
故选:BCD.
8.人均国内生产总值是人们了解和把握一个国家或地区的宏观经济运行状况的有效工具,即“人均GDP”,常作为发展经济学中衡量经济发展状况的指标,是最重要的宏观经济指标之一.在国家统计局的官网上可以查询到我国2013年至2022年人均国内生产总值(单位:元)的数据,如图所示,则( )
A.2013年至2022年人均国内生产总值逐年递增
B.2013年至2022年人均国内生产总值的极差为42201
C.这10年的人均国内生产总值的80%分位数是71828
D.这10年的人均国内生产总值的增长量最小的是2020年
【答案】ABD
【分析】根据图中数据和极差、百分位数、增长量的定义判断.
【详解】由图可知,2013年至2022年人均国内生产总值逐年递增,A正确;2013年至2022年人均国内生产总值的极差为85698-43497=42201,B正确;因为10×80%=8,所以这10年的人均国内生产总值的80%分位数是.C不正确;由图中数据分析可知,2020年人均同内生产总值的增长为71828-70078=1750(元),是这10年中增长量最小的,D正确.
故选:ABD.
9.已知互不相同的30个样本数据,若去掉其中最大和最小的数据,设剩下的28个样本数据的方差为,平均数为;去掉的两个数据的方差为,平均数为﹔原样本数据的方差为,平均数为,若=,则下列说法正确的是( )
A.
B.
C.剩下28个数据的中位数大于原样本数据的中位数
D.剩下28个数据的22%分位数不等于原样本数据的22%分位数
【答案】ABD
【分析】对于A选项,求出剩下的28个样本数据的和、去掉的两个数据和、原样本数据和,列出方程即可;
对于B选项,写出和的表达式即可;
对于C选项,根据中位数定义判断即可;
对于D选项,根据分位数定义判断即可.
【详解】A. 剩下的28个样本数据的和为,去掉的两个数据和为,原样本数据和为,所以,因为=,所以,故A选项正确;
B.设,,
因为,所以,所以,
所以,故B选项正确;
C. 剩下28个数据的中位数等于原样本数据的中位数,故C选项错误;
D.去掉2个数据,则剩下28个数据的22%分位数不等于原样本数据的22%分位数,故D正确.
故选:ABD.
10.8名学生参加跑的成绩(单位:s)分别为13.10,12.99,13.01,13.20,13.01,13.20,12.91,13.01,则( )
A.极差为0.29 B.众数为13.01
C.平均数近似为13.05 D.第75百分位数为13.10
【答案】ABC
【分析】根据极差,众数,平均数,百分位数的概念逐项分析.
【详解】将该组数据从小到大排列为:12.91,12.99,13.01,13.01,13.01,13.10,13.20,13.20.
对于A:极差为,故A正确;
对于B:这组数据中13.01出现3次,众数为13.01,故B正确;
对于C:平均数为,故C正确;
对于D:因为共有8个数据,所以,则第75百分位数为.所以D错误.
故选:ABC.
11.党的二十大报告提出,要加快发展数字经济,促进数字经济与实体经济的深度融合,数字化构建社区服务新模式成为一种时尚.某社区为优化数字化社区服务,问卷调查调研数字化社区服务的满意度,满意度采用计分制(满分100分),统计满意度绘制成如下频率分布直方图,图中.则下列结论正确的是( )
A.
B.满意度计分的众数为80分
C.满意度计分的分位数是85分
D.满意度计分的平均分是76.5
【答案】ACD
【分析】根据频率之和为1即可求解A,根据众数,中位数以及平均数的计算即可分别求解BCD.
【详解】由频率分布直方图可知,即,
又,所以,所以选项正确;
满意度计分的众数为75分,所以选项错误;
前三组的频率之和为0.75,
前四组的频率之和为,则分位数,
故,满意度计分的分位数为85,所以选项正确;
满意度计分的平均分为:分,所以选项D正确.
故选:ACD.
12.某校1500名学生参加数学竞赛,随机抽取了40名学生的竞赛成绩(单位:分),成绩的频率分布直方图如图所示,则( )

A.频率分布直方图中a的值为0.005 B.估计这40名学生的竞赛成绩的第60百分位数为75
C.估计这40名学生的竞赛成绩的众数为80 D.估计总体中成绩落在内的学生人数为225
【答案】AD
【分析】先根据频率之和为1可得,进而可求每组的频率,再结合统计相关知识逐项分析判断即可.
【详解】由,可得,故A正确;
前三个矩形的面积和为,
所以这名学生的竞赛成绩的第百分位数为,故B错误;
由成绩的频率分布直方图易知,这名学生的竞赛成绩的众数为,故C 错误;
总体中成绩落在内的学生人数为,故D正确.
故选:AD
13.甘肃省2017到2022年常住人口变化图如图所示:

则( )
A.甘肃省2017到2020年这4年的常住人口呈递增趋势
B.甘肃省2017到2022年这6年的常住人口的第40百分位数为2501.98万
C.甘肃省2017到2022年这6年的常住人口的极差为156.41万
D.从2017到2022年这6年中任选1年,则该年的甘肃省常住人口大于2500万的概率为
【答案】BD
【分析】A.由条形图判断;B.利用第百分位数的定义求解判断;C.利用极差的定义求解判断;D.利用古典概型的概率求解判断.
【详解】由图可知,A错误.
甘肃省2017到2022年这6年的常住人口(单位:万)按照从小到大的顺序排列为2490.02,2492.42,2501.98,2625.71,2637.26,2647.43,
因为,所以这6年的常住人口的第40百分位数为2501.98万,B正确.
甘肃省2017到2022年这6年的常住人口的极差为万,C错误.
从2017到2022年这6年中任选1年,则该年的甘肃省常住人口大于2500万的概率为,D正确.
故选:BD
14.下表是某公司的月固定工资统计表:
总工程师 工程师 技术员A 技术员B 技术员C 技术员D 技术员E 见习技术员
固定工资(元) 9000 7000 4000 3200 2600 2000 1500 1000
由该表能判断出该公司职工固定工资的75%分位数是 元.
【答案】5500
【分析】利用百分位数的定义求解即可.
【详解】由,
所以该公司职工固定工资的75%分位数为表中从右到左的第6个数与第7个数的平均数,
即为.
故答案为:5500.
15.某城市30天的空气质量指数如下:29,26,28,29,38,29,26,26,40,31,35,44,33,28,80,86,65,53,70,34,36,,31,38,63,60,56,34,74,34.则这组数据的第75百分位数为 .
【答案】56
【分析】把给定数据按由小到大的顺序排列,再根据第p百分位数的定义求解即得.
【详解】显然,30个数据由小到大排列为:
26,26,26,28,28,29,29,29,31,31,33,34,34,34,35,36,38,38,40,
44,,53,56,60,63,65,70,74,80,86,
或者26,26,26,28,28,29,29,29,31,31,33,34,34,34,35,36,38,38,
40,,44,53,56,60,63,65,70,74,80,86,
由,得这组数据的第75百分位数为上述排列后的从小到大的第23个数56.
故答案为:56
易错点五:忽略相关性检验而出错(统计案例)
Ⅰ:变量间的相关关系
1.变量之间的相关关系
当自变量取值一定时,因变量的取值带有一定的随机性,则这两个变量之间的关系叫相关关系.由于相关关系的不确定性,在寻找变量之间相关关系的过程中,统计发挥着非常重要的作用.我们可以通过收集大量的数据,在对数据进行统计分析的基础上,发现其中的规律,对它们的关系作出判断.
注意:相关关系与函数关系是不同的,相关关系是一种非确定的关系,函数关系是一种确定的关系,而且函数关系是一种因果关系,但相关关系不一定是因果关系,也可能是伴随关系.
2.散点图
将样本中的个数据点描在平面直角坐标系中,所得图形叫做散点图.根据散点图中点的分布可以直观地判断两个变量之间的关系.
(1)如果散点图中的点散布在从左下角到右上角的区域内,对于两个变量的这种相关关系,我们将它称为正相关,如图(1)所示;
(2)如果散点图中的点散布在从左上角到右下角的区域内,对于两个变量的这种相关关系,我们将它称为负相关,如图(2)所示.
3.相关系数
若相应于变量的取值,变量的观测值为,则变量与的相关系数,通常用来衡量与之间的线性关系的强弱,的范围为.
(1)当时,表示两个变量正相关;当时,表示两个变量负相关.
(2)越接近,表示两个变量的线性相关性越强;越接近,表示两个变量间几乎不存在线性相关关系.当时,所有数据点都在一条直线上.
(3)通常当时,认为两个变量具有很强的线性相关关系.
Ⅱ:线性回归
1.线性回归
线性回归是研究不具备确定的函数关系的两个变量之间的关系(相关关系)的方法.
对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn),其回归方程的求法为
其中,,,(,)称为样本点的中心.
2.残差分析
对于预报变量,通过观测得到的数据称为观测值,通过回归方程得到的称为预测值,观测值减去预测值等于残差,称为相应于点的残差,即有.残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.
(1)残差图
通过残差分析,残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,其中这样的带状区域的宽度越窄,说明模型拟合精确度越高;反之,不合适.
(2)通过残差平方和分析,如果残差平方和越小,则说明选用的模型的拟合效果越好;反之,不合适.
(3)相关指数
用相关指数来刻画回归的效果,其计算公式是:.
越接近于,说明残差的平方和越小,也表示回归的效果越好.
Ⅲ:非线性回归
解答非线性拟合问题,要先根据散点图选择合适的函数类型,设出回归方程,通过换元将陌生的非线性回归方程化归转化为我们熟悉的线性回归方程.
求出样本数据换元后的值,然后根据线性回归方程的计算方法计算变换后的线性回归方程系数,还原后即可求出非线性回归方程,再利用回归方程进行预报预测,注意计算要细心,避免计算错误.
1.建立非线性回归模型的基本步骤:
(1)确定研究对象,明确哪个是解释变量,哪个是预报变量;
(2)画出确定好的解释变量和预报变量的散点图,观察它们之间的关系(是否存在非线性关系);
(3)由经验确定非线性回归方程的类型(如我们观察到数据呈非线性关系,一般选用反比例函数、二次函数、指数函数、对数函数、幂函数模型等);
(4)通过换元,将非线性回归方程模型转化为线性回归方程模型;
(5)按照公式计算线性回归方程中的参数(如最小二乘法),得到线性回归方程;
(6)消去新元,得到非线性回归方程;
(7)得出结果后分析残差图是否有异常.若存在异常,则检查数据是否有误,或模型是否合适等.
Ⅳ:独立性检验
1.分类变量和列联表
(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.
(2)列联表:
①定义:列出的两个分类变量的频数表称为列联表.
②2×2列联表.
一般地,假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为
总计
总计
从列表中,依据与的值可直观得出结论:两个变量是否有关系.
2.等高条形图
(1)等高条形图和表格相比,更能直观地反映出两个分类变量间是否相互影响,常用等高条形图表示列联表数据的频率特征.
(2)观察等高条形图发现与相差很大,就判断两个分类变量之间有关系.
3.独立性检验
(1)定义:利用独立性假设、随机变量来确定是否有一定把握认为“两个分类变量有关系”的方法称为两个分类变量的独立性检验.
(2)公式:,其中为样本容量.
(3)独立性检验的具体步骤如下:
①计算随机变量的观测值,查下表确定临界值:
0.5 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001
0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828
②如果,就推断“与有关系”,这种推断犯错误的概率不超过;否则,就认为在犯错误的概率不超过的前提下不能推断“与有关系”.
【常用结论】
常见的非线性回归模型
(1)指数函数型(且,)
两边取自然对数,,即,
令,原方程变为,然后按线性回归模型求出,.
(2)对数函数型
令,原方程变为,然后按线性回归模型求出,.
(3)幂函数型
两边取常用对数,,即,
令,原方程变为,然后按线性回归模型求出,.
(4)二次函数型
令,原方程变为,然后按线性回归模型求出,.
(5)反比例函数型型
令,原方程变为,然后按线性回归模型求出,.
易错提醒:已知数据求回归直线方程,应根据散点图分析变量之间是否满足线性关系,或求相关系数r进行线性相关性的检验,如是非线性的关系,应转化为线性关系,再求解.
例.某乡政府为提高当地农民收入,指导农民种植药材,取得较好的效果.以下是某农户近5年种植药材的平均收入的统计数据:
年份 2018 2019 2020 2021 2022
年份代码x 1 2 3 4 5
平均收入y(千元) 59 61 64 68 73
(1)根据表中数据,现有与两种模型可以拟合y与x之间的关系,请分别求出两种模型的回归方程;(结果保留一位小数)
(2)统计学中常通过比较残差的平方和来比较两个模型的拟合效果,已知的残差平方和是3.5,请根据残差平方和说明上述两个方程哪一个拟合效果更好,并据此预测2023年该农户种植药材的平均收入.
参考数据及公式:,,其中.,.
【详解】(1)根据农户近5年种植药材的平均收入情况的统计数据可得:
,,
所以,,
则,.
设,则,所以,
则,.
所以,两种模型的回归方程分别为,.
(2)回归方程为时,将值代入可得估计值分别为59,60.8,63.8,68,73.4,
则残差平方和为.
而的残差平方和是3.5,则,
所以回归方程拟合效果更好,应选择该方程进行拟合.
当时,故预测2023年该农户种植药材的平均收入为80千元,即8万元.
变式1.国务院印发《新时期促进集成电路产业和软件产业高质量发展的若干政策》.某科技公司响应国家号召,加大了芯片研究投入力度.从2022年起,芯片的经济收入逐月攀升,该公司在2022年的第一月份至第六月份的月经济收入(单位:百万元)关于月份的数据如下表所示:
时间(月份) 1 2 3 4 5 6
月收入(百万元) 6 9 15 22 33 47
(1)请你根据提供数据,判断与(均为常数)哪一个适宜作为该公司月经济收入关于月份的回归方程类型?(给出判断即可,不必说明理由)
(2)根据(1)的结果及表中的数据,求出关于的回归方程;
(3)从这6个月中抽取3个,记月收入超过16百万的个数为,求的分布列和数学期望.参考数据:
2.86 17.50 142 7.29
其中设
参考公式和数据:对于一组具有线性相关关系的数据,其回归直线的斜率和截距的最小二乘估计公式分别为:.
【详解】(1)根据数据判断知适宜作为该公司月经济收人关于月份的回归方程类型.
(2)由,得到,令,则,
所以,又,
所以,故,
即.
(3)易知在前6个月的收入中,月收入超过16佰万的有3个,
故服从的超几何分布,
又的所有取值为,
又,,
,,
所以的分布列为
0 1 2 3
则(或).
变式2.2020年11月,国务院办公厅印发《新能源汽车产业发展规划(2021-2035年)》,要求深入实施发展新能源汽车国家战略,推动中国新能源汽车产业高质量可持续发展,加快建设汽车强国.同时为了推广新能源替代传统非绿色能源,除了财政补贴、税收优惠等激励性政策外,可间接通过前期技术研发支持等政策引导能源发展方向.某企业多年前就开始进行新能源汽车方面的研发,现对近10年的年技术创新投入和每件产品成本(,2,3,…,10)的数据进行分析,得到如下散点图,

并计算得:,,,,.
(1)根据散点图可知,可用函数模型拟合y与x的关系,试建立y关于x的回归方程;
(2)已知该产品的年销售额m(单位:千万元)与每件产品成本y的关系为.该企业的年投入成本除了年技术创新投入,还要投入其他成本10千万元,根据(1)的结果回答:当年技术创新投入x为何值时,年利润的预报值最大 (注:年利润年销售额年投入成本)
参考公式:对于一组数据,,…,,其回归直线的斜率和截距的最小二乘估计分别为:,.
【详解】(1)令,则y关于u的线性回归方程为,
由题意可得,

则,
所以,y关于x的回归方程为.
(2)由可得,
年利润,
当时,年利润M取得最大值,此时,
所以,当年技术创新投入为40千万元时,年利润的预报值取最大值.
变式3.台山市镇海湾蚝是台山市著名的特产,因镇海湾的生蚝田处于咸淡水交汇之地,所以这里的生蚝长得比其他地方肥大,味道更加鲜美.2023年镇海湾某养殖基地考虑增加人工投入,根据市场调研与模拟,得到人工投入增量x人与年收益增量y万元的数据和散点图分别如下:
x 2 3 4 6 8 10 13
y 13 22 31 42 50 56 58

根据散点图,建立了y与x的两个回归模型:
模型①:;模型②:
(1)求出模型②中y关于x的回归方程(精确到0.1);
(2)比较模型①,②的决定系数的大小,说明哪个模型拟合效果更好,并用该模型预测,要使年收益增量超过80万元,人工投入增量至少需要多少人?(精确到1)
线性回归方程的系数:
,;
模型的决定系数:.
参考数据:令,则,且,,,;模型①中;模型②中.
【详解】(1)令,则模型②为:,
由,,,,
得,

所以模型②中y关于x的回归方程是.
(2)模型①中的决定系数,
模型②的决定系数,
因为,所以模型①中的决定系数小于模型②的决定系数,
所以模型②的拟合效果更好.
在模型②下,年收益增量超过80万元,
则有,所以,所以人工投入增量至少需要20人.
1.为帮助乡村脱贫,某勘探队计划了解当地矿脉某金属的分布情况,测得了平均金属含量(单位:)与样本对原点的距离(单位:m)的数据,并作了初步处理,得到了下面的一些统计理的值.(表中,)
6 97.90 0.21 60 0.14 14.12 26.13
(1)利用样本相关系数的知识,判断与哪一个更适宜作为平均金属含量关于样本对原点的距离的回归方程类型?
(2)根据(1)的结果回答下列问题:
①建立关于的回归方程;
②样本对原点的距离时,金属含量的预报值是多少?
附:对于一组数据,其线性相关系数,其回归直线的斜率和截距的最小二乘估计分别为:,.
【答案】(1)更适宜;
(2)①;②
【分析】(1)分别求出与所对应的线性相关系数,然后比较大小即可判断.
(2)根据数据和公式即可求得关于的回归方程,根据回归方程代入,即可求出金属含量的预报值.
【详解】(1)由题的线性相关系数,
的线性相关系数,
因为
所以更适宜作为平均金属含量关于样本对原点的距离的回归方程类型.
(2)①由(1),令,,
则,
所以,,
则,
即.
②当时,
金属含量的预报值
2.一座城市的夜间经济不仅有助于拉动本地居民内需,还能延长外地游客、商务办公者等的留存时间,带动当地经济发展,是衡量一座城市生活质量、消费水平、投资环境及文化发展活力的重要指标.数据显示,近年来中国各地政府对夜间经济的扶持力度加大,夜间经济的市场发展规模保持稳定增长,下表为2017—2022年中国夜间经济的市场发展规模(单位:万亿元),其中2017—2022年对应的年份代码依次为1~6.
年份代码 1 2 3 4 5 6
中国夜间经济的市场发展规模万亿元 20.5 22.9 26.4 30.9 36.4 42.4
(1)已知可用函数模型拟合与的关系,请建立关于的回归方程(的值精确到0.01);
(2)某传媒公司预测2023年中国夜间经济的市场规模将达到48.1万亿元,现用(1)中求得的回归方程预测2023年中国夜间经济的市场规模,若两个预测规模误差不超过1万亿元,则认为(1)中求得的回归方程是理想的,否则是不理想的,判断(1)中求得的回归方程是否理想.参考数据:
3.366 73.282 17.25 1.16 2.83
其中.
参考公式:对于一组数据,其回归直线的斜率和截距的最小二乘估计分别为.
【答案】(1);
(2)是理想的
【分析】(1)通过对所给的的函数模型取对数,转换为求回归直线方程即可,再结合题中所给的直线方程与数据即可得解.
(2)利用(1)中求得的函数模型进行预测,结合回归方程理想的定义判断即可.
【详解】(1)将的等号左右两边同时取自然对数得,
所以.,
而,
所以,

所以,即,
所以.
(2)2023年对应的年份代码为7,
当时,,,
所以(1)中求得的回归方程是理想的.
3.中国茶文化博大精深,饮茶深受大众喜爱,茶水的口感与茶叶类型和水的温度有关,某数学建模小组为了获得茶水温度y(单位:)关于时间x(单位:min)的回归方程模型,通过实验收集在室温,用同一温度的水冲泡的条件下,茶水温度随时间变化的7组数据,并对数据做初步处理得到如图所示散点图以及如表所示数据.

73.5 3.85
表中:,
(1)根据散点图判断,①与②哪一个更适宜作为该茶水温度y关于时间x的回归方程类型?(给出判断即可,不必说明理由)请根据你的判断结果及表中数据建立该茶水温度y关于时间x的回归方程;
(2)已知该茶水温度降至口感最佳,根据(1)中的回归方程,求在相同条件下冲泡的茶水,大约需要放置多长时间才能达到最佳饮用口感?
附:(1)对于一组数据,…,,其回归直线的斜率和截距的最小二乘估计分别为,
(2)参考数据:,,,,
【答案】(1)②更适宜,;
(2)7.5min.
【分析】(1)根据散点图选择②,取对数,再利用最小二乘法公式求出回归直线方程即可.
(2)利用(1)中回归方程,列出关于的方程求解即得.
【详解】(1)由散点图知,更适宜的回归方程为②,即.
由,得,两边取自然对数,得,
令,则,

结合表中数据,得,
结合参考数据可得,由,得,
所以茶水温度y关于时间x的回归方程为.
(2)依题意,室温下,茶水温度降至口感最佳,
即,整理得,
于是,解得,
所以在相同条件下,刚泡好的茶水大约需要放置7.5min才能达到最佳引用口感.
4.当前,新一轮科技革命和产业变革蓬勃兴起,以区块链为代表的新一代信息技术迅猛发展,现收集某地近6年区块链企业总数量相关数据,如下表:
年份 2017 2018 2019 2020 2021 2022
编号 1 2 3 4 5 6
企业总数量(单位:百个) 50 78 124 121 137 352
(1)若用模型拟合与的关系,根据提供的数据,求出与的经验回归方程;
(2)为了促进公司间的合作与发展,区块链联合总部决定进行一次信息化技术比赛,邀请甲、乙、丙三家区块链公司参赛.比赛规则如下:①每场比赛有两个公司参加,并决出胜负;②每场比赛获胜的公司与未参加此场比赛的公司进行下一场的比赛;③在比赛中,若有一个公司首先获胜两场,则本次比赛结束,该公司获得此次信息化比赛的“优胜公司”.已知在每场比赛中,甲胜乙的概率为,甲胜丙的概率为,乙胜丙的概率为,若首场由甲乙比赛,求甲公司获得“优胜公司”的概率.
参考数据:,其中,
参考公式:对于一组数据,其经验回归直线的斜率和截距的最小二乘估计分别为
【答案】(1)
(2)
【分析】(1)令,利用最小二乘法求出,即可得解;
(2)由根据相互独立事件概率的乘法公式计算即可得到答案.
【详解】(1)令,

则,
,所以,
所以;
(2)设甲公司获得“优胜公司”为事件,
则,
所以甲公司获得“优胜公司”的概率为.
5.某出版社单册图书的成本费y(元)与印刷册数x(千册)有关,经统计得到数据如下:
x 1 2 3 5 7 10 11 20 25 30
y 9.02 5.27 4.06 3.03 2.59 2.28 2.21 1.89 1.80 1.75
(1)根据以上数据画出散点图(可借助统计软件),并根据散点图判断:与中哪一个适宜作为回归方程模型
(2)根据(1)的判断结果,试建立成本费y关于印刷册数x的回归方程;
(3)利用回归方程估计印刷26000册图书的单册成本(结果保留两位小数).
【答案】(1)绘图见解析,适宜作为回归方程模型;
(2);
(3)成本约为元.
【分析】(1)根据表格数据绘制散点图,由各点的变化趋势确定合适的模型即可;
(2)利用最小二乘法求回归方程;
(3)由(2)所得回归方程估计时对应的单册成本费用.
【详解】(1)由表格数据可得如下散点图,

显然,两者之间是某种非线性关系,故适宜作为回归方程模型.
(2)令且,则,,
,,则,
所以,故.
(3)由(2),将代入回归方程得元.
6.红蜘蛛是柚子的主要害虫之一,能对柚子树造成严重伤害,每只红蜘蛛的平均产卵数y(个)和平均温度x(℃)有关,现收集了以往某地的7组数据,得到下面的散点图及一些统计量的值.

(1)根据散点图判断,与(其中…为自然对数的底数)哪一个更适合作为平均产卵数y(个)关于平均温度x(℃)的回归方程类型?(给出判断即可,不必说明理由)
(2)由(1)的判断结果及表中数据,求出y关于x的回归方程.(计算结果精确到0.1)
附:回归方程中,,
参考数据()
5215 17713 714 27 81.3 3.6
(3)根据以往每年平均气温以及对果园年产值的统计,得到以下数据:平均气温在22℃以下的年数占60%,对柚子产量影响不大,不需要采取防虫措施;平均气温在22℃至28℃的年数占30%,柚子产量会下降20%;平均气温在28℃以上的年数占10%,柚子产量会下降50%.为了更好的防治红蜘蛛虫害,农科所研发出各种防害措施供果农选择.
在每年价格不变,无虫害的情况下,某果园年产值为200万元,根据以上数据,以得到最高收益(收益=产值-防害费用)为目标,请为果农从以下几个方案中推荐最佳防害方案,并说明理由.
方案1:选择防害措施A,可以防止各种气温的红蜘蛛虫害不减产,费用是18万;
方案2:选择防害措施B,可以防治22℃至28℃的蜘蛛虫害,但无法防治28℃以上的红蜘蛛虫害,费用是10万;
方案3:不采取防虫害措施.
【答案】(1)更适宜
(2)
(3)选择方案1最佳,理由见解析
【分析】(1)根据散点图的形状,可判断更适宜作为平均产卵数y关于平均温度x的回归方程类型;
(2)将两边同时取自然对数,转化为线性回归方程,即可得到答案;
(3)求出三种方案的收益的均值,根据均值越大作为判断标准.
【详解】(1)由散点图可以判断,更适宜作为平均产卵数y关于平均温度x的回归方程类型.
(2)将两边同时取自然对数,可得,
由题中的数据可得,,,
所以,
则,
所以z关于x的线性回归方程为,
故y关于x的回归方程为;
(3)用,和分别表示选择三种方案的收益.
采用第1种方案,无论气温如何,产值不受影响,收益为万,即
采用第2种方案,不发生28℃以上的红蜘蛛虫害,收益为万,
如果发生,则收益为万,即,
同样,采用第3种方案,有
所以,,

.
显然,最大,所以选择方案1最佳.
7.在一次抽样调查中测得个样本点,得到下表及散点图.

(1)根据散点图判断与哪一个适宜作为关于的回归方程;(给出判断即可,不必说明理由)
(2)根据(1)的判断结果试建立与的回归方程;(计算结果保留整数)
参考公式:
【答案】(1)
(2)
【分析】(1)根据散点图即可求解,
(2)将非线性转化为线性,即可利用最小二乘法求解.
【详解】(1)由题中散点图可以判断,适宜作为关于的回归方程;
(2)令,则,原数据变为
由表可知与近似具有线性相关关系,计算得,


所以,,则.
所以关于的回归方程是.
8.为了研究某种细菌随天数变化的繁殖个数,收集数据如下:
天数 1 2 3 4 5 6
繁殖个数 6 12 25 49 95 190
(1)在图中作出繁殖个数关于天数变化的散点图,并由散点图判断(为常数)与(为常数,且)哪一个适宜作为繁殖个数关于天数变化的回归方程类型?(给出判断即可,不必说明理由)
(2)对于非线性回归方程(为常数,且),令,可以得到繁殖个数的对数z关于天数x具有线性关系及一些统计量的值.
3.50 62.83 3.53 17.50 596.57 12.09
(ⅰ)证明:“对于非线性回归方程,令,可以得到繁殖个数的对数关于天数具有线性关系(即为常数)”;
(ⅱ)根据(ⅰ)的判断结果及表中数据,建立关于的回归方程(系数保留2位小数).
附:对于一组数据,其回归直线方程的斜率和截距的最小二乘估计分别为.
【答案】(1)选择为回归方程较宜
(2)(ⅰ)证明见解析;(ⅱ)
【分析】(1)根据表格提供数据画出散点图,并由此选择.
(2)(ⅰ)利用换元法,结合对数运算证得结论成立;(ⅱ)根据回归方程的求法求得正确答案.
【详解】(1)作出散点图如图所示.

由散点图看出样本点分布在一条指数型曲线的周围,
故选择为回归方程较宜.
(2)(i)由已知:令,则,
则,,即.所以繁殖个数的对数关于天数具有线性关系.
(ii)由(i)知繁殖个数的对数关于天数可以用线性回归方程来拟合.由表中数据可得,


得到关于的线性回归方程为,又,
因此细菌的繁殖个数关于天数的非线性回归方程为.
9.抗体药物的研发是生物技术制药领域的一个重要组成部分,抗体药物的摄入量与体内抗体数量的关系成为研究抗体药物的一个重要方面.某研究团队收集了10组抗体药物的摄入量与体内抗体数量的数据,并对这些数据作了初步处理,得到了如图所示的散点图及一些统计量的值,抗体药物摄入量为x(单位:),体内抗体数量为y(单位:).
29.2 12 16 34.4

(1)根据经验,我们选择作为体内抗体数量y关于抗体药物摄入量x的回归方程,将两边取对数,得,可以看出与具有线性相关关系,试根据参考数据建立关于的回归方程,并预测抗体药物摄入量为时,体内抗体数量的值;
(2)经技术改造后,该抗体药物的有效率z大幅提高,经试验统计得z服从正态分布,那这种抗体药物的有效率超过0.54的概率约为多少?
附:①对于一组数据,其回归直线的斜率和截距的最小二乘估计分别为,;
②若随机变量,则有,,;
③取.
【答案】(1);
(2)
【分析】(1)用最小二乘法求解回归直线方程,再求非线性回归方程即可;
(2)根据正态分布的对称性求解给定区间的概率即可.
【详解】(1)将两边取对数,得,
设,,则回归方程变为,
由表中数据可知,,,
所以,,
所以,即,
故y关于x的回归方程为,
当时,.
(2)因为z服从正态分布,其中,,
所以,
所以,
故这种抗体药物的有效率z超过0.54的概率约为.
资料整理【淘宝店铺:向阳百分百】

展开更多......

收起↑

资源列表