资源简介 6.5 数学建模案例(三):人数估计【学习目标】了解数据分析的意义,了解统计分析报告的主要组成部分,会选择合适的方法分析,解决实际问题,会从实际问题的样本数据中提取刻画其特征的量(如中位数、均值、方差等).(数学建模、数据分析)【合作探究】一、问题背景某大学计算机专业的报考人数连年创新高,今年报名刚结束,某考生想知道报考人数.考生的编号按0001,0002,…的顺序从小到大依次排列,该考生随机了解了50个考生的编号.具体如下:0400 0904 0747 0090 0636 0714 0017 04320403 0276 0986 0804 0697 0419 0735 02780358 0434 0946 0123 0647 0349 0105 01860079 0435 0960 0543 0495 0974 0219 03800397 0283 0504 0140 0518 0966 0559 09100658 0442 0694 0065 0757 0702 0498 01560225 0327请给出一种方法,根据这50个随机抽取的编号,估计考生总数.二、问题解析上述问题中,总体中的个体已经按自然数编号,然后在自然数1,2,3,…,N中不放回地随机抽取n(这里n=50)个数,将抽取的样本从小到大排序后记为x1,x2,…,xn,其中1≤xn≤N.一般来说,关于考生总数没有精确的估计方法,若不能获取其他辅助信息,则只能利用样本估计总体的方法进行近似估计.为使估计值尽量接近真值,可以在多种假设的条件下采用不同的估计方法来建立数学模型并求解.1.模型建立与求解模型1 用样本最大值估计总体的最大值用给出数据的最大值=xn(例如,986)来估计考生总数,由于xn≤N恒成立,因此,该方法在实际应用中很可能出现低估N的情况.模型2 用样本中位数估计总体中位数当n为奇数时,样本的中位数为,而总体的中位数取,由于样本中位数可以近似看成总体中位数,因而有≈,故可取=2-1作为N的估计值;当n为偶数时,样本的中位数为,从而有≈,故可取=+-1作为N的估计值.为了避免用这种方法得到的估计值偏小,可以考虑用下面的方法对考生总数N进行调整:=在本问题中,n=50且x50>x25+x26-1,因此可用986来估计考生总数.一般情况下,样本点越多,估计值会越合理.而上述方法的求解过程并没有利用已获得的全部样本信息,因此我们需要建立更为合理的数学模型.模型3 用样本的平均值估计总体的平均值假设随机抽取的50个数的平均值近似等于所有考生的平均值,以此来估计考生总数N.由于这50个数的算术平均值为24572÷50=491.44,它应该与接近,因此取=491.44×2≈983作为N的估计值.由于983小于样本的最大值986,因此可用986来估计考生总数.模型4 用分区间法求解把这50个样本从小到大排列,利用它将N个数据分段,选取不同端点得到不同的估计值.分区间的一种方法是:利用50个样本数据,将区间[1,N]分成51个小区间[1,x1),[x1,x2),…,[x50,N].这51个小区间长度均值为,而前50个区间的平均长度为,由于样本是随机抽取的,可以认为≈,所以N的估计值可取为==1006,其中{x}表示不小于x的最小整数.上述分区间的方法忽略了x50可能取到N的情况,因此,我们也可以将区间[1,N]改为[1,N+1],即把[1,N+1]分成51个小区间[1,x1),[x1,x2),…,[x50,N+1],取≈,所以N的估计值可取为==1005.2.模型的进一步讨论前面我们采用不同的方法对考生总数进行了估计,发现估计方法不同得到的考生数量也不同,存在一定的差异.而分区间法由于划分小区间所采用的分段方式不同,也有可能得到不同的估计值.但这些结果都是在某种合理的假设前提下得到的,不能说哪种方法得到的估计值一定是错的.这也体现了统计方法的特点.按照不同的估计方法往往会得到不同的估计值,那么有没有评价估计方法优劣的标准呢 我们可以利用计算机模拟各种估计方法,然后通过计算估计值与真值之间的偏离程度来评价估计方法的优劣.具体实施步骤如下.步骤(1):设定N以及试验次数k的值;步骤(2):在1,2,…,N这N个自然数中不放回地随机抽取50个数据,组成一个样本;步骤(3):将样本中50个数据按从小到大的顺序排列,即x1步骤(4):按照不同的估计方法分别得到不同的估计值;步骤(5):重复上述步骤(1)~(4)k次.模拟完后,对估计值偏离真值N的程度进行计算:设第m(1≤m≤k)次试验得到的估值为,k次模拟得到的估计值与真值N之间的近似程度用估计值与真值差的平方的平均值来衡量,即计算,将其值记为MSE.结论:当试验次数k足够大时,MSE的大小反映了采用不同估计方法得到的估值偏离真值N的程度,具有较小MSE值的估计方法更为合理.一、问题背景为了实现绿色发展,践行“绿水青山就是金山银山”的发展理念,避免浪费能源,某市政府计划对居民用电采用阶梯收费的方法.为此,相关部门在该市随机调查了200户居民六月份的用电量(单位:kW·h),以了解这个城市家庭用电量的情况.数据如下:107 101 78 99 208 127 74 223 31 131214 135 89 66 60 115 189 135 146 127203 97 96 62 65 111 56 151 106 8162 91 67 93 212 159 61 63 178 194194 216 101 98 139 78 110 192 105 9622 50 138 251 120 112 100 201 98 84137 203 260 134 156 61 70 100 72 164174 131 93 100 163 80 76 95 152 18288 247 191 70 130 49 114 110 163 202265 18 94 146 149 147 177 339 57 109107 182 101 148 274 289 82 213 165 224142 61 108 137 90 254 201 83 253 113130 82 170 110 108 63 250 237 120 84154 288 170 123 172 319 62 133 130 127107 71 96 140 77 106 132 106 135 132167 82 258 542 51 107 69 98 72 48109 134 250 42 320 113 180 144 116 530200 174 135 160 462 139 133 304 191 283121 132 118 134 124 178 206 626 120 274141 80 187 88 324 136 498 169 77 57根据以上数据,应当如何确定阶梯电价中的电量临界值,才能使得电价更为合理 二、问题解析1.问题分析选取六月份调查是因为这个城市六月份的部分时间需要使用空调,因此六月份的用电量在一年12个月中处于中等偏上水平.如果阶梯电价临界值的确定依赖于居民月用电量的分布,例如计划实施3阶的阶梯电价,有人给出一个分布如下:75%的用户在第一档(最低一档),20%的用户在第二档,5%的用户在第三档(最高一档).这样,需要通过样本数据估计第一档与第二档、第二档与第三档的两个电量临界值,即75%和95%这两个电量临界值.利用电子表格软件,对上面的样本数据进行排序,可以得到下面的结果:8 18 22 31 42 48 49 50 51 5657 57 60 61 61 61 62 62 63 6365 66 67 69 70 70 71 72 72 7476 77 77 78 78 80 80 82 82 8283 84 84 88 88 89 90 91 93 9394 95 96 96 96 97 98 98 98 99100 100 100 101 101 101 105 106 106 106107 107 107 107 108 108 109 109 110 110110 111 112 113 113 114 115 116 118 120120 120 121 123 124 127 127 127 130 130130 131 131 132 132 132 133 133 134 134134 135 135 135 135 136 137 137 138 139139 140 141 142 144 416 146 147 148 149151 152 154 156 159 160 162 163 163 164165 167 169 170 170 172 174 174 177 178178 180 182 182 187 189 191 191 192 194194 200 201 201 202 203 203 206 208 212213 214 216 223 224 237 247 250 250 251253 254 258 260 265 274 274 283 288 289304 319 320 324 339 462 498 530 542 6262.特征量分析(1)样本数据总共有200个,最小值是8,最大值是626,说明200户居民六月份的最小用电量为8 kW·h,最大用电量为626 kW·h,极差为618 kW·h.(2)因为数据量是200,所以这组数据的样本中位数就是有序样本中第100个数130和第101个数130的平均数,即130,说明这个城市六月份居民用电量的中间水平大约在130 kW·h.(3)因为200×75%=150,所以第一个临界值为有序样本中第150个数178和第151个数178的平均数,即178.因为200×95%=190,所以第二个临界值为有序样本中第190个数289和第191个数304的平均数,这个平均数为296.5(因为是对95%分位数的估计,所以估计值可以是289和304之间任何一个数,为了便于操作可以取值为297).3.解决问题依据确定了的电量临界值,阶梯电价可以规定如下:(1)用户每月用电量不超过178 kW·h(或每年用电量不超过2136 kW·h),按第一档电价标准缴费;(2)用户每月用电量在区间(178,297](单位:kW·h)内(或每年用电量在区间(2136,3564](单位:kW·h)内),其中的178 kW·h按第一档电价标准缴费,超过178 kW·h的部分按第二档电价标准缴费;(3)用户每月用电量超过297 kW·h(或每年用电量超过3564 kW·h),其中的178 kW·h按第一档电价标准缴费,119 kW·h 按第二档电价标准缴费,超过297 kW·h的部分按第三档电价标准缴费.社会上对这种制定阶梯电价的方法存在不同的意见,可以讨论并制定合理的阶梯电价.2 展开更多...... 收起↑ 资源预览