资源简介 (共63张PPT)统 计 学第四章 数据的描述2——重要的指标第四章 数据的描述2---重要的指标§1 集中趋势的度量§2 离散趋势的度量§3 偏态与峰度的度量§4 数据的标准化处理§1 集中趋势的度量集中趋势是指一组数据向某中心值靠拢的倾向,是描述数据分布的一个重要特征。集中趋势的测度实际是对一组数据的一般水平代表值或中心值的测度。§1 集中趋势的度量§1.1 均值§1.2 中位数§1.3 众数§1.4 几何平均数§1.5 均值、中位数、众数的比较§1.1 均值均值(Mean)又称平均数,是一组数据大小相互抵消的结果,可以看作是数据集的重心。是最主要的集中趋势测度统计量。适用于定量变量的取值,一般用符号 表示。§1.1 均值1.未加权的算术平均数未经分组整理的原始数据,其算术平均(arithmetic mean)的计算就是直接将一组数据的各个数值相加除以数值个数,称为简单算术平均数。设一组样本数据为 、 、 、 ,则算术平均数的计算公式为:§1.1 均值【例4.1】根据表中给出的某高校统计学院20名同学的统计学期末成绩,计算其平均成绩。表4-1 30名被访者的月收入水平分组数据 单位:分学生编号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20统计学成绩 53 94 91 72 76 53 100 82 100 88 94 66 57 51 63 92 83 97 64 55解:根据表中的数据,使用公式有所以20名学生的统计学期末的平均成绩是76.55分。§1.1 均值§1.1 均值2.加权的算术平均数根据分组整理的数据计算的算术平均数,要以各组变量值出现的次数或频数为权数计算加权算术平均数。假设样本数据被分成组,样本数据各组变量的代表值用m1、m2、…、mk 表示,各组变量值出现的频数用f1、f2、…、fk ,则加权算术平均数 的计算公式为:§1.1 均值如果是单变量分组,上式中的代表值就是各组的分组变量值;如果是组距分组,上式中的代表值就是各组的组中值。加权算术平均数其数值的大小,不仅受各组变量值大小的影响,而且受各组变量值出现的频数即权数大小的影响。§1.1 均值算术平均数的数学性质 :性质1 各变量值与其算术平均数的离差之和等于零,即:性质2 各变量值与其算术平均数的离差平方和最小,即:或最小值 或最小值§1.1 均值【例4.2】根据表中给出的某项调查中30名被访者的月收入水平分组数据,计算其平均收入水平:表4-2 30名被访者的月收入水平分组数据收入水平分组(元) 组中值 被访者人数 (人)1000-2000 1500 3 45002000-3000 2500 7 175003000-4000 3500 13 455004000-5000 4500 5 225005000-6000 5500 2 11000合计 —— 30 101000§1.1 均值解:(元)所以30名被访者的平均月收入水平是3366.67元。§1.1 均值均值的特点 :均值一般用于寻找定量数据的中心代表值,并不适用于定性数据。均值的优点在于它对变量的每一个取值都加以利用。均值的缺点在于其统计量的稳健性较差,即容易受到极端值的干扰。§1.2 中位数中位数(median)是将变量取值按大小顺序排列后,处于中间位置的那个变量值。 适用于定量变量,以及定性变量中的顺序变量取值的集中趋势测度。不适用于定性变量中的分类变量取值。一般用Me表示。§1.2 中位数1.中位数的确定变量的取值数据规模较小时,将数据按大小排列。当数据个数N为奇数时,处在 位置上的变量取值大小即为改组数据的中位数;当数据个数N为偶数时,处在 和 位置上两个变量取值的简单算术平均数即为中位数。§1.2 中位数当变量的取值数据规模较大时,将数据按单变量分组或组距分组,得到频数分布 。对频数分布做向上累计或向下累计:当 为偶数时,第 个变量值所在的组为中位数所在的组。当 为奇数时,第 个变量值所在的组为中位数所在的组。如果是单变量分组,可以该组标志值作为中位数。如果是组距分组,则采用如下公式近似计算得到计算公式下限公式: 上限公式:§1.2 中位数【例4.3】给出的某项调查中30名被访者的月收入水平分组数据,得到累积频数分布表,计算其中位数。§1.2 中位数解:对应的收入水平是3000-4000元,因此该组就是中位数所在组,有,(元)(元)因此,30名被访者的月收入水平的中位数是3384.6元。§1.2 中位数2.根据统计图来寻找中位数假定数据在中位数所在组呈均匀分布,我们就可以利用直方图确定中位数。图4-1 100名调查员的有效问卷数分布直方图§1.2 中位数例如图4-1所示,全部100名调查员的中位数说对应的位置应当是50.5。通过图中观察在140-150组之前的累积频数是42,只需要在140-150之间找到第8.5位置上所对应的数。由于假设140-150间这18个数是均匀分布的,而这段区间的长时10,因此区间上第8.5位置上的数应当是 。即中位数是144.7。这一结果与实际情况有一些偏差,因为我们假定数据在140-150这个区间是均匀的,而实际并非如此。§1.2 中位数中位数的特点:中位数很好的代表了一组数据的中间位置。当直方图显示数据时一个有偏分布时,中位数具有较好的稳健性,对极端值并不敏感。中位数并没有利用数据的所有信息,其对原始数据信息的代表性不如均值。§1.2 中位数3.四分位数四分位数是指一组数据按大小排序后处于25%和75%位置上的值,也称四分位点。通常所说的四分位数是指处在25%位置上的数值(下四分位数)和处在75%位置上的数值(上四分位数)。令四分位数为,上四分位数为,其计算公式是当四分位数的位置不是整数时,按比例计算四分位数两侧的差值。§1.2 中位数【例4.4】在某城镇随机抽取9个家庭,调查得到每个家庭的人均月收入数据(单位:元)分别是2450,1950,1820,1860,2060,1900,2280,2040,2700。要求计算这九个家庭人均月收入水平的四分位数。解:将数据由小到大按顺序排列:1820,1860,1900,1950,2040,2060,2280,2450,2700。根据公式 , 。 由于2.5处于顺序为2和3的两个数中间,因此按比例分摊两端的差值,即(元)。同理, (元)。§1.3 众数众数(mode)是指一组数据中出现次数最多的变量值,主要用于测度分类数据的集中趋势。一组数据分布的最高峰点所对应的变量值即为众数。具有不唯一性,用M0表示。§1.3 众数1.定性变量的众数确定根据分类变量和顺序变量的不同取值得到频数分布,确定众数时,只需找出频数出现最多所对应的变量取值即为众数。例:通过观察频数分布表,可以直观看到受教育水平为高中的频数最大。因此对于3000名被调查者受教育水平来说,众数就是高中学历。§1.3 众数2.定量变量的众数确定对于离散型变量的取值,计算众数时,只需找出出现次数最多的变量取值即为众数。【例4.5】根据表中35名调查员的有效问卷频数分布资料,确定众数。§1.3 众数解:根据表中所示,问卷数为145份所对应的人数是4人,高于其他所有问卷数对应的人数。因此35名调查员有效问卷的众数是145份。对于连续性变量的取值,首先根据组距分组得到频数分布。对于等距分组,对应频数最大的组为众数所在组;对于不等距分组,对应频数密度最大的组为众数组。§1.3 众数设众数组的频数为 ,众数前一组的频数为 ,众数后一组的频数为 。假定数据在众数组均匀分布,众数与其相邻两组的频数分布有如下关系:下限公式:上限公式:§1.3 众数*§1.3 众数【例4.6】根据例4.3,确定表中30名被访问者月收入水平的众数。解:首先确定众数组是3000-40000元组,因此因此,30名被访者的月收入水平的众数是3428.6元。§1.3 众数众数的特点:众数根据众数组及相邻组的频率分布信息来确定数据中心点位置的。众数是一个位置代表值,它不受数据中极端值的影响。对原数据信息的代表性也不如均值。只有在数据量较多时才有意义。§1.4 几何平均数几何平均数几何平均数(geometric mean)也称几何均值,通常用来计算平均比率和平均速度。计算公式为:几何平均数也可看作是算术平均数的一种变形§1.4 几何平均数【例4.7】某股票投资者长期持有一只股票,2005-2008年每年的收益率分别是5.6%,7.2%,28.5%,-15.6%。计算该股票投资者4年内的平均收益率。解:根据股票四年的平均收益率可得到其四年的相对价格分别是105.6%,107.2%,128.5%,84.4%。计算四年平均相对价格四年的平均收益率是105.26%-1=5.26%。105.26%§1.5 均值、中位数、众数的比较从分布的角度看:均值是一组数据全部数值的平均数。中位数是处于一组数据中间位置上的数值。众数始终是一组数据分布的最高峰值。对于具有单峰分布的大多数数据而言,均值、中位数、众数存在以下关系:(1)当变量取值的频数分布对称时,则均值与众数、中位数三者完全相等,即正态分布§1.5 均值、中位数、众数的比较(2)当变量取值的频数分布呈现右偏时,说明数据存在最大值,必然拉动均值向极大值一方靠,而众数和中位数由于不受极端值的影响,因此,三者之间的关系为右偏分布§1.5 均值、中位数、众数的比较(3)当变量取值的频数分布呈现左偏时,说明数据存在最小值,必然拉动均值向极小值一方靠,而众数和中位数由于不受极端值的影响,因此,三者之间的关系为 。左偏分布§1.5 均值、中位数、众数的比较当频数分布呈对称分布或近似对称分布时,以均值、中位数或众数来描述数据的集中趋势都比较理想;当频数分布呈偏态时,极端值会对均值产生较大影响,而对众数、中位数没有影响,此时,用众数、中位数来描述集中趋势比较好。根据经验,频数分布无论是左偏还是右偏,众数与中位数的距离约为算术平均数与中位数的距离的两倍,即:§2 离散趋势的度量§2.1 异众比率§2.2 极差和四分位差§2.3 平均差、方差和标准差§2.4 离散系数§2.1 异众比率异众比率(variation ratio)是指一组数据中非众数(组)的频数占总频数的比例。既适用于定性数据,也适用于定量数据,但主要用于测度分类数据的离散趋势。用Vr表示。计算公式是:异众比率的作用是衡量众数对一组数据的代表性程度的指标。异众比率越大,说明非众数组的频数占总频数的比重就越大,众数的代表性就越差;反之,异众比率越小,众数的代表性就越好。§2.2 极差和四分位差1.极差级差(range)是一组数据的最大值与最小值之差,也称全距。级差主要用于测度顺序数据和定量数据的离散趋势。用R表示。级差是最容易计算的离散趋势的测度统计量。但它容易受极端值的影响。计算公式是 :【例4.8】根据表4.5中35名调查员的有效问卷数分组表计算极差。§2.2 极差和四分位差2.四分位差四分位数是指一组数据按大小排序后处于25%和75%位置上的值,也称四分位点。 通常所说的四分位数是指:处在25%位置上的数值(下四分位数)处在75%位置上的数值(上四分位数)。记下四分位数为 ,上四分位数为其计算公式是当四分位数的位置不是整数时,按比例分摊四分位数两侧的差值。§2.2 极差和四分位差内距或四分间距(inter-quartile range):四分位差是上四分位数与下四分位数之差,用Qd表示计算公式为:克服了级差容易受数据中两端极值的影响这一缺陷。在例4-4中,四分位差是2365-1880=485(元)§2.3 平均差、方差和标准差1.平均差平均差(mean deviation)是一组数据与其均值离差绝对值的平均数。用Md表示。据掌握资料的不同,有两种计算方法。对于未分组数据,采用简单平均法,其计算公式是:对于分组数据,采用加权平均法,其计算公式是:§2.3 平均差、方差和标准差【例4.9】根据表中给出的某项调查中30名被访者的月收入水平分组数据,计算其平均差。§2.3 平均差、方差和标准差解:平均差能够准确地、全面地反映一组数值的离散趋势。平均差用绝对值进行运算,不适宜于代数形式处理,在实际应用上受到很大的限制。(元)§2.3 平均差、方差和标准差2.方差和标准差方差(variance)是一组数据与其均值离差平方的算术平均数。标准差(standard deviation)是方差的平方根。方差、标准差是实际中应用最广泛的离散趋势度量值。设总体的方差为 ,标准差为 。对于未分组数据,方差和标准差的计算公式分别是:对于分组数据,方差和标准差的计算公式分别是:§2.3 平均差、方差和标准差总体的方差和标准差在对各个离差平方平均时是除以数据个数或总频数。样本的方差和标准差在对各个离差平方平均时是用样本数据个数或总频数减1(称为自由度)去除总离差平方和。 设样本的方差为 ,标准差为 。对于未分组的数据,方差和标准差的计算公式为:对于分组数据,方差和标准差的计算公式为:§2.3 平均差、方差和标准差【例4.10】根据表中给出的某项调查中30名被访者的月收入水平分组数据,计算其方差和标准差。§2.3 平均差、方差和标准差解:方差标准差(元)§2.4 离散系数离散系数(coefficient of variation)是一组数据的标准差与其均值之比,又称变异系数。用Vs表示。主要用于比较不同样本数据的离散程度。计算公式是 :§2.4 离散系数【例4.11】甲乙两地的个人收入调查中,甲地的人均月收入是6520元,标准差是1640元;乙地的人均月收入是5800元,标准差是1300元。比较甲乙两地人均月收入的差异程度。解:由 得到由 得到由于 ,因此甲地的人均月收入差异程度大于乙地。§3 偏态与峰度的度量§3.1 矩§3.2 偏态§3.3 峰度§3.1 矩变量 的样本观测值与 之差 次方的平均数称为变量 关于 的 阶矩。其公式表示是:当 时,上式称为 阶原点矩,用字母M表示。当 时,上式称为 阶中心矩,用字母m表示。一阶原点矩是 即均值,二阶中心矩是§3.2 偏态偏态(skewness)是对数据分布对称性的侧度。偏态系数用SK表示。偏态系数采用矩进行计算。计算公式是:§3.2 偏态当分布对称时,变量的三阶中心矩m3正负相互抵消,因而SK=0;当分布不对称时,m3正负离差不能抵消。当SK>0时,表示正偏或右偏;当SK<0时,表示负偏或左偏。如图所示,中间虚线表示的是正态分布,其左侧为右偏分布,右侧为左偏分布。偏态分布图§3.2 偏态【例4.12】根据表中给出的某项调查中30名被访者的月收入水平分组数据,计算收入分布的偏态系数。§3.2 偏态解:偏态系数为正,因此30名被访者的月收入分布是右偏分布。§3.3 峰度峰度(kurtosis)是指数据分布的集中程度或分布曲线的尖峭程度 。峰度系数用K表示。计算公式是§3.3 峰度衡量分布的集中程度或分布曲线的尖峭程度往往是与正态分布相比。在正态分布条件下,K=0。将各种不同分布的尖峭程度与正态分布比较:当K>0时,表示分布的形状比正态分布更瘦更高,称为尖峰分布;当K<0时,表示分布的形状比正态分布更扁平,称为平峰分布。尖峰分布与平峰分布图§3.3 峰度【例4.13】根据表中给出的某项调查中30名被访者的月收入水平分组数据,计算其分布的峰度系数。§3.3 峰度解:峰度系数为正,因此30名被访者的月收入分布是尖峰分布。§4 数据的标准化处理统计上,一般采用统计标准化处理将具有不同量纲,或是不同分布形状的数据转化为标准化得分,再进行比较。标准化的计算方法是将变量取值与其样本均值的差除以样本标准差,得到的值称为标准化得分(standard score),一般用Z来表示。计算公式:标准化得分给出了一组数据中各数据的相对位置,具有均值为0,标准差为1的特性。 展开更多...... 收起↑ 资源预览