资源简介 (共31张PPT)任务四数据特征的描述4.1 总量与相对量的测度任务四 数据特征的描述学 习 目 标4.2 集中趋势的测度4.3 离散程度的测度任务四数据特征的描述4.3 离散程度的测度数据分布的特征和测度分布的形状集中趋势离散程度众 数中位数离散系数方差和标准差算术平均数几何平均数峰 度偏 态异众比率四分位差极差任务四数据特征的描述4.3 离散程度的测度学习要点4.3.1 离散程度的含义4.3.2 离散程度的度量方法4.3.3 数据的标准化4.3.4 离散指标的Excel操作4.3.5 偏态与峰度任务四数据特征的描述4.3 离散程度的测度4.3.1 离散程度的含义离散程度:各变量值远离其中心值的程度,也称为离中趋势.从另一个侧面说明了集中趋势测度值的代表程度▲中心值任务四数据特征的描述4.3.1 离散程度的含义任务四数据特征的描述离散程度测度值的作用反映总体各单位变量值分布的均衡性判断平均指标对总体各单位变量值代表性的高低4.3.1 离散程度的含义任务四数据特征的描述离散程度测度指标异众比率四分位差离散系数(标准差系数)标准差极差4.3.2 离散程度的度量方法任务四数据特征的描述4.3.2 离散程度的度量方法任务四数据特征的描述平均差用于衡量众数对一组数据的代表程度 。是非众数组的频数之和占总频数的比重(%)。【例4-20】随机抽选100名顾客,调查购买AI牌产品的地点。其中20人声称只去AI专卖店,70人说只去商场或超市,10人说专卖店和商场都去。如果认为购买AI牌产品的主要地点是商场或超市,则“商场或超市”就是众数。众数的代表性如何呢 “商场或超市”作为主要购物地点是有代表性的。异众比率1、异众比率4.3.2 离散程度的度量方法任务四数据特征的描述分位数:排序后处于25%、50%和75%位置上的值反映了中位数对一组数据的代表程度。四分位差的意义是,约有50%的数据应落在上四分位数和下四分位数之间。的位置=下四分位数中位数上四分位数四分位差的位置=的位置=2、四分位差4.3.2 离散程度的度量方法任务四数据特征的描述四分位数 (例子) 【例】:9个家庭的人均月收入数据原始数据: 1500 750 780 1080 850 960 2000 1250 1630排 序 750 780 850 960 1080 1250 1500 1630 2000位 置: 1 2 3 4 5 6 7 8 9四分位差 =1565-815=7505个数据落在区间内4.3.2 离散程度的度量方法任务四数据特征的描述是一组数据的最大值与最小值之差,又称为全距,用“R”表示离散程度的最简单测度值易受极端值影响3、极差4.3.2 离散程度的度量方法任务四数据特征的描述4、平均差4.3.2 离散程度的度量方法任务四数据特征的描述平均差与标准差的区别◆是离散程度最常用的测度值。◆根据全部数据计算,反映了各变量值与其算术平均数的平均离差程度。◆标准差是方差的平方根 ,有量纲单位,与变量值的计量单位相同,其实际意义比方差清楚。5、标准差4.3.2 离散程度的度量方法任务四数据特征的描述◆计算公式总体标准差未分组数据分 组数 据4.3.2 离散程度的度量方法样本标准差注意:样本的自由度是n-1。标准差计算实例例4-25:简单式甲组营业员(5人)的销售量(件)为 :20、40、50、90、50平均数:标准差:=25.5(件)4.3.2 离散程度的度量方法任务四数据特征的描述标准差计算实例例4-26 :加权式零件个数 (件) 天 数 (天) 组中值 (件)270以下 270-290 290-310 310-330 330以上 15 25 35 65 40 260 280 300 320 340 3900 7000 10500 20800 13600 2500 900 100 100 900 37500225003500650036000合计 180 — 55800 — 106000表4-18 乙批发商上半年日销售量资料 单位:件4.3.2 离散程度的度量方法任务四数据特征的描述经验法则假设一组数据呈对称分布,则:约68.27%的数据在平均数±1个标准差的范围内约95%的数据在平均数±1.96个标准差的范围内约95.45%的数据在平均数±2个标准差的范围内约99.73%的数据在平均数±3个标准差的范围内4.3.2 离散程度的度量方法任务四数据特征的描述是非变量的标准差只表现为是与否、有或无的标志,称为是非变量,也称为交替变量是非变量用文字表示,在进行统计处理时,具有某种属性的用“1”代表,不具有某种属性的用“0”代表。假设总体有“ ”个单位,具有某种属性的有“ ”个,不具有某种属性的有“ ”个,则 。4.3.2 离散程度的度量方法任务四数据特征的描述是非变量的方差与标准差总体样本比例的平均数比例的方差比例的标准差比 例=4.3.2 离散程度的度量方法任务四数据特征的描述『例』从一批产品中随机抽取100件产品进行质量测试,测试的结果为90件合格,10件不合格,试计算合格率的方差和标准差解:4.3.2 离散程度的度量方法任务四数据特征的描述6、离散系数◆是对数据相对离散程度的测度。◆消除了数据水平高低和计量单位的影响。◆用于对不同组别数据离散程度的比较。◆一般计算标准差系数,公式为:样本总体4.3.2 离散程度的度量方法任务四数据特征的描述离散系数实例身高 体重平均数为123.10cm 平均数为22.29kg标准差为4.71cm 标准差为2.26kg问:是身高的差异大还是体重的差异大例:某地7岁男童结论:同一批儿童体重的差异更大4.3.2 离散程度的度量方法任务四数据特征的描述对某一个值在一组数据中相对位置的度量可用于判断一组数据是否有离群点用于对变量的标准化处理计算公式为总体样本4.3.3 数据的标准化任务四数据特征的描述业务员编号 1 2 3 4 5 6 7原始数据 标准化值 8500 0.7722 5400 -1.2223 9500 -1.4157 5100 -1.4157 6500 -0.5148 8500 0.7722 76000.1931表4-19=1554元标准差例:1号业务员的工资标准化值为:平均数=7300元任务四数据特征的描述4.3.3 数据的标准化任务四数据特征的描述4.3.4 离散程度的Excel操作利用Excel函数计算离散指标利用Excel的“描述统计”功能MAX(最大值)MIN(最小值)QUARTILE(四分位点)STDEV(样本标准差)VAR(样本标准差)KURT(峰度系数)SKEW(偏态系数)工具 数据分析 描述统计任务四数据特征的描述偏态及其测度峰度及其测度4.3.5 偏态与峰度任务四数据特征的描述偏态及其测度偏态( Skewness )是指频数分布的偏斜方向和程度 。左偏分布右偏分布与标准正态分布比较!4.3.5 偏态与峰度任务四数据特征的描述偏态系数(Skewness coefficient)是测度频数分布偏斜程度的统计指标,用SK表示。计算公式为:即:SK=O,正态分布SK>O,右偏分布SK<O,左偏分布4.3.5 偏态与峰度任务四数据特征的描述扁平分布尖峰分布峰度及其测度峰度:是指频数分布曲线顶端尖峭或扁平的程度。有时两组数据的算术平均数、标准差和偏态系数都相同,但其频数分布曲线顶端的高耸程度却不同。4.3.5 偏态与峰度任务四数据特征的描述峰度系数 (Coefficient of kurtosis )峰度系数是测度频数分布曲线顶端尖峭或扁平程度的指标,用K表示。计算公式为:4.3.5 偏态与峰度即:K=O,正态分布K>O,尖峰分布K<O,扁平分布任务四数据特征的描述任务四 要点回顾 展开更多...... 收起↑ 资源预览