项目3 用图表展示数据 课件(共76张PPT) 《统计学基础》同步教学(重庆大学版·2022)

资源下载
  1. 二一教育资源

项目3 用图表展示数据 课件(共76张PPT) 《统计学基础》同步教学(重庆大学版·2022)

资源简介

(共76张PPT)
图并没有说谎,是说谎者在画图。
——本杰明·迪斯雷利
项目三 用图表展示数据
任务一
任务二
任务三
任务四
数据的预处理
数值型数据的整理与展示
品质数据的整理与展示
合理使用图表
知识目标:
1. 能理解统计数据的图表展示意义。
2. 能描述数据的类型和质量要求,理解不同数据的分类方法。
3. 能描述数据来源、数据收集方法和统计调查方式。
技能目标:
1. 能根据所给数据编制统计表。
2. 能根据所给数据绘制各种统计图表。
知识结构:
案例:
某市就电脑辅助应用软件在本市各建筑施工企业的应用进行了调研,供采集了50家建筑施工企业的数据,反馈的有效数据为48组。
任务1 数据的预处理
3.1.1数据审核
数据审核就是检查数据中是否有错误。对于通过调查取得的原始数据(rawdata),主要从完整性和准确性两个方面去审核。完整性审核主要是检查的单位或个体是否有遗漏,所有的调查项目是否填写齐全等。准确性审核主要是检查数据是否有错误,是否存在异常值等。对于异常值要仔细进行鉴别 :如果异常值属于记录时的错误,在分析之前应予以纠正;如果异常值是一个正确的值,则应予以保留。
对于通过其他渠道取得的二手数据,应着重审核数据的适用性和时效
性。
例3.1.1 表3-1是10名学生6门课程的考试成绩数据(单位:分)。试找出商品学等于70分的学生,管理学成绩最高的前三名学生,六门课程都大于70分的学生。
第1步:【数据】菜单,并选择【筛选】命令。如果要筛选出满足给定条件的数据,可使用【自动筛选】命令
第2步:在下拉箭头框内选择要筛选出的数据。
3.1.3数据排序
数据排序是按一定顺序将数据排列,以便研究者通过浏览数据发现一些明显的特征或趋势,找到解决问题的线索,除此之外,排序还有助于对数据检查纠错以及为重新归类或分组提供方便。美国的《财富》杂志每年都要在全世界范围内排出五百强企业,通过这一信息不仅可以了解自己企业所处的地位,还可以从一个侧面了解到竞争对手的状况,有效制定企业的发展规划和战略目标。
拓展阅读3-1:
《财富》世界500强排行榜一直是衡量全球大型公司的最著名、最权威的榜单,被誉为“终极榜单”,由《财富》杂志每年发布一次。
3.1.4数据透视表
为了从复杂的数据中提取有用的信息,可以利用Excel提供的【数据透视表】(pivot table)工具。利用数据透视表,可以对数据表的重要信息按使用者的习惯或分析要求进行汇总和作图,形成一个符合要求的交叉表(列联表)。在利用数据透视表时,数据源表中的首行必须有列标题。
例:在某大学随机抽取20名学生,调查他们的性别、民族、家庭所在地、平均月生活费、月愿意支付摄影费用、影响摄影的因素等,得到的数据如表3—2所示。试建立一个数据透视表,在表的行变量中给出性别平均月生活费和月愿意支付摄影费用,在列变量中给出学生的家庭所在地区,对影响摄影的因素进行交叉汇总。
数据透视表创建步骤
第一步:从“插入”菜单栏中选取“数据透视表”
第二步:
“数据透视表”对话窗口的设置
“数据透视表”字段选择
思考3.1:什么是统计图?
解析:统计图(Statistical Diagram/Statistical Graph),是指利用几何图形或具体事物的形象和地图等形式来表现社会经济现象数量特征和数量关系的图形。为了使市场调研资料的表达直观生动、通俗易懂、便于分析比较等,可以利用统计图进行市场调研分析、预测和分析现象之间的数量关系及变化发情情况。
任务2 品质数据的整理与展示
数据经过预处理后,可根据需要进一步做分类或分组。在对数据进行整理时,首先要弄清楚所面对的是什么类型的数据,因为不同类型的数据,所采取的处理方式和所适用的处理方法是不同的。对品质数据主要是做分类整理,对数值型数据则主要是做分组整理。品质数据包括分类数据和顺序数据,它们整理和图形展示的方法上大多上是相同的,但也有些微小差异。
1)频数与频数分布
频数(frequency)是落在某一特定类别或组中的数据个数。把个别类别及落在其中的相应频数全部列出,并用表格形式表现出来,称为频数分布(frequency distribution)。
例:为研究性别与愿意和谁一起拍照,进行了抽样调查。下表是调查员随机调查的100名学生愿意一起合拍对象及性别的记录。生成频数分布表,合拍对象和性别的分布状况,并进行描述性分析。
使用数据透视表进行技术和汇总。具体做法是:在【数据透视】对话框中,依次将“合拍对象”加入“行”(或列)区域,将“性别”加入到“列”(或行)区域,将“合拍对象”加入“数据”区域。
使用【数据分析】工具中(Excel【数据分析】工具安装。Excel【数据分析】工具提供了一些常用统计方法的程序。如果你的及其还没有安装此项功能,需要安装后才能使用。步骤如下:
第一步:在Excel工作表界面中点击【工具】下拉菜单,找到【加载宏】选项并单击。
第二步:在【可用加载宏】选项中选中【分析工具库】,然后单击【确定】,系统会提示你安装。
第三步:将office安装盘插入光驱,然后单击【确定】即可。【直方图】命令也可以生成频数分布表。
“行”是“合拍对象”变量,“列”是“性别”变量(当然,行和列可以交换,也可以生成只含一个变量的频数分布表)。这种由两个或两个以上变量交叉分类的频数分布表也称为列联表(contingency table)。二维的列联表(两个变量交叉分类)也称为交叉表(cross table)。
分类数据图示
如果用图形来显示频数分布,就会更形象和直观。一张好的统计图表,往往胜过冗长的文字表述。统计图的类型有很多,多数统计图除了可以绘制而为平面图,还可以绘制三维立体图。图形的制作均可由计算机来完成。这里首先介绍分类数据的图示方法,其中包括条形图、帕累托图、饼图等。如果有两个总体或两个样本的分类相同问题且问题可比,还可以绘制环形图。
(1)条形图
条形图(bar chart) 是用宽度相同的条形的高度或长度来表示数据多少的图形。条形图可以横置或纵置,纵置时也可以称为柱形图(column chart)。此外,条形图有简单条形图、复式条形图等形式。
(2)帕累托图
帕累托图(pareto chart)是以意大利经济学家V.Pareto的名字命名的,该图是按照类别数据出现的频数多少排序后绘制的条形图。通过对条形的排序,容易看出哪类数据出现的多,哪类数据出现的少。
(3)饼图
饼图(pie chart)是用圆形及圆内扇形的角度来表示数值大小的图形,它主要用于表示一个样本(或总体)中各组成的数据占全部数据的比例,对于研究结构性问题十分有用。
比较男女合拍对象的构成状况,可以绘制复式饼图。它是简单饼图的嵌套,主要用于展示两个或多个分类变量的构成比较,比如,在男女分类的基础上又增加了合拍对象的分类。
(4)环形图
简单饼图只能显示一个样本各部分所占的比例。比如,把5个地区的人口分别按高收入,中等收入和低收入划分成3部分,要比较5个地区不同收入的人口构成,则需要绘制5个饼图,这种做法既不经济也不便于比较。能否用一个图形比较出5个地区不同收入的人口构成呢?把饼图叠在一起,挖去中间的部分就可以了,这就是环形图(doughnut chart)。
环形图与饼图类似,但又有区别。环形图中有一个“空洞”,每个样本用一个环来表示,样本中的每一部分数据用环中的一段表示。因此环形图可显示多个样本各部分所占的相应比例,从而有利于构成比较研究。
顺序数据的整理与图示
上面介绍的分类数据的频数分布表和图示方法,如频数、比例、百分比 、比率、条形图和饼图等,也都适用于对顺序数据的整理与显示。但适用于顺序数据的整理和显示方法,还可以计算累积频数和累积频率(百分比)。
累积频数(cumulatie frequencies)是将各有序类别或组的频数逐级累加起来得到的频数,频数的累积方法有两种:一是从类别顺序的开始一方向类别顺序的最后一方累加频数(数值型分组则是从变量值小的一方向变量值大的一方累加频数),称为向上累积;二是从类别顺序的最后一方向类别顺序的开始一方累加频数(数值型分组数据则是从变量值大的一方向变量值小的一方累加频数),称为向下累积。通过累积频数,可以很容易看出某一类别(或数值)以下或某一类别(或数值)以上的频数之和。
例: 在一项有关校师生对学校教学设备评价、管理水平和质量评价研究中,研究人员调查在校师生200名,
一个问题是:“您对学校管理水平和质量评价是否满意?”要求回答的类别依次如下:
1.非常不满意;2.不满意;3.一般;4.满意;5非常满意。
另一个问题是:“您对学校教学设备评价是什么?”要求回答的类别依次是:
⒈非常齐全;2齐全.;3.一般;4.不齐全;5.非常不齐全
回答类别 人数 (人) 频率 (%) 向上累计 向下累计 人数(人) 频率(%) 人数(人) 频率(%)
非常不齐全 8 4.00 8 4.00 200 100.00
不齐全 18 9.00 26 13.00 192 96.00
一般 123 61.50 149 74.50 174 87.00
齐全 44 22.00 193 96.50 51 25.50
非常齐全 7 3.50 200 100.00 7 3.50
合计 200 100.00 - - - -
回答类别 人数 (人) 频率 (%) 向上累计 向下累计 人数(人) 频率(%) 人数(人) 频率(%)
非常不满意 6 3.00 6 3.00 200 100.00
不满意 12 6.00 18 9.00 192 97.00
一般 140 70.00 158 79.00 182 91.00
满意 34 17.00 192 96.00 42 21.00
非常满意 8 4.00 200 100.00 8 4.00
合计 200 100.00 - - - -
任务 3 数值型数据的整理与展示
3.3.1 数据分组
数据分组是根据统计研究的需要,将原始数据按照某种标准化分成不同的组别,分组后的数据称为分组数据(grouped data)。 数据分组的主要目的是观察数据的分布特征。数据经分组后再计算出各组中数据出现的频数,就形成了一张频数分布表。数据分组的方法有单变量值分组和组距分组两种。
单变量分组
单变量分组数列,简称单项数列,它是指数列中每一个组的变量值只有一个,即一个变量值代表一个组。单变量值分组是把每一个变量值作为一组,这种分组通常只适合离散变量,且在变量值较少的情况下使用。
有20 个工人看管机器台数资料如下: 2,5,4,4,3,4,3,4,4,2,2,4,3,4,6,3,4,5,2,4。如按以上资料编制频数分布表。
工人看管机器情况频数分布表 看管机器(台) 人数(人) 频率 向上累积 向下累计 人数(人) 频率 人数(人) 频率
2 4 20% 4 20% 20 100%
3 4 20% 8 40% 16 80%
4 9 45% 17 85% 12 60%
5 2 10% 19 95% 3 15%
6 1 5% 20 100% 1 5%
合计 20 100% —— —— —— ——
组距式分组
组距式分组变量数列,简称组距数列,它是指每个组是用两个变量值所确定的一个区间范围来表示,在连续变量或变量值较多的离散变量情况下,通常采用组距分组。它是将全部变量值依次划分为若干个区间,并将这一区间的变量值作为一组。如果各组的组距相等,就叫等距数列。若不等就叫做非等距数列。
我国第五次人口普查我国大陆人口年龄分布 学生按成绩分组
成绩(分) 人数(人) 频率
60——70 3 8%
70——80 27 68%
80——90 8 20%
90——100 2 5%
合计 40 100%
1、组限:
在组距分组中,一个组的最小值称为下限(lower limit ):
一个组的最大值称为上限(upper limit )。
A、组限的表示方法有:
(1)重叠组限: 如:10 —— 20
20 —— 30

归下原则:当某个标志值刚好是相邻两组上下限数值时,一般把此值归并到下限组。
(2)不重叠组限(只适用于离散变量): 如:10 —— 20
21 —— 30

B、组的表示方法:
(1)闭口组:上、下限都有
(2)开口组:上、下限有一缺一
组距式分组的有关概念
组距式分组的有关概念
2、组距
计算公式:组距(i) = 上限 – 下限
种类:
根据各组组距是否相等,组距数列可分为:等距数列、非等距数列
表示方法:
一般用5、10、20、50、100等类似数字表示。
另一相似的概念:
全距(R)= 最大变量值 – 最小变量值
组距式分组的有关概念
3、组中值
概念:每组中点的数值
计算公式:
对于开口组,需先假定其所缺的上限或下限(假设开口组的组距与其相邻组的组距相等)。
(缺上限) 组中值=下限+邻组组距/2
(缺下限) 组中值=上限-邻组组距/2
4、组数(K)
组数、组距、全距之间存在如下关系:
可用经验公式来确定:
K = 1 + 3.322lgn
但最佳决定还是依据常识和数列使用的目的而定。一般情况下,不应少于5组且不多于15组。
组距式分组的有关概念
3.3.2 数值型数据的图示
上面介绍的条形图、饼图、环形图及累积分布图等都适用于显示数值型数据。此外,对数值型数据还有下面的一些图示方法,这些方法并不适用于分类数据和顺序数据。
(一)分组数据:直方图
用图形来展示数据的分布会更形象、直观。显示分组数据频数分布特征的图形直方图、直线图和曲线图。直方图(histogram)是用来展示分组数据分布的一种图形,它是用矩形的宽度和高度(即面积)来表示频数分布的。绘制该图时,在平面直角坐标中,用横轴表示数据分组,纵轴表示频数或频率,这样,各组与相应的频数就形成了一个矩形,即直方图。例如,根据表3—7中的分组数据用Excel绘制的直方图如图3—17所示。
直方图与条形图不同。首先,条形图条形的长度(横置时)表示各类别频数的多少,其宽度(表示类别)则是固定的;直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或频率,宽度则表示各组的组距,因此其高度与宽度均有意义。其次,由于分组数据具有连续性,直方图的各矩形通常是连续排列,而条形图则是分开排列。最后,条形图主要用于展示分类数据,而直方图则主要用于展示数值型数据。
(二)未分组数据:茎叶图
1、茎叶图
茎叶图(stem-and-leaf display)是反映原始数据分布的图形。它由茎和叶两部分构成,其图形是有数字组成的。通过茎叶图,可以看出数据的分布形状以及数据的离散状况,比如,分布是否对称,数据是否集中,是否有离群点,等等。
绘制茎叶图的关键是设计好茎。制作茎叶图时,首先把一个数字分成两部分,通常是以该数据的高位数值作为树茎,而且叶上只保留该数值的最后一个数字。
2、箱线图。
箱线图(box plot)是由一组数据的最大值(maximum)、最小值(mini-mum)、中位数(mediam)、两个四分位数(quartiles) 这五个特征值绘制而成的,它主要用于反映原始数据分布的特征,还可以进行多组数据分布特征的比较。箱线图的绘制方法是:先找出一组数据的最大值、最小值、中位数和两个四分位数;然后,连接两个四分位数画出箱子,再把最大值和最小值相连,中位数放在箱子中间。
(三)时间序列数据:线图
如果数值型数据是在不同时间上取得的,即时间序列数据,则可以绘制线图。线图(line plot)主要于反映现象随时间变化的特征。
(四)多变量数据的图示
上面介绍的一些图形描述的都是单变量数据。当有两个或两个以上变量时,可以采用多变量的图示方法,常见的有散点图、气泡图、雷达图等。
1、散点图
散点图(scatter diagram)是用二维坐标展示两个变量之间关系的一种图形。它是用坐标横轴代表变量x,纵轴代表变量y,每组数据(xⅰ,yⅰ)在坐标系中用一个点表示,n组数据在坐标系中形成的n个点称为散点,由坐标及其散点形成的二维数据图称为散点。
2、雷达图(radar chart)是显示多个变量的常用图示方法,也称为蜘蛛图(spider chart)。设有n组样本S1,S2,…….Sn,每个样本测得P个变量X1,X2,……..Xn,要绘制这P个形成的变量的雷达图,其具体做法是:先画一个圆,然后将圆P平等分,得到P个点,令P个点分别对应P个变量,再将这P个点与圆心连线,得到P个辐射状的半径,这P个半径分别作为P个变量的坐标轴,每个变量值的大小由半径上的点到圆心得距离表示,再将同一样本的值在P个坐标上的点连线。这样,n个样本形成的n个多边形就是一张雷达图。
雷达图显示或对比各变量的数值总和时十分有用。假定各变量的取值具有相同的正负号,则总的绝对值与图形所围成的区域成正比。此外,利用雷达图也可以研究多个样本之间的相似度。
2006年我国西部地区城镇居民生活消费支出(元) 项目 支出
食品 2770.24
衣著 818.14
家庭设备 460.85
医疗保健 513.88
交通通信 900.74
教育娱乐 1021.43
居住 756.42
杂项 262.7
任务4 合理使用图表
统计图和统计表是展示数据的两种方式。在生活中,阅读报纸杂志,或者在看电视、查阅计算机网络时,我们都能看到大量的统计图表。统计表把杂乱的数据有条理地组织在一张简明的表格内。在对某些实际问题进行研究时,也经常要使用统计表和统计图。正确地使用统计表和统计图是做好分析的最基本技能。
3.4.1、鉴别图形优劣的准则
一张精心设计的图形是展示数据的有效工具。上面介绍了用图形来展示数据的方法,借助计算机可以绘制出漂亮的图表。但是注意的是,初学者往往会在图形的修饰上花费时间和精力,这样做得不尝失,或许会画蛇添足。
精心设计的图形可以准确表达数据所要传递的信息。设计图形时,应绘制得尽可能简洁。
塔夫特指出,一张好的图形具有以下的基本特征:
(1)显示数据。
(2)把注意力集中在图形的内容上,而不是在制作图形的程序上。
(3)避免歪曲。
(4)强调数据间比较。
(5)服务于明确的目的。
(6)对图形的统计描述和文字说明。
五条鉴别图形优劣的准则:
(1)一张好图应当精心设计,有助于观察问题实质。
(2)一张好图应当观点简明、确切、高效的阐述。
(3)一张好图应当给读者提供较大的信息。
(4)一张好图应当是多维的。
(5)一张好图应当表述数据的真实情况。
在绘制图形时,应避免一切不必要的修饰。图形产生的视觉效果应与数据所体现的事物体态相一致。
3.4.2、统计表的设计
统计表是用于展示数据的另一个基本工具。在数据的收集、整理、描述和分拆过程中,都要使用统计表。许多杂乱的数据,既不便于阅读,也不便于理解和分析,一旦整理在一张统计表内,就会使数据一目了然。充分利用和制作好统计表是做好统计分析的基本要求。
统计表的形式多种多样,根据使用者的要求和统计数据本身的特点,可以绘制不同的统计表。图3—20就是比较常见的统计表。
由于使用者的目的以及统计数据的特点不同,统计表的设计在形式和结构上会有较大的差异。 但“科学、实用、简练、美观”仍然是设计和使用统计表所要求的。
具体来说,设计和使用统计表时要注意以下几点:
首先,要合理安排统计表的结构,比如行标题、列标题、资料的位置应安排合理。当然,行标题和列标题可以互换。
其次,表头一般应包括表号、总表题和表中数据的单位等内容。总标题和表中的数据单位等内容。一般需要表明统计数据的时间(when)。地点(where) 以及何种数据(what),即标题内容应满足3W要求。若各变量的计量单位不同,则应放在每个变量后或单列出一列标明。
再次,表中的上下两条横线一般用粗线,中间的其他线用细线。统计表左右不封口,列表题间必要时用竖线分开,而横标题之间不必要用横线隔开。而且小数点的位数应统一。对于没有数字的表格单元,一般用“——“表示,一张填好的统计表不应出现空白单元格。
最后,在使用统计表时,必要时可在表的下方加上注释,特别注意注明数据来源,以表示对他人劳动成果的尊重,以备读者查阅使用。
根据收集的数据类型和统计的目的要求,采用饼图、条形图、帕累托图、环形图、频数分布表等图表形式将数据展示出来,使统计数据不再枯燥,让人们能一目了然、清楚的知道想了解的现象。
本章主要概念
频数 频率 条形图 扇形图 折线图 茎叶统计图 直方图 散点图
谢谢

展开更多......

收起↑

资源预览