第2章 数据处理与频数分布 课件(共31张PPT)- 《统计学—基于Execl》同步教学(人民大学版)

资源下载
  1. 二一教育资源

第2章 数据处理与频数分布 课件(共31张PPT)- 《统计学—基于Execl》同步教学(人民大学版)

资源简介

(共31张PPT)
第 2 章 数据处理与频数分布
2.1 数据的预处理
2.2 类别数据的频数分布
2.3 数值数据的类别化
frequency distribution
思考一下在你的生活或工作中接触过数据吗?如果接触过,都是些什么样的数据?这些数据对你有用吗?如果将2000个家庭的调查问卷交给你处理,你首先会做什么?如何将500个学生的调查问卷数据汇总在一张表格里?如果按收入的多少将家庭分成低收入、中等收入和高收入,你会怎么做?2.1 数据的预处理
2.1.1 数据审核与验证
2.1.2 数据排序与筛选
第 2 章 数据处理与频数分布
2.1.1 数据审核与验证
2.1 数据的预处理
数据审核检查数据中是否有错误原始数据(raw data):从完整性和准确性两个方面去审核检查应调查个体是否有遗漏,所有的调查项目是否填写齐全等准确性审核主要是检查数据是否有错误,是否存在异常值等。对于异常值要仔细进行鉴别:如果异常值属于记录时的错误,在分析之前应予以纠正;如果异常值是一个正确的值,则应予以保留数据审核二手数据:审核数据的适用性和时效性二手数据可以来自多种渠道,有些数据可能是为特定目的通过专门调查而取得的,或者是已经按特定目的的需要做了加工整理。对于使用者来说,首先应弄清楚数据的来源、数据的口径以及有关的背景材料,以便确定这些数据是否符合自己分析研究的需要,不能盲目生搬硬套审核数据的时效性,对于有些时效性较强的问题,如果所取得的数据过于滞后,可能失去了研究的意义录入到计算机来建立数据文件,以便进行分析数据验证避免录入数据时出现错误在Excel表中要录入数据的区域限定录入的条件。如果录入的数据不符合限定条件时将出现错误提示信息,以便及时修改数据验证(用Excel做数据验证)第1步:用鼠标在工作表中选定录入数据的单元格区域,如A1:B10单元格区域第2步:选择【数据】→【数据验证】第3步:在【验证条件】的【允许】框内选择要录入的数据类型,比如,“整数”。在【介于】框内选择验证条件,或者在“最小值”和“最大值”框内输入数据范围。比如,在【最小值】框内输入0,在【最大值】框内输入10第4步:点击【出错警告】,在【式样】下选择“警告”,在【错误信息】下输入警告信息,比如“NA”。然后点击【确定】,即可完成设置2.1.2 数据排序与筛选
2.1 数据的预处理
数据排序类别数据排序:字母型数据,排序有升序降序之分,但习惯上更多使用升序;如果是汉字型数据,排序方式很多,比如按汉字的首位拼音字母排列,这与字母型数据的排序完全一样,也可按笔画排序,其中也有笔画多少的升序和降序之分数值数据的排序有两种,即升序和降序。设一组数据为,升序后可表示为:;降序可表示为:数据排序【例2—1】在某大学随机抽取50名学生进行调查,得到性别、家庭所在地、月生活费支出(元)和月网上购物支出(元)数据如表2—1所示。对学生月生活费支出按升序排列数据筛选数据筛选(data filter):根据需要找出符合特定条件的某类数据【例2—2】沿用例2—1。筛选月生活费支出大于等于2000元的学生;性别为女、家庭所在地为大城市、月生活费支出大于1500元、月网上购物支出大于200元的所有学生数据筛选(筛选出月生活费大于2000的学生)第1步:将光标放在数据区域的任意单元格。然后点击【数据】 【筛选】。这时绘在每个变量名中出现下拉箭头第2步:点击要筛选的变量的下拉箭头即可对该变量进行筛选。比如,要筛选出月生活费支出大于2000的学生,点击月生活费支出变量的下拉箭头第3步:点击“大于或等于”,并在后面的框内输入1500。点击【确定】数据筛选(多条件筛选)筛选出性别为女、家庭所在地为大城市、月生活费支出大于1500元、月网上购物支出大于200元的所有学生第1步:在工作表的上方插入3个空行,将数据表的第一行复制到第1个空行;在第2个空行的每个变量名下依次输入筛选的条件:女、大城市、>1500、>200第2步:选择【数据】→【高级】。在列表区域输入要筛选的数据区域;在条件区域输入条件区域。单击【确定】2.2 类别数据的频数分布
2.2.1 简单频数表
2.2.2 二维列联表
2.2.3 类别数据的简单分析
第 2 章 数据处理与频数分布
生成频数分布表频数分布(frequency distribution):变量的取值及其相应的频数形成的分布频数分布表(frequency distribution table):展示变量的取值及其相应的频数分布的表格频数(frequency):落在某一特定类别的数据个数类别数据本身就是对事物的一种分类,先把所有的类别都列出来,然后统计出每一类别的频数,就是一张频数分布表当只涉及一个类别变量时,这个变量的取值可以放在频数分布表中“行”的位置,也可以放在“列”的位置当只涉及两个类别变量时,通常将一个变量的取值放在“行”的位置,另一个变量的取值放在“列”的位置,这种由两个变量交叉分类的频数分布表称为列联表(contingency table)2.2.1 简单频数表
2.2 类别数据的频数分布
简单频数表只涉及一个类别变量时,这个变量的各类别(取值)可以放在频数分布表中“行”的位置,也可以放在“列”的位置,将该变量的各类别及其相应的频数列出来就是一个简单的频数表,也称为一维列联表【例2—3】沿用例2—1。分别制作学生性别和家庭所在地的简单频数表简单频数表用【数据透视表】命令制作类别数据频数分布表第1步:选择【插入】→【数据透视表】第2步:在【表/区域】框内选定数据区域。选择放置数据透视表的位置。系统默认是新工作表,如果要将透视表放在现有工作表中,选择【现有工作表】,并在【位置】框内点击工作表的任意单元格。点击【确定】第3步:用鼠标右键单击数据透视表,选择【数据透视表选项】,在弹出的对话框中点击【显示】,并选中【经典数据透视表布局】,然后【确定】第4步:将数据透视的一个字段拖至“行”位置,将“另一个字段”拖至“列”的位置(行列可以互换),再将要计数的变量拖至“值字段”位置,即可生成需要的频数分布表2.2.2 二维列联表
2.2 类别数据的频数分布
二维列联表涉及两个类别变量时,通常将一个变量的各类别放在“行”的位置,另一个变量的各类别放在“列”的位置(行和列可以互换),由两个类别变量交叉分类形成的频数分布表称为列联表(contingency table),也称交叉表(cross table)例2—1的性别和家庭所在地的二维列联表2.2.3 类别数据的简单分析
2.2 类别数据的频数分布
类别数据的简单分析比例(proportion):也称构成比,它是一个样本(或总体)中各类别的频数与全部频数之比,通常用于反映样本(或总体)的构成或结构百分比(percentage):将比例乘以100得到的数值称为百分比,用%表示比率(ratio):比率是样本(或总体)中各不同类别频数之间的比值,反映各类别之间的比较关系。由于比率不是部分与整体之间的对比关系,因而比值可能大于1如果是有序类别数据,还可以计算累积百分比(Cumulative Percent)进行分析类别数据的简单分析表2—4的数据计算的男女学生和家庭所在地的百分比家庭所在地男女总计人数(%)人数(%)人数(%)大城市729.171038.461734.00乡镇地区729.17830.771530.00中小城市1041.67830.771836.00总计24100.0026100.0050100.002.3 数值数据的类别化
2.3.1 数据分组
2.3.2 用 Excel 制作频数分布表
第 2 章 数据处理与频数分布
2.3.1 数据分组
2.3 数值数据的类别化
数据分组第1步:确定组数。组数的多少与数据本身的特点及数据的多少有关。一般而言,一组数据所分的组数大致等于样本量的平方根。设组数为,则第2步:确定各组的组距。组距可根据全部数据的最大值和最小值及所分的组数来确定,第3步:统计出各组的频数,即为频数分布表。在统计各组频数时,恰好等于某一组上限的变量值一般不算在本组内,而是计算在下一组,即一个组的数值x满足2.3.2 用Excel制作频数分布表
2.3 数值数据的类别化
数据分组用【直方图】命令制作【例2—4】频数分布表Excel在作频数分布表时,每一组的频数包括一个组的上限值,即。因此,需要输入一列比上限值小的数作为【接收区域】。就【例2—4】而言,分别输入作为【接收区域】第1步:选择【数据】 【数据分析】 【直方图】,单击【确定】第2步:在【输入区域】方框内输入原始数据所在的区域;在【接收区域】方框内输入上限值所在的区域;在【输出区域】方框内输入结果输出的位置;选择【图表输出】数据分组用【直方图】命令制作【例2—4】频数分布表分组人数频率(%)200—25074.67250—300117.33300—3502214.67350—4003825.33400—4502919.33450—5002013.33500—550128.00550—60064.00600—65032.00650—70021.33合计150100.00结 束
THANKS

展开更多......

收起↑

资源预览