资源简介 (共16张PPT)第二章需求分析与数据建模教师项目需求分析与解决方案2.1数据的采集与分类2.2建立关系数据模型2.3目录PART 2.2数据的采集与分类数据采集的途径2.2.11.分析文档资料:料有助于了解一些内部信息数据采集的途径2.2.12.面谈:与人面对面交流来采集信息数据采集的途径2.2.13.实地调查:实地调查是了解一个系统运作的最有效的技术。数据采集的途径2.2.14.研究:对应用或问题本身进行详细研究数据采集的途径2.2.15.问卷调查:从大量的人群中采集数据信息数据的分类2.2.21.噪声数据现象及其成因噪声数据(Noisy data),就是无意义的数据,就是被测量的变量的随机误差或方差,是指数据中存在着错误或异常(偏离期望值)的数据。165,174,175,157,15,163,173,121,166,174,355,163,185,285,85数据的分类2.2.2原因:机器因素:如硬件故障、编程错误、语音或光学字符识别程序(OCR)中的乱码等人为因素:如拼写错误、行业简称以及俚语1.噪声数据现象及其成因数据的分类2.2.2下风云出我辈一入江湖岁月催皇图霸业谈实泊不胜人间一场辞噪声数据可能会影响后面数据分析的结果。数据的分类2.2.22.分类数据结构化数据:可以使用二维表结构来表示和存储,如数字、符号等。一般特点是数据以行位单位,一行数据表示一个实体的信息。每行数据的属性是相同的。数据的分类2.2.2非结构化数据:不方便用数据库二维表来表现,数据结构不规则或不完整。包括所有格式的办公文档、文本、图片、图像、音频/视频信息等。2.分类数据数据的采集与分类2.2半结构化数据:介于完全结构化数据和完全非结构化数据(如声音、图像文件等)之间的数据,包含相关标记,如HTML文档。2.分类数据数据的分类2.2.22.分类数据对于不同结构的数据,管理和调用的方式是不同的。(1)结构化数据,是带有表头的表结构数据,数据按行和列组织。(2)非结构化数据,通常是建立一个包含“编号”、“内容描述”和“内容(指向)”的表来实现与“数据”的对应。(3)半结构化数据,这个数据以没有表头的表格形式存储,其中的值是使用了难以理解的编码,需要使用此数据附带说明文档才能解码。知识拓展:大数据环境下的数据采集和分类2.2大数据环境下,数据来源非常丰富而且形式多样,大数据要处理的往往是大量的非结构化数据。大数据环境下,数据采集和分类一般包括以下方法:(1)系统日志采集方法(2)网络数据采集方法:对非结构化数据的采集(3)其他数据采集方法通过网络爬虫或网站公开API等方式从网站上获取数据信息。该方法可以将非结构化数据从网页中抽取出来,将其存储为统一的本地数据文件,并以结构化的方式存储。它支持图片、音频、视频等文件或附件的采集,附件与正文可以自动关联。与企业或研究机构合作,使用特定系统接口等相关方式采集数据。系统日志是记录系统中硬件、软件和系统问题的信息,同时还可以监视系统中发生的事件。 展开更多...... 收起↑ 资源预览