第四章第五章关键知识点辨析 课件(共13张PPT) 2023—2024学年浙教版(2019)高中信息技术必修1

资源下载
  1. 二一教育资源

第四章第五章关键知识点辨析 课件(共13张PPT) 2023—2024学年浙教版(2019)高中信息技术必修1

资源简介

(共13张PPT)
第四章、第五章关键知识点辨析
数据整理
数据问题 处理方法
数据缺失 忽略含有缺省值的实例或属性(简单)
采用平均值、中间值或概率统计值来填充(优)
数据重复 在进一步审核的基础上进行合并或删除处理
异常数据 不符合一般规律的数据对象,可能为噪声或重要数据对象
逻辑错误 通过检测字段中各属性有效数据值的范围来判断
格式不一 数据转换成适合后续分析和挖掘的统一形式
引用
A1——相对引用(默认):公式所在单元格的位置改变,引用也随之改变。
$A$1——绝对引用:公式所在单元格的位置改变,引用保持不变。
混合引用:公式所在单元格的位置改变,绝对引用部分不变,相对引用部分随之改变,如$A1(仅锁定列号), A$1(仅锁定行号) 。“$”在谁前面,谁被锁定。
常见错误类型
错误类型 错误名称 错误原因
#DIV/0! 除零错误 除数为0
#REF! 引用错误 删除一个在公式中被引用的单元格
#VALUE 数据类型错误 如一个文本型加一个数值型
#NAME 函数名错误 如SUM拼成了SAM
###### 不是错误,是单元格列宽不够造成的
大数据处理分类
大数据
处理
静态数据
流数据
图数据
★静态数据:在处理时已收集完成、在计算式不会发生改变的数据
★流数据:是指不间断地、持续地到达的实时数据,随着时间的流逝,流数据的价值也随之降低,通过实时分析计算可以得到更有价值的分析的结果
★图数据:以社交网络、道路交通等数据为例的众多以图为数据呈现形式的数据,或者转化为图之后再进行分析
静态数据——批处理
Hadoop是一个运行于计算机集群上的分布式系统基础架构,适用于静态数据的批处理计算。
Spark是一种与hadoop相似的,应用较广的开源分布式计算架构。Spark启用了内存存储中间结果,运行速度比hadoop快。
不间断地、持续地到达的实时数据。流数据的价值会随着时间 的流逝而降低。
对采集的数据实时分析和计算并反馈实时结果。经处理系统处理完成的数据流直接丢弃或存储
用户可以实时查询最新数据分析结果,数据不断更新,实时推荐给用户
流计算应用:广告推送、个性化推荐、实时交通
流计算软件:Storm、Streams、S4、Puma
流数据——流计算
现实世界中以图形式展现的数据。如社交网络、道路交通等。
图处理软件:Pregel、GraphX
图数据——图计算
文本数据处理的主要目的是从大规模的文本数据中提取出符合需求的、感兴趣的和隐藏的信息。
文本数据源
分词
特征提取
数据分析
结果呈现
非结构化数据:各类的办公文档、文本、图片、XML、HTML、各类报表、图像、音频、视频
无结构的文本
结构化:行数据,二维表结构,遵循数据格式与长度规范
结构化、便于计算机处理
中文分词
分词是将连续的字序列按照一定的规范重新组合成词序列的过程。
1、基于词典的分词方法_jieba
根据设定好的词典进行分词
2、基于统计的分词方法
依据上下文中相邻字出现的频率统计
3、基于规则的分词方法
模拟人的思维,根据资料和规则进行学习分词。(尚在探索)
一般采用词典法和统计法两者结合




1
人工智能的本质
1.人工智能的概念
人工智能是指以机器(计算机)为载体,模仿、延伸和扩展人类智能,其与人类或其他动物所呈现的生物智能有着重要区别。




1
人工智能的本质
2.人工智能的主要方法




1
人工智能的本质
3.人工智能的发展
(1)从计算到智能测试
1950年,图灵针对“智能测试”问题提出了测试机器是否具有智能的一种方法,即著 的“图灵测试”。
(2)人工智能登上历史舞台
1956年,“人工智能达特茅斯夏季研讨会”在美国达特茅斯学院召开,标志着人工智能作为一门新兴学科正式诞生。
(3)以符号主义表达与推理为代表的人工智能
符号主义人工智能方法认为学习或者其他的智能特征原则上都可以被精确地描述。
(4)数据驱动的人工智能方法
深度学习能够让计算机从数据本身进行知识学习
(5)问题引导下的人工智能学习方法
问题引导下的试错学习

展开更多......

收起↑

资源预览