4.2.3大数据处理_文本数据处理 课件(共20张PPT)(浙教版高中信息技术必修一)

资源下载
  1. 二一教育资源

4.2.3大数据处理_文本数据处理 课件(共20张PPT)(浙教版高中信息技术必修一)

资源简介

(共20张PPT)
4.2文本数据处理
第四章 数据处理与应用
文本数据处理:从大规模的文本数据中提取出符合需要的信息
主要应用在搜索引擎、情报分析、自动摘要、自动校对、论文查重、文本分类、垃圾邮件过滤、机器翻译、自动应答等方面。(了解)
文本数据处理的应用p138
文本数据处理的一般过程p138-140
文本内容是非结构化数据→ →结构化数据
分词
数据分析
文本数据源
特征提取
结果呈现
将一个内容序列切分成一个一个单独的词
(1)基于词典的分词方法(jieba)
(2)基于统计的分词方法
(3)基于规则的分词方法(试验阶段)
获取文本中最重要的字、词或短语
选取合适的工具或算法抽取文本中的隐含价值
标签云
字、词、短语作为特征项
情感分析
根据专家知识挑选或数学建模(庞大训练数据集)
项目学习1:中文分词jieba
文本数据处理的过程
案例1:
把句子中所有可以成词的词语都扫描出来
试图将句子最精确的分开,适合文本分析
项目学习2:词频统计
程序实现
词频统计核心代码
数据可视化
教材143页
1.什么是数据可视化?
数据可视化是将数据以图形图像等形式表示,直接呈现数据中蕴含信息的处理过程。
2.可视化的作用?
(1)快捷观察与追踪数据
(2)实时分析数据
(3)增强数据的解释力和吸引力
可视化的基本方法
1.有关时间趋势的可视化
随时间推移而变化的数据
可视化的基本方法
2.有关比例的可视化
一系列总和为1的比例数据
可视化的基本方法
3.有关关系的可视化
相互关联的数据
可视化的基本方法
4.有关差异的可视化
包含多种变量的数据
可视化的基本方法
5.有关空间关系的可视化
带有经纬度标签的空间数据
可视化的工具
工具:
大数据魔镜 (免费的大数据可视化分析工具)
Gephi(动态和分层图的交互可视化与探测开源工具)
Tableau(实时可视化分析)
编程语言:
R (用于统计分析,图形表示和报告的编程语言和软件环境)
Python
可视化工具库:
D3.js (D3 是最流行的可视化库之一,可以创建实时交互网页)
Highcharts (用纯JavaScript编写的一个图表库)
Google Charts (为浏览器和移动设备定制,用于在web上可视化数据)
大数据典型应用p151-152
智能交通整合了物联网、大数据、云计算、人工智能等技术
实时提供道路交通、公路交通、停车场等信息。
检测、控制和管理道路交通 。
大数据典型应用p152
利用电子设备和网络技术进行商务活动
出租车轨迹可视化分析
项目学习3:文本数据分析——生成标签云
生成结果并分析(提取关键信息)
浙大附中.txt(UTF8格式)
校标.png(模板图片)
#[0,10]区间内返回1000个均匀分布的样本
p135
p137

展开更多......

收起↑

资源预览