4.2.3 文本数据处理课件(共42张PPT) 2023—-2024学年浙教版（2019）高中信息技术必修1

资源简介

(共42张PPT)
4.2.3 文本数据处理
第四章
第四章
文本数据处理是大数据处理的重要分支之一，目的是从大规模的文本数据中提取出符合需要的、感兴趣的和隐藏的信息。
据资料表明，非结构化文本数据占文本数据总量的80%以上，而计算机只认识“符号语言”，并不能直接处理非结构化形式的“自然语言”。
非结构化数据
结构化数据
什么是文本数据处理？
百度搜索：高中信息技术难不难？
文
本
数
据
处
理
论文查重
垃圾邮件过滤
搜索引擎
情报分析
自动摘要、自动校对
论文查重、文本分类
垃圾邮件过滤
机器翻译
自动应答
文本数据处理应用
古代小故事
有位书生到亲戚家做客，谈话间外面下起雨来，这时天色将晚，他只得打算住下来。但亲戚却不乐意，于是就在纸上写了一句话：
下雨天留客天留人不留。
书生看了，明白亲戚的意思，却又不好明说，就心想一不做、二不休，干脆加了几个标点：下雨天，留客天，留人不？留！亲戚一看，这句话的意思完全反了。也就无话可说，只好给书生安排了住宿。
下雨天留客天留人不留
下雨,天留客，天留,人不留
下雨天，留客天，留人不？留！
这幅对联是什么意思？
人多病少财富
养猪大如山老鼠头头死
酿酒缸缸好造醋坛坛酸
非结构化数据：各类的办公文档、文本、图片、XML、HTML、各类报表、图像、音频、视频
结构化：行数据，二维表结构，遵循数据格式与长度规范
非结构化数据
结构化数据
分词
数据分析
文本数据源
特征提取
结果呈现
便于计算机处理
文本数据处理的一般过程
分词：将连续的子序列按照一定的规范重新组合成词序列的过程
分词
基于字典的分词方法（jieba）：
在分析句子时与词典中的词语进行对比，词典中出现的就划分为词。
基于统计的分词方法：
依据上下文中相邻字出现的频率统计，同时出现的次数越高就越有可能组成一个词，一般与基于字典的分词方法结合使用
基于规则的分词方法：
模拟人的计算方式，根据大量的现有资料和规则进行学习，进而分词,目前处于实验阶段
字符匹配
概率统计
自主学习
一般采用词典法和统计法两者结合
名称简介
Jieba分词 Python开源项目
IKAnalyzer Java开源分词工具包
NLPIR 北京理工大学大数据搜索与挖掘实验室，非商业应用免费
语言云哈尔滨工业大学社会计算与信息检索研究中心，在线API接口调用
BosonNLP 玻森中文语义开放平台，在线API接口或库调用
分词工具
函数对应模式
cut 默认精确分词模式：将句子最精确地切分开
cut(s,cut_all=Ture) 全模式分词：将句子中所有成词的词语都扫描出来
jieba实例
jieba实例
s="我来到了西北皇家理工学院，发现这儿真不错"
seg_list=jieba.cut(s,cut_all=True)
我/来到/了/西北/皇家/理工/理工学/理工学院/工学/工学院/学院/，/发现/这儿/真不/真不错/不错
s="我来到了西北皇家理工学院，发现这儿真不错"
seg_list=jieba.cut(s,cut_all=False)
我/来到/了/西北/皇家/理工学院/，/发现/这儿/真不错
import jieba #引入jieba分词模块
sentence=input("请输入文本：") #定义文本
sent=jieba.cut(sentence,cut_all=True) #全模式分词
print(sent) #输出结果
import jieba
sentence=open(‘文件名’,’r’).read()
sent=jieba.cuts(sentence) #精准分词模式
print(sent)
jieba实例
中文文本可以采用字、词或短语作为表示文本的特征项。目前，大多数中文文本分析中都采用词作为特征项，这种词称作特征词
相比较而言词的切分难度小且更能表达文本含义。
通常可以直接用分词算法和词频统计得出的结果作为特征词，但若文本很大，特征词会很多，用特征提取效率更高
特征词
①根据专家知识库挑选有价值的特征。
②用数学建模的方法构造评估函数自动选取特征。
目前大多采用评估函数进行特征提取的方式，评估函数大多是基于概率统计设计的，这就需要用庞大的训练数据集才能获得对分类起关键作用的特征。随着深度学习、大数据分析等技术的发展，文本特征提取将更加准确、科学。
特征提取的方式
用词频表现文本特征，将关键词按照一定的顺序和规律排列，以文字的大小来代表词语的重要性.字体大，则出现的频率高、重要
数据分析——标签云
数据分析：文本情感分析
通过计算机技术对文本的主观性、观点、情绪等进行挖掘和分析，判断文本的情感倾向。
今天跟集美出去逛街啦，搞点神仙甜品778顺便暴风吸入好喝到剁jiojio的加芋圆加布丁加椰果加芋泥加奥奥碎加脆啵啵加奶盖加花生加燕麦加红豆的奶茶最后缓缓口服一片v商购入的三无控糖片，还点了茶百道的分装做了个隐藏甜品吃，茶百道yyds，小狗勾暴风吸入隐藏甜品后好吃到翘jiojio，真的绝绝子～今天跟集美也是在逃公主的一天。
文本情感分析示例
数据分析——标签云
请输入标题
粗粒度
细粒度
整篇文章级
语句级
词语级
主要应用于舆情监控、用户评论分析与决策、信息预测，或用于判断产品的口碑，进而帮助生产者改进产品
文本情感分析依据
数据分析：文本情感分析
1.文本数据处理的一般过程不包括（）
A.分词 B.特征提取 C.数据分析 D.机器翻译
2.以下哪项不是中文分词的一般方法（）
A.基于词典法 B.基于统计法
C.基于阿尔法 D.基于规则法
D
C
小试牛刀
3.构造评估函数的特征提取法大多是基于（）设计的
A.语义分析 B.情感分析 C.概率统计 D.专家知识
4.标签云主要是以（）为文本特征
A.词频 B.词义 C.词句 D.词序
C
A
小试牛刀
1、下列数据处理中，不属于文本数据处理的是(　　)
A.根据白名单和黑名单机制，进行垃圾邮件的识别
B.在线客服通过自动应答技术回答问题
C.实时监测景区的人流数据，控制过多的游客进入景区
D.分析消费者的意见数据，挖掘用户观点，辅助运营决策
c
小试牛刀
2、有关大数据的文本数据处理，下列说法正确的是(　　)
A.jieba模块的分词算法属于基于统计的分词方法
B.大数据文本情感分析是电脑将自己的情感表现出来
C.文本处理过程中一般先进行数据分析，再分词、提取特征，最后呈现结果
D.标签云一般根据词频表现文本特征，以文字大小代表词语的重要性
D
小试牛刀
3、文本数据处理的主要步骤由以下部分选项组成，正确的顺序是(　　)
①文本校对　②特征抽取　③数据分析 ④分词　⑤文本获取　⑥结果呈现
A.⑤②④③⑥ B.⑤③④②⑥ C.⑤④②③⑥ D.⑤④①③②⑥
C
小试牛刀
4、下列关于中文分词方法的描述中，属于基于词典的分词方法的是(　　)
A.依据词语与词语之间的空格进行分词
B.依据上下文中相邻字出现的频率统计，同时出现的次数越高就越可能组成一个词
C.让计算机模拟人的理解方式，根据大量的现有资料和规则进行学习，然后分词
D.在分析句子时与词典中的词语进行对比，词典中出现的就划分为词
D
小试牛刀
5、某研究小组对采集的省内微博数据进行了研究，用不同的颜色来表示心情，在区域地图上展示了不同地区的人在不同时间的情绪变化，该研究小组所使用的文本数据分析是(　　)
A.词频统计 B.标签云 C.文本情感分析 D.文本挖掘
C
小试牛刀
6、某文本数据集的标签云如图所示，下列说法正确的是（）
A.对数据集中文本分词后可直接创建标签云，无须特征提取
B.标签云须显示该数据集包含的全部词语
C.该数据集中，词语“玩偶”比“注意力”的出现频率高
D.最能表现该数据集中文本特征的词有“车顶”“玩偶”“路口”
C
小试牛刀
数据可视化
以图形、图像和动画等方式更加直观生动地呈现数据及数据分析结果，揭示数据之间的关系、趋势和规律等表达方式。
数据可视化
可视化的作用
1.快捷观察与追踪数据
可视化的作用
可视化的作用
2. 实时分析数据
可视化的作用
3. 增强数据的解释力与吸引力
可视化的作用
可视化的作用
可视化的基本方法
1. 有关时间趋势的可视化（柱形图、折线图）
数据可视的基本方法——时间趋势
可视化的基本方法
2. 有关比例的可视化（饼图、环形图）
数据可视的基本方法——比例
3. 有关关系的可视化（散点图、气泡图）
可视化的基本方法
数据可视的基本方法——关系
可视化的基本方法
数据可视的基本方法——差异
4. 有关差异的可视化（雷达图）
可视化的基本方法
5. 有关空间关系的可视化，带有经纬度标签的空间数据
数据可视的基本方法——空间
可视化的工具
工具：
大数据魔镜 (免费的大数据可视化分析工具)
Gephi（动态和分层图的交互可视化与探测开源工具）
Tableau（实时可视化分析）
编程语言：
Python
R (用于统计分析,图形表示和报告的编程语言和软件环境)
可视化工具库：
D3.js (D3 是最流行的可视化库之一)
Highcharts (用纯JavaScript编写的一个图表库)
Google Charts (提供的一项动态生成图表的服务)。
四、数据可视化工具
五、数据可视化典型案例
风、气象、海洋状况的全球地图
编程语言之间的影响力关系图
“双十一”全网销售直播图
航班飞行实时跟踪地图
微博热词趋势图
书P136——138，自主阅读
可视化的典型案例
Thanks

展开更多......

收起↑

请用微信扫码

4.2.3 文本数据处理 课件(共42张PPT) 2023—-2024学年浙教版（2019）高中信息技术必修1

4.2.3 文本数据处理 课件(共42张PPT) 2023—-2024学年浙教版（2019）高中信息技术必修1

4.2.3 文本数据处理课件(共42张PPT) 2023—-2024学年浙教版（2019）高中信息技术必修1

4.2.3 文本数据处理课件(共42张PPT) 2023—-2024学年浙教版（2019）高中信息技术必修1