资源简介 (共42张PPT)4.2.3 文本数据处理第四章第四章文本数据处理是大数据处理的重要分支之一,目的是从大规模的文本数据中提取出符合需要的、感兴趣的和隐藏的信息。据资料表明,非结构化文本数据占文本数据总量的80%以上,而计算机只认识“符号语言”,并不能直接处理非结构化形式的“自然语言”。非结构化数据结构化数据什么是文本数据处理?百度搜索:高中信息技术难不难?文本数据处理论文查重垃圾邮件过滤搜索引擎情报分析自动摘要、自动校对论文查重、文本分类垃圾邮件过滤机器翻译自动应答文本数据处理应用古代小故事有位书生到亲戚家做客,谈话间外面下起雨来,这时天色将晚,他只得打算住下来。但亲戚却不乐意,于是就在纸上写了一句话:下雨天留客天留人不留。书生看了,明白亲戚的意思,却又不好明说,就心想一不做、二不休,干脆加了几个标点:下雨天,留客天,留人不?留!亲戚一看,这句话的意思完全反了。也就无话可说,只好给书生安排了住宿。下雨天留客天留人不留下雨,天留客,天留,人不留下雨天,留客天,留人不?留!这幅对联是什么意思?人多病少财富养猪大如山老鼠头头死酿酒缸缸好造醋坛坛酸非结构化数据:各类的办公文档、文本、图片、XML、HTML、各类报表、图像、音频、视频结构化:行数据,二维表结构,遵循数据格式与长度规范非结构化数据结构化数据分词数据分析文本数据源特征提取结果呈现便于计算机处理文本数据处理的一般过程分词:将连续的子序列按照一定的规范重新组合成词序列的过程分词基于字典的分词方法(jieba):在分析句子时与词典中的词语进行对比,词典中出现的就划分为词。基于统计的分词方法:依据上下文中相邻字出现的频率统计,同时出现的次数越高就越有可能组成一个词,一般与基于字典的分词方法结合使用基于规则的分词方法:模拟人的计算方式,根据大量的现有资料和规则进行学习,进而分词,目前处于实验阶段字符匹配概率统计自主学习一般采用词典法和统计法两者结合名称 简介Jieba分词 Python开源项目IKAnalyzer Java开源分词工具包NLPIR 北京理工大学大数据搜索与挖掘实验室,非商业应用免费语言云 哈尔滨工业大学社会计算与信息检索研究中心,在线API接口调用BosonNLP 玻森中文语义开放平台,在线API接口或库调用分词工具函数 对应模式cut 默认精确分词模式:将句子最精确地切分开cut(s,cut_all=Ture) 全模式分词:将句子中所有成词的词语都扫描出来jieba实例jieba实例s="我来到了西北皇家理工学院,发现这儿真不错"seg_list=jieba.cut(s,cut_all=True)我/来到/了/西北/皇家/理工/理工学/理工学院/工学/工学院/学院/,/发现/这儿/真不/真不错/不错s="我来到了西北皇家理工学院,发现这儿真不错"seg_list=jieba.cut(s,cut_all=False)我/来到/了/西北/皇家/理工学院/,/发现/这儿/真不错import jieba #引入jieba分词模块sentence=input("请输入文本:") #定义文本sent=jieba.cut(sentence,cut_all=True) #全模式分词print(sent) #输出结果import jiebasentence=open(‘文件名’,’r’).read()sent=jieba.cuts(sentence) #精准分词模式print(sent)jieba实例中文文本可以采用字、词或短语作为表示文本的特征项。目前,大多数中文文本分析中都采用词作为特征项,这种词称作特征词相比较而言词的切分难度小且更能表达文本含义。通常可以直接用分词算法和词频统计得出的结果作为特征词,但若文本很大,特征词会很多,用特征提取效率更高特征词①根据专家知识库挑选有价值的特征。②用数学建模的方法构造评估函数自动选取特征。目前大多采用评估函数进行特征提取的方式,评估函数大多是基于概率统计设计的,这就需要用庞大的训练数据集才能获得对分类起关键作用的特征。随着深度学习、大数据分析等技术的发展,文本特征提取将更加准确、科学。特征提取的方式用词频表现文本特征,将关键词按照一定的顺序和规律排列,以文字的大小来代表词语的重要性.字体大,则出现的频率高、重要数据分析——标签云数据分析:文本情感分析通过计算机技术对文本的主观性、观点、情绪等进行挖掘和分析,判断文本的情感倾向。今天跟集美出去逛街啦,搞点神仙甜品778顺便暴风吸入好喝到剁jiojio的加芋圆加布丁加椰果加芋泥加奥奥碎加脆啵啵加奶盖加花生加燕麦加红豆的奶茶最后缓缓口服一片v商购入的三无控糖片,还点了茶百道的分装做了个隐藏甜品吃,茶百道yyds,小狗勾暴风吸入隐藏甜品后好吃到翘jiojio,真的绝绝子 ~今天跟集美也是在逃公主的一天。文本情感分析示例数据分析——标签云请输入标题粗粒度细粒度整篇文章级语句级词语级主要应用于舆情监控、用户评论分析与决策、信息预测,或用于判断产品的口碑,进而帮助生产者改进产品文本情感分析依据数据分析:文本情感分析1.文本数据处理的一般过程不包括( )A.分词 B.特征提取 C.数据分析 D.机器翻译2.以下哪项不是中文分词的一般方法( )A.基于词典法 B.基于统计法C.基于阿尔法 D.基于规则法DC小试牛刀3.构造评估函数的特征提取法大多是基于( )设计的A.语义分析 B.情感分析 C.概率统计 D.专家知识4.标签云主要是以( )为文本特征A.词频 B.词义 C.词句 D.词序CA小试牛刀1、下列数据处理中,不属于文本数据处理的是( )A.根据白名单和黑名单机制,进行垃圾邮件的识别B.在线客服通过自动应答技术回答问题C.实时监测景区的人流数据,控制过多的游客进入景区D.分析消费者的意见数据,挖掘用户观点,辅助运营决策c小试牛刀2、有关大数据的文本数据处理,下列说法正确的是( )A.jieba模块的分词算法属于基于统计的分词方法B.大数据文本情感分析是电脑将自己的情感表现出来C.文本处理过程中一般先进行数据分析,再分词、提取特征,最后呈现结果D.标签云一般根据词频表现文本特征,以文字大小代表词语的重要性D小试牛刀3、文本数据处理的主要步骤由以下部分选项组成,正确的顺序是( )①文本校对 ②特征抽取 ③数据分析 ④分词 ⑤文本获取 ⑥结果呈现A.⑤②④③⑥ B.⑤③④②⑥ C.⑤④②③⑥ D.⑤④①③②⑥C小试牛刀4、下列关于中文分词方法的描述中,属于基于词典的分词方法的是( )A.依据词语与词语之间的空格进行分词B.依据上下文中相邻字出现的频率统计,同时出现的次数越高就越可能组成一个词C.让计算机模拟人的理解方式,根据大量的现有资料和规则进行学习,然后分词D.在分析句子时与词典中的词语进行对比,词典中出现的就划分为词D小试牛刀5、某研究小组对采集的省内微博数据进行了研究,用不同的颜色来表示心情,在区域地图上展示了不同地区的人在不同时间的情绪变化,该研究小组所使用的文本数据分析是( )A.词频统计 B.标签云 C.文本情感分析 D.文本挖掘C小试牛刀6、某文本数据集的标签云如图所示,下列说法正确的是( )A.对数据集中文本分词后可直接创建标签云,无须特征提取B.标签云须显示该数据集包含的全部词语C.该数据集中,词语“玩偶”比“注意力”的出现频率高D.最能表现该数据集中文本特征的词有“车顶”“玩偶”“路口”C小试牛刀数据可视化以图形、图像和动画等方式更加直观生动地呈现数据及数据分析结果,揭示数据之间的关系、趋势和规律等表达方式。数据可视化可视化的作用1.快捷观察与追踪数据可视化的作用可视化的作用2. 实时分析数据可视化的作用3. 增强数据的解释力与吸引力可视化的作用可视化的作用可视化的基本方法1. 有关时间趋势的可视化(柱形图、折线图)数据可视的基本方法——时间趋势可视化的基本方法2. 有关比例的可视化(饼图、环形图)数据可视的基本方法——比例3. 有关关系的可视化(散点图、气泡图)可视化的基本方法数据可视的基本方法——关系可视化的基本方法数据可视的基本方法——差异4. 有关差异的可视化(雷达图)可视化的基本方法5. 有关空间关系的可视化,带有经纬度标签的空间数据数据可视的基本方法——空间可视化的工具工具:大数据魔镜 (免费的大数据可视化分析工具)Gephi(动态和分层图的交互可视化与探测开源工具)Tableau(实时可视化分析)编程语言:PythonR (用于统计分析,图形表示和报告的编程语言和软件环境)可视化工具库:D3.js (D3 是最流行的可视化库之一)Highcharts (用纯JavaScript编写的一个图表库)Google Charts (提供的一项动态生成图表的服务)。四、数据可视化工具五、数据可视化典型案例风、气象、海洋状况的全球地图编程语言之间的影响力关系图“双十一”全网销售直播图航班飞行实时跟踪地图微博热词趋势图书P136——138,自主阅读可视化的典型案例Thanks 展开更多...... 收起↑ 资源预览