资源简介 (共20张PPT)4.2文本数据处理第四章 数据处理与应用文本数据处理:从大规模的文本数据中提取出符合需要的信息主要应用在搜索引擎、情报分析、自动摘要、自动校对、论文查重、文本分类、垃圾邮件过滤、机器翻译、自动应答等方面。(了解)文本数据处理的应用p138文本数据处理的一般过程p138-140文本内容是非结构化数据→ →结构化数据分词数据分析文本数据源特征提取结果呈现将一个内容序列切分成一个一个单独的词(1)基于词典的分词方法(jieba)(2)基于统计的分词方法(3)基于规则的分词方法(试验阶段)获取文本中最重要的字、词或短语选取合适的工具或算法抽取文本中的隐含价值标签云字、词、短语作为特征项情感分析根据专家知识挑选或数学建模(庞大训练数据集)项目学习1:中文分词jieba文本数据处理的过程案例1:把句子中所有可以成词的词语都扫描出来试图将句子最精确的分开,适合文本分析项目学习2:词频统计程序实现词频统计核心代码数据可视化教材143页1.什么是数据可视化?数据可视化是将数据以图形图像等形式表示,直接呈现数据中蕴含信息的处理过程。2.可视化的作用?(1)快捷观察与追踪数据(2)实时分析数据(3)增强数据的解释力和吸引力可视化的基本方法1.有关时间趋势的可视化随时间推移而变化的数据可视化的基本方法2.有关比例的可视化一系列总和为1的比例数据可视化的基本方法3.有关关系的可视化相互关联的数据可视化的基本方法4.有关差异的可视化包含多种变量的数据可视化的基本方法5.有关空间关系的可视化带有经纬度标签的空间数据可视化的工具工具:大数据魔镜 (免费的大数据可视化分析工具)Gephi(动态和分层图的交互可视化与探测开源工具)Tableau(实时可视化分析)编程语言:R (用于统计分析,图形表示和报告的编程语言和软件环境)Python可视化工具库:D3.js (D3 是最流行的可视化库之一,可以创建实时交互网页)Highcharts (用纯JavaScript编写的一个图表库)Google Charts (为浏览器和移动设备定制,用于在web上可视化数据)大数据典型应用p151-152智能交通整合了物联网、大数据、云计算、人工智能等技术实时提供道路交通、公路交通、停车场等信息。检测、控制和管理道路交通 。大数据典型应用p152利用电子设备和网络技术进行商务活动出租车轨迹可视化分析项目学习3:文本数据分析——生成标签云生成结果并分析(提取关键信息)浙大附中.txt(UTF8格式)校标.png(模板图片)#[0,10]区间内返回1000个均匀分布的样本p135p137 展开更多...... 收起↑ 资源预览