资源简介 (共26张PPT)第四章数据处理与应用1、常用表格数据的处理2、大数据处理3、大数据典型应用文本数据处理目的是从大规模的文本数据中提取出符合需要的、感兴趣的和隐藏的信息。主要应用在搜索引擎、情报分析、自动摘要、自动校对、论文查重、文本分类、垃圾邮件过滤、机器翻译、自动应答等非结构化数据文本处理数据文本内容是非结构化的数据,分词就是将一个汉字序列切分成一个一个单独的单词注意:英文分词不涉及复杂的关键词提取方法中文分词方法相当复杂文本数据处理的一般过程中文分词算法基于词典的分词方法 也叫基于字符匹配的分词方法,即在词典中出现的就划分为词,其中jieba模块是代表基于统计的分词方法 依据上下文中相邻出现的频率统计,出现的次数越高就可能组成一个词基于规则的分词方法 目前还处于试验阶段,还未真正实施推广特征提取大多数中文文本分析中都采用词作为特征项,这种词叫做特征词特征提取采用的方式:根据专家的知识挑选有价值的特征,或者用数学建模的方法构造评估函数自动选取特征,评估函数大多是基于概率统计设计的jieba分词import jieba #导入jieba模块text=“文本数据处理的过程” #定义文本内容s=jieba.cut(text,cut_all=True) #全模式分词b=jieba.cut(text) #默认 精确模式分词,即cut_all=Falseprint(“/”.join(s)) #以/分隔print(“/”.join(b)) #以/分隔print(list(b))文本/本数/数据/数据处理/处理/的/过程文本/数据处理/的/过程[“文本”,“数据处理”,“的”,“过程”](1)标签云文本数据分析与应用标签云将关键词按照一定的顺序和规律排列,并以文字大小的形式代表词语的重要性。是文本可视化的一种方式 ,文本可视化将文本中复杂的或者难以通过文字表达的内容和规律以视觉符号的形式表达出来。字体大,则出现的频率高、重要文本数据分析与应用(2)文本情感分析文本情感分析是指通过计算机技术对文本的主观性、观点、情绪、极性进行挖掘和分析,对文本的情感倾向做出分类判断。主要应用于网络舆情监控、用户评论与决策、信息预测等众多领域。数据可视化以图形、图像和动画等方式更加直观生动地呈现数据及数据分析结果,揭示数据之间的关系、趋势和规律等表达方式。可视化的作用1.快捷观察与追踪数据2. 实时分析数据可视化的作用3. 增强数据的解释力与吸引力可视化的作用可视化的基本方法1. 有关时间趋势的可视化可视化的基本方法2. 有关比例的可视化3. 有关关系的可视化可视化的基本方法4. 有关差异的可视化可视化的基本方法可视化的基本方法5. 有关空间关系的可视化可视化的工具大数据魔镜 (免费的大数据可视化分析工具)Gephi(动态和分层图的交互可视化与探测开源工具)Tableau(实时可视化分析)PythonR (用于统计分析,图形表示和报告的编程语言和软件环境)D3.js (D3 是最流行的可视化库之一)Highcharts (用纯JavaScript编写的一个图表库)Google Charts (提供的一项动态生成图表的服务)。课堂练习1.文本数据处理的主要步骤包括:①数据分析 ②特征提取 ③分词 ④结果呈现 ⑤文本数据获取下列文本数据处理顺序正确的是( )A.①⑤②③④B.②⑤③①④C.⑤①③②④D.⑤③②①④D课堂练习2. 下列关于中文分词方法的描述中,属于基于词典的分词方法的是( )A.在分析句子时与词典中的词语进行对比,词典中出现的就划分为词B.依据上下文中相邻字出现的频率统计,同时出现的次数越高就越可能组成一个词C.让计算机模拟人的理解方式,根据大量的现有资料和规则进行学习,然后分词D.依据词语与词语之间的空格进行分词A课堂练习3. 在中文文本分析中,一般不用做文本的特征项的是( )A.字B.词C.短语D.段落D课堂练习4. 下列数据分析中可能涉及文本情感分析的是( )A.博主地域分析B.微博评论内容分析C.微博发布设备分析D.博主男女比例分析B课堂练习5.某文本数据集的标签云如图所示,下列说法正确的是( )A.对数据集中文本分词后可直接创建标签云,无须特征提取B.标签云须显示该数据集包含的全部词语C.该数据集中,词语“玩偶”比“注意力”的出现频率高D.最能表现该数据集中文本特征的词有“车顶”“玩偶”“路口”C课堂练习6.下列关于数据可视化的描述中,错误的是( )A.标签云是基于语句的文本内容可视化B.数据可视化将数据以图形图像等形式表示C.数据可视化可以直观的呈现数据中蕴含的信息D.数据可视化增强了数据的解释力与吸引力A课堂练习7. 下列有关图表类型的说法,错误的是( )A.有关时间趋势的可视化可以采用折线图B.有关比例的可视化可采用以饼图、环形图C.要探究一件事情变化时另一件事情是否会发生某种变化,可采用散点图D.要探寻包含多种变量的对象与同类之间的差异和联系,可采用雷达图、面积图D课堂练习8. 下列有关可视化工具的说法,错误的是( )A.使用Python、R等语言可以编写程序实现数据的可视化B.Tableau主要用于实时可视化分析,仅能连接本地数据C.High charts 是基于HTML5 技术的开源图表库,支持移动端D.Google Charts 是为浏览器与移动设备定制的交互式图表开发包B 展开更多...... 收起↑ 资源预览