资源简介 (共23张PPT)4.2.3文本数据处理1.文本数据处理的一般过程2.文本数据的分析与应用文本数据处理的目的文本数据处理的主要目的是从大规模的文本数据中提取出符合需求的、感兴趣的和隐藏的信息。文本数据处理的应用搜索引擎情报分析自动摘要、自动校对论文查重、文本分类垃圾邮件过滤机器翻译自动应答文本数据处理的一般过程文本数据源分词特征提取数据分析结果呈现中文分词分词是将连续的字序列按照一定的规范重新组合成词序列的过程。下雨天留客天留人不留主人家:下雨天留客,天留人不留徐:下雨天,留客天,留人不?留!中文分词的方法1、基于词典的分词方法根据设定好的词典进行分词2、基于统计的分词方法依据上下文中相邻字出现的频率统计3、基于规则的分词方法模拟人的思维,根据资料和规则进行学习分词。(尚在探索)一般采用词典法和统计法两者结合常见的分词系统jieba(结巴)分词IKAnalyzerNLPIR语言云BosonNLPjieba分词实例下雨天留客天留人不留特征项中文文本可以采用字、词或短语作为表示文本的特征项。相比较而言词的切分难度小且更能表达文本含义。目前,大多数中文文本分析中都采用词作为特征项,这种词称作特征词。特征提取的方式1、根据专家的知识挑选有价值的特征2、用数学建模的方法构造评估函数自动选取目前大多数采用基于概率统计的构造评估函数方法进行特征提取,随着大数据分析,深度学习等技术的发展,这一方法的提取会更加准确、科学。文本数据分析与应用根据项目需求,确定解决问题的路径,选取合适的工具、设计算法抽取出文本中隐含的价值。标签云以词频文文本特征,将关键词按照一定的顺序和规律排列,以文字的大小来代表词语的重要性。从标签云中你能得到什么信息?文本情感分析根据不同的粒度(词语、语句、全文)进行分词,根据情感词典进行特征提取与分类,再分别给特征词赋予权重进行统计分析。主要应用于网络舆情监控、用户评论分析与决策、信息预测等。北京城市心情练习1文本数据处理的一般过程不包括( )A.分词B.特征提取C.数据分析D.机器翻译D练习2以下哪项不是中文分词的一般方法( )A.基于词典法B.基于统计法C.基于阿尔法D.基于规则法C练习3构造评估函数的特征提取法大多是基于( )设计的A.语义分析B.情感分析C.概率统计D.专家知识C练习4标签云主要是以( )为文本特征A.词频B.词义C.词句D.词序A作业作业本P89~92《文本数据处理》总结1、文本数据处理的一般过程2、中文分词的原理、方法、系统3、文本特征提取的方法4、文本数据分析与应用(标签云、文本情感分析)谢 谢 展开更多...... 收起↑ 资源预览