资源简介 (共24张PPT)第四4.2.3文本数据处理文本数据处理章复习回顾感谢您使用我们的PPT模板,请在此输入您需要的文字内容请输入标题https://www./数据是对客观事物的符号表示,如数字、___________、___________。字母图形符号在计算机科学中,数据是指所有能输入到计算机并被计算机程序处理的符号总称,具有一定意义的数字、字母、符号和模拟量等的通称,表示形式可以是______、________、_______、________、_______等文字图形图像音频视频课前导入感谢您使用我们的PPT模板,请在此输入您需要的文字内容请输入标题https://www./除了我们之前学习的一些数字类型的数据,生活中还存在着其他类型的数据处理的实例,他们有什么共同点?文本数据处理的应用感谢您使用我们的PPT模板,请在此输入您需要的文字内容请输入标题https://www./搜索引擎情报分析自动摘要、自动校对论文查重、文本分类垃圾邮件过滤机器翻译自动应答复习回顾感谢您使用我们的PPT模板,请在此输入您需要的文字内容请输入标题https://www./结构化:也称行数据,由二维表结构来进行逻辑表达和实现的数据,严格地遵循数据格式与长度规范非结构化:数据不规整或者不完整,包括各类的办公文档、文本、图片、XML、HTML、各类报表、图像、音频、视频半结构化:介于结构化和非结构化之间的数据文本文本数据处理的一般过程感谢您使用我们的PPT模板,请在此输入您需要的文字内容请输入标题https://www./文本数据源分词特征提取数据分析结果呈现非结构化结构化中文分词感谢您使用我们的PPT模板,请在此输入您需要的文字内容请输入标题https://www./对比两篇文章,你觉得那篇文章更容易使用程序切分成单个的词语,为什么? 雪落在那些年雪落过的地方,我已经不注意它们了。比落雪更重要的事情开始降临到生活中。三十岁的我,似乎对这个冬天的来临漠不关心,却又好像一直在倾听落雪的声音,期待着又一场雪悄无声息地覆盖村庄和田野。我静坐在屋子里,火炉上烤着几片馍馍,一小碟咸菜放在炉旁的木凳上,屋里光线暗淡。许久以后我还记起我在这样的一个雪天,围抱火炉,吃咸菜啃馍馍想着一些人和事情,想得深远而入神。柴禾在炉中啪啪地燃烧着,炉火通红,我的手和脸都烤得发烫了,脊背却依旧凉飕飕的。寒风正从我看不见的一道门缝吹进来。冬天又一次来到村里,来到我的家。我把怕冻的东西一一搬进屋子,糊好窗户,挂上去年冬天的棉门帘,寒风还是进来了。它比我更熟悉墙上的每一道细微裂缝。空格分割紧密相连中文分词jieba分词模块中的词典内容请输入标题https://www./常见的分词算法:1.基于词典的分词方法:也称基于字符匹配的分词方法中文分词请输入标题https://www./jieba库名字由来“我要进行关键词提取”#【全模式】:我/ 要/ 进行/ 关键/ 关键词/ 提取#【精确模式】:我要/ 进行/ 关键词/ 提取#【搜索引擎模式】:我要/ 进行/ 关键/ 关键词/ 提取中文分词感谢您使用我们的PPT模板,请在此输入您需要的文字内容请输入标题https://www./2.基于统计的分词方法,统计分词的思想,是依据上下文中相邻的字出现的频率统计,同时出现的次数越高就越可能组成一个词。中文分词感谢您使用我们的PPT模板,请在此输入您需要的文字内容请输入标题https://www./3.基于规则的分词方法,让计算机模拟人的理解方式,根据大量的现有资料和规则进行学习,达到对文字进行分词的效果。由于中文语言知识的笼统性、复杂性,这种分词方法目前还在试验阶段。中文分词感谢您使用我们的PPT模板,请在此输入您需要的文字内容请输入标题名称 简介Jieba分词 Python开源项目IKAnalyzer Java开源分词包NLPIR 北京理工大学大数据搜集与挖掘实验室,非商业应用免费语言云 哈尔滨工业大学社会计算与信息检索研究中心,在线API接口调用BosonNLP 玻森中文语义开放平台,在线API接口调用或者库调用常见的分词系统特征提取感谢您使用我们的PPT模板,请在此输入您需要的文字内容请输入标题中文文本可以采用字、词或短语作为表示文本的特征项。相比较而言词的切分难度小且更能表达文本含义。目前,大多数中文文本分析中都采用词作为特征项,这种词称作特征词。特征项特征提取方式一般方式:①根据专家的知识挑选有价值的特征②用数学建模的方法构造评估函数自动选取特征值文本数据分析与应用请输入标题标签云Acfun热词榜QQ个人标签文本数据分析与应用请输入标题观察下列标签云,他们有什么共同点?由词语组成文字有大小颜色丰富文本数据分析与应用请输入标题标签云定义:用词频表示文本特征,将关键词按照一定的顺序和规律排序,如频度递减、字母顺序等。并以文字大小的形式代表词语的重要性。应用:标签云广泛运用于报纸、杂志等传统媒体和互联网标签云是文本可视化的一种方式。文本数据分析与应用请输入标题文本情感分析最早之人工智能之父明斯基就提过“我们的问题不是怎样才能让机器智能有情感,而是机器智能怎么能没有情感。”人类有哪些情感?好,恶,乐,怒,哀,惧,欲喜极而泣,抱头痛哭,捶胸顿足,七情六欲,五味杂陈文本数据分析与应用请输入标题文本情感分析粗粒度细粒度整篇文章语句级词语级词语级是在分词的基础上,根据情感词典进行特征提取和分类,再给特征词赋予权重进行统计分析。例如:满意+5,差-5文本数据分析与应用文本情感分析应用:网络舆情监控、用户评论分析和决策、信息预测等众多领域文本数据分析与应用文本数据处理的一般过程不包括( )A.分词B.特征提取C.数据分析D.机器翻译D文本数据分析与应用以下哪项不是中文分词的一般方法( )A.基于词典法B.基于统计法C.基于阿尔法D.基于规则法C文本数据分析与应用构造评估函数的特征提取法大多是基于( )设计的A.语义分析B.情感分析C.概率统计D.专家知识C文本数据分析与应用标签云主要是以( )为文本特征A.词频B.词义C.词句D.词序A总结1、文本数据处理的一般过程2、中文分词的原理、方法、系统3、文本特征提取的方法4、文本数据分析与应用(标签云、文本情感分析) 展开更多...... 收起↑ 资源预览