资源简介 (共18张PPT)文本数据处理文本数据处理是大数据处理的重要分支之一,目的是从大规模的文本数据中提取出符合需要的、感兴趣的和隐藏的信息。据资料表明,非结构化文本数据占文本数据总量的80%以上,而计算机只认识“符号语言”,并不能直接处理非结构化形式的“自然语言”。什么是文本数据处理?非结构化数据结构化数据文本数据处理的一般过程数据来源渠道社交网络应用市场电商平台…原始数据用户评论用户反馈…数据预处理文本清洗数据去重数据编码…文本分析文本分词词频分析情感分析…结论和应用用户对产品的关注点用户对产品的评价…文本数据收集文本数据处理结论非结构化数据结构化数据分词数据分析文本数据源特征提取结果呈现文本数据处理的一般过程分词分词:将连续的子序列按照一定的规范重新组合成词序列的过程基于字典在分析句子时与词典中的词语进行对比,词典中出现的就划分为词。例如python中文分词模块jieba基于统计依据上下文中相邻字出现的频率统计,同时出现的次数越高就越有可能组成一个词,一般与基于字典的分词方法结合使用基于规则计算机模拟人的计算方式,根据大量的现有资料和规则进行学习,进而分词,目前处于实验阶段字符匹配概率统计自主学习分词工具名称 简介Jieba分词 Python开源项目IKAnalyzer Java开源分词工具包NLPIR 北京理工大学大数据搜索与挖掘实验室,非商业应用免费语言云 哈尔滨工业大学社会计算与信息检索研究中心,在线API接口调用BosonNLP 玻森中文语义开放平台,在线API接口或库调用jieba分词函数 对应模式cuts 精准分词模式:将句子最精确地切分开cut(s,cut_all=Ture) 全模式分词:将句子中所有成词的词语都扫描出来cut_for_search(s) 搜索引擎模式分词:在精确模式的基础上对长词再进行切分,将更短的词语切分出来jieba分词s="我来到了西北皇家理工学院,发现这儿真不错"seg_list=jieba.cut(s,cut_all=True)我/来到/了/西北/皇家/理工/理工学/理工学院/工学/工学院/学院/,/发现/这儿/真不/真不错/不错s="我来到了西北皇家理工学院,发现这儿真不错"seg_list=jieba.cut(s,cut_all=False)我/来到/了/西北/皇家/理工学院/,/发现/这儿/真不错s="我来到了西北皇家理工学院,发现这儿真不错"seg_list=jieba.cut_for_search(s)我/来到/了/西北/皇家/理工/工学/学院/理工学/工学院/理工学院/,/发现/这儿/真不错※ 特征词:在中文文本分析中可以采用字、词或短语作为表示文本的特征项。目前,大多数中文文本分析中都采用词作为特征项,这种词称作特征词。※ 特征提取:通常可直接用分词算法和词频统计得出的结果作为特征词。通过特征提取来找出最具代表性、最有效的文本特征,从而减少特征词的数量,提高文本处理的速度和效率。特征提取特征提取※特征提取方式:①根据专家知识挑选有价值的特征。②用数学建模的方法构造评估函数自动选取特征。目前大多采用评估函数进行特征提取的方式,评估函数大多是基于概率统计设计的,这就需要用庞大的训练数据集才能获得对分类起关键作用的特征。随着深度学习、大数据分析等技术的发展,文本特征提取将更加准确、科学。用词频表现文本特征,将关键词按照一定的顺序和规律排列,以文字的大小来代表词语的重要性数据分析——标签云通过计算机技术对文本的主观性、观点、情绪等进行挖掘和分析,判断文本的情感倾向。总而言之,我是不会再去这家店的勇敢牛牛,不怕困难数据分析——文本情感分析请输入标题粗粒度细粒度整篇文章级语句级词语级文本情感分析依据主要应用于舆情监控、信息预测,或用于判断产品的口碑,进而帮助生产者改进产品文本数据处理应用020103050604搜索引擎自动摘要机器翻译论文查重文本分类垃圾邮件过滤论文查重小结1.文本数据处理的一般过程不包括( )A.分词 B.特征提取 C.数据分析 D.机器翻译2.以下哪项不是中文分词的一般方法( )A.基于词典法 B.基于统计法C.基于阿尔法 D.基于规则法D小试牛刀C3.构造评估函数的特征提取法大多是基于( )设计的A.语义分析 B.情感分析 C.概率统计 D.专家知识4.标签云主要是以( )为文本特征A.词频 B.词义 C.词句 D.词序C小试牛刀A 展开更多...... 收起↑ 资源预览