资源简介 (共30张PPT)文本数据处理百度搜索:信息技术难不难?文本数据处理文本数据处理的应用论文查重垃圾邮件过滤非结构化数据结构化:缺一不可采集信息One day your teacher,day day your father古代小故事有位书生到亲戚家串门,顷刻间外面就下起雨来,这时天已将晚,他只得打算住下来。但这位亲戚却不乐意,于是就在纸上写了一句话:下雨天留客天留人不留。书生看了,即刻明白亲戚的意思,却又不好明说,就心想一不做、二不休,干脆加了几个标点:下雨天,留客天,留人不?留!亲戚一看,这句话的意思完全反了。也就无话可说,只好给书生安排了住宿。下雨天留客天留人不留下雨天留客,天留人不留下雨天,留客天,留人不?留!中文分词一般采用词典法和统计法两者结合常见的分词系统基于词典的分词方法file=”英文文本分析.txt”text=open(file).read() #读取文件words=text.split()#把每一行按照空格分词,变成列表print(words)输出:[“red” , ”apple”]file=”英文文本分析.txt”text=open(file).read()for line in text: #获取每一行print(words)输出:[“red” , ”apple”][“The” , ”apple” , ”is”,”red”]words=line.split()jieba实例输出1:[“我” , ”爱” , ”信息技术” , ”信息技术” , “真” , “简单” , “啊”]import jiebafile=”中文文本分析.txt”text=open(file).read()words = jieba.lcut(text)#对text分词print(words)import jiebafile=”中文文本分析.txt”text=open(file).read()for line in text:print(words)输出2:[“我” , ”爱” , ”信息技术” , ”信息技术” , “真” , “简单” , “啊”][“不” , “,” , “那是” , “你” , “觉得”]words = jieba.lcut(line)jieba实例import jiebasentence=input('输入文本∶')sent=jieba.lcut(sentence)for cy in sent :print(cy)import jiebasentence=input('输入文本∶')sent=jieba.lcut(sentence)for cy in sent[::-1] :print(cy)import jiebasentence=input('输入文本∶')sent=jieba.lcut(sentence)count = 0for cy in sent :if len(cy)>=2:count = count+1print(count)import jiebasentence=input('输入文本∶')sent=jieba.lcut(sentence)count = {}for cy in sent :if len(cy)>=2:if cy in count:count[cy]=count[cy]+1else:count[cy]=1print(count)计算分词后的词语数(至少2字)统计分词后的词语(至少2字)及其数量特征提取表达文章的信息,区分文章的不同特征提取的方式①②文本数据分析与应用数据分析:标签云词云文本可视化数据分析:文本情感分析情感分析:这城市那么空,这回忆那么凶,这街道车水马龙,我能和谁相拥数据分析:文本情感分析小结文本数据处理的主要应用有( )①搜索引擎 ②自动摘要 ③论文查重 ④列车查询 ⑤微博评论典型意见A.①④⑤ B.①②③⑤C.②③④ D.②③④⑤B练习Python中文分词模块jieba采用的分词方法属于A.基于词典 B.基于统计C.基于规则 D.以上都有可能A练习构造评估函数的特征提取法大多是基于( )设计的A.语义分析B.情感分析C.概率统计D.专家知识C练习下列关于文本数据处理的说法,正确的是( )A.处理的文本信息通常是结构化数据B.特征提取是中文文本信息处理的基础C.目前的分词算法能实现完全准确的进行分词D.处理的目的是从大规模的文本数据中提取出符合需要的有用模式和隐藏的信息D练习练习C下列选项中不属于文本情感分析主要应用场景的是( )A.网络舆情监控 B.用户评论C.分析与决策 D.统计字词的频度D练习在网上搜索朱自清的《绿》文章,如图所示。(1)搜索的信息并保存为txt文件,该过程称为________________。(2)“绿.txt”文件是文本的类型是________。(填字母:A.结构化数据/B.半结构化数据/C.非结构化数据)Bimport collectionsimport jiebaimport wordcloud as wcimport numpy as npfrom PIL import Imagewcg=wc.WordCloud(background_color=″white″,font_path='assets/msyh.ttf')text=open('data/绿.txt',encoding='utf-8').read()seg_list=______①______f=collections.Counter(seg_list)wcg.fit_words(f)wcg.to_file('output/b.png')划线处①语句是调用jieba对象的cut函数对变量为text文件进行分词,则该处语句为________________。B(4)得到的云标签如图所示。该图片的文件名是________,表示该文本特征是________________(至少写出3个)。B 展开更多...... 收起↑ 资源预览