资源简介 第四章作业:《文本数据处理》任务单班级: 学号: 姓名:【基础知识】1. 文本数据处理主要应用在 、情报分析、自动摘要、自动校对、 、文本分类、垃圾邮件过滤、 、自动应答等方面。2. 典型的文本处理过程主要包括分词、特征提取、数据分析、结果呈现等。(1)分词分词是将 的过程,就是将一个汉字序列切分成一个一个单独的词。(2)特征提取① 特征词:在中文文本分析中可以采用字、词或短语作为表示 。大多数中文文本分析中采用 作为特征项。② 特征提取:通常用 作为特征词;通过特征提取来找出最具代表性、最有效的文本特征。③ :根据专家的知识挑选有价值的特征;用数学建模的方法构造评估函数自动选取特征。(3)文本数据分析与应用① 标签云:文本可视化的一种方式,用 表现文本特征,将关键词按照一定的顺序和规律排列,如频率递减、字母顺序等,并以 的形式代表词语的重要性。② 文本情感分析:通过计算机技术对文本的主观性、观点、情绪、极性进行挖掘和分析,对文本的_____________做出分类判断。课后练习文本数据处理的主要应用有( )①搜索引擎 ②自动摘要 ③论文查重 ④成绩查询 ⑤自动应答A.①④⑤ B.①②③⑤C.②③④ D.②③④⑤2. 下列数据处理中,不属于文本数据处理的是( )A. 对简历数据进行关键信息提取,构建人才画像,匹配精准岗位B. 分析消费者的意见数据,挖掘用户观点,辅助运营决策C. 实时监测景区的人流数据,及时导流、限流D. 解析大量合同文档,有效监控风险条款,节省人力和时间成本3. 小张收集了近段时间要学习的英文单词,存储为“data.txt”文件,格式如图4-18 所示。他处理“data.txt”文件中英文单词的Python程序段如下:file="data.txt"word_c=[]n=0for word in open(file):if word[0:1]=="c":word_c.append(word)print(word)________________print("字母c开头的单词个数:",n)(1)划线处的代码为(2)该程序段运行后,列表word_c中的数据为4. 文本数据处理的主要步骤包括:① 结果呈现②特征提取③分词④数据分析⑤文本数据获取正确的顺序是( )A.⑤②④①B.⑤③①④C.⑤③②④①D.⑤①③②④5. 分析某种水果的用户评论内容,创建的标签云如图4-19所示。其中用作文本的特征项的是( )A. 字 B. 词 C. 句子 D. 段 落6. 下列数据分析中可能涉及文本情感分析的是( )A. 用户评论内容分析 B. 用户年龄分布分析C. 评论发布设备分析 D. 用户男女比例分析7. 某同学使用Python编程分析《西游记》中词语的出现频率,部分代码如下。(1)请在划线处填入合适代码,完善程序。import jieba #导入jieba模块import pandas as pdimport matplotlib.pyplot as pltplt.rcParams["font.sans-serif']=["SimHei"] #图表中文标签显示为黑体text = open("xyj.txt", encoding="utf-8").read() #打开文本文件cutwords =jieba.Icut(text, cut all=False) #分词stopwords=["一个","两个","不知","不是","我们"]counts={} #创建字典,存放词语及其出现次数for word in cutwords:if len(word)!=1 and word not in stopwords:if word in counts:①else:counts[word]=1df=pd.DataFrame([counts]).Tdf=df.reset_index() #重置df对象行索引df.columns =["词","次数"]df=df.sort_values("次数",ascending=False) #对df按“次数”降序排序dfl= ② #df1对象存储df中的前20行plt.figure(figsize=(8,4))plt.bar(dfl["词"],dfl["次数"])plt.title("《西游记》中高频词")③ #显示图表print(df.head(10))程序中划线①处应填写的代码为程序中划线②处应填写的代码为程序中划线③处应填写的代码为8. 使用百度搜索关键词“春节”,将采集到的结果数据存储为chj.txt文件,如图4-22所示。处理chj.txt文件中的数据后生成chjfc.txt文件,如图4-23所示。请回答下列问题:(1)文件chj.txt中的数据为_______________________________(选填:结构化数据/非结构化数据)。(2)处理文件chj.txt中的数据生成chjfc.txt文件的过程,一般称为 。(3)编写如下Python程序,读取chjfc.txt文件中的数据,并统计其中各词语(2个及以上文字构成)出现的次数。在划线处填写合适代码,完善程序。txt =open("chjfc.txt","r",encoding="utf-8").read()words=txt.split()word counts={}for word in words:if len(word)==1:continueelse:① #可以为1行或多行代码#使用word_counts计算词语word 在words中出现的次数word_list=list(word_counts.items()) #返回所有键值对信息,生成列表word list.sort(key=lambda x:x[1],reverse=True) #按词语出现次数降序排序for i in range(20):word, times= ②print(word,times)程序中划线①处应填写的代码是_______________________________程序中划线②处应填写的代码是_______________________________(4)去除步骤(3)程序的统计结果中的非特征词(如代词、介词、连词等)后,制作的标签云如图4-24所示标签云中最能表现文件chj.txt中文本特征的词有___________________________________________ (写出3~5个)。 展开更多...... 收起↑ 资源预览