4.2.3文本数据处理任务单（无答案） 2023—2024学年浙教版（2019）高中信息技术必修1

资源简介

第四章作业：《文本数据处理》任务单
班级：学号：姓名：
【基础知识】
1. 文本数据处理主要应用在、情报分析、自动摘要、自动校对、、文本分类、垃圾邮件过滤、、自动应答等方面。
2. 典型的文本处理过程主要包括分词、特征提取、数据分析、结果呈现等。
(1)分词
分词是将的过程，就是将一个汉字序列切分成一个一个单独的词。
(2)特征提取
① 特征词：在中文文本分析中可以采用字、词或短语作为表示。大多数中文文本分析中采用作为特征项。
② 特征提取：通常用作为特征词；通过特征提取来找出最具代表性、最有效的文本特征。
③ ：根据专家的知识挑选有价值的特征；用数学建模的方法构造评估函数自动选取特征。
(3)文本数据分析与应用
① 标签云：文本可视化的一种方式，用表现文本特征，将关键词按照一定的顺序和规律排列，如频率递减、字母顺序等，并以的形式代表词语的重要性。
② 文本情感分析：通过计算机技术对文本的主观性、观点、情绪、极性进行挖掘和分析，对文本的_____________做出分类判断。
课后练习
文本数据处理的主要应用有( )
①搜索引擎 ②自动摘要 ③论文查重 ④成绩查询 ⑤自动应答
A.①④⑤ B.①②③⑤
C.②③④ D.②③④⑤
2. 下列数据处理中，不属于文本数据处理的是( )
A. 对简历数据进行关键信息提取，构建人才画像，匹配精准岗位
B. 分析消费者的意见数据，挖掘用户观点，辅助运营决策
C. 实时监测景区的人流数据，及时导流、限流
D. 解析大量合同文档，有效监控风险条款，节省人力和时间成本
3. 小张收集了近段时间要学习的英文单词，存储为“data.txt”文件，格式如图4-18 所示。
他处理“data.txt”文件中英文单词的Python程序段如下：
file="data.txt"
word_c=[]
n=0
for word in open(file):
if word[0:1]=="c":
word_c.append(word)
print(word)
________________
print("字母c开头的单词个数：",n)
(1)划线处的代码为
(2)该程序段运行后，列表word_c中的数据为
4. 文本数据处理的主要步骤包括：
① 结果呈现②特征提取③分词④数据分析⑤文本数据获取
正确的顺序是( )
A.⑤②④①
B.⑤③①④
C.⑤③②④①
D.⑤①③②④
5. 分析某种水果的用户评论内容，创建的标签云如图4-19所示。
其中用作文本的特征项的是( )
A. 字 B. 词 C. 句子 D. 段落
6. 下列数据分析中可能涉及文本情感分析的是( )
A. 用户评论内容分析 B. 用户年龄分布分析
C. 评论发布设备分析 D. 用户男女比例分析
7. 某同学使用Python编程分析《西游记》中词语的出现频率，部分代码如下。
(1)请在划线处填入合适代码，完善程序。
import jieba #导入jieba模块
import pandas as pd
import matplotlib.pyplot as plt
plt.rcParams["font.sans-serif']=["SimHei"] #图表中文标签显示为黑体
text = open("xyj.txt", encoding="utf-8").read() #打开文本文件
cutwords =jieba.Icut(text, cut all=False) #分词
stopwords=["一个","两个","不知","不是","我们"]
counts={} #创建字典，存放词语及其出现次数
for word in cutwords:
if len(word)!=1 and word not in stopwords:
if word in counts:
①
else:
counts[word]=1
df=pd.DataFrame([counts]).T
df=df.reset_index() #重置df对象行索引
df.columns =["词","次数"]
df=df.sort_values("次数",ascending=False) #对df按“次数”降序排序
dfl= ② #df1对象存储df中的前20行
plt.figure(figsize=(8,4))
plt.bar(dfl["词"],dfl["次数"])
plt.title("《西游记》中高频词")
③ #显示图表
print(df.head(10))
程序中划线①处应填写的代码为
程序中划线②处应填写的代码为
程序中划线③处应填写的代码为
8. 使用百度搜索关键词“春节”,将采集到的结果数据存储为chj.txt文件，如图4-22所示。处理chj.txt文件中的数据后生成chjfc.txt文件，如图4-23所示。
请回答下列问题：
(1)文件chj.txt中的数据为_______________________________(选填：结构化数据/非结构化数据)。
(2)处理文件chj.txt中的数据生成chjfc.txt文件的过程，一般称为。
(3)编写如下Python程序，读取chjfc.txt文件中的数据，并统计其中各词语(2个及以上文字构成)出现的次数。在划线处填写合适代码，完善程序。
txt =open("chjfc.txt","r",encoding="utf-8").read()
words=txt.split()
word counts={}
for word in words:
if len(word)==1:
continue
else:
① #可以为1行或多行代码
#使用word_counts计算词语word 在words中出现的次数
word_list=list(word_counts.items()) #返回所有键值对信息，生成列表
word list.sort(key=lambda x:x[1],reverse=True) #按词语出现次数降序排序
for i in range(20):
word, times= ②
print(word,times)
程序中划线①处应填写的代码是_______________________________
程序中划线②处应填写的代码是_______________________________
(4)去除步骤(3)程序的统计结果中的非特征词(如代词、介词、连词等)后，制作的标签云如图4-24所示标签云中最能表现文件chj.txt中文本特征的词有___________________________________________ (写出3～5个)。

展开更多......

收起↑

请用微信扫码

4.2.3文本数据处理 任务单（无答案） 2023—2024学年浙教版（2019）高中信息技术必修1

4.2.3文本数据处理 任务单（无答案） 2023—2024学年浙教版（2019）高中信息技术必修1

4.2.3文本数据处理任务单（无答案） 2023—2024学年浙教版（2019）高中信息技术必修1

4.2.3文本数据处理任务单（无答案） 2023—2024学年浙教版（2019）高中信息技术必修1