4.2.3文本数据处理 任务单(无答案) 2023—2024学年浙教版(2019)高中信息技术必修1

资源下载
  1. 二一教育资源

4.2.3文本数据处理 任务单(无答案) 2023—2024学年浙教版(2019)高中信息技术必修1

资源简介

第四章作业:《文本数据处理》任务单
班级: 学号: 姓名:
【基础知识】
1. 文本数据处理主要应用在 、情报分析、自动摘要、自动校对、 、文本分类、垃圾邮件过滤、 、自动应答等方面。
2. 典型的文本处理过程主要包括分词、特征提取、数据分析、结果呈现等。
(1)分词
分词是将 的过程,就是将一个汉字序列切分成一个一个单独的词。
(2)特征提取
① 特征词:在中文文本分析中可以采用字、词或短语作为表示 。大多数中文文本分析中采用 作为特征项。
② 特征提取:通常用 作为特征词;通过特征提取来找出最具代表性、最有效的文本特征。
③ :根据专家的知识挑选有价值的特征;用数学建模的方法构造评估函数自动选取特征。
(3)文本数据分析与应用
① 标签云:文本可视化的一种方式,用 表现文本特征,将关键词按照一定的顺序和规律排列,如频率递减、字母顺序等,并以 的形式代表词语的重要性。
② 文本情感分析:通过计算机技术对文本的主观性、观点、情绪、极性进行挖掘和分析,对文本的_____________做出分类判断。
课后练习
文本数据处理的主要应用有( )
①搜索引擎 ②自动摘要 ③论文查重 ④成绩查询 ⑤自动应答
A.①④⑤ B.①②③⑤
C.②③④ D.②③④⑤
2. 下列数据处理中,不属于文本数据处理的是( )
A. 对简历数据进行关键信息提取,构建人才画像,匹配精准岗位
B. 分析消费者的意见数据,挖掘用户观点,辅助运营决策
C. 实时监测景区的人流数据,及时导流、限流
D. 解析大量合同文档,有效监控风险条款,节省人力和时间成本
3. 小张收集了近段时间要学习的英文单词,存储为“data.txt”文件,格式如图4-18 所示。
他处理“data.txt”文件中英文单词的Python程序段如下:
file="data.txt"
word_c=[]
n=0
for word in open(file):
if word[0:1]=="c":
word_c.append(word)
print(word)
________________
print("字母c开头的单词个数:",n)
(1)划线处的代码为
(2)该程序段运行后,列表word_c中的数据为
4. 文本数据处理的主要步骤包括:
① 结果呈现②特征提取③分词④数据分析⑤文本数据获取
正确的顺序是( )
A.⑤②④①
B.⑤③①④
C.⑤③②④①
D.⑤①③②④
5. 分析某种水果的用户评论内容,创建的标签云如图4-19所示。
其中用作文本的特征项的是( )
A. 字 B. 词 C. 句子 D. 段 落
6. 下列数据分析中可能涉及文本情感分析的是( )
A. 用户评论内容分析 B. 用户年龄分布分析
C. 评论发布设备分析 D. 用户男女比例分析
7. 某同学使用Python编程分析《西游记》中词语的出现频率,部分代码如下。
(1)请在划线处填入合适代码,完善程序。
import jieba #导入jieba模块
import pandas as pd
import matplotlib.pyplot as plt
plt.rcParams["font.sans-serif']=["SimHei"] #图表中文标签显示为黑体
text = open("xyj.txt", encoding="utf-8").read() #打开文本文件
cutwords =jieba.Icut(text, cut all=False) #分词
stopwords=["一个","两个","不知","不是","我们"]
counts={} #创建字典,存放词语及其出现次数
for word in cutwords:
if len(word)!=1 and word not in stopwords:
if word in counts:

else:
counts[word]=1
df=pd.DataFrame([counts]).T
df=df.reset_index() #重置df对象行索引
df.columns =["词","次数"]
df=df.sort_values("次数",ascending=False) #对df按“次数”降序排序
dfl= ② #df1对象存储df中的前20行
plt.figure(figsize=(8,4))
plt.bar(dfl["词"],dfl["次数"])
plt.title("《西游记》中高频词")
③ #显示图表
print(df.head(10))
程序中划线①处应填写的代码为
程序中划线②处应填写的代码为
程序中划线③处应填写的代码为
8. 使用百度搜索关键词“春节”,将采集到的结果数据存储为chj.txt文件,如图4-22所示。处理chj.txt文件中的数据后生成chjfc.txt文件,如图4-23所示。
请回答下列问题:
(1)文件chj.txt中的数据为_______________________________(选填:结构化数据/非结构化数据)。
(2)处理文件chj.txt中的数据生成chjfc.txt文件的过程,一般称为 。
(3)编写如下Python程序,读取chjfc.txt文件中的数据,并统计其中各词语(2个及以上文字构成)出现的次数。在划线处填写合适代码,完善程序。
txt =open("chjfc.txt","r",encoding="utf-8").read()
words=txt.split()
word counts={}
for word in words:
if len(word)==1:
continue
else:
① #可以为1行或多行代码
#使用word_counts计算词语word 在words中出现的次数
word_list=list(word_counts.items()) #返回所有键值对信息,生成列表
word list.sort(key=lambda x:x[1],reverse=True) #按词语出现次数降序排序
for i in range(20):
word, times= ②
print(word,times)
程序中划线①处应填写的代码是_______________________________
程序中划线②处应填写的代码是_______________________________
(4)去除步骤(3)程序的统计结果中的非特征词(如代词、介词、连词等)后,制作的标签云如图4-24所示标签云中最能表现文件chj.txt中文本特征的词有___________________________________________ (写出3~5个)。

展开更多......

收起↑

资源预览