资源简介 (共43张PPT)第3单元 第4课跨学科活动:玩转网络信息(清华大学版)七年级下1核心素养目标3新知讲解5拓展延伸7板书设计2新知导入4课堂练习6课堂总结课后作业801核心素养目标信息意识计算思维数字化学习与创新信息社会责任在制作词云时,应确保不侵犯他人的版权,尊重数据的隐私性,并在分享结果时注明数据来源,维护信息的真实性和可靠性。通过爬取文本和数据清理等方式,对文本数据进行分析、提取关键词,在学习过程中玩转网络,提升创新能力。知道如何爬取网页中的文本,能够爬取和分析网络数据,学会处理原始文本数据,能够在线制作词云。了解网页数据分析的不同工具的需求,知道网页文本分析的规划实施过程,理解如何爬取与分析网络数据。02新知导入本课中你将体验:如何爬取网页中的文本如何处理原始文本数据如何在线制作词云02新知导入学校即将举办“网络诗词文本分析”大赛,要求参赛者对网络中的唐诗宋词等传统文学作品进行数据分析,以挖掘一些有趣的现象。比如,从文本中统计出现频率最高的特定字词,就可以了解古代文人对季节、颜色或饮食等方面的偏好。你想挖掘哪些有趣的现象 请组建一个小组,一起完成这个任务吧!02新知导入03新知讲解一、需求分析网络中的唐诗宋词文本,主要以网页或其他文本文件形式存在。因此先要确认网页的网址或下载相关的文本文件,再利用传统的爬虫工具来爬取网页文本或使用更为简单的人工智能大语言模型工具来自动获取相关的文本,并进行数据清洗、文本分词、词频统计与结果呈现等相关操作,进而挖掘出你想要的有趣现象。03新知讲解可以根据所在实验室的情况,自行选择如表3.4.1所示大语言模型工具或爬虫+中文词频分析工具进行挖掘分析。表 3.4.1 网页数据分析的工具需求与推荐03新知讲解二、分工合作为了更好地完成“网络诗词文本分析”项目,你的小组需要进行合作分工。小组成员的分工角色与合作职责,既可以参考表3.4.2的范例,也可以自行设计。03新知讲解姓名 角色 分工A 组长 主持整个项目开展过程,协调处理各种情况以确保完成项目任务B 组织员 组织各成员共同开展需求分析、规划实施与交流评价具体活动C 记录员 记录并整理需求分析、规划实施与交流评价等活动的相关信息D 检查员 核查各项任务的完成情况,制作汇报PPT 并对外展示交流表 3.4.2 项目小组分工合作表03新知讲解三、规划实施网页文本分析的规划实施过程,可以分为确定对象、爬取文本、数据清洗、文本分词、词频统计、绘制词云图与撰写分析报告等环节。但由于分析对象与分析工具的不同,小组可能要根据实际情况来微调具体的实施环节。03新知讲解1.确定对象根据“网络诗词文本分析”大赛的规则,从网络中搜索并选出符合小组任务要求的相关网页或文本。它既可以是一张或多张包含唐诗宋词文本的网页,也可以是可下载的其他文本文件。小组所筛选的网页或准备下载文本文件的网址是:https://cn./search q=%E7%99%BE%E5%BA%A6&form=ANSPH1&refig=67f9188a65464b73b9d84410caafbb9a&pc=CNNDDB03新知讲解2.爬取文本如果运用大语言模型工具进行文本爬取,可以通过如图 3.4.1所示的提示词来直接获取并进行统计分析。图 3.4.1 用大语言模型工具直接爬取文本并进行统计分析03新知讲解如果使用 EasySpider 爬取网页文本,则一般要经历创建新任务、选择内容元素、设置爬虫规则、保存任务信息、执行任务等步骤。它的操作界面如图 3.4.2 所示。请通过网络自行学习其操作规则,再用以爬取所筛选网页的文本。图3.4.2 EasySpider 爬虫工具的使用03新知讲解3.数据清理数据清洗是为了去除所爬取的原始文本中的无用内容或对分析结果有干扰的文本。无用内容如空格、换行符或其他特殊字符等;有干扰文本如大量的“之”“而”等,它们会导致后续的词频统计出现偏差。特别需要注意的是,如果对下载的文本文件进行统计分析,通常要事先对其进行数据清洗。03新知讲解文本数据清洗方法,主要有手动方式与使用工具两种。手动方式最简单,就是通过“搜索+替换”操作,来达到去除的目的。请根据所爬取文本的实际情况,清洗原始文本,并将相关记录填人表 3.4.3 中。03新知讲解待清洗词语或字符 清洗理由 清洗方法 清洗效果“ ” 影响文本正常显示和后续处理,属于多余特殊字符 通过“搜索 + 替换”,将“ ”替换为空字符串 文本中不再出现“ ”“--” 在特定文本中可能造成语义混淆 使用工具匹配“--”并替换为空格 文本中“--”被替换为空格“【】” 方括号内的内容可能是额外注释或不相关信息 通过“搜索 + 替换”,将“【】”及其中内容全部删除 文本中不再有方括号及其中内容“……” 多余的省略号可能干扰文本分析 使用文本编辑器的批量替换功能,将“……”替换为单个句号 文本中多余的省略号被替换表 3.4.3 数据清洗记录表03新知讲解4.文本分词文本分词是利用分词工具,将清洗后的文本,按照一定的规则,自动地分割为一个个独立的词语。由于中文分词相对复杂,并且支持分词的工具众多,相同的文本可能会因为不同的分词规则而产生不同的结果。大语言模型工具会根据自身规则对文本进行分词,其生成结果不一定完全符合数据分析的要求,可能还需要小组通过人工方式进行修正。03新知讲解使用表 3.4.1 中的中文词频分析工具进行文本分词,只需将文本复制到表单中,再根据需要设置分词规则,最后提取结果。请对清洗后的文本进行文本分词,如图 3.4.3 所示。图 3.4.3 文本分词03新知讲解5.词频统计使用分词工具进行文本分词之后,会统计相同词语出现的次数,即词频。一个词语的词频越大,说明其影响力越强。分词工具可以提供所有词语的词频,但用户还要根据自身的数据挖掘需求,筛选相应词语的词频。比如,想要分析古代某位文人对颜色的偏好,那么就要从词频统计结果中筛选所有与颜色相关的词频。请根据你小组想要挖掘的有趣现象,来筛选相关词语的词频,并填写在表 3.4.4 中。03新知讲解表 3.4.4 词频统计筛选表序号 筛选的词语 出现的词频① “环保” 23② “可持续发展” 18③ “绿色出行” 15④ “垃圾分类” 19⑤ “节能减排” 2803新知讲解6.绘制词云图词云图是一种将文本数据进行可视化的方法。简单地说,它是将选的词语绘制成图片,并根据词频的高低来设置不同的字体与颜色,以突出词语的重要程度,帮助浏览者快速把握文本的主旨。“中文词频分析”工具直接提供了绘制词云图的功能,运用方法如图 3.4.4 所示。图 3.4.4 用“中文词频分析”工具制作词云图03新知讲解大部分的大语言模型工具,虽然没有这方面的直接功能,但可以先让它帮你生成相应的 Python 程序代码,再通过运行程序代码方式来达到间接绘制的目的,生成方式如图 3.4.5 所示。图 3.4.5大语言模型工具可生成制作词云图的Python代码请为筛选的词语绘制一张词云图。03新知讲解7.撰写分析报告一份简单的网页文本分析报告,通常包括分析的目标、策略、过程与结论等内容。分析目标,需要说明分析的对象与想要挖掘的有趣现象;分析策略,要介绍解决问题的方法、工具的选择与使用;分析过程,要汇报实施的基本过程与收集到的相关数据;得出结论,要基于相关统计信息,得出科学的结论。请以小组为单位,基于以上的分析,在线协同撰写一份分析报告。03新知讲解四、交流评价项目成果交流,分为成果整理与交流两个环节。成果整理,就是整理包括工具选择、数据清洗、词云制作和分析报告等相关成果,并制作汇报用的 PPT。项目成果评价,可基于表3.4.5 的评价量规进行(根据工具选用情况选择对应的项目成果),以对自己与他人项目成果进行客观评价,并记录评价结果。03新知讲解04课堂练习一、选择题1、哪种工具可以在线制作词云?A. Microsoft Word B. WordArt C. Excel D. Notepad2、在爬取文本数据时,遵循的原则是:A. 随意爬取任何网站的数据 B.不需要考虑数据的合法性C. 尊重网站的robots.txt协议 D. 只爬取社交媒体的数据3、在制作词云时,以下哪项不是常见的可视化效果?A. 字体大小 B. 颜色 C. 形状 D. 音频效果BCD04课堂练习4、制作词云时,通常需要对文本数据进行什么处理?A. 直接使用原始文本B. 进行分词和去除停用词C. 只提取数字D. 只保留标点符号二、判断题1、词云可以帮助用户快速识别文本中的重要信息。2、 词云的主要目的是为了美化文本。3、 爬取数据时可以忽略数据的版权问题。B×V×04课堂练习三、操作题1.选择一个主题(如“环保”),收集相关的文本数据,制作词云,并撰写一段简短的分析报告,说明词云中关键词的意义。05拓展延伸数据爬取技术BeautifulSoup是Python中非常流行的网页解析库,能够快速从HTML文档中提取数据。05拓展延伸数据爬取技术Scrapy是一个功能强大的爬虫框架,适合进行大规模的爬取。Scrapy通过项目结构来组织爬虫,支持多线程下载和数据存储。05拓展延伸自然语言处理(NLP)NLTK是一个非常流行的自然语言处理库,适用于文本分析和处理。05拓展延伸自然语言处理(NLP)spaCy是一个高效的自然语言处理库,专注于工业级应用,支持许多高级功能,如命名实体识别(NER)和依存解析。06小结与评价单元回顾本单元你学习了:日常生活中的互联网应用“互联网 +”行动与互联网创新网络安全与个人隐私保护网络数据的爬取与分析06小结与评价知识梳理06小结与评价学习检测1、下列不属于互联网应用带来负面社会问题的是( )A.大数据“杀熟”B.网络成瘾C.过度消费D.共享出行2、下列不属于敏感信息的是( )A.姓名 B.手机号C.银行卡号 D.病例AD06小结与评价学习检测3、生活类应用通常具有 、 与 等特点 。4、互联网创新大多体现在 、 及 等方面。5、如何清洗文本中的换行符与空格,请说出你的策略 商业模式 用户体验便捷性如果是在编程中处理文本,可以使用相应编程语言的字符串处理函数。例如在Python中,可以使用replace()方法替换换行符 和空格 ,示例代码如下:个性化技术层面实用性06小结与评价反思评价在本单元学习过程中,肯定少不了与他人进行互动交流、参与作品制作等活动。现在请就此进行总结与反思,以便更好地促进自身成长。1.从同伴那里学到过什么 2.向同伴分享过哪些观点 3.所运用的工具、方法是否得当 4.所开发作品是否值得推广应用 07课堂总结1引入新知内容跨学科活动:玩转网络信息2进行需求分析和分工合作3完成规划实施和评价交流4完成课堂练习5进行知识拓展1234508板书设计跨学科活动:玩转网络信息1、进行新知引入2、进行需求分析和分工合作3、完成规划实施和评价交流4、完成课堂练习5、进行知识拓展课后作业。1、研究不同的文本处理技术。2、单元总结。09课后作业1、研究不同的文本处理技术(如分词、去除停用词、词频统计),并在下次课上分享你的发现。2、总结本单元内容,完成思维导图绘制。https://www.21cnjy.com/recruitment/home/fine 展开更多...... 收起↑ 资源列表 【清华大学版】《信息科技》七年级下册第3单元第4课《跨学科活动:玩转网络信息》.pptx 引入视频.mp4