第6课 统计与文本生成 课件(19张PPT)

资源下载
  1. 二一教育资源

第6课 统计与文本生成 课件(19张PPT)

资源简介

(共19张PPT)
第6课 
统计与文本生成
第二单元 文本的智能生成
第6课 课堂导入
问题情境
为什么前文会影响下一个词的选择?
文本生成中是如何自动预测下一个词的?
第6课 学习内容
一 根据前文进行预测
二 基于相邻字词生成文本
学习内容
三 体验诗句的自动生成
一、根据前文进行预测
第6课 学习内容
为了清楚地说明这一点,请大家先完成以下语句。
小猫 ______(□ 奔跑 □ 游泳 □ 飞翔)
小鱼 ______(□ 奔跑 □ 游泳 □ 飞翔)
小鸟 ______(□ 奔跑 □ 游泳 □ 飞翔)
奔跑
游泳
飞翔
第6课 学习内容
看到问题1时,会立刻选“奔跑”;看到问题2时,会选“游泳”;看到问题3时,会选“飞翔”。这是因为前面出现的“小猫”“小鱼”“小鸟” 对后续内容的选择产生了影响。
也就是说,前文会对后文产生影响。因此,可以根据前文预测后续要出现的内容。
一、根据前文进行预测
前文,尤其是相邻字词,会对后续要出现的字词产生较大影响。因此,统计相邻字词共同出现的次数,就可以进行预测了。
二、基于相邻字词生成文本
第6课 学习内容
第6课 学习内容
文本数据:山深水流远 风起云自闲 月落空林影 水远风声随 云暗月影深 空山声自远 林暗水流深 风起随云闲 影落深水月 月随流水空
行表示前字,列表示后字,组合(山,深)的值为1,表示它们在已有的文本中相邻出现了1次,而(深,水)的值为2,表示相邻出现了2次。
第6课 学习内容
根据表格,选择曾经相邻出现的字,尝试组建新的诗句。
深→水→流→___→___
空→林→影→___→___→___→___
___ →___→___→___ →___→___→___
第6课 学习内容
根据表格,选择曾经相邻出现的字,尝试组建新的诗句。
深→水→流→___→___
空→林→影→___→___→___→___
___ →___→___→___ →___→___→___
___ →___→___→___ →___→___→___




















第6课 学习内容
在适当的地方产生新的关联,然后尝试组建诗句。
山→深→水<>自→___
月→___<>云→______ 林→影→深
第6课 学习内容
在适当的地方产生新的关联,然后尝试组建诗句。
山→深→水<>自→___
月→___<>云→______ 林→影→深



不难想象,如果参与训练的数据足够多,建立的统计表足够大,那么就能更加全面、完整地了解诗文中字的组合规律,进而就可以利用组合规律生成诗句。当然,在生成过程中可以有意打破这个规律,从而产生新的组合,带来新的创意。
二、基于相邻字词生成文本
第6课 学习内容
第6课 学习内容
三、体验诗句的自动生成
1. 观察右表,可以发现很多单元格的值都是0,这些对于生成诗句是无意义的。为了简化,仅记录相邻出现次数至少为1的组合。例如:
'山': { ' 深 ': 1 , ' 声 ':1 }
'水': { ' 流 ': 2 , ' 远 ':1 , ' 月 ':1 , ' 空 ':1 }
第6课 学习内容
三、体验诗句的自动生成
2. 打开配套资源中的《古诗训练器》软件,选择数据文件“古诗.txt”,然后单击“开始训练”按钮,统计古诗中字的相邻出现次数。
第6课 学习内容
三、体验诗句的自动生成
3.运行《古诗生成器》软件,选择模型并输入一个起始字,然后单击“生成古诗”按钮,观察生成过程及结果。
第6课 学习内容
三、体验诗句的自动生成
4. 切换配套资源中提供的不同模型,比较生成效果。
5. 根据生成过程,思考以下问题:
· 你觉得当前软件生成的诗句存在哪些不足?
· 你认为这个生成诗句的软件理解古诗文吗?
当前,大语言模型主要基于神经网络捕捉字词间的复杂关系,而非简单记录字词相邻出现次数。例如,大语言模型知道“明月”和“玉盘”同为月亮,还知道“春风”应搭配“温柔”而非“凶猛”。
不过其背后的预测思想是一致的,都是根据已有的文字计算当前可能出现的词。
第6课 学习内容
三、体验诗句的自动生成
1. 前文会对后文产生影响,根据前文的内容,可以预测后续可能出现的内容。
2. 通过统计相邻字词共同出现的频率,可以进行文本生成和预测,即可以基于训练数据中字词的共现关系来模拟语言行为。
第6课 课堂总结
第6课 拓展与提升
有时候,要搭配的词并不是紧挨着出现的。例如:
猫吃____(□ 鱼 □骨头) 狗吃 ____(□鱼 □骨头)
尽管“猫”和“鱼”、“狗”和“骨头”之间隔着“吃”,但选择的决定因素仍然是“猫”和“狗”。这表明:很多时候,需要考虑更前面的词,才能做出合理预测。
有人提出:可以基于前n个词来预测第n+1个词。这样就能捕捉更远距离的语言关联。尝试借助人工智能平台,按最多 3 个词一组训练文本生成模型,并用训练的模型生成几段文本。

骨头

展开更多......

收起↑

资源预览