ε
ઐAI写文章还是得模ð仿人类的创作方法。
૦
在今天的人工智能ਫ਼领域,AI 写作神器层出不穷,技术Ąe;和产品可谓日新月异。
如果说 OpenAI⊃ 两年前发布的 GPT-3 在文笔上还稍欠火候,那么前段时间的 ChatGPT 的生成结果可以算是「文笔华丽、♤情节饱满、逻辑自洽兼'而有之」。
有人说,AI 要是动起笔来,那真是没人Ã类什么事了ચ。
但不管是人类还是 AI,一旦把⇐「字数要求」提高,文章就会变得更难「驾驭」。
近日,▒华人 AI 研究科学家田渊栋和其他几位研究者最近一起发布了ੑ一个新的语言模型⌊——Re^3,这项研究也入选了 EMNLP 2022。
论文链接:https:/☜/aΟrxiv.org/pdf/2210.06774.pdf
田渊Ø栋曾在 知乎上介绍这€个模型:
Re^3 的想法极为简单,通过设计 prompt 让它生成一致性强的故事,完全不需要微调大模型。我们跳出语言模型的逐词生成的线性逻辑,改用层次化生成方式:先在 Plan 阶段生成故事角色,角色的各种属性和大纲,然后在 Draft 阶段给定故事大纲和角¤色,反复生成具体的段落,这些具体段落由 Rewrite 阶段筛选,挑出与前一段落高度相关的生成段落,而丢弃关系不大↓的(这需要训练一个小模型),最后在 Edit 阶段修正一些明显的事实错误。
方法介绍♫▣
Re^3 的思路是通过递归 Reprompt⊂ 和调整生成更长的故事,这更ö符合人类作家的创作过程。Re^3 将人类写作过程分解为规划™、草稿、改写和编辑 4 个模块。
≡
Χγ规划(Plan)模块
如下图⌊ 2 所示,规划模块会将故事前提(ØPremise)扩展为背景、人物角色和故事大纲。首先,背景是故事前提简单的一句话扩展,使用 GPT3-Instruct-175B (Ouyang et al.,2022) 获得;然后,GPT3-Instruct175B 再生成角色名称,并根据前提和背景生成角色描述;最后,该方⁄法 prompt GPT3-Instruct175B,以编写故事大纲。规划模块中的组件是通过 prompt 自己生成的,将被反复使用。
κ
草‹稿(Dટraft)模块
针对规划模块得到的每一条大纲,草દ稿模块会继续生成几个故事段落。每个段√落都是从结构化 prompt 生成的固定长度续写,结构化 prompt 由ñ递归 reprompt 形成,草稿模块如下图 3 所示。
改写(Rewrite)模块
生成器的第一个输出通ઐ常是低ø质量的,就像人们完成的初稿,二稿Ζ可能需要在反馈的基础上改写一篇文章。
改ⓚ写模块通过根据与先前段落的连贯性和与当前ਜ大纲点的相ਊ关性对草稿模块输出重新排序来模拟改写过程,如下图 4 所示。
સ编辑(E☎dΙit)模块
与大幅改写不同的是,编辑模块是对通过规划、草稿和改写模块生成的段落的局部编辑,进ઢ一步完善生成内容。具体来说,目标是消除长序列的事实不一致。φ当人们在校对时发现一个小的事实不连续,可能只是简单地编辑一下有问题的细节,而不是对高层次的文章规划进行重大修改或进行实质性的改写。编辑模块通过两个步骤来模仿人类创作的这个过程:检测事实的不一致,并对其进行纠正,如下图 5 所示。
્
评估Œ
在评估环节,研究者将任务设定为在一个简短的初始前情下生成一个故事。由于「γ故事」很难用基于规则的方式来定义,研究者没有对可接受的输出施加任何基于规则的约束,而是通过几个人为注释的指标来评估。为了生成初始前提,研究者用 GPT3-áInstruct-175B 进行了 prompt,以获得 10࠹0 个不同的前情。
ÊBaseliΥne
¤
ºૠ
由于先前的方法与 Re^3 相比更侧重于短ⓒ故事,所以很难直ઠ接ⓣ比较。于是研究者使用了以下两个基于 GPT3-175B 的基线:
1. ROLLING,通过 GPT3-175B 一次生成 256 个 token,使用前情和所有先前生成的故事文本作为 prompt,如果超过 768 个 token,则左截断 prompt。因此,「滚动窗口」最大上下文长度是 1024,与 RE^3 中使ક用的最大上下文长度相同。在生成了 3072 个 token 后,研究者使<用了与 RE^3 相同的故事结束机制。
2. RĊc;OLLING-FT,与 ROLLING Á相同,只是 GPT3-175B 首先会对 WritingPrompts 故事中的几百个段落ਭ进行微调,这些段落至少有 3000 个 token。
ખ指标
研究者Ï使Τ用的几个评估指标bc;包括:
1、有趣。对读者来说是有Υ趣的ø。
2、连贯性。情节连ξ贯κ。
Υ3、相«关性。❄忠实于最初的前情。
4、类人。被Ρ判断为是ⓛ人∂类写的。
此外,研究者还追◘踪了生成的故事有多少次出现以下几方面的写Ó作问题:
ƒ1、叙事。叙述或风格上的令人震惊的变化。◑
2、不一À致。â与事实不符或包含非常奇ઝ怪的细节。
ù
3、混乱。令人困惑或难ú以⇔理解。
4、ρ重☞复性。高度的重复性。
બ
5、不流畅。频繁的ઙ语法错误。
Ê
ì结果ⓗ
如表 1 所示,Re^3 在根据预期前情写一个较长的故事方面非常有效,同时能保持连贯的总体情节,验证了研究者受人类写作ê过程启૯发而做出的设计选择,以及递归 reprompting 生成方法。与 ROLLING 和 ROLLING-FT 相比,Re^3 在连贯性和相关性方面都有明显提高。注释者还将 Re^3 的故事标记为「具有明显较少的冗杂写作问σ题」。
Re^3 表现出了绝对意义上的强大性能:注释者认为在两次对比中,Re^3 的故事分别有 83.3% 和 80§.0% 是由人类写的。表 2 显示了 Re^3 的一个经过ⓠ大量删节的故事实例,可以◙看出很强的连贯性和前情相关性:
尽Χ管如此,研究者仍从质量上观察到 Re^3 仍µ有很大的改进空间。
表 3 中显示了两个共同的问题。首先,尽管 Re^3 几乎总是在某种程度上遵循故事前情,但与基线故事不同,它们可能无法捕捉到前提的所有部分,也可能无法ડ遵循规划模块生成的部分大纲(例如,表 3 中前情和大纲的第一部分)。其次,由于改写模块,特别是编辑模块的失败,仍然有一些混乱的段落或矛盾的语句:例如,在表 3 中,人物 Jaxon 在某些地方有一个矛盾的身份ⓦ。
ⓙ
不过,与滚动窗口方法(rolling window)不同,Re^3 的规划方法能够「自我纠正」,回到最初的情节。表 3 中故事的后Š半部分说明了这શ种能力。
分析☎
ਲ਼消融实验
研究者探讨了 Re^3 的各个模块的相对贡献:规划、草稿、改写和编辑,并依次对每个模块进行消融实验。Draψft 模块除外,因为尚不清楚⌉没σ有它的话系统会如何运行。
表 4 显示,模仿人类规划和改写过程的「规划」和「ξ改写」模块对整体情节的连贯性和前提的相关性至关重要。然而,「编辑」模块对这些指标的贡献很小。研究者还从质量上观察到,在 Re^3 的最终故事中仍然存在许多连贯性问题,这些问题没有被编辑模ⓕ块Ù所解决,但这些问题可以由一个细心的人类编辑来解决。
「编辑∏」模块的进一ધ步分⇑析
研究者使用了一个可控的环境,以研究「编辑」模块是否至少能检测到基于角色的事实不一૩致。检测子系统称为 STRUCTURED-D⊂ETECT,避免与整个编辑模¹块混为一谈。
如表 5 所示,当检测基于角色的不一致时,根据标准的 ROC-AUC 分类指标,STRUCTUREDDETECT 优于两个基线。ENTAILMENT 系统的 ROC↑-AUC 得分勉强优于偶然表现(0.5),突出了核心挑战,即检测系统必须是压倒性的精确。此外,±STRUCTUREDϒ-DETECT 的设计是为了扩展到较长的段落。研究者假设,与基线相比,性能差距会在有较长输入的评估中扩大。
即使在这种简化的环境中,所有系统的绝对性能仍然很低。此外,许多生成的完整故事包含非角色的不一致,例如背景与当前场景的不一致。虽然研究者没有正式分析 G÷PT-3 编辑 API 在检测到不一致之处后的修正¦能力,但也观察到它可以修正孤立的细节,而在处理较大的变化时会很â吃力。
综上所૨述,来自检测和修正子系统的复合错误使得本研究目前的编辑模块很难在数千字的范围内有效地≡改善事实的一ä致性,而不同时引入不必要的变化。
基θ于 Amazon SageMਠaker JumpStart 的 AIGC 解决方³案
Stability AI 推出的火爆 AIGC 领域的 Stable Diffusion 模型从开源之初便深受开发者欢迎。该公司于11月24日正式推出了 Stable Diffusion 的2.0版本,并在刚刚结束的亚马逊云科技 re:Invent 2022 大会γ上宣布其已选择亚马逊作为其首选云提供商,以帮助其开ο发和部署用于图像、语言、音频、视频和 3D 内容生成的新人工智能模型。
12月15日,来自亚马逊云科Β技的嘉宾将直播分享「如何调用 SageMaker Jumpstart 预训练好的模型“一键”部署 StËabⓘle Diffusion v2 和 Bloom 模型」。
© THE END ⓔਗ਼
转载请Ä联系本公Ô众号获ú得授权
投稿或寻求报Æ道:conten•t@jiqizhixin.cષom
“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关ਠ注)&#ffe0 ;
☻新浪ਲ਼科ý技
ÅÝ新浪科技∑为你带来最新鲜的科技资讯
☻
ખ苹果☏汇
∏
苹ૠ果汇为你带来最新鲜的苹果产品新闻
新Σ浪众测
Ѥ
η新酷产品第一时间免费试玩
૧新浪ⓒ探Þe;索
提供最ý新的科É学家新闻,精彩的震撼图片
新浪科技意Œa0;见反馈留ઐ言板
÷↓
All Rights Reserved 新浪¢公司‘ 版权所有