∠机◐器之心报道
ફ编辑:陈萍、杜伟
本文中,剑桥和 ETH Zurich 的研究者从一个新的角度探讨了 probing,不关心Λ模型编码了多少信息,而是关心它的组件可以提取多少信息。然后使用 V-information 来量化这个数量。通过评估流行的 transformer 语言模型注意力机制,α该研究发现关于句子的语法树信息大部ષ分都可以由模型提取。然而,对于随机初始化的 transformer 模型而言,情况并非如此。因此,该研究得出结论,对 transformer 的训练会导致注意力头具有解码语法树的潜力。
预训练语言模型在各种自然语言处理任务上的惊人表现,引起了人们对其分析的兴趣。Probing 是进行此类分析所采用的最普遍的方法之一。在典型的ⓗ probing ⓨ研究中,probing 是一个插在中间层的浅层神经网络,通常是一个分类器层。其有助于探查不同层捕获的信息。使用辅助任务对 probing 进行训练和验证È,以发现是否捕获了此类辅助信息。
一般来讲,છ研究者首先冻结模型的权重,然后在模型的上下文表示的基础上训练probe,从而预测输入句子的属性,例如句法解析(其对句子结构进行分析,理清句子中词汇之间的连接规则)。不幸的是,关于如何设计此类ફ probe 的最佳实践仍然存在争议。
一方面,有研究者倾向于使用简⌉单的 probe,这样就可以将 proøbe 与 NLP 任务区分开来;另一方面,一些人认为需要复杂的 probe 才能从表示中提取相关信息。此外,还有一些人考虑折中的方法,主张将复杂性 – 准确性帕累托曲线上的 probe 考虑在内。
本文中,来自剑桥大学、苏黎世联邦理工学院的研究者提出架构瓶颈原则 (ABP,architectural bottleneck principle) 作为构建有用 probe 的指南,并试图测量神经π网络中的一个组件可以从馈送到它的表示中提取多少信息。为了估计给定Ζ组件可以提取多少信息,该研究发现 probe 应该与组件完全相同。根据这一原理,该研究通过注意力 probe 来估计有多少句法信息可用于 transformer。
论文地址:https▩://arxiv.org∼/pdf/22µ11.06420.pdf
举例来说,该研究假设 transformer 的注意力头是其使用句法信息的瓶颈,因为这是 transformer 中唯一可以同时访问多个 token 的组件。根据 ABP,该研究提出注意力 probe,就像注意力头ⓜ一样。该ⓦ probe 回答了这样一个问题:transformer 在计算其注意力权重时可以使用多少句法信息?
结果表明,大多数(尽ષ管不是全部)句法信息都可以通过这种简单的注意力头架构提取:英语句子平均包含♬ 31.2 bit 的句法树结构信息,而注意力 probe 可以提取 28.0 bits 信息。更进一步,在 BERT、ALBERT 和 RoBERT§a 语言模型上,一个句子的语法树大部分是可以被 probe 提取的,这表明这些模型在组成上下文表示时可以访问句法信息。然而,这些模型是否真的使用了这些信息,仍然是一个悬而未决的问题。
注意力 Prob્eÙ
目前,有许多方૧法用来设计有效的 probe,分类原则大致包括:线性原ਬ则、最大信息原则、易提取原则,此外还包括本文提出的 ABP 原则。
可以说 ABP ⌉将前三个原则联系起来。最重要的是,ABP 泛化了线性原则、最大信息原则,此外,ABP 还通过限制 pÓro½be 的容量来隐式控信息制提取的难易程度。
该研究重点关注 transformer 注意≥力机制。此前研究人员曾断言,在计算注意力权重时,transformer 会使用句法信息。此外,注意力头是 transformer 中唯一可以同时访问多个单词的组件。因此,在注意力头Ζ的背景下探索 ABP 是一个自然的起点。具体而言,根据 ABP,我们可以研究 t♨ransformer 的注意力头可以从输入表示中提取多少信息。
实κ验结ν果
对于数据,研究者使用了通用依赖(UD)树库。他们分析了四种不同类型的语言,包括巴斯克语ω、英语、泰米尔语和土耳其语。此外,研究者将分析重点放在未标记的依赖树♡上,并注意到 UડD 使用特定的句法形式,这可能会对结果造成影响。
对于模‹♬型,研究者探讨了以上四种语言的多语言 BERT 以及仅支持英语的 RoBERTa 和 ALBERT。根据 ABP,他们保持હ probe 的隐藏层大小与 probed 架构中的相同。最后,他们还将一个具有与 BERT 相同架构的未训练 transformer 模型作为基线。
下图 1 展示了主要结果。首先,研究者的 probe 估计大多数句法信息可以在中间层提取。其次,大量句法信息在馈入注意力头的表示中进行编码。虽然他们估计使用英语、泰米尔语和巴斯克语句子编码的信息接近 31 bits,但使用土耳其句子编码的信息约为 15 bits。研究者怀疑这是因为土耳其语在í语料库中的句子最短。
研究者还发现,句子中的几乎所有句法信息都可用于考虑中的基于 transformerⓜ 的模型。例如在英语中,他们发现信息量最大的层在 BERT、RoBERTa 和 ALBERT 中的 V 系数分别为 90%、82% 和 89%,具体如下表 1 所示。这意味着这些模型可以访问一个句子中约 85% 的句法信息。不过未训练的 જBERT 表示并不适合这种情况。
最后,研究者将 BERT 的注意力权重(通过其预训练的注意力头计算)直接插入Õ到原文公式 (8) 并分析产生的未标记附件分数。英语相关的 BERT 结果如下图 2 所示。简言之,虽然注意ક力头可以使用大量的句法信息,但没有一个实际的头可以计算与句法树非常相似的权重。
但是,由于 BERਫT 有 8 个注意力头,因此可能以分布式方式使用句法信息,其中每个头依赖ϑ该š信息的子集。
◯
© TH⇔Eੌ END Ņ
¨
转♫载બ请联系本公众号获得授权
投稿或寻求报道:content↓@∩jiqizhixin.ધcom
“掌”握科技鲜闻ⓕ (微信搜索techsina或扫描હ左侧二ખ维码关注)
ⓖ新浪&#ffe0 ;科技પ
新λ浪科技ઢ为你带来最新鲜的科技资讯
Ρ
ઝ苹৻果汇
苹果汇为你带来最bc;新α鲜的苹果产品新闻પ
ⓢ新浪众测ο
新酷产ਫ਼品第一时间免费⌋→试玩
↓
新浪γ探ë索
提供最新્ੑ的科学家新闻,精彩的૪震撼图片
新浪科技意ਭ见反馈留言板Τ
All Rightsਫ਼ ReservÃed 新浪公司å 版权所有