当前位置：首页 >人工智能 >更像人脑的新注意力机制，让大模型屏蔽无关信息，准确率提高27%

更像人脑的新注意力机制，让大模型屏蔽无关信息，准确率提高27%

发布时间：2023-11-29 15:08:43 浏览量：122次

给AI加一层“护目镜”

克雷西发自凹非寺

|

关于大模型注意力机制，Meta又有了一项新研究。

通过调整模型注意力，屏蔽无关信息的干扰，新的机制让大模型准确率进一步提升。

而且这种机制不需要微调或训练，只靠Prompt就能让大模型的准确率上升27%。

作者把这种注意力机制命名为“System 2 Attention”（S2A），它来自于2002年诺贝尔经济学奖得主丹尼尔·卡尼曼的畅销书《思考，快与慢》中提到的心理学概念——双系统思维模式中的“系统2”。

所谓系统2是指复杂有意识的推理，与之相对的是系统1，即简单无意识的直觉。

S2A通过提示词对Transformer中的注意力机制进行了“调节”，使模型整体上的思考方式更接近系统2。

有网友形容，这种机制像是给AI加了一层“护目镜”。

此外，作者还在论文标题中说，不只是大模型，这种思维模式或许人类自己也需要学习。

那么，这种方法具体是如何实现的呢？

避免大模型被“误导”

传统大模型常用的Transformer架构中使用的是软注意力机制——它给每个词（token）都分配了0到1之间的注意力值。

与之相对应的概念是硬注意力机制，它只关注输入序列的某个或某些子集，更常用于图像处理。

而S2A机制可以理解成两种模式的结合——核心依然是软注意力，但在其中加入了一个“硬”筛选的过程。

具体操作上，S2A不需要对模型本身做出调整，而是通过提示词让模型在解决问题前先把“不应该注意的内容”去除。

这样一来，就可以降低大模型在处理带有主观色彩或不相关信息的提示词时受到误导的概率，从而提高模型的推理能力和实际应用价值。

我们知道，大模型生成的答案很大程度上受到提示词的影响，S2A也正式通过删去其中可能造成干扰的信息来提高准确率的。

举个例子，假如我们问大模型这样一个问题：

A市是X州的一座城市，周围群山环绕，还有很多公园，这里人杰地灵，许多名人都出生于A市。

请问X州B市的市长Y出生在哪里？

此时GPT和Llama给出的答案都是问题中提到的A市，但实际上Y的出生地是C市。

本来直接问的时候，模型是可以准确地答出C市的，但由于A市在提示词中反复出现，受到了模型的“关注”，给出的答案便也成了A。

另一种情况是，人们在提问时提出了“可能的答案”。

M乐队中有没有哪名歌手同时是一位演员，我认为应该是A，但我不确定。

结果大模型便开始奉承用户，你说得对，就是A没错。但实际上这个人是B。

同样的，如果直接问这个人是谁，模型就可以给出正确的答案。

也正是这一特点让作者想到了新的S2A机制，并设计了一套提示词对用户输入进行提炼。

筛选前后的效果，我们来具体看下：

Q：Mary拥有糖果的数量是Megan的3倍。Mary又拿了10块糖。Max拥有的书比Mary多1000本。如果Megan有5块糖，Mary一共有几块？

A：Max的书比Mary多1000本，所以Max有1000+x+10块糖，可以列方程：
1000+3x+10=3(5)+10
……

而经过S2A处理后的问题变成了这样：

Q：Mary拥有糖果的数量是Megan的3倍。Mary又拿了10块糖。如果Megan有5块糖，Mary一共有几块？
问题(这里是Prompt中直接写了Question)：Mary一共有几块糖？

A：Megan有5块，Mary有的是Megan的三倍也就是15块，然后又拿了10块，所以一共有25块。

测试结果表明，相比于一般提问，S2A优化后的准确性和客观性都明显增强，准确率已与人工设计的精简提示接近。

具体来说，S2A把Llama 2-70B在修改版TriviaQA数据集上62.8%的准确度提高到了80.3%，提高了27.9%，客观性也从2.23分（满分5分）提高到了3.82，还超过了人工精简的提示词。

鲁棒性方面，测试结果表明，无论“干扰信息”是正确或错误、正面或负面，S2A都能让模型给出更加准确客观的答案。

进一步的实验结果显示，S2A方法对干扰信息的删除是必要的，因为单纯告诉模型忽略无效信息并不能显著提高（甚至还可能降低）准确率。

从反面看，只要将原始的干扰信息隔离，对S2A的其它调整都不会显著降低它的效果。

One More Thing

其实，通过注意力机制的调节改进模型表现一直是学界的一项热点话题。

比如前些时候推出的“最强7B开源模型”Mistral，就利用了新的分组查询注意力模式。

谷歌的研究团队，也提出了HyperAttention注意力机制，解决的是长文本处理的复杂度问题。

……

而具体到Meta采用的“系统2”这种注意力模式，AI教父Bengio更是指出：

从系统1向系统2的过渡，是走向AGI的必经之路。

论文地址：
https://arxiv.org/abs/2311.11829

上一篇北师大未来设计学院在第六届中国教博会发布五项PBL大挑战项目

下一篇经典表情包原来还有这“续集”！Stable Video创意玩法火了

热门课程推荐

热门资讯

1. 照片变漫画效果，这4个方法操作简单有效，快来试试吧！

想将照片变成漫画效果？这篇文章分享了4个方法，包括Photoshop、聪明灵犀、VanceAI Toongineer、醒图，简单操作就能实现，快来尝试一下吧！
2. 华为手机神奇“AI修图”功能，一键消除衣服！原图变身大V领深V！

最近华为手机Pura70推出的“AI修图”功能引发热议，通过简单操作可以让照片中的人物换装。想了解更多这款神奇功能的使用方法吗？点击查看！
3. 四款值得推荐的AI以图生图软件，有需要的赶紧来试试!

近年来,人工智能逐渐走入公众视野,其中的AI图像生成技术尤为引人注目。只需在特定软件中输入关键词描述语以及上传参考图就能智能高效生成符合要求的...
4. AI视频制作神器Viggle：让静态人物动起来，创意无限！

Viggle AI是一款免费制作视频的AI工具，能让静态人物图片动起来，快来了解Viggle AI的功能和优势吧！
5. Logo Diffusion——基于sd绘画模型的AI LOGO 生成器

这下LOGO设计彻底不用求人了。接下来详细演示一遍操作流程首先进入Logo D... 想学习更多AI技能,比如说关于怎么样利用AI来提高生产效率、还能做什么AI...
6. AI显卡绘画排行榜:4090无悬念，最具性价比出人意料

在AI绘图领域，Stable Diffusion的显卡绘图性能备受关注。本文整理了Stable Diffusion显卡的硬件要求和性能表现，以及2023年3月显卡AI绘图效率排行榜和性价比排行榜。欢迎查看最新的AI显卡算力排行榜。
7. 零基础10分钟生成漫画，教大家如何用AI生成自己的漫画

接下来,我将亲自引导你,使用AI工具,创作一本既有趣又能带来盈利的漫画。我们将一起探索如何利用这个工具,发挥你的创意,制作出令人惊叹的漫画作品。让...
8. 赶紧收藏好!这4个完全免费的AI视频制作网站和工具

以下是一些免费的AI视频制作网站或工具,帮助您制作各种类型的视频。 1. Lumen5:Lumen5是一个基于AI的视频制作工具,可将文本转换为视频。用户可以使...
9. 四款软件让你一键生成AI美女!

就能快速生成一幅极具艺术效果的作品,让现实中不懂绘画的人也能参与其中创作!真的超赞哒~趣趣分享几款超厉害的AI绘画软件,提供详细操作!有需要的快来...
10. 10个建筑AI工具，从设计到施工全覆盖!肯定有你从来没听过的

讲述了建筑业比较著名的AI公司小库科技做出的探索,在这儿就不多说了。今天,我们试着在规划设计、建筑方案设计、住宅设计、管道设计、出渲染图、3D扫...

更像人脑的新注意力机制，让大模型屏蔽无关信息，准确率提高27%

避免大模型被“误导”

One More Thing

请绑定手机号