当前位置：首页 >人工智能 >7B羊驼战胜540B“谷歌版GPT”

7B羊驼战胜540B“谷歌版GPT”

发布时间：2023-11-28 14:54:32 浏览量：126次

把语言解码变成博弈过程

克雷西发自凹非寺

|

基于博弈论，MIT提出了一种新的大模型优化策略。

在其加持之下，7B参数的Llama在多个数据集上超越了540B的“谷歌版GPT”PaLM。

而且整个过程无需对模型进行额外训练，消耗的算力资源更低。

7B羊驼战胜540B“谷歌版GPT”，MIT用博弈论调教大模型，无需训练就能完成

这种基于博弈论制定的优化策略被称为均衡排名（Equilibrium Ranking）。

研究团队将大模型语言解码过程转化为正则化不完全信息博弈。

这个词可以拆解成“正则化”和“不完全信息博弈”两部分，我们将在原理详解部分展开介绍。

在博弈过程中，模型不断对生产的答案进行优化，让生成结果更加符合事实。

实验结果表明，在多个测试数据集上，均衡排名优化方式的效果显著优于其他方式，甚至其他模型。

那么，均衡排序方法具体是如何将博弈论应用到大模型当中的呢？

让大模型“自我博弈”

前面提到，研究人员将大模型进行语言解码的过程直接变成了“正则化不完全信息博弈”过程。

不完全信息博弈是整个方法的核心，正则化则是一种避免出错的机制，我们先来看这种博弈。

具体而言，他们设计了生成器（G）和判别器（D）两个模块，它们掌握着不同的信息，扮演不同角色。

生成器根据环境（N）随机给出的“正确性参数”生成答案；判别器则只负责判断生成器的答案是否正确，而不看环境参数。

如果判别器的判断与环境参数一致，两者都得到1分奖励，否则都不得分。

在执行重复的生成和判别当中，模型的目标是达到纳什均衡。

在纳什均衡策略组合下单方面改变自己的策略，而其他玩家策略不变，都不会提高自身的收益。

举个例子，张三和李四一起决定晚餐吃什么，选项有火锅和烧烤，其他已知条件如下：

张三对火锅的满意度是2分（很喜欢），对烧烤的满意度为1分（还可以）
李四对烧烤的满意度是2分，对火锅的满意度为1分
两个人都不想自己单独吃饭，因此单独吃饭时满意度均为0分

此时，两人的选择共有四种方式，对应的满意度得分如下表：

这一情境下，两人选择相同时即为最佳策略，此时只要任何一个人单方面改变策略，两人的满意度将同时变为0。

回到均衡排名优化法当中，生成器和判别器会先初始化策略，二者的依据分别基于问题或答案。

这一环境下的纳什均衡如下表所示：

初始化完成后，生成器和判别器会进行多轮博弈，逐步更新策略，直到迭代终止。

每一次博弈结束后，分别计算判别器和生成器的得分和最优策略得分的差值，称为“后悔值”。

然后逐步进行迭代，直到后悔值收敛，逼近纳什均衡。

达到纳什均衡后，生成器和判别器的策略便确定，会分别对候选答案进行打分，然后进行排序选出最佳答案。

在纳什均衡条件下，二者的评分应当是一致的，如果不一致，答案便会被剔除。

不过由于给生成器和判断器打分的标准是与环境信息的一致性，而不是客观事实，因此单纯追求达到纳什均衡，不一定能保证答案合理。

为了避免二者同时出错的情况出现，开发者还引入了正则化纠错机制。

首先是向生成器和判别器基于客观事实的先验策略，而不是任由其随机初始化。

这些先验策略是生成器和判别器生成策略的“金科玉律”，引导了策略的优化方向。

在此还有一种KL惩罚策略，当新的策略出现时，会计算其与初始策略的KL散度（又叫相对熵）。

KL散度描述了二者之间的相关性，数值越大，相关性越低。

假设P(x)和Q(x)分别是随机变量X上的两个概率分布，则在离散和连续的情形下，KL散度分别为：

这一结果会加入到生成新策略的函数当中，避免了最终生成的结果偏离客观事实。

如下式所示，奖励函数U中包含了KL散度项，并设置了惩罚系数λ(>0)。

当KL散度越大，也就是和客观事实偏差越大时，模型获得的奖励分数将会降低。

这样一来，当生成器和判别器结果一致却不符合事实时，相关结果不会获得高评分，也就不会成为最终答案。

凭借着这样的策略，研究团队用更低的消耗让7B的Llama取得了优异的成绩。

部分能力超越“谷歌版GPT”

总的来说，均衡排序优化后的Llama在常识推理、阅读理解、数学和对话任务中的表现都十分出色。

选择题方面，同样是Llama，经均衡排名方法优化之后，模型在MMLU等多个数据集上的成绩都排在比较靠前的位置。

问答题方面，均衡排名策略优化后的13B Llama在TruthfulQA数据集中取得了最佳成绩，7B版本也与第一名相差无几。

除了文本相关的理解和推理，模型在数学方面也达到了较高水平。

7B Llama模型的诸多优化方式中，均衡排序取得了GSM8K测试的最好成绩。

均衡排序方法不仅是诸多Llama优化方式中的佼佼者，优化后的Llama成绩也超过了其他模型。

在ARC数据集的Challenge分集和RACE数据集的High分集上，Llama-7B+均衡排序的准确率分别为58.3%和56.4%，显著超越了PaLM-540B的53.0%和49.1%。

更多具体细节，可以到原论文中一探究竟。

论文地址：
http://arxiv.org/abs/2310.09139

上一篇北师大未来设计学院在第六届中国教博会发布五项PBL大挑战项目

下一篇 PyTorch官方认可！斯坦福博士新作：长上下文LLM推理速度提8倍

热门课程推荐

热门资讯

1. 照片变漫画效果，这4个方法操作简单有效，快来试试吧！

想将照片变成漫画效果？这篇文章分享了4个方法，包括Photoshop、聪明灵犀、VanceAI Toongineer、醒图，简单操作就能实现，快来尝试一下吧！
2. 华为手机神奇“AI修图”功能，一键消除衣服！原图变身大V领深V！

最近华为手机Pura70推出的“AI修图”功能引发热议，通过简单操作可以让照片中的人物换装。想了解更多这款神奇功能的使用方法吗？点击查看！
3. AI视频制作神器Viggle：让静态人物动起来，创意无限！

Viggle AI是一款免费制作视频的AI工具，能让静态人物图片动起来，快来了解Viggle AI的功能和优势吧！
4. AI显卡绘画排行榜:4090无悬念，最具性价比出人意料

在AI绘图领域，Stable Diffusion的显卡绘图性能备受关注。本文整理了Stable Diffusion显卡的硬件要求和性能表现，以及2023年3月显卡AI绘图效率排行榜和性价比排行榜。欢迎查看最新的AI显卡算力排行榜。
5. 四款值得推荐的AI以图生图软件，有需要的赶紧来试试!

近年来,人工智能逐渐走入公众视野,其中的AI图像生成技术尤为引人注目。只需在特定软件中输入关键词描述语以及上传参考图就能智能高效生成符合要求的...
6. 四款软件让你一键生成AI美女!

就能快速生成一幅极具艺术效果的作品,让现实中不懂绘画的人也能参与其中创作!真的超赞哒~趣趣分享几款超厉害的AI绘画软件,提供详细操作!有需要的快来...
7. 10个建筑AI工具，从设计到施工全覆盖!肯定有你从来没听过的

讲述了建筑业比较著名的AI公司小库科技做出的探索,在这儿就不多说了。今天,我们试着在规划设计、建筑方案设计、住宅设计、管道设计、出渲染图、3D扫...
8. 零基础10分钟生成漫画，教大家如何用AI生成自己的漫画

接下来,我将亲自引导你,使用AI工具,创作一本既有趣又能带来盈利的漫画。我们将一起探索如何利用这个工具,发挥你的创意,制作出令人惊叹的漫画作品。让...
9. 赶紧收藏好!这4个完全免费的AI视频制作网站和工具

以下是一些免费的AI视频制作网站或工具,帮助您制作各种类型的视频。 1. Lumen5:Lumen5是一个基于AI的视频制作工具,可将文本转换为视频。用户可以使...
10. 小说转视频AI神器，一键生成小说视频!

AI技术的快速发展为各行各业带来了许多创新应用,其中之一就是AI小说生成视频。这种技术利用人工智能算法和语言模型,将文本转化为视频剧情,加上配图、...

7B羊驼战胜540B“谷歌版GPT”

让大模型“自我博弈”

部分能力超越“谷歌版GPT”

请绑定手机号