当前位置：首页 >人工智能 >用暂停token重新训练大模型，AI学会三思而后行

用暂停token重新训练大模型，AI学会三思而后行

发布时间：2023-11-28 14:54:50 浏览量：108次

只需增加1024个参数

梦晨发自凹非寺

|

让ChatGPT给出答案之前多想想步骤，就能提高准确率。

那么能不能省去提示词，直接把这种能力内化在大模型里呢？

CMU与谷歌团队的新研究，在训练大模型时加入暂停token来实现这一点。

实验中，8项评测成绩提升，其中SQuAD的EM得分提高18%，CommonSenseQA提高8%，GSM8k中的推理任务也提高1%。

研究者Jack Hack表示，自己不久前就提出类似假设，很高兴看到它被验证。

英伟达工程师Aaron Erickson表示，是不是和人类说话时加入“嗯嗯啊啊”是一个道理？

预训练微调都加入暂停token

整个研究基于一个简单的想法：

在输入序列后面追加一系列（暂停token），从而延迟模型输出下一个token。

这可以给模型额外的计算时间来处理更复杂的输入。

作者不仅在下游任务微调时引入，还在预训练时就随机在序列中插入，让模型在两阶段都学习如何利用这种计算延迟。

预训练阶段，在语料库中随机插入一定比例的暂停token到输入序列，进行标准的自回归预训练。但计算损失时会跳过暂停token的预测。

下游任务微调时，输入中也追加一定数量的暂停 token，然后对目标序列进行自回归预测，同时微调模型参数。

推理阶段也追加相同数量的暂停token，但忽略模型输出直到最后一个暂停token，然后开始提取答案。

实验使用了标准的Transformer纯Decoder模型，分为130M参数和1B参数两个版本。

其中暂停token只增加了1024个参数，也就是它本身的embedding大小。

在9个不同任务上的实验表明，仅在微调阶段引入暂停token的效果并不明显，有些任务不会提升。

但如果在预训练和finetune阶段都使用暂停token，大多数任务上都获得显著提升。

论文还探究了暂停token的数量、位置等关键超参数。发现对于不同的模型通常存在一个最优的数量。

最后作者也提出，这项工作也有不少局限性。

由于暂停token增加了模型计算量，与其他方法对比是否公平还有待讨论
新方法需要重新预训练，在实际应用还有一定困难
对具体工作机制还缺乏深入理解
推理时如果暂停token数量为0，模型表现仍然不佳

搜索引擎You.com的CEO表示，接下来是不是应该把所有提高人类认知表现的技巧都对大模型试一试？

现在已经有了“一步一步地想”和“深呼吸”。

也许下一个爆款论文就是教大模型带着问题睡一觉或者更离谱的健康饮食、注意锻炼。

论文地址：
https://arxiv.org/abs/2310.02226

参考链接：
[1]https://twitter.com/arankomatsuzaki/status/1709372124891070915

— 完 —

上一篇北师大未来设计学院在第六届中国教博会发布五项PBL大挑战项目

下一篇 AI视频生成卷出新高度：高清电影画质免费无限玩，号称“史上最强”

热门课程推荐

热门资讯

1. 照片变漫画效果，这4个方法操作简单有效，快来试试吧！

想将照片变成漫画效果？这篇文章分享了4个方法，包括Photoshop、聪明灵犀、VanceAI Toongineer、醒图，简单操作就能实现，快来尝试一下吧！
2. 华为手机神奇“AI修图”功能，一键消除衣服！原图变身大V领深V！

最近华为手机Pura70推出的“AI修图”功能引发热议，通过简单操作可以让照片中的人物换装。想了解更多这款神奇功能的使用方法吗？点击查看！
3. AI视频制作神器Viggle：让静态人物动起来，创意无限！

Viggle AI是一款免费制作视频的AI工具，能让静态人物图片动起来，快来了解Viggle AI的功能和优势吧！
4. AI显卡绘画排行榜:4090无悬念，最具性价比出人意料

在AI绘图领域，Stable Diffusion的显卡绘图性能备受关注。本文整理了Stable Diffusion显卡的硬件要求和性能表现，以及2023年3月显卡AI绘图效率排行榜和性价比排行榜。欢迎查看最新的AI显卡算力排行榜。
5. 四款值得推荐的AI以图生图软件，有需要的赶紧来试试!

近年来,人工智能逐渐走入公众视野,其中的AI图像生成技术尤为引人注目。只需在特定软件中输入关键词描述语以及上传参考图就能智能高效生成符合要求的...
6. 10个建筑AI工具，从设计到施工全覆盖!肯定有你从来没听过的

讲述了建筑业比较著名的AI公司小库科技做出的探索,在这儿就不多说了。今天,我们试着在规划设计、建筑方案设计、住宅设计、管道设计、出渲染图、3D扫...
7. 四款软件让你一键生成AI美女!

就能快速生成一幅极具艺术效果的作品,让现实中不懂绘画的人也能参与其中创作!真的超赞哒~趣趣分享几款超厉害的AI绘画软件,提供详细操作!有需要的快来...
8. 零基础10分钟生成漫画，教大家如何用AI生成自己的漫画

接下来,我将亲自引导你,使用AI工具,创作一本既有趣又能带来盈利的漫画。我们将一起探索如何利用这个工具,发挥你的创意,制作出令人惊叹的漫画作品。让...
9. 赶紧收藏好!这4个完全免费的AI视频制作网站和工具

以下是一些免费的AI视频制作网站或工具,帮助您制作各种类型的视频。 1. Lumen5:Lumen5是一个基于AI的视频制作工具,可将文本转换为视频。用户可以使...
10. 小说转视频AI神器，一键生成小说视频!

AI技术的快速发展为各行各业带来了许多创新应用,其中之一就是AI小说生成视频。这种技术利用人工智能算法和语言模型,将文本转化为视频剧情,加上配图、...

用暂停token重新训练大模型，AI学会三思而后行

预训练微调都加入暂停token

请绑定手机号