获取邀请码
申请VIP
发布器
商务合作
交易中心
公告
活动推广
新手
成人BT
美图
文学
信息
在线视频
休闲娱乐
资源共享
管理
注册
登录
一元夺宝
搜索
标签
虚拟足彩
帮助
界面风格
繁體中文
申请赞助
广告合作
SiS001! Board - [第一会所 关闭注册]
»
Discovery Channel | 探索频道
» [一代综师]【科技】字节“开盒”OpenAI所有大模型,揭秘GPT-3到GPT-4进化路径[15P]
‹‹ 上一主题
|
下一主题 ››
发新话题
发布投票
发布商品
发布悬赏
发布活动
发布辩论
发布视频
打印
[转帖]
[一代综师]【科技】字节“开盒”OpenAI所有大模型,揭秘GPT-3到GPT-4进化路径[15P]
wjs0556
LEVEL 4
积分
22
金币
1119 枚
威望
0 点
金镑
0 个
银币
0 枚
舍利
0 枚
注册时间
2012-1-29
最后登录
2024-9-12
个人空间
发短消息
加为好友
当前离线
1楼
大
中
小
发表于 2023-11-18 20:33
只看该作者
0
[一代综师]【科技】字节“开盒”OpenAI所有大模型,揭秘GPT-3到GPT-4进化路径[15P]
GPT-3究竟是如何进化到GPT-4的?
字节给OpenAI所有大模型来了个
“开盒”操作
。
结果还真摸清了GPT-4进化路上
一些关键技术
的具体作用和影响。
比如:
SFT是早期GPT进化的推动者
帮助GPT提升编码能力的最大功臣是SFT和RLHF
在预训练中加入代码数据则提升了后续GPT版本的
各方面
能力,尤其是推理……
创业后忙得不可开交的
AI大牛李沐
看完,也久违地出现在公众视野,并给这项研究点了个赞。
网友们更是盛赞:
这是迄今为止第一个充分开盒OpenAI所有模型的工作,respect。
而除了一些新发现,它还坐实了一些已有猜想:
比如
GPT-4在变笨并非危言耸听
,这项评测发现GPT进化路上出现了明显的
“跷跷板现象”
,即模型进化过程中一部分能力提升另一部分下降。
这和网友此前的感受不谋而合。
如作者本人表示:
这项工作可以为GPT-3到GPT-4的演化路径提供宝贵的见解。
言外之意,通过它我们可以一窥GPT模型的“成功之道”,为接下来的大模型构建工作提供有效经验。
那么,具体它都“开”出了哪些东西,我们扒开论文来看。
探秘GPT-3到GPT-4进化之路
最开头的进化图由作者们根据公开信息总结得出。
可以看到,它标注了每一个中间模型是经过哪些技术(如代码微调、SFT/FeedME等)一路从最初的GPT-3进化到3.5再到如今的4。
这些技术具体起到了多大影响,从davinci到gpt-4-0613,字节对每代GPT的数学、编码、推理等
7大能力
全部测了个“底朝天”。
1. SFT:早期GPT进化的推动者
首先,在GPT-3系列中,最初的davinci(GPT-3)通过监督微调SFT和其变体FeedME进化为了text-davinci-001。
这让后者在几乎全部任务上都获得了性能提升:
更直观的表现如下图所示(“粉圈”为进化后的text-davinci-001)。
接着,GPT开始进入3.5系列,在该系列早期阶段,先是最基础的code-davinci002
采用同样的技术
进化成text-davinci-002。
然而这一进化操作的效果属实不大,GPT的各项性能只有少数几个提升,更多是不增反减的。
在此,作者引出他们的第一个结论,即:
SFT只在较弱的基础模型上管用,用在更强的模型上收效甚微
。
类似现象在开源模型身上也可见(这个评测还测了Llama1和2、PaLM2-L、Claude 2等模型):
在初代Llama-65B之上,SFT成功提升了它在MMLU基准上的性能,但是,所有使用了SFT改进的Llama2-70B在Open LLM Leaderboard榜单上却只表现出
微小的进步
。
总结:在GPT3阶段,SFT技术对模型的进化起到了关键作用。
2、RLHF和SFT:编码能力提升的功臣
顺着GPT3.5系列接着看,从text-davinci-002开始,OpenAI开始引入新技术基于PPO算法的RLHF,得到text-davinci-003。
此时,它在大部分基准上的表现和前代模型持平或略变差,说明作用不是特别明显(在开源模型身上也是如此)。
但有一个除外:编码任务,最高足足增加了近30分。
联想到前面code-davinci002采用SFT技进化成text-davinci-002造成整体性能下降时,编码任务也没受影响,反而还涨分了——
作者决定
验证SFT和RLHF对大模型编码能力的影响
。
在此,他们测量了几代GPT模型的pass@1(采样1次通过的概率)、pass@100(采样100次通过的概率)等分数。
结果是与基础模型相比,使用了SFT和RLHF技术的模型在pass@1上出现了大幅提升,而在pass@100上略有下降。
这说明啥呢?
作者解释:
pass@100刻画的是模型内在coding能力,而pass@1代表的是模型一遍过、bug-free的coding能力。
pass@100小幅下降表明SFT和RLHF在编码任务上和其它任务一样,仍然有所谓的对齐税(alignment tax)。
不过,SFT和RLHF能够将pass@100的能力学到pass@1上,即把内在能力(但需要很多次尝试)转化到一遍过、bug-free的coding能力,致使pass@1大幅提升。
而再仔细看结果,可以发现gpt-3.5-turbo-0301通过SFT和RLHF,大幅提升了pass@1,这对于小模型的性能优化是个好消息。
这还没完,鉴于作者之前观察到GPT-4在一些复杂推理任务上
经过多次尝试
才能解决问题。
他们结合上面的观察,总结为:
LLM仍可以通过SFT和RLHF,不断将内在能力(但需要多次尝试)转化成一次性解决问题的能力,不断逼近LLM的能力上限。
言外之意,GPT-4还可以更强。
3、代码加入预训练,对推理帮助最大
在GPT4进化之路上,还出现了2个特别的模型:
code-cushman-001(Codex-12B)和code-davinci-002。
前者是OpenAI初次尝试使用代码数据训练模型,尽管它的规模较小,但也取得了不错的代码能力。
后者是GPT3.5的基座模型,它是在GPT3的基础上使用RLHF 代码训练的结果,也就是文本和代码混合预训练。
可以看到,它大幅超越GPT-3(不止是编码能力)、在一些推理任务上(如BBH)表现甚至可以超过后面的gpt-3.5-turbo-0613。
作者表示:
这表明预训练加入代码数据可以全面提升LLM的能力,尤其是推理能力。
4、“跷跷板”现象
通过比较2023年3月和2023年6月的OpenAI API模型,我们确实可以发现这一现象:
与gpt-3.5-turbo-0301相比,升级后的gpt-3.5-turbo-0613在HumanEval上表现出色(53.9 -> 80.0),但在MATH上却大幅下降(32.0 -> 15.0)。
gpt-4-0613在DROP上的表现优于gpt-4-0314(78.7 -> 87.2),但在MGSM上也出现了直线下降(82.2 -> 68.7)。
作者认为:
“跷跷板现象”可能成为LLM通往AGI之路的绊脚石,因为AGI强调“通用智能”,要在所有task上都有优异的性能,要求模型不能“偏科”。
在此,他们也呼吁社区重视这个问题,共同推进大模型平衡发展的研究。
帮助大模型从业者找到方向
以上这些发现,全部基于GPT-Fathom——
字节最新提出的一个大模型评测工具。
想必大家肯定疑问:
大模型排行榜和评测工具已经有很多了,为什么还要提出一个新的方法?
作者介绍,相比已有的测评方式,GPT-Fathom
尺度更加统一
,
结果具有可重现性
。
大模型从业者可以借助它来
明确自己与领先模型的差距到底在什么地方
,从而有的放矢地完善自己的产品。
具体来看,GPT-Fathom主要是解决了其他大模型评测方法的三个不足:
setting标准不一致
:是否使用思维链(CoT)、样本数量等设置,以及答案评价方法没有统一标准
模型和任务收集不完整
:测试关注的能力不全面,缺乏对早期模型的关注
缺乏对模型敏感性的研究
为了更直观体现GPT-Fatham的特点,作者对比了一些具体的现有榜单,可以总结成下面这个表格:
其中,对敏感性的评测就发现了此前的测试标准没能找出的问题。
相比于GPT,其他模型对提示词的敏感度很高,稍有变化就会导致输出截然不同,提示其他模型的鲁棒性和GPT之前还存在很大差距。
比如在TriviaQA数据集上,提示词的细微改变就让Llama 2-70B的得分下降四分之一,而GPT系列模型则没有明显变化。
此外诸如CoT、样本数量以及采样方差等因素也都被包括进了敏感性测试当中。
未来,作者计划从能力种类、测试数据集和模型三个维度继续扩展GPT-Fathom,将支持多轮对话、多模态等能力的测评,以及增加对多个数据集和模型的测试。
GPT-Fatham的两位共同一作分别是字节公司应用机器学习研究组的研究人员张驭宇(Yuyu Zhang)和实习生Shen Zheng。
Shen Zheng是伊利诺伊大学香槟分校(UIUC)的一名硕士生。
此外,字节公司的Yijie Zhu等四名研究人员,以及UIUC的Kevin Chen-Chuan Chang教授也参与了这项研究。
本帖最近评分记录
yanhuangsishen
金币
+36
感谢分享,论坛有您更精彩!
2023-11-19 17:35
UID
12068400
帖子
407
精华
0
积分
22
金币
1119 枚
原创
0 帖
威望
0 点
金镑
0 个
感谢
41 度
银币
0 枚
舍利
0 枚
阅读权限
20
在线时间
0 小时
注册时间
2012-1-29
最后登录
2024-9-12
查看详细资料
TOP
作者的其他主题:
[一代综师]【科技】长焦之王!真我GT5 Pro将搭载骁龙8 Gen3及IMX890潜望长焦[8P]
[一代综师]【科技】机械飞升,生物黑客在体内植入 52 个零件,创下世界纪录【18P]】
[一代综师]CLTC续航500km 飞凡F7都市版售18.99万[12P]
[一代综师]电气化来势凶猛 广州车展重磅新车盘点[12P]
[一代综师]郭晶晶一家5口被偶遇,郭晶晶妆容精致好漂亮,俩女儿乖巧可爱![14P]
[一代综师]程晓玥晒婚后生活,赞富二代老公比她优秀,旧爱郑恺被抛掷脑后[10P]
ptbsman
LEVEL 1
积分
2
金币
82 枚
威望
0 点
金镑
0 个
银币
48 枚
舍利
0 枚
注册时间
2017-4-23
最后登录
2025-1-6
个人空间
发短消息
加为好友
当前离线
2楼
大
中
小
发表于 2023-11-18 21:49
只看该作者
0
怪不得用GPT3.5的時候URL中有text-davinci-002,原來是這個算力耗能低。
另外文中提到的【相比于GPT,其他模型对提示词的敏感度很高,稍有变化就会导致输出截然不同】个人感触颇深,使用的时候确实是这么个情况,不管谷歌还是国内的一些AI交互程序对于敏感内容都是全部拒绝回复
UID
13073863
帖子
56
精华
0
积分
2
金币
82 枚
原创
0 帖
威望
0 点
金镑
0 个
感谢
1 度
银币
48 枚
舍利
0 枚
阅读权限
5
在线时间
0 小时
注册时间
2017-4-23
最后登录
2025-1-6
查看详细资料
TOP
‹‹ 上一主题
|
下一主题 ››
控制面板首页
编辑个人资料
积分交易
积分记录
公众用户组
个人空间管理
升级赞助会员
VIP专用风格
青青家园
手机版本
公告区
悔过区
回收站
English
管理申请
虚拟足彩
道具商店
新手导航
投诉建议
第一会所新片
原创培训
亚无原创
亚无转贴
亚有原创
亚有转贴
欧无原创
欧无转贴
动漫原创
动漫转贴
新手原创
分流宣传
自拍原创
产品交易购买
使用经验交流区
男女性健康
成人两性保健品推荐区
足球竞猜
有奖竟猜
娱乐明星新闻
IT新闻科技
Dota Defense
大杂烩
秘密趣事
体育博彩
打卡签到
人工智能(AI)
华山论剑
成人网盘
正规影视
成人影视
小说打包
A V 交流
资源悬赏
资源售卖
原创超市
原创打包
新手原创
东方靓女
西洋靓女
精品套图
星梦奇缘
高跟丝袜
丝魅鉴赏
熟女乱伦
卡通贴图
网友自拍
若兰居
自拍VIP
唯美图文
东方唯美
西方唯美
景致唯美
生活百态
另类拾趣
恐怖殿堂
魅惑瞬间
网红前沿
偷拍分享
作者会宾室
文学作者
原创人生
评论推荐
文学交流
征文活动
旧文展览
收集藏书馆
电子书馆
五味书斋
北京信息
良家情感
东北华北
西北西南
华中华东
华南港澳台
海外信息
性技学习
男女性健康
经验交流
楼凤信息
毕业区
新贴审核
在水一方
征文大赛现场
今夜不设防
上传视频
观看短视频
新帖发布
明星三级
成人视频
居家自拍
成人卡通
论坛总制区
综区事务所
副管超版理区
管理团队室
BT版主事务区
图区事务区
文区事务区
信区事务区
娱乐休闲
论坛活动
勋章申请
人才招募
论坛 Board
美图区 Gallery
视频区 Tube
HTTP区 Downloads
影视区
娱乐休闲
文学区
信息区
新手区
当前时区 GMT+8, 现在时间是 2025-3-12 03:24
Taiwan Cute Girl
!!!全体会员请注意!!!
任何VIP优惠活动,都是骗人的!
切勿上当受骗!
请大家记住并收藏备用访问地址:
地址一
地址二
地址三
地址四
地址五
忘记地址,请发email索取:
getsisurl#gmail.com(#换成@)