「GPT 3 有 1750 亿参数,而接下来的 GPT4 的参数高达 100 万亿」。相信很多人还记得这个年初刷屏的「重磅」消息和一张被病毒式传播的图表。
但是很快呢,OpenAI 的 CEO Sam Altman 就出来辟谣,证实这是一条假消息,并表示,「关于 GPT-4 的谣言都很荒谬。我甚至不知道这从何而起。」
虽然 Sam Altman 的辟谣告诉我们100万亿的参数量是错误的,但他背后的 OpenAI 团队一直对 GPT-4 的真实参数量守口如瓶,就连 GPT-4 的官方技术报告也没透露任何信息。
天下没有不透风的墙,6月21日,乔治・霍兹(George Hotz)疑似推倒了这面神秘的墙。
这个George Hotz是何许人物呢?我查了下资料,在江湖上确实是号人物,职业是安全黑客、企业家、软件工程师,最著名的两件事: 17 岁破解 iPhone、21 岁攻陷索尼 PS3 ,还被索尼提起了诉讼。目前是一家研发自动驾驶辅助系统的公司(comma.ai)的创始人。
这件事的起因是霍兹接受了一家名为 Latent Space 的 AI 技术播客的采访。在采访中,他谈到了 GPT-4,称 GPT-4 其实是一个混合模型。具体来说,它采用了由 8 个专家模型组成的集成系统,每个专家模型都有 2200 亿个参数(GPT-3 参数是 1750 亿),并且这些模型经过了针对不同数据和任务分布的训练。
紧接着,在这段博客的内容被曝出之后,PyTorch 创建者 Soumith Chintala 转发了这条推文,并表示自己似乎听过同样的「传闻」,很多人可能也听过,但只有 George Hotz 在公开场合将其说了出来。
为什么OpenAI会采用混合模型呢?
George Hotz也给出了自己的解释:“混合模型是你在无计可施的时候才会考虑的选项,混合模型的出现是因为无法让模型的参数规模超过 2200 亿。他们希望模型变得更好,但如果仅仅是训练时间更长,效果已经递减。因此,他们采用了八个专家模型来提高性能”。至于这个混合模型是以什么形式工作的,George Hotz 并没有详细说明。
为什么 OpenAI对GPT-4的参数量讳莫如深呢?
George Hotz 认为,除了苹果之外,大部分公司保密的原因都不是在隐藏什么黑科技,而是在隐藏一些「不那么酷」的东西,不想让别人知道「只要花 8 倍的钱你也能得到这个模型」。
这件事情已经在推特上已经大范围传播,甚至还有很多调侃。
ChatGPT的横空出示,让OpenAI一夜之间成为了人工智能的“神”,它代表着人工智能最先进的技术和发展方向,成为了神话般的存在。George Hotz 的这次爆料,让这家公司看起来没那么“神了”,究竟是否真如他所描述的那样我们也无法确定。如果你有更多线索,欢迎在评论区留言。
以下是博客完整内容的链接,感兴趣的朋友可以自行学习。https://www.latent.space/p/geohot#details