首页 > 快讯 > AGI大基建与马拉松：2024 Q1全球大模型的前沿手记

AGI大基建与马拉松：2024 Q1全球大模型的前沿手记

发布时间：2024-04-18 18:33:37 | 责任编辑：字母汇 | 浏览量：398 次

作者 | 张小珺

出品 | 腾讯新闻《潜望》

2024年3月，我们连续从多个角度记录了中国AGI的进展与派别，接下来让我们把目光投向海外，对刚过去的2024 Q1全球大模型的赛局做一个实时的赛况观察与复盘。

“AGI本质是：电+芯片=产出智能。”拾象科技CEO李广密称，他此前是红杉资本投资人。

人类正处于一场宏大的“AGI大基建”时期。“这和曼哈顿计划、登月计划、克林顿网络大基建很像”，特别是上世纪九十年代，克林顿推出美国信息高速公路建设，为后面的美国互联网泡沫破裂与黄金20年提供了根基。在他看来，“如果没有基建，就不可能有应用大爆发”。

从基建维度，以训练一个GPT-4举例——据李广密估算，在耗电上，假设GPT-4使用8000张H100训练100天，大概需要2600万度电，大约需要三峡或上海一天发电量或用电量的5%，德州的2%；在算力上，现在最低要8000张H100有效算力，接近一个万卡集群，如果买卡，每张H100售价3万美元，再加上周边设备，3亿美元少不了，而如果租H100，1万多美元一张卡，也就是1亿到2亿美元。

随着大模型公司的加速收敛，全球看，2024年模型公司的生死线是：在技术上，年内超越GPT-4；在算力上，年内万张卡集群，而且要能用起来——“你就看未来12个月能不能有10万张H100的集群，这大概需要三五十亿美元，这是明年第一梯队模型的标配。”他说。

李广密对海外AGI的前沿进展有一手观察。他称，计算的竞争很残酷，未来只会更残酷，“每个时间阶段都会有模型公司持续的出局”。

以下是关于2024 Q1全球大模型赛况的对谈手记。（为方便阅读，作者进行了文本优化）

AGI大基建与马拉松：2024 Q1全球大模型的前沿手记

谈2024 Q1：

没想到，物理硬件成了

阻碍AGI时间表的最大因素

腾讯新闻《潜望》：我们先来盘点一下美国AI几起大事件：从过年到现在，OpenAI发布Sora，Anthropic发布Claude 3，Google和马斯克加入开源大战（分别推出Gemma和Grok），英伟达GTC被冠以“科技界春晚”头衔。

这一系列大事有没有什么让你感到shock的？他们分别对今年大模型战局或更长时间的AGI演进，影响多大？

李广密：1、GPT-4.5和GPT-5比预期来得慢，之前以为Claude 3发布后OpenAI就发新模型了，你看SOTA（State-of-the-art）模型位置易主一个月，我预感AGI战线会被拉长拉宽。

2、Sora比预期来得早，这意味今年多模态理解和生成进步幅度会很大，会解锁很多新东西，但多模态能否带来智能和AGI是很强非共识。

3、马斯克xAI加入开源，开源模型水位线会被拉升很多。xAI人才密度强，GPU也充足，决定后面很多模型公司生死线。

4、英伟达股价去年这时候觉得会涨，但没想到能涨3倍。大家都知道AGI很大，但还是低估了浪的大小。英伟达GPU是实现这轮AGI最关键的吧。短期看，老黄（黄仁勋，英伟达公司创始人兼CEO）可能比Sam Altman（OpenAI联合创始人兼CEO）重要。

腾讯新闻《潜望》：同时加入开源战局的有Google，你对Google开源的看法是什么？

李广密：Google发的还是小模型，我感觉它不会把最强模型发出来。开源主力是xAI和LLaMa。我比较担心，开源模型会打掉很多闭源模型的商业价值——比如你把GPT-3.5水平的模型开源了，大家就不一定再调用OpenAI的API接口；反之没有开源模型，大家只能选择最强模型的API。

但最强闭源模型的优化能力很强——最强模型能力最强，成本最低，我相信这个状态。后面还有“复杂推理”，要完成有经济价值的任务。如果多步推理准确性差，是完不成任务的。但现在很多简单任务，开源模型可以完成。

开源模型有开源模型的好处，很多人拿它自己用更好用，会覆盖很多企业内需求场景。

我不确定马斯克xAI会不会持续开源，如果它开源，开源模型水位很高。

腾讯新闻《潜望》：马斯克的开源模型，为今年大模型争夺赛带来了很大变量。

李广密：xAI是全球范围争夺新一梯队大模型的唯一黑马。如果它持续开源，对模型的格局生态和商业价值影响很大。

腾讯新闻《潜望》：你说“多模态能否带来智能和AGI是很强的非共识”，对于这点你怎么看？

李广密：多模态有几层作用：一是文本数据不够用，可以补充文本数据；二对用户体验有很大影响，理解能力变强；三是生成视频的效果今年也会大幅提升。但多模态的数据对模型推理能力有没有大幅提升？今天没验证。Sora到底是不是AGI主线？今天见仁见智，很难定义清楚。

腾讯新闻《潜望》：相比去年，今年翻过年的这个季度，有没有什么让你感到明显不同？

李广密：去年初觉得AGI是百米冲刺，大家没做好准备。今年觉得AGI是马拉松，大家有充足时间做好准备。

去年觉得可以无限加GPU，加数据，就能到AGI，但突然发现GPU数据中心和物理硬件是瓶颈。比如单体数据中心能放的GPU数量有限，3.2万卡再往上就要突破很多。另外美国的能源基建都是四五十年前规划的，能源结构和中国工业结构不同，突然多出来很多新增用电确实有点跟不上——今年最大感受是，物理硬件成了阻碍AGI时间表的最大因素了。

腾讯新闻《潜望》：2024年，全球大模型场上的梯队有哪些新变化？

李广密：OpenAI、Anthropic、Gemini是非常确定的第一梯队。xAI、欧洲Mistral、LLaMa是比较确定的第二梯队。xAI是硅谷最大而且可能唯一的黑马，期待夏天or年底前能不能做出GPT-4水平模型，冲到第一梯队。

Inflection已掉队出局，Character.AI、Cohere今年挑战很大，有可能年内就要找买家。训练GPT-4水平的模型很难，很多人还没真正规划训练GPT-4水平模型。

腾讯新闻《潜望》：Inflection提供了一个怎样的失败案例？——有人说它是第一个失败的VC重注的大模型公司。

李广密：没想到模型收敛如此之快，计算竞争是很残酷的。

大模型VC是投不动的，还是巨头的游戏。Inflection没有绑定一个更深的巨头。另外，要看人才密度，前三家公司加上马斯克的xAI明显高一截。

腾讯新闻《潜望》：能不能聊聊对今年GTC的感受？怎么评价老黄这个人？

李广密：硅谷最靓的仔从马斯克切换到老黄了，很多马斯克的粉丝变成老黄的粉丝，投资者股票资金也从Tesla转到英伟达。

老黄直接驱动了这波AGI浪潮，贡献不输OpenAI。之前听到一个说法是“算法等了算力30年”，非常形象。我希望AGI不要因为算力不够而停下。你看过去几十年，半导体应该算得上人类最伟大发明，计算还会驱动未来几十年。未来几十年人类都要给老黄缴算力税——这就像过去十年所有人给苹果交入口税。

老黄“销售能力超强”。以前 GPU卖给科技公司，现在又提“主权AI”，要把GPU卖给政府，吃国防预算，市场规模又大一步。你看美国军费每年8800亿美金，如果拿2-3%买GPU，是很大的量。你说GPU是不是很重要的战略储备物资？是极其重要的。

另外，老黄有一个习惯，叫T5T——内部每双周、每个大组内会发出最重要的五件事。

老黄好像不鼓励996，鼓励员工在办公室吃早饭和午饭，但鼓励大家晚饭回家陪家人。

AGI大基建与马拉松：2024 Q1全球大模型的前沿手记

谈AGI登山图：

南坡是模型，北坡是产品

腾讯新闻《潜望》：接下来我们来谈谈AGI。首先定义一下AGI，对AGI的定义现在是共识吗？

李广密：对AGI的理解还没共识，有几个角度：

1、最激进情况，AGI能在90%行业、超过90%专家、完成90%有经济价值的工作——这三个90%很激进。Sam提过，不该从替代人的视角思考，而是工作任务中多少需要5秒就能完成，这些会被模型取代。

2、AGI什么最重要？智能能力本身最重要。今天讨论什么形态可能不重要，什么载体也不重要，最重要的是智能能力本身，但肯定会从数字世界走向物理世界。物理机器人和设备，怎么把智能能力产品化，是创业者的机会。

3、AGI不是一蹴而就，不太像是憋几年大招在某年实现AGI就把所有秒杀——关键词是“渐进式解锁”——如果画一条登山路线图，模型能力每年涨一些，就会解锁一些场景，诞生一些应用，创造相应经济价值。

听到最强叙事是，AGI可以在未来15-20年帮全球GDP翻倍，从100T（trillion，万亿美元）涨到200T。但今天100T GDP和这波AGI直接相关的可能0.1%不到，离解锁90%很遥远。目前就体现在Coding写代码效率高，信息检索和复杂问题问答效率在提高，往后10-20年是从今天只解锁0.1%走到解锁90%的过程。

一定要理解“渐进式解锁”。我们一直在画一个路线图，未来AGI登顶过程分别有哪些东西？——眼前我最期待的是改变软件生产方式+信息检索的变革。

腾讯新闻《潜望》：先从近处看，眼前是改变软件生产方式+信息检索的变革，也就是说，它会颠覆SaaS行业和Google？

李广密：三年内有机会看到Coding领域的局部AGI，也就是任务做得不错的程序员，带来软件生产方式革命。人类大部分任务没有像软件开发那样有明确的目标和逻辑，软件生成变革会最快。

改变软件生产方式：过去软件像自动售卖机，有限SKU供给，有大量长尾非标需求没被满足。未来应该是酒吧调酒师，任何口味都可以调出来，长尾需求大。

未来的软件开发状态是，精准的甚至简单的自然语言描述需求，模型如果能用现有工具就调用工具解决，如果没有满足的工具，那模型编程，甚至生成复杂的代码，自己run code（运行代码）或debug（调试），会多出非常多软件程序。开发者数量可能不是今天的几千万，而是人人都是，门槛大幅降低。有可能微软+OpenAI会很激进，把很多工具feature型的SaaS干掉，只有积累复杂workflow和很不一样数据的能发展更好，如Salesforce、ServiceNow。

挑战Google：过去20多年，无数对手挑战Google都失败了，很大原因是没有fundamental技术变革，这一次LLM给了大家机会。另外，Google绝大多数是事实性搜索，如电商、旅游、YouTube网站，问答一直很难，是皇冠上的明珠，解决很难的问题后更能得到用户的信任，有更长期的用户留存和广告价值。

腾讯新闻《潜望》：在这种情况下，你建议SaaS公司如何转型？

李广密：只能拥抱年轻人。以前软件开发的方式跟现在软件开发的方式有fundamental（根本性）不同。以前是把固定需求抽象出来，一个开发团队去开发，今天是不确定的需求，未来要用好模型的能力。

腾讯新闻《潜望》：更长远看，AGI对于人类社会可预见的改变，在多长时间的维度中能有多大？这波浪潮中将诞生的巨头会比互联网时代更庞大吗？

李广密：AGI是科学问题，不完全是商业问题，背后是永无止境research发现精神，探索全新的一些能力，即“能源+芯片=产出智能”。未来就看智能产出效率能有多高，你看智能怎么定价？

科技进步是创造增量经济价值贡献最大的要素，每波技术变革都能让头部公司大一个数量级。之前做VC觉得投到独角兽就很牛，今天融资单位都是billion级别，钱也毛了。

我有一个切身体会：2010年你看着2000多亿美元的苹果，不会想象地球上能有1万亿美金市值的公司。2016年我们看着英伟达从200多亿美金涨到千亿美金，更不会想到能涨到今天这么大。还是回到今天最大非共识：不知道AGI有多大。

最简单叙事，AGI是以全球GDP为计量单位，未来你能渗透到GDP take rate百分比，如果你增加100T，AI拿走10%，就是10T，或者多出3亿白领乘以3.3万年薪，也是10T，这还是收入，市值乘以10倍吧。计量单位发生了很大变化。

腾讯新闻《潜望》：很有意思，今天融资单位变成了billion级，这在中美的商业史上出现过类似情形吗？

李广密：为什么把AGI比作大基建？中国做了很多，如公路建设、电信5G建设、城市化建设，有了这些才有短视频、直播、外卖爆发，这是远超billion甚至trillion级的基建投入。甚至电商、物流建设也都是巨大投入。今天AI投算力、投新型数据中心，就是处在基础大基建状态，这是一直在发生的。

你再看美国比较早的有曼哈顿计划造出原子弹，更重要的是计算机体系在那诞生，再后来美国登月。美国登月一个重要意义在于电子产品微型化，才有了个人电脑。93年克林顿推出美国信息高速公路建设，投了GDP的5%，才有了后面的互联网bubble（泡沫）也好，美国互联网黄金的20年也好，都跟基建有关——如果没有基建，没法谈应用大爆发。

腾讯新闻《潜望》：构建一下你眼中关键的AGI登山路线图？

李广密：两面——南坡是模型，北坡是产品。

模型最底层逻辑是Scaling Law（规模定律），更多数据，更多GPU，更多能源，就看产出智能的效率能否持续提高。

模型最关键的能力是Reasoning推理能力，后面要有复杂推理能力，才能完成有经济价值的任务。Coding代码能力很重要，可能是AGI落地最早信号，既是一个走向AGI的能力，也可能是核心产品，改变软件生产方式。

多模态能力也很关键，不仅补充text data不够用，更重要的是输入输出交互效率更高，今年多模态进步会很大，对自动驾驶和机器人有提速作用。

Agent（智能体）也是关键词，但今天Agent还不太work，模型Reasoning推理能力不够强，准确度不够高，多步推理下做任务很多是失败的。模型公司可能就是Agent公司。很多Agent，大模型本身就会自己做，只是能不能做好的问题。接下来模型公司一个大的附加值可能会体现在Agent，因为第一波叙事大家都讲了Scaling Law，后面大家可能就会讲Agent。

这是南坡模型能力相关，你说北坡，产品上——就看接下来谁能做出上亿活跃用户的Killer App（杀手级应用）。今天只有ChatGPT，我期待信息检索有大变化，因为搜索之前搜出来是链接和网页，现在搜出来是答案。未来还有多模态的搜索，甚至更多主动式交互，模型直接推你潜在想要的。

从ChatGPT用户增长角度，它过去5000万DAU横盘几个月，如果它积极做用户增长，一定要做搜索才能突破几亿活跃用户，这是挑战Google过去20年可能唯一的技术窗口。今年比较期待看ChatGPT能不能做好这个。

另一个我最期待的，如果你让模型看一万次苹果掉下来，它能不能发现万有引力定律？如果更充足、更广泛的数据灌进去，能不能发现人类没发现的问题和规律？这又是一个新的文艺复兴。

腾讯新闻《潜望》：模型和产品，这两个都要一家公司来做吗？有可能一家公司爬南坡，一家公司爬北坡？

李广密：你看Sam最新访谈说OpenAI在做地球上最难的两个事，一是AGI，一是Killer App。Anthropic专注只做AGI，没挑战另一个。不一定非得在一个公司，在一个公司对组织能力，对文化、人才和资源，挑战很大，需要极强的领导力、资源和组织能力。

腾讯新闻《潜望》：模型和产品需要的人才画像不一样，怎么把他们组织在一起？

李广密：画像很不一样。如果一个产品在解决某项任务的时候能力不行，没法向下改模型。如果一个模型公司发现某类任务解决不好，可以定向改数据、调模型。这是简单题和难题的问题。我相信模型公司做产品更容易，是顺手。产品公司想改模型，没有这方面人，你又改不了模型，是较难的。

我有一个判断，有可能模型公司是价值沉淀最厚一个地方。就像移动互联网，价值沉淀到了设备厂商或广告平台，模型的附加价值后面是比较高的。

一个是老黄收GPU税，一个是模型公司收智能税，突然给经济社会又加了两道税。

腾讯新闻《潜望》：所谓我的模型能力最强，我就可以顺理成章解锁最伟大应用，这个逻辑通吗？现在有两种做法——一种是，我要通往AGI，我在路上去解锁应用；另一种是，我也做AGI，但同时我孵化特别多应用，做App工厂。这两种你更看好哪一种？

李广密：你就看SpaceX，它的火箭发射能力是基础能力，但这个能力并不太赚钱，可能每年几十亿美金收入，但是它的一个Killer App是Starlink星链，现在几百万部署终端了，每个终端还收挺多钱。

如果没有火箭发射这个关键能力，Starlink发不上去，没法组网。有可能它还有第二个Killer App，就是Starship，想颠覆波音、空客，未来上海到纽约两小时。之后可能还有更多Killer App。

但也有另一个说法，如果大模型是电，灯泡可能不一定是电厂做出来，所以在变化中。

我更倾向大模型公司是基础发现的research lab（研究实验室），有的lab可能有商业能力，会做出头部应用，但比较考验组织能力。有可能中国创业者在这方面更强。

腾讯新闻《潜望》：ChatGPT和Sora分别属于AGI登山图上的什么路标？

李广密：ChatGPT成功有偶然运气成分，让AGI概念进入千家万户，科普和募集资源的帮助更大，是里程碑。Sora和AGI、智能有啥直接关系还是非共识，只能说明OpenAI战线铺得更宽，而不是高度聚焦AGI。

腾讯新闻《潜望》：复刻Sora难吗？模型规模有大？需要多少算力、数据？数据来源是什么？

李广密：OpenAI没有公开Sora数据，但根据技术报告和里面提到的架构可以做估算。训练环节对算力需求是LLM的好几倍，我们估计大约需要在4200到10500张H100上训练1个月，这只是最后训练，不算前期实验探索。

推理的算力消耗要比训练更大，如果生成TikTok一天上传视频的量，推理成本就增加到了训练成本等同。这两个成本都很高。

另外数据，估计要收集几千万到上亿个小时的视频数据，还得打标签。OpenAI可以用GPT-4V打标签，一般团队不好弄。到底什么数据我们不知道，只能猜，你看Sora效果和游戏场景很接近，估计是用一些游戏数据。

OpenAI CTO Mira说得把推理成本降到和生成图片差不多的水平，才会考虑公开release Sora。

腾讯新闻《潜望》：创业公司应该跟进Sora吗？

李广密：很凶险。融资能力极强的公司可以试试，除非能融到几亿美金？

需要的数据难度介于LLM和机器人之间，获取数据的难度很大，卡和数据成本都很高。但最后产出结果还有争议性，视频生成还不一定代表智能。即便做了一个模型，如果不是业界最领先，别人也不一定用。

创业公司还不如想想下一步，怎么定义Sora产品形态和新的AI内容消费形态。

AGI大基建与马拉松：2024 Q1全球大模型的前沿手记

谈大基建：

电+芯片=产出智能

腾讯新闻《潜望》：我们把当下比作“AGI大基建时期”，目前AGI大基建最大瓶颈在哪？这些瓶颈是只要有时间就可以解决的吗？

李广密：目前瓶颈是算力和数据中心建设，今天给你几万张H100，你三个月内不一定能用起来万张卡集群。万卡集群互联通信难度很大，稳定性要求很高。GPU数据中心能耗更高，对降温要求更高，很多人都在提液冷。

比特驱动的数字世界迭代很快，但原子驱动的物理世界迭代跟不上，这需要物理机器很长周期的基建迭代跟进。历史上软件和硬件进步是交替的，硅谷头30年是计算时代，后来20年是网络数字化时代，今天又进入了计算时代。

但好在这些物理问题都不是research问题，是工程基建投入问题，随着时间可解决。短期瓶颈还是GPU产能，包括台积电产能，CoWos（晶圆基板上芯片）和HBM（一款新型的CPU/GPU内存芯片）这些。

腾讯新闻《潜望》：拆开说，训练一个GPT-3.5或GPT-4水平的模型，需要消耗多大算力和多少能源？

李广密：三峡单日最大发电量和上海日均用电量差不多，都在5亿度左右，美国整个Texas德州是10亿度多一些。

假设GPT-3.5使用500张H100训练15天，大概需要25万度电，也就是三峡产电量或上海的用电量一天的0.05%左右，德州的0.02%。

假设GPT-4使用8000张H100训练100天，大概需要2600万度电，需要三峡或上海一天的5%左右，德州的2%。

假设GPT-5使用3.2万张H100训练100天，大概需要1.1亿度电，需要三峡或上海一天的20%左右，德州的8-10%。

你要算成本的话，每张H100租用最低3-4美元/小时，大客户能再便宜点。

腾讯新闻《潜望》：训练到GPT-4水平，需要多少钱？

李广密：一个GPT-4现在最低也要8000张H100有效算力，接近一个万卡集群。你要是买卡，每张H100售价3万美金，再加上周边设备，3亿美金是少不了的。

当然你也可以租。如果是租H100 ，一年如果折扣比较好，1万多美金一张卡，就是差不多1亿到2亿美元。

但今天的万卡集群中国比较少，万卡集群很难，每个卡都要连起来。网络拓扑结构很复杂，不是说一层网络，是三层网络。

腾讯新闻《潜望》：算力从千卡集群到万卡集群再到现在的三万卡集群中心，造价成本是多少？难度有多大？

李广密：每张H100售价3万美金，加上周边设备差不多4万美金，8000卡就意味3亿多美金，3.2万卡集群意味12-13亿美金。明年可能标配是10万张卡，就是差不多40-50亿美金。

最难的还是资源越来越集中收敛，能建大集群的客户很少，会收敛到极少的4-5家客户——微软，Meta，AWS；微软包含OpenAl；Google有自己的TPU，它可以很大集群；xAI可能也是一个。

影响难度的因素是，要找到适合数据中心的土地，稳定且便宜的电，之后是数据中心的互联通信、降温冷却、运维稳定可靠。还是回到那个问题，物理世界比数字世界改造要慢。

腾讯新闻《潜望》：大基建现在有哪些公司在投资？进展如何？

李广密：就看英伟达GPU出货量+TPU出货量，或者计算台积电产能。Meta和微软应该买走超过1/3 GPU的数量。

美股AI相关最大的几个生意：第一波最受益的是芯片，芯片里最受益的是英伟达和台积电；第二波是广告平台Meta和Google（广告匹配效率提升）；第三波云厂商，微软、AWS，因为芯片和模型都要跑在云厂商上，企业客户继续上云需求很强，云厂商未来每年很长时间保持年化15%复合增长都有可能；最后是两个终端Apple和Tesla——这些都是大基建最重要的几个关键玩家。

腾讯新闻《潜望》：OpenAI在基建上，截至目前投入有多大？

李广密：不知道具体，你就看微软累计投入给OpenAI 130亿美元，这个累计够买30-40万张卡。你再计算英伟达GPU出货量，每年400万片GPU，大概多少比例给到OpenAI。如果5%就是每年新增20万片，每张卡3万美金，加上周边设备和未来电费，5万美金，那就是要一年100亿美元硬件投入。这样算OpenAI钱不够，还得做更大规模的融资，每年几个billion（十亿美金）投入。

如果按摊销每一年，那融资不用那么着急，如果一张H100每年起码1-1.5万美元租用费，最低折扣的话。

腾讯新闻《潜望》：这些大基建的成本有可能分摊出去吗？必须要是模型公司自己承担吗？比如政府。

李广密：有可能。未来有可能随着“主权AI”概念更深入，政府投资一家或多家模型公司是有可能的，而且大比例投资。你看欧洲有Mistral，我不知道欧洲是不是独立或半独立市场，如果欧洲的资源怼到Mistral，有可能它就得拿政府的钱了。

腾讯新闻《潜望》：你预计AGI基建的时间表是怎样的？达到什么程度意味着大基建完成？

李广密：时间表拉长了，主要是去年太兴奋觉得2-3年内实现AGI。现在预期更长，所以叫马拉松，至少3-5年或5-10年。得动态看，也看每个人对AGI的定义不一样。

去年预期是23年底就能看到GPT-5，能力可以超过一半同事，预期太高。去年这时候OpenAI先后发布了ChatGPT、GPT-3.5、GPT-4，大家觉得节奏快，这些模型都是之前OpenAI多年积累，提前训练好的，只是去年同时发出来。但过去一年没有出现大幅超越GPT-4的模型。

训练很大的模型是很难的，不仅是数字世界问题，很多是物理硬件问题——比如实际H100规模化到货都是23年Q4，数据中心建设也都要3-6个月，还要把利用率提上去。

人的预期可以飞上天，比特驱动的数字世界可以迭代很快，但原子主导的物理世界跟不上——就像你有意志力和体力跑马拉松，膝盖一个小环节出问题就跑不下去。膝盖问题可能不只是膝盖问题，是肌肉问题，而肌肉问题可能是训练方式问题。

大基建看不到结束那天。过去几十年半导体是最伟大发明，摩尔定律还在以新方式继续。

腾讯新闻《潜望》：大基建周期之中，预期全球投入花多少钱？泡沫有多大？

李广密：2024年GPU大概400万片产能，2025年600多万片GPU，未来每年复合增速不低于30%。三四年后，AI GPU应该是3000-4000亿美元产业规模，这里还不包括TPU和其他未来的ASIC芯片。

AGI刚开始，长期看不算泡沫，把钱交给最厉害的科学家探索发现，有时一个新发现是能带来很大经济价值甚至社会价值的突破。

计算迭代停不下来，比如单颗芯片现在的摩尔定律还在提，依然没停下来，但进步速度变慢了。现在老黄又在提整个数据中心的摩尔定律，它通过互联，把整个数据中心变成一个大芯片，用这种方式继续。还有一种，未来还可以跨数据中心，能不能效率更高？这是停不下来了。如果你非要说一个时间，10-20年是一个大基建周期。

腾讯新闻《潜望》：中国AGI大基建和美国AGI大基建，两边叙事差异是什么？

李广密：美国历史上有大航海精神发现，包括开垦美洲大陆、曼哈顿计划造原子弹、登月、90年代克林顿网络都属于大基建，是面对不确定性的乐观、勇于冒险精神。美国资本和退出都很富足，富得早，有足够多的资本来做fundamental从0到1的试错发现。历史上很多从0到1的东西是美国搞出来，不管硅谷的芯片、计算机、互联网，波士顿的制药，他们文化里有重投入的传统，相信科学。

不过硅谷VC很不争气，近乎全线miss大模型投资，他们好像对大模型的理解也很浅，全是巨头支持。中国VC更争气有出息吧，还支持了几家大模型公司从0到1发展起来。

从Power Law（幂次定律）角度，硅谷主流的VC文化也不喜欢大模型这种“基建”型公司，SpaceX、Tesla几乎没啥硅谷VC参与。甚至在 LLM/AGI之前，机器人也属于很边缘的赛道，而现在是硅谷最火的赛道。硅谷VC喜欢花小钱办大事，这次不一样了。可能整个硅谷VC要交学费，价值沉淀大头会在基础大模型。

中国是解决问题的能力很强，提出新问题少，0-1很少，1-100很强。今天中国还在追GPT-4叙事，以及追谁是第一名。目前中国大模型的技术辨识度不高，差异不大，大家过了3.5水平，但3.5到4的跨度是不小的。

腾讯新闻《潜望》：美国VC喜欢花小钱办大事，这不就是VC的本质吗？以小博大。

李广密：VC最应该是小钱办大事，但也有需要大钱的时候。

腾讯新闻《潜望》：怎么看这次中国VC更争气这件事，他们为什么愿意大手笔支持大基建？

李广密：因为美国有对标（笑）——中国VC都还是喜欢投有对标的东西，我们擅长解题。

腾讯新闻《潜望》：为什么马斯克提能源问题？能源转化效率可量化吗？

李广密：AGI本质是：电+芯片=产出智能，主要是今天怎么对智能定价？就像开车一脚油从A走到B，可以计算单位里程能耗，今天对智能没办法定价。我也好奇未来怎么定价。现在都是20美元/月，未来能不能有value based定价机制。

腾讯新闻《潜望》：在技术上、基建投入上，模型公司如果想跨越生死线，有一个基本标准吗？

李广密：技术上：今年内超越GPT-4，背后是一支很优秀的团队，参考马斯克xAI。

二三线和国内模型公司：超越最好的开源模型，不然模型商业价值很小。

算力上：今年内万张卡集群，而且要能用起来，能做好的公司很少。你就看未来12个月能不能有10万张H100的集群，这大概是三五十亿美元，这是明年第一梯队模型的标配。

计算的竞争就是很残酷的，未来可能更残酷，每个时间阶段都会有模型公司持续的出局。

AGI大基建与马拉松：2024 Q1全球大模型的前沿手记

谈Scaling Law：

微软和OpenAI的关系也挺复杂的

腾讯新闻《潜望》：今天看，Scaling Law是加速增长，线性增长，还是放平缓了？

李广密：从细节来看：GPT-4公开的是1.8T参数，MoE架构，大概13T训练数据，2.5万张A100训练100天。

外界都在猜测GPT下一代模型能scale up多少倍？我们就假设如果是3倍参数，3倍多数据，那就是9倍compute资源。你看老黄公布了3.2万张H100集群，加上一些优化效率提升，是差不多match的。你要说10倍参数提升和10倍数据提升，那就是100倍compute资源提升，很明显GPU算力集群不够用，这里受限是物理机器瓶颈。

今天增加数据可能比增加参数的ROI要高，好像高质量数据永远不嫌多。之前都说文本数据用差不多了，通过改写和合成能再扩大小几倍。今天真让你拿来10倍100T高质量数据好像有点难。可能没有人能拿出来。

另外，怎么把多模态数据和文本数据一起训练也挺难，是research问题，因为很容易伤害原来的模型。

现在对Scaling Law一个判断是，训练GPT-5数据够用，但GPT-6可能需要一些突破。未来1-2年Scaling Law没问题。如果非说一个结论——Scaling Law 起码没减速；如果说变慢了，那就是算力和数据没怼够。GPT-3.5走到GPT-4大概多了20-30倍算力，GPT-4走向下一代还没怼够20-30倍有效算力。只要有有效算力和更多数据，一定有新东西出现。

这会影响到整个算力市场，围绕芯片、数据中心、互联。接下来两年除了research问题，OpenAI、微软以及其他所有竞争对手，有50%甚至更多精力都会花在如何解决算力和互联的问题。

这不光是一场research lab关于research的竞争，而是一场巨头博弈，research lab 和巨头互相leverage（影响、杠杆），对人才、用户、算力、policy、舆论、股价等资源多方争夺，互相角力的竞争——你看微软今年的动作，又投资Mistral，又投资Inflection，又自己招人在训大模型——它和OpenAI关系也挺复杂的。

腾讯新闻《潜望》：评价一下微软这一系列动作。

李广密：站住最稳的位置。

腾讯新闻《潜望》：Scaling Law走下去会遇到哪些瓶颈？能走多远？

李广密：就看两个关键要素：第一，Data；第二，GPU。

电力不是research问题，是通过投入能解决的。反正Scaling Law这个问题的结论是受限物理计算瓶颈，所以Sam提出筹集7万亿美金和造芯片是有道理的。

另外，效率很重要，一个是compute efficiency，一个是data efficiency。这里有趣的就是衡量大家的效率，同样训练一个GPT-3.5能力水平的模型，需要多少张GPU？多少训练数据？这个训练效率可能是数量级差别——有人几千张，有人几百张就够，range很大。最后，AGI本质还是拼的用“能源+芯片”产出智能的效率。

最后从架构上，Agent能不能最终完成有经济价值的复杂任务，next token到底能不能解决长期规划的问题，这是接下来值得关注的。如果不能，scaling下去意义不大。

腾讯新闻《潜望》：模型会无限变大吗？

李广密：我觉得会无限变大，参数大10倍甚至100倍，数据大10倍、100倍甚至1000倍。

训练大模型是为了探索能力边界，是科学发现问题，但大家都会训练更小的模型满足商用，成本很低。GPT-3.5也验证了这件事，我可以用训练SOTA大模型百分之一到十分之一的资源训练一个更efficient模型，能力上也能覆盖60-70% query（查询），不见得明显比SOTA差太多，但成本低一到两个数量级。今天从头训练一个GPT-3.5水平模型应该不用太多卡。

科普一个基本公式：训练量多大=参数量x训练token量x6

number of parameters x tokens to train x 6 =number of GPU x FLOPS per GPU per second x Time x utilization

举例，GPT-4：1.8 trillion 参数 x 13 trillion token x 6 = 25,000 GPU x 19.5 TFLOPs（19.5 万亿次） x 60s x 60mins x 24h x 100days x 利用率（利用率能到50%属于比较好的，最强的能到60%-70%）

腾讯新闻《潜望》：Scaling Law一定能通向AGI吗？

李广密：这是最大概率的一条路线，我们没找到除了这条路以外的其他路径。在没有证伪之前要怼更多资源去验证。

腾讯新闻《潜望》：你认可朱啸虎的观点吗？他说，AGI 5到10年内是看不见的——“可控核聚变实现前，我不太相信地球有足够的算力能够实现真正的AGI。帮人类降低90%的工作可能未来3到5年可以实现，但最后10%需要天量的算力和能耗，这也是为什么Sam Altman想融天量的资金！”

李广密：大部分观点是认可的，VC喜欢小钱办大事。回头看微软第一台计算机做出来的时候，盖茨也很难相信内存能从那时候的多少K到现在的多少GB。我们还是相信摩尔定律，以及模型的计算效率会提升，推理效率也会大幅提升，同时硬件的memory（存储）、模型本身的context window（上下文窗口）也能提升很多。这些都提升上去后，人真的可以把自己所有的历史都当成context去运行。即使在这个过程中模型也还是会解锁很多新技能。

朱啸虎提到帮人类降低90%工作，这个经济价值挺高，3-5年如果实现，这个观点很乐观了。

我同意能量量级需要升级的观点，很多数据中心建在核电站旁边，AWS最近收购了一个美国最大核电站旁边的数据中心。

我对AGI理解的关键词是“渐进式解锁”，不是一蹴而就。今天Tesla FSD（高级自动驾驶辅助系统）的安全性已经超过平均司机了，计算机视觉识别人脸和做广告商品识别推荐效率也比人高。我对5-10年内看见AGI充满信心，相信科学会有突破，相信这批全球最聪明厉害的科学家，这和曼哈顿计划、登月计划、克林顿网络大基建很像。

腾讯新闻《潜望》：朱啸虎还有一个观点是，GPT-5以后大模型的技术曲线基本会放缓下来。

李广密：技术发展不是线性的，可能平台期2年，再跳变跃升一次，有一个更大主声浪。几十万张卡训练AGI，可能比登月对人类的经济价值更大。我认为，模型作为新的平台，确定性已经很高了。

AGI大基建与马拉松：2024 Q1全球大模型的前沿手记

预测OpenAI：

挑软柿子嘛，就打Google

腾讯新闻《潜望》：你说最近几个月对OpenAI有了新认知，能不能展开讲讲？

李广密：我一开始觉得AGI公司不应该太激进做产品，OpenAI现在也很激进地做产品。你一边做科学发现，一边做商业化，要把这些发现的价值接住。这意味OpenAI会和一部分创业公司抢市场，当然肯定也有很多垂直行业它做不了。

如果我是Sam，AGI如果10年，每年都需要几个billion甚至10个billion投入，我需要商业化，需要有持续健康的现金流支持AGI。纯靠融资是很难融到那么多钱，你也不能只依赖微软——健康地走向AGI很关键。

腾讯新闻《潜望》：在你看来，有什么是OpenAI这家公司会做的，什么是他们不会做的？

李广密：他们AGI和超级应用都想做。To B企业客户对OpenAI难一些，企业客户是信任生意。微软在企业客户信任太深，To B大部分价值会被微软吃掉。OpenAI就做到模型领先和To C产品能有流量入口。

OpenAI垂直领域不一定会做，否则战线太宽，但是垂直领域的数据它可能会持续加上去，要把一些use case给做得更好，让创业公司用它的模型服务最后一公里的客户。法律/教育/金融估计不一定。机器人不好说，它以前做过，觉得太慢，过去一年投了3家机器人公司，今天在扶持。如果机会到了，它有可能自己做机器人，因为机器人从数字世界走向物理世界，是AGI比较关键的。

如果是我，我会先把ChatGPT从5000万DAU做到3个亿，有可能这会对Google产生fundamental影响。你看ChatGPT现在不到1000万付费用户，如果我做到3000万付费用户，是每年60亿美金订阅收入，那就可以健康支撑AGI每年的投入。

就拿mega7放在竞争视角对比，OpenAI很难和微软竞争To B企业市场，短期也很难和英伟达竞争芯片市场，更难和Apple竞争消费终端市场，大概率Google是个软柿子，可以去抢信息检索的市场，这比较make sense。

（接下来OpenAI）会做更强模型，ChatGPT活跃用户规模考虑怎么再翻个三五倍甚至更多？挑软柿子嘛，就打Google——Google的市场太肥了。

腾讯新闻《潜望》：OpenAI凭什么估值1000亿美元？

李广密：你把它看成微软的AI部门，微软因此涨了1T到1.5T。你看Tesla AI都值2000-3000亿美元。

腾讯新闻《潜望》：怎么看Sam 提出的7万亿美金芯片计划？中东在全球大模型战局扮演什么角色？

李广密：微软和OpenAI应该做ASIC芯片，或者起码具备这个能力。如果AGI是长跑，今天应该做准备。会不会有一个新的芯片联盟出现？主要是英伟达卖太贵了。肯定不会有7万亿美金这么多钱，但需要不少钱，中东是潜在最大出资方。

腾讯新闻《潜望》：你对GPT-5的预测是什么？

李广密：夏天or下半年推出？也是猜测。看能不能涌现新能力？能不能解决复杂任务？Agent能不能落地？

腾讯新闻《潜望》：现在2024年刚刚过完一个季度，你对接下来三个季度的AGI演进有哪些预测？

李广密：有很多期待。

1.GPT下一代 SOTA模型scale up幅度多大，是观测Scaling Law work的最重要指标。以及，下一代模型能涌现哪些新能力？

2.OpenAI这家公司能不能做好产品？如果他们做信息检索，会不会对Google产生fundamental影响？

3.多模态进一步怎么样？可能对自动驾驶和机器人影响最大的。

4.如果今年是收敛之年，年底收敛到几家模型？

5.会不会有GPT-4水平的开源模型出来？

6.单一模态的创业公司会怎样？单模态公司如果只做模型是很危险的，但如果把产品链做得很好好像也有壁垒。

AGI大基建与马拉松：2024 Q1全球大模型的前沿手记

推演进一步结盟：

期待Apple、英伟达、Meta如何做选择

腾讯新闻《潜望》：现在美国大模型赛场上是集团军作战，接下来会有更多结盟吗？

李广密：微软和OpenAI联盟目前是稳定的；AWS和Anthropic继续互相更深入绑定，AWS销售已经全线卖Claude 3了；Google自成一体；马斯克xAI长期不排除并入Tesla或Twitter的可能性；欧洲Mistral必须有个大腿支持，他们之前效率很高，2k H100做到现在水平，未来1年至少需要10-30亿美金融资，万张卡集群，不然后面也会掉队。

比较期待Apple、英伟达、Meta如何做选择。

OpenAI买一家芯片公司，形成新的芯片联盟？

Apple发了一些小模型，但Apple短期追上GPT-4水平比较难。但手机还是最重要的入口和习惯，Apple的位置长期是比较稳的。Apple训练很大的模型，今天看追不上OpenAI，但他们肯定是云和端结合，调用多个模型也不是没可能。

腾讯新闻《潜望》：你怎么看他们放弃了造车？

李广密：美国制造业不太行，也没等到自动驾驶来。

很多人都在提AI PC、AI手机。但真的把一个大模型变成小模型装到端上，很难，因为现在1B模型做不了太多，但手机跑1B模型能耗要求比较高，这又回到那个物理问题，物理迭代比较慢。如果你手机放一个比较大的模型，内存也要很大，电池也要很大，这个手机迭代比较慢。包括Tesla FSD在端上，因为它要latency（延迟）要求很高，也不能太大。

腾讯新闻《潜望》：英伟达会绑定模型公司吗？

李广密：有很大可能。如果我是英伟达，我不希望OpenAI一家独大，多扶持三五家可以更多卖卡。如果OpenAI一家独大，英伟达PE又得下来一截。

腾讯新闻《潜望》：怎么看这几个月中国大模型公司和巨头的结盟动态？（阿里有大动作，投了所有中国大模型创业公司。）

李广密：云可能是比芯片和模型大个3-5倍的生意，最后更多生产流程继续上云，但这里价值链分配比例会发生变化，所以阿里云必须要投入。期待阿里新CEO吴妈（吴泳铭）能成为微软CEO Satya一样的人，让阿里大象起舞。

腾讯新闻《潜望》：为什么阿里是同时分散投到多家而不是全部重注到一家模型公司？

李广密：（国内模型公司）技术辨识度不够高。另外我的投资可以绑定算力消耗，最后钱都还是要回来的。如果我投出去一块钱，训练又花一块钱，我的收入又多了一块钱，那我的市值可能又是10块钱。

AGI大基建与马拉松：2024 Q1全球大模型的前沿手记

谈 Sam、黄仁勋和马斯克：

我一直没搞懂Sam怎么有那么多钱？

他也没大的退出啊…

腾讯新闻《潜望》：最后，我们聊几个硅谷的重要人物吧，你怎么评价Sam Altman？

李广密：Sam有很多争议，但在OpenAI成名前，他坚持做这家公司七年，在很多人都不相信LLM能成的情况下，这点非常值得尊敬。相比起来，马斯克是中间放弃，现在回过头来觉得这个东西好。

OpenAI在同时做地球上两件最难的事：AGI + Killer App，两种culture平衡很难。Sam有勇气去探索一些别人没有探索过的东西，比如复杂的公司架构，比如敢于提出硅谷需要一些投入资金和时间成本巨大的项目。也确实在这上面吃了亏。

Sam在采访里让人印象比较深的一个点是，他对GPT-4的形容是sucks（很糟糕），他表现出对产品和模型的要求很高，认为GPT-4离想要达到的目标还非常远，明年看GPT-4就是小模型或者很笨，不应该觉得现在的产品已经amazing了。我比较认可Sam的一句话，科技进步创造经济价值增长，所以要提高科学发现的速度。

Sam个人好像投资很多，感觉得有几个billion，我一直没搞懂他怎么有那么多钱？他之前也没大的退出啊……

腾讯新闻《潜望》：怎么看马斯克和OpenAI之间的官司？

李广密：xAI打不过OpenAI？OpenAI变成了最靓的仔，散户的钱在从Tesla流出，马斯克得维护最靓的仔的形象，Tesla才有高PE估值。

马斯克肯定也不爽吧，毕竟这个idea是他发起的，结果今天和自己无关，没捞到什么好处。不过OpenAI后来变成一个商业盈利组织，和之前非盈利的初心是有些冲突的，但纯粹的非盈利组织很难获取太多资源训练大的模型，Sam找到微软合作也没毛病。

腾讯新闻《潜望》：怎么看Sam和黄仁勋在硅谷的地位，谁更高？

李广密：短期还是老黄地位高，英伟达是人类基石公司，没有老黄不行，没有Sam AGI也许也可以实现。但长期来说OpenAI价值也许更大，Sam成为智能的新教主，前提是芯片不受限英伟达。未来商业社会多两层收税的公司，英伟达收芯片算力税，OpenAI收模型智能税。

腾讯新闻《潜望》：AGI时代，现在美国VC都在投什么？他们今年更激进还是更保守了？

李广密：硅谷投资的主题已经变成Coding、Agent和机器人三大件。不过这三大件我有很大怀疑，Coding一定是大模型公司和微软的核心射程内，核心能力都来自模型公司，不确定上层优化价值有多大。

基础模型公司都会很激进做Agent，因为这个附加值高，模型即能力，模型即应用，模型即Agent，整个价值沉淀我觉得还是基础模型本身。

Cognition和Magic没有收入，就有 20 亿美元估值，说明了对Coding和Agent的hype（炒作）比较高。

机器人是几乎所有researcher目前创业的首选，因为容易讲故事和融资，觉得未来会有embodied OpenAI。机器人反正最近OpenAI投了几家，也许是好的timing，bet对一个很强的团队，核心是能持续融资和吸引最顶尖的人才。

投资节奏属于正常，但估值都很贵。AI好的确定性高的deal并不多，今天还是GPU和LLM基建最重要。

腾讯新闻《潜望》：为什么我们作为碳基智能，一直在追求硅基智能上这么热衷？

李广密：这个很有意思，最终AGI期待的一个结果是，不管是Agent还是其他形态，能够把所有的计算资源和能源都用得有意义，思考和解决人类没想过的问题。

碳基肉身有局限，吞吐量有限，记忆长度短，读不了DNA/RNA，人也不能规模化复制，碳基和硅基是很好的互补。

未来十年硅基的AGI和地缘博弈，这两个可能是交叉的。

原文始发于微信公众号（腾讯科技）：AGI大基建与马拉松：2024 Q1全球大模型的前沿手记

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。

上一篇：微信接入ChatGPT聊天机器人，竟然这么简单！

下一篇： Meta推出开源大模型Llama 3：4000亿参数性能直逼GPT-4

AGI大基建与马拉松：2024 Q1全球大模型的前沿手记

最新Ai信息

最新Ai工具

热门AI推荐