微软CTO：AI大模型的“Scaling Law”还能走多远？

　　来源：硬AI

　　AI时代，大语言模型（Large Language Model，LLM）横行。

　　早在2020年，OpenAI就曾在一篇论文中提出一个定律：Scaling law。这个定律指的是大模型的最终性能主要与计算量、模型参数量和训练数据量三者的大小相关，而与模型的具体结构（层数/深度/宽度）基本无关。

微软CTO：AI大模型的“Scaling Law”还能走多远？第1张

　　此后，OpenAI在AI界风生水起，很多初创公司甚至科技巨头都将这一定律奉为圭臬。

　　随着AI技术的不断发展，越来越多的人开始对Scaling law提出质疑，一种主流的反对观点是认为这种训练逻辑可能会推动大模型沦为数据的奴仆，而离“人”越来越远。

　　在此背景下，7月9日，红杉资本的Pat Grady和Bill Coughran与微软CTO（首席技术官）Kevin Scott开展了一场AI主题的对谈，就微软的AI战略、与OpenAI的合作进度、大模型未来的发展方向等方面进行了探讨。

　　观看了访谈视频，本文将Kevin Scott的精彩观点整理如下：

　　1、微软的AI策略是建立一个平台、一个系统，而不是替代性技术。

　　2、过去20年里，人工智能领域最重要的进步都与“规模”（尤其是数据规模、算力规模）有关，我们已经将投资重点放在了扩大规模上。

　　3、Scaling law定律仍适用于当前业态——在扩张大模型的同时，边际效益并没有递减。

　　4、微软看中OpenAI的潜力在于，随着模型的扩展，OpenAI未来有望成为构建一个平台的基础。

　　5、数据的质量比数据的数量更重要，它能为人工智能训练算法提供模版，为未来的合作提供一个经济框架。

　　6、获取有价值的训练数据进行训练，然后对模型进行推理，围绕着二者将出现两种形态的商业模式，我们正在尝试AI推荐与广告相结合的商业模式。

　　7、下一代大模型即将问世，比之前更便宜、更强大。

　　以下是访谈的精华内容：

主持人：Kevin Scott，微软的首席技术官。我们很高兴认识凯文已经几十年了，可以追溯到他在谷歌的时候，当时你和我们的合作伙伴比尔·考特有交集。比尔今天将和我们一起参加一期特别节目，我们希望你今天玩得开心。

Kevin Scott：很高兴来到这里。

主持人：首先，我知道你以前谈过这个，但对我们的听众来说，他们可能不熟悉你的故事——一个来自弗吉尼亚州农村的孩子如何成为微软的CTO？谁会想到呢？

Kevin Scott：我确实觉得这是一个不可复制的经历。当我回想起我的人生故事时，它只是发生在正确的时间、正确的地点。我现在52岁了，所以当PC革命开始全面爆发时，我正好是10到12岁，我当时就像当你还是个孩子时，试图弄清楚你在做什么，你的兴趣在哪里。

一般来说，一个客观的教训是：如果你碰巧感兴趣，并且非常有动力去学习更多，做更多的事情，同时又发展得非常快，你可能会在合理的地方结束。我对计算机很感兴趣，并且是我家的第一个大学生，所以我是第一个获得学士学位的人。我主修计算机科学，辅修英语文学。所以我会在某个时刻思考，当我试图决定我拿到本科学位后要去哪里做什么。

我一贫如洗，厌倦了一直被抓，所以我选择了务实的道路。我认为拥有一个英文文学博士学位很好，但我在两个学位中选择了计算机科学，有一段时间我以为会成为一名计算机科学教授，我决定去成为一名编译、优化和编程语言的人，通过多年的研究生学习，我几乎一直坚持到最后，我想，我不认为我想成为一名教授了。通过六个月的努力写一篇论文，让一些合成基准提高3%——我觉得这对我来说不像是在世界上产生很大影响的方式。而且，我不想一直重复这些工作。

所以我在2003年给谷歌投了简历，我收到了一个人的电子邮件：克雷格·内布尔·曼宁，他刚刚去纽约开设了谷歌的第一个远程工程师办公室。我经历了一个很棒的面试，我不知道这是有意为之还只是我运气好，但是好像每个在谷歌工作的编译人员都在我的面试名单上，这太神奇了。

这个面试带来的机会是我最终加入这个创业公司的广告团队，当时它还很初期，就在移动设备准备起飞的关键时刻。我帮助建立了这家公司移动广告的基础设施，然后回到了谷歌本部，此后我帮助领英上市，管理其工程运营团队，再然后我们被微软收购。

主持人：你在正确的地点，正确的时间和尝试，尽你所能了，你在真正成长的事物上做最有趣的事情。现在我们将焦点转向AI机器学习。

显然，你在微软做了很多工作，并参与了与OpenAI和其他公司的合作，你如何看待AI实践团队？

Kevin Scott：我认为如果你是要构建非常复杂的平台AI的话，比如用于训练和推理的大型分布式系统，需要网络、硅这类系统软件组件，我认为博士学位非常有帮助。你需要拥有大量的基础知识才能跳入问题并能够快速前进，或者说，你一定需要博士学位，但需要足够聪明，一般来说拥有博士学位的人很聪明。所以，我认为这是主要起到帮助作用的因素，因为你已经经历了一个相当严格的训练计划，在那里你将一堆先前的技术塞进你的脑子，可以处理一个非常复杂的项目，并且你有博士学位。

主持人：看起来有点像AI平台系统项目，然而，当你获得博士学位时，你通常会在你的特定事物上相对孤立地工作。所以，人们必须学习的一件事就是如何将自己融入一个团队，并能够与其他一些人有效地协作。你的建议很有帮助。不过除了构建平台之外，AI还有很多其他事情需要做。比如弄清楚如何将其应用于教育、如何将其应用于医疗保健、如何围绕此构建开发人员工具等等，

说到这里，微软似乎拥有最具影响力和雄心的AI战略。你能用几句话来说一下，微软的AI战略是什么吗？如果你要给自己打分，你在其中表现最好的工作是什么？哪些工作可能相对没那么好？

Kevin Scott：我们实际上一直在谈论这个话题。我认为，微软是一家平台公司，我们参与或帮助推动了一些大型平台计算浪潮，我们当之无愧的是PC革命中的支柱公司之一，我们在互联网革命中扮演了重要角色，尽管我认为那是一个遥远的角色。

我们考虑的是，如何为这个特定的技术时代构建一个技术平台，允许其他人在该平台上构建，为其他人制作有用的东西——这就是我们的AI策略。从前沿模型到小型语言模型，再到高度优化的推理基础设施，我们在不断拓展训练和推理规模，使整个平台更易于访问，让每代模型更便宜、更强大。就像其他所有开发者工具一样，保证安全基础设施和测试以及一切必要的东西，以便构建稳健的AI应用程序，这样你就可以填补技术空白。这就是我们的策略，我认为我们做得很好。

我是一名工程师，我认为大多数工程师都是短期悲观主义者，长期乐观主义者。比如“我不喜欢这些，我有很多事情要解决，我很沮丧，但我仍然要处理所有这些事情，并认为它们最终都会解决”。所以，有很多事情我认为我们做得非常好。这点就是绝对的：我们与OpenAI一起，使非常强大的AI被更多人使用。由于我们与OpenAI一起做的工作，我们发现了很多新客户，否则他们不会构建强大的AI应用程序。所以，我觉得在和OpenAI合作上我们做的很好。我们目前秉持一个理念，虽然未来可能也会改变，就是关于一个AI平台究竟应该是什么样子的理念，我们正在努力使它尽可能完整。

我认为我们实际上喜欢上一些基本的AI已经称得上有点晚了。所以并不是我们没有投资AI。你可以看看微软研究院多年来所做的一些工作（MSR可以说是早期的AI领路人）。

实际上，也许在过去20年里，人工智能领域最重要的进步都与某种规模有关——通常是数据规模和计算规模的组合，它们可以让你做一些在较低规模点上不可能做到的事情。在某个时候，数据和算力是指数级的规模，以至于你可以进行零散的赌注。从经济学角度讲，不可能把赌注押在10种不同的事物上，而这些事物同时都在以指数级的速度扩展，或者都有同时以指数级的速度扩展的趋势。

所以我认为，还有一件事我们也做的有点晚了，就是我们没有尽快把所有的鸡蛋都放在正确的篮子里。我们在AI上花了很多钱，但它分散在一堆不同的东西上。因为我们不想伤害聪明人的感情。不管怎样，我甚至不知道这些项目最后的城垛是什么，因为很多都是在我来微软之前做的，我们的动作只是没有像我们说的那样快，不过目前我们已经将投资重点放在了扩大规模上。

主持人：你是什么时候开始成为“规模第一”的信徒的？有一个特定的时间或事件吗？

Kevin Scott：我曾经在微软工作了大约七年半，如果当我成为CTO时，我的工作就像从左到右扫描微软和整个行业，试着看看哪里是我们只是在执行方面存在漏洞，大约两三年后，微软最大的问题就会是在AI上的进展速度不够快。所以我会说，2017年中期，我就有对扩大规模的信仰了，这是我工作的重要组成部分，这帮助我们弄清楚战略是什么。

微软CTO：AI大模型的“Scaling Law”还能走多远？第2张

在那之后不久，我重组了微软内部的一大堆东西，让我们更加专注于AI。大约一年后，我们与OpenAI达成了第一笔交易。是的，我们一直在加快投资，试图更加专注、更加清晰、更加有目的。

主持人：你最早看中了OpenAI的什么潜力？

Kevin Scott：我们相信，或者至少我相信，随着这些模型的扩展，它们将成为构建一个平台的基础。

你有一个数据池、一堆机器和一个算法，就可以训练一个模型，但这个模型就像在训练一个特定的东西。就像我在谷歌做的另一件事，它就像广告点击率预测，精准且有效，对吗？但在此之前，在GPT之前，大部分工作都是关于那些狭窄的用例。就像你在为狭隘的事情建立模型，而且很难扩展。

如果你想复制这一切，你必须有不同的数据应用方向的博士和AI方向的博士。并且，只要想在应用中构建人工智能时，都要有不同的流程。而当时的情况是，OpenAIO的这些大型语言模型对很多不同的事情都适用，这样你就不需要为机器翻译和情感分析建立单独的模型了。我当时就想，好吧，这真是非同寻常。

因此，随着规模的扩大，迁移学习的效果更好。我们知道，大型语言模型可以做加减法，所以当你走到下一个规模点，它们的能力集会变得略微或显著地更加通用。并且，我们和OpenAI也拥有同样的信念。他们对这些平台特征如何随着时间的推移作为规模的函数出现进行了非常原则性的分析，并进行了大量的实验验证，证明了他们的猜想是对的。

所以，找到一个与你有相同平台信念的合作伙伴，并且有能够通过这些规模点来执行训练验证，这并不像我以前做过的很多事情，我对过去的投资有更多的保留，但对于这次合作有很高的信念，尽管有很多人不同意这个观点。

主持人：你提到投资，现在有很多行业媒体都在猜测训练模型的成本，有传言说要花几十亿、几百亿美元等等。我想，根据我自己的背景，我认为训练很快就会被推理取代，否则，我们建造的模型就没人知道该怎么用了，对吧？这样的投资可能并不划算。

所以，你如何看待计算领域的发展？它将走向何方？我想人们会开玩笑说，现在所有的钱都流向了英伟达。

Kevin Scott：英伟达做得很好。就规模扩大的效率而言，目前正在发生的有趣的事情是，每一代硬件的价格性能都更高，其程度通常超过了摩尔定律在通用计算领域的应用。你知道，A100比V100的性价比要好三倍半，H100，虽然不是那么好，但很接近。从目前的文字描述来看，下一代看起来也非常好。所以出于各种原因，你拥有的硬件在流程技术和架构组成这样的部分上是可以重复利用的。

所以，你不需要64位的算术运算，而需要的是精度更低的算术运算。这样一来，并行性就大到令人尴尬的地步了。我们在硬件架构上提取并行性的能力越来越强，网络方面也有很多创新。就像我们已经过了前沿模型的阶段，至少你可以在单个GPU上完成任何有趣的事情。多年来，训练和推理都是如此。

实际上，自2012年以来，我们就没有进行过有效的功率缩放，晶体管越来越多，但温度却越来越低。我们有很多密度问题，只是我们必须去处理的功率耗散问题。

主持人：此种推论是否驱动着不同的数据中心架构？

Kevin Scott：我们已经以不同的方式构建了我们的训练环境和推理环境。一直到硅，再到网络层次结构，你需要不同的东西来进行推理，推理比训练更容易。我们现在正在通过推理构建需要几年时间才能构建的大环境。

如果有人提出了更好的硅架构、更好的网络架构、更好的冷却技术，就像这是一个更容易运行的实验，你只需要交换一些机架就可以。我的意思是这比做一个大型资本项目那样的训练环境更容易。所以，直觉上，你会认为这将导致推理环境更加多样化，竞争更加激烈，迭代速度更快。

在软件方面，我们看到推理堆栈的情况也是如此，因为它在整个计算占用空间中占了很大一部分，而且由于目前供不应求，它受到了限制。因此，你有很大的动力去优化软件堆栈，以榨取更多的性能。

主持人：你认为我们会很快处于一个需求供应平衡发生变化的环境中吗？不一定是在微软，但感觉我们也在市场层面上看到了这一点。

Kevin Scott：建立前沿模型就像是一件非常耗费资源的事情．只要人们喜欢构建前沿模型并使它们易于访问，就像它们可能不是人们想要的可接受的可访问方式，你知道，就像只有API可访问的，就像没有开源的东西，你可以实例化，你知道，到处乱搞，但是。就像你已经看到的趋势。

建立前沿模型是一件非常耗费资源的事情，只要人们喜欢构建前沿模型并致力于让它们易于访问，就要花一大笔钱在这方面。如果你现在要开一家公司，前提是你必须建立起自己的前沿模型才行。

打个比方来说，就是我必须去构建自己的智能手机硬件和操作系统，以便交付这个移动应用程序。

我认为，对市场而言，有意义的事情就是，你会希望看到很多人在做很多模型推理，因为这意味着你有很多产品已经找到了产品市场契合点，这意味着这些东西正在扩展，但就像大量的投机资金流入基础设施研发一样。

在扩展方面，微软前不久发表了一篇论文，指出训练数据的质量至少与数量同等重要。我认为，你现在在业界看到的猜测是，我们正在耗尽高质量培训数据的来源。你至少读到过一些文章，声称正在建立各种合作关系，以获取培训数据，而这些数据可能都在付费墙之后，等等。你认为这种情况会如何发展？因为我们感觉计算能力越来越强，但训练数据却可能越来越少。

我认为这几乎是不可避免的。在我看来，数据的质量比数据的数量更重要，这是一件好事，因为它能为人工智能训练算法提供模版，为未来的合作提供一个经济框架。

你知道这将会产生更智能的模型。老实说，这样就不会浪费大量的计算资源，而去做一些无关紧要的事情。我认为，从基础架构的角度来看，人们一直很困惑的一点是，大型语言模型不是数据库。如果你需要它成为你的检索引擎，你不应该把它想成是“嘿，我有了这个东西，就必须把所有东西都装进去”。

我们认为事情发展的方式是，你拥有对训练模型有价值的数据，然后你需要访问数据或应用程序，以便对模型进行推理。这两者是两码事。我认为，围绕这些东西，它们可能是两种不同的商业模式。

我们现在所有这些数据都在搜索引擎中，不是在随机权重中，而是非常明确地坐落在索引中，就像在谷歌等待被检索。你输入一个查询，然后你要么发送流量，要么进行搜索引擎优化和广告投放，就像围绕着这些的一大堆商业模式。

我认为，我们会为推荐数据找出一个商业模式，这样，当代理或人工智能应用需要从某人那里获取一些信息时，它就可以推理并给用户一个答案。我们会为此找出商业模式。要么是订阅，要么是分享，要么是授权，要么是新的广告模式。前几天我还在跟别人说，如果我现在还在20多岁，对于你们所有的创业者来说，我们现在就应该有人去搞清楚新广告单元对代理商来说是什么，就像刚刚建立的公司一样，因为它将与以前的广告单元具有相同的特点和品质，就像你有信息、产品和服务的人，他们希望得到可能需要这些数据、产品和服务的人的关注。质量很重要，相关性也很重要，还有很多其他的东西。

主持人：说起来，我们经常听到的一件事是价值函数在某些方面是更广泛推理能力的瓶颈。但是当你进入更广泛的领域时，构建价值函数变得更加困难。这个问题有实际的解决方案吗？有实际的影响吗？我想更广泛的问题是，你认为推理和元素的整体领域会走向何方？

Kevin Scott：我们只是通过一系列的基准范例来尝试得出结论。在过去的几年中，我们看到的有趣的事情之一就是我们正在非常快速地饱和这些基准，在模型一代中，你会完全或非常接近饱和特定的基准，然后你必须找到其他东西来帮助成为你的指路明灯。所以，你提到的这个问题实际上是一系列昂贵的实验，它们只是在你能想象到的最细粒度上昂贵地运行就像教科书一样，它就像是一个故事的一部分，为评估地象征性做贡献。

主持人：你认为目前的模型在什么水平？我认为，微软已经推出了一大批合作试点项目，试图帮助终端用户使用你的产品等等。另一方面，我看到很多公司都在尝试建立能够自主行动的代理。现在，这些模型的预期性能范围很广。你认为我们在哪里，在未来几年内将处于什么位置？

Kevin Scott：我认为这是一个非常好的问题。你知道，甚至有一个哲学观点认为每个人的工作都会被AI所取代，之所以给AI“副驾驶”的名号，是因为我们希望至少鼓励微软内部正在构建这些东西的每个人思考：我如何才能帮助那些正在从事某种形式的认知工作的人，让他们能够增强他们的认知能力。

所以，我们想建立的是一个系统，而不是替代性技术。好消息是，当你把范围缩小到一个领域时，也更容易思考如何从粗略的前沿模型能力转变为有用的工具。因此，我认为这是一条合理的部署路径。我们已经有一些合作试点项目，现在已经有了真正的市场牵引力，很多人都在日常使用。

并且实际上，副驾能做的工作越笼统，就让它越难取代你自主采取高精度行动，特别是当你知道它在代表你做什么的时候。一旦它出现一大堆错误，用户的第一反应就是“这行不通”，“我好长一段时间都不会再试了”，这样的错误比比皆是。这意味着你又要针对用例进行优化，而不是超级宽泛的东西。因此，我们更希望在推出之前，它就已经非常好了。

主持人：每个人都以同样的方式开始玩OpenAI，然后也许他们开始使用一些其他专有的基础模型，这些模型结合了一些开源模型，也许他们有一些自己的东西。那里有一个向量数据库。从架构的角度来看，感觉人们倾向于走一段不完全相同的旅程。但在12或18个月后，我们从他们那里听到的是，有一种巨大的八二法则在起作用——你可以非常快速和有效地自动化大部分任务，但最后一英里，最后百分之几，难以让你真正信任它。

是的，对于许多任务来说，这似乎是相当难以捉摸的。所以我非常好奇的一件事是，基础模型本身何时变得足够好，以消除最后的2%？

Kevin Scott：我认为，在一段时间内，这两者都会存在。我知道你们可能会问这个问题，不管别人怎么看，我们在扩大规模的同时没有看到边际收益的递减，我也一直试着让大家去理解这点。实际上，我们有一个衡量参数，但每隔几年才能对进行一次采样，因为建造超级计算机和在其上训练模型都需要一段时间。

下个模型正在路上，我不能告诉你什么时候，也不能准确预测它会有多好，但它几乎肯定会更好，可以解决那些你会觉得“哦，我的上帝，这个有点太贵了”或“这太容易崩了”的问题，所有这些都会变得更好，并且变得更便宜、更耐用，让更复杂的事情成为可能，在每一代模型更迭中，这样的故事一直在上演。

我们甚至在微软内部都在思考这个问题，我们自己的开发人员在开发这些人工智能产品时可能会犯的一个错误就是，他们认为解决我的问题的唯一方法就是，我必须去利用当前的前沿技术，并用一大堆东西来补充它。但你也确实必须这么做，但在架构上要非常小心，当你这么做的时候，它并不会阻止你在下一个样本到来的时候采取下一个样本。

所以，大家一心想的是架构好这些应用，当新的好东西来临时，你可以去把它应用上。我认为这是我们一直在反复锤炼的部分。

让我们内部很头疼的一件事是，公司内部有一些团队在看到前沿模型后会说，天哪，我们不可能在这上面部署产品，因为这很脆弱，而且太贵了。我给大家的建议是，给自己足够的灵活性，以便在新的前沿出现时，能迅速适应它。这样你就能保留你的怀疑精神，相信你所相信的领域。

　　市场有风险，投资需谨慎。本文不构成个人投资建议，也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。