视点丨ChatGPT“狂飙”背后的OpenAI是怎样的研发公司

编者按：当前ChatGPT持续引爆热度，其背后的研发创立公司OpenAI也得到了人们的广泛关注，文章从“人工智能”的起源开始引入，重点介绍了OpenAI成长为一家最受欢迎的AI研究型公司的发展历程，及其独特的研发和经营模式，对人工智能的未来发展进行展望。。

ChatGPT“狂飙”背后的OpenAI是怎样的研发公司

擦掉“水晶球”上的灰尘

1950年，艾伦·图灵出版了《计算机与智能》，提出了“模仿游戏”的思想。这篇论文后来更名为“图灵测试”，即使在今天，该测试仍然是人工智能领域不可或缺的元素。而“人工智能”一词源于1955年8月31日达特茅斯学院John McCarthy等科学家联合的提案“2 month, 10 man study of artificial intelligence”。一年后，达特茅斯人工智能夏季研究会如期举行，这天通常被认为是AI这个新领域的正式诞生日期。然而，在之后相当长的一段时间内，科学家们对AI的研究进入了漫长的探索阶段，人们在试图突破人工智能最初的迷雾时，发现了许多堆障碍。最大的问题是计算机无法存储大量的信息，以及缺乏足够的计算能力来做任何实质性的事情。1973年，James Lighthill向英国科学研究委员会报告了人工智能研究的现状。他的结论是，“到目前为止，该领域的发现都没有产生当时承诺的重大影响”，这也一度导致各国政府对人工智能研究的支持减少。

然而，人类进步的步伐很难被阻挡。20世纪80、90年代，John Hopfield和David Rumelhart推广了“深度学习（Deep Learning）”技术，允许计算机使用经验进行学习。同时，Edward Feigenbaum引入了模仿人类专家决策过程的专家系统。机器学习和自然语言处理（NLP）的进步使人工智能重新成为人们关注的焦点。在缺少公共基金支持和没有公众炒作的环境下，人工智能逆势发展。在二十世纪末，人工智能领域的许多里程碑目标已经实，如深蓝和Alpha Go。尽管这些努力使得人工智能可以在有限的环境中有效地解决一些特定问题，但还没有开发出像人类一样 “会思考的机器” ，大众普遍接受的通用人工智能（AGI）时代尚未到来。

混乱世界背后的现实

在这样的背景下，OpenAI于2015 年12月11日跑步进场。Y Combinator孵化器前首席执行官“奥特曼”（Sam Altman）和商业“钢铁侠”马斯克（Elon Musk）发起了一项安全和开放的AGI开发计划，博士毕业仅三年的年轻科学家Ilya Sutskever被聘为首席科学家，一群顶尖的科学家、工程师和研究人员也被提名联合创始人。尽管OpenAI不是第一个公开宣布追求AGI的团队，但其联合创始人的独特人格魅力，以及向该项目投入超过10亿美元并完全开放其专利和研究成果的承诺，使OpenAI变得与众不同。

OpenAI最初专注于为视频游戏和其他应用程序开发人工智能。2016年，它发布了第一个工具，一个用于强化学习（RI）OpenAI Gym和Universe的开源工具包，虽然本质上是训练AI代理的测试平台，但其智能能力可以覆盖全球的网站、游戏和其他应用程序。2017年，OpenAI的工程师设计了的AGI机器人，完全通过自我游戏来学习Dota 2的诀窍，使得该机器人能够在标准锦标赛规则下击败世界顶级的 Dota 2 职业玩家。

图1：OpenAI成立于先锋大厦。

资料来源：维基共享资源

在随后的两年里，OpenAI专注于更通用的AI研究和开发。2018年，该公司发表了一篇论文“Improving Language Understanding by Generative Pre-Training”，介绍了生成式预训练转换器（GPT）的概念。GPT是神经网络受人脑结构和功能启发的机器学习模型，在人类生成文本的大型数据集上进行训练并执行许多功能，例如生成和回答问题等。

基于GPT模型，OpenAI团队开发了GPT-1，这也是他们的第一个语言模型，训练模型所用的数据为Book Corpus中7000多本未出版书籍。随后该模型演变为 GPT-2，这是一个在 8 万个网页上训练的更强大的版本，包含 1 亿个参数，使文本预测成为可能。然而，由于团队担心GPT-2可能被用来编写诈骗电子邮件或生成假新闻，OpenAI并未向公众公开GPT-2。2020年，OpenAI推出了GPT-3，相比前两代，这一次GPT实现了明显进化和迭代，性能也更加强大。为实现这一目标，微软为OpenAI设计了一台超级计算机，其中包括28万5千个CPU内核和1万个GPU。借助超级计算机的帮助，GPT-3 被“投喂”了 45TB 的文本数据，参数超过1750亿个，是人脑神经连结的十分之一，基本做到了能够识别更深层次的文本含义，也实现了通过训练按照提示中的说明进行操作并提供反馈的功能。

图3：ChatGPT用户界面

来源：OpenAI

GPT-3的推出无疑是一场革新。2023年初，OpenAI 发布了基于GPT-3架构的ChatGPT语言模型聊天机器人。其理解上下文并根据对话历史记录进行调整的能力，意味着用户可以在对话线程中“训练”ChatGPT，以获得更准确的答案。它还可以产生比其他人工智能软件更自然和准确的语言，在大多数情况下，它所使用的语言与人类编写文本所用的母语几乎没有区别。对于许多人来说，与ChatGPT的互动是与AI的第一次有意识的和超现实的接触。据悉，OpenAI即将推出的ChatGPT-4投喂数据参数将达到100万亿，这理论上赋予ChatGPT在一瞬间写完6000本书籍的能力。不管我们承认与否，它清楚地表明了一件事：未来将是人工智能的时代，并且它已经在这里了！

图4：GPT-3与GPT-4训练数据参数对比

做研究能不能赚钱？

根据OpenAI官方公告，OpenAI是一家非营利性人工智能研究公司。经营目标是以最有可能造福全人类的方式推进数字智能，不受产生财务回报需求的约束。由于OpenAI的研究没有财务义务，使之可以更好地专注于推动人类发展的积极影响。

但是，当一项开创性的研究不断推进，可能会面临巨大“沉没成本”和“不确定性”结果，持续稳定的研发投入将会成为项目能否开展的重要约束。也正因此，OpenAI的“非营利”初衷似乎在2018年开始动摇，GPT训练所需要的巨大资源投入使得公司的财务状况面临严重挑战。因此，OpenAI领导层开始意识到保持非营利组织在财务上是站不住脚的，便着手起草一份内部文件，以便筹集足够的资金来匹配或超过资源投入的指数级增长，为AGI的持续研发铺平道路。

2019 年，OpenAI 成立了OpenAI LP营利性质风险基金公司，虽然OpenAI宣布OpenAI LP是一个完全独立的实体，但实际上OpenAI LP作为一种独特的 “上限利润”（“capped profit”）公司，是允许产生利润，以吸引融资和推进其运营所需的投资者。而投资者的投资收益将被限制在原始投资额的100倍，即如果投资100万美元用于支持OpenAI研发运营，未来将会获得最多1亿美元的回报。

微软或许早早就在准备这一天到来，在OpenAI LP成立四个月后，微软紧接着在7月宣布10亿美元注资。此外，OpenAI 同年还获得了来自Khosla Ventures、Reid Hoffman Foundation、Matthew Brown Companies的投资。

截至2023年1月23日，OpenAI在6轮融资中总共筹集了110亿美元，共有9为投资者（详见表1），其中最大一笔投资来自微软最新的100亿美元计划。

表1：对OpenAI的投资事件

从投资角度分析，在收回投资之前，微软将获得OpenAI 75%的利润分成，之后微软将持有OpenAI 49%的股份，OpenAI一旦开始盈利，在返还First close partners（FCP）后，75%的盈利将回报给微软。无论如何进展，OpenAI无疑提供了一种新的方式来帮助初创企业或非营利研发机构获取最大资助的方案。从商业竞争角度，微软此次和Bing联动，或将改变互联网商业整体格局。

敢问路在何方？

根据Valuates Report 2030年人工智能市场预测统计，2020年全球人工智能市场规模为654.8亿美元，预计到 2030 年将达到 15817 亿美元，2021年至2030年的复合年增长率为38.0%。推动人工智能市场增长的主要因素是各行业由于对运用AI技术提升生产率水平的需求不断增加。其中，IT和电信、零售和电子商务、医疗保健、制造和汽车等领域或许将成为需求主力，而其他行业对数字依赖性增长和工业4.0趋势的不断深入，预计将为人工智能市场的扩张提供更多机会。

图5：2030年人工智能全球市场预测

虽然AI是人类是创造的，但斯蒂芬霍金曾经告诉英国广播公司（BBC），“人工智能可能会以越来越快的速度重新设计自己，并通过超越生物进化来取代人类”。也许我们已经不记得上一次打客服电话并直接与人交谈是什么时候了。今天，人们可以轻松实现与智能系统的流畅交互。未来AGI目标的实现或将进一步推动超越人类认知能力机器的开发。不可否认，人工智能一直在飞跃，随着ChatGPT的产生，普通人在未来生活的方方面面可能都会感受到它的影响。虽然ChatGPT和其他工具将如何塑造世界尚有诸多分歧，但有一件事是肯定的，它将在未来几年颠覆许多行业。当然，这些颠覆也会带来相当大的社会治理风险。

参考文献：

Introducing OpenAI https://openai.com/blog/introducing-openai/

History of A.I.: Artificial Intelligence（人工智能的简要时间表）

https://www.livescience.com/47544-history-of-a-i-artificial-intelligence-infographic.html

The History of Artificial Intelligence（完整的AI历史概述）

http://courses.cs.washington.edu/courses/csep590/06au/projects/history-ai.pdf

What is OpenAI?—Its History and How ChatGPT Is Changing the World

https://www.taskade.com/blog/openai-chatgpt–history/

Billions of params of GPT-4 if released

https://www.metaculus.com/questions/4852/how-many-parameters-will-gpt-4-have-if-it-is-released-in-billions-of-parameters/

本文作者：中科院科技战略咨询研究院赵祚翔