而此前一年,OpenAI 已经公布了 1750 亿参数的 GPT3,并开放了 API 测试。谷歌却因为各种「技术政治正确性」的风险,迟迟不愿将对话模型的产品对外公开。
De Freitas 、Shazeer 因此萌生去意,尽管 CEO Pichai 亲自进行挽留,但最终,两人还是在 2021 年底离开谷歌,创办了 Character AI——目前 AI 大模型领域的独角兽之一。
谷歌就这样与引领变革的先发优势失之交臂。
后来的故事更加广为流传。2022 年底,ChatGPT 横空出世,这不仅使 OpenAI 名声大噪,更令其投资方微软大杀四方,在 GPT-4 的加持下,微软推出搜索产品 New Bing,剑指谷歌。不仅谷歌,整个硅谷乃至世界也都为之震动。
而要想做 toB 生意,OpenAI 还面临着中心化风险的质疑。目前,OpenAI 面向企业所开放的 API 模式,已经吸引了一批客户使用它——尤其是中小开发者,它们无力独立训练一个大模型,接入 GPT 系列的 API 成为极佳的选择。刚刚跻身独角兽的 Jasper.AI 就是其中最好的例子,通过接入 GPT3,Jsaper.AI 仅成立 18 个月就估值 15 亿美金。
「但大家因此都不看好 Jasper.AI。」一位硅谷主流基金的投资人告诉极客公园。私有数据是企业最重要的资产,在目前,将私有数据接入中心化大模型首先面临着合规与安全性的问题——尽管 Sam Altman 在 5 月曾经承诺,OpenAI 不会利用客户使用 API 的数据进行训练——但这既无法打消企业的疑虑,也无法获得其信任。
作为曾被寄望能实现电影《Her》中场景的苹果,尽管今天仍未能实现如此深刻的人机交互,但这家向来秉承长期主义的公司不会放弃——相比于通用大模型,苹果的策略选择基于自身的基业,坚定在 to C & 标准化的方向。
苹果希望 AI 模型最终能在终端硬件上运行——这需要让模型能够在算力较弱的环境下运行,目前还无法达到。它对 AI 的运用也更为务实:今年轰动一时的 Vision Pro 中,苹果利用 AI 技术,使佩戴者在 FaceTime 视频时能够有全方位的虚拟化身。在 WWDC 上,苹果还展示出了 autocorrect 功能,通过让一个 Transformer 架构下的大语言模型在手机上运行,以修改用户的错字、并更好地预测用户的语言习惯。
如果说 Vision Pro 是苹果押注的下一代数字终端,新终端带来新的数字内容需求,在终端上运行大模型则是实现终端内容的技术前提。
在用大模型研发 to C 产品上,苹果尚未制定明确的战略。这也显示了苹果在终端产品上的谨慎。
已经有消息表示,苹果在开发新一代人工智能技术:苹果去年搭建了机器学习开发的 Ajax 框架,并基于其构建了类聊天机器人 AppleGPT。但是这一技术目前只被要求服务于内部员工,比如给 AppleCare 工作人员提供支持,以更好地帮助客户处理问题。
蒂姆 · 库克在 5 月份的财报电话会议上谈到当前的人工智能技术时表示,还有许多问题需要解决。正如苹果给到了 Vision Pro 充足的耐心,对于 AI 大模型如何进入产品,目前看起来也同样充满耐心。
2 月,亚马逊推出了自家的开源大模型 mm-cot,尽管在模型架构上,创新地提出了包含视觉特征的思维链,但在层出不穷的开源模型社区,并没有引起太大水花。而截至发稿前,据外媒 Insider 最新报道称,亚马逊 CEO Andy Jassy 目前正亲自带队,该团队负责开发该公司最具野心的 AI 项目。
作为云服务的领跑者,占有 48.9% 市场份额的亚马逊在 B 端有着绝对的客户优势。因此,围绕 B 端,自 4 月以来,亚马逊推出了大模型服务 Amazon Bedrock,其中既包括自研的大模型,也与 AI21 Labs、Anthropic、Stability AI 等基础模型提供商广泛合作,助力企业轻松灵活构建生成式 AI 应用,降低所有开发者的使用门槛。
4 月,亚马逊网络服务(AWS)宣布与 Stability AI 和 Hugging Face 等人工智能公司建立合作伙伴关系,这将允许其他公司使用亚马逊的基础设施来构建人工智能产品。此外,AWS 还投资 1 亿美元建立 AWS 生成式 AI 创新中心(AWS Generative AI Innovation Center),该中心将把客户与公司的人工智能和机器学习专家联系起来。他们将帮助医疗保健、金融服务和制造业的一系列客户使用新技术构建定制应用程序。
而在 AI 领域深耕 20 年的亚马逊,目前看来其野心并不甘落于微软和谷歌之后,也不甘心只坐守 B 端优势与成果。在 B 端之外,亚马逊似乎也在发力 C 端;同时,除了去中心化地提供模型能力赋能,亚马逊也在打造中心化的大模型——这也是 Andy Jassy 亲自挂帅的目的。
作为 OpenAI 的投资方,借前者的技术能力与影响力,微软在 B 端和 C 端都极早开始布局——在 B 端,微软获得了布局云平台新技术栈的先机,同时将来自 OpenAI、Meta 的模型接入云服务,以期切走云市场更大的蛋糕。而在 C 端,微软则开始打造前端产品、用大模型做 Copilot :如在自身的强势产品 Office 365 中上线 AI 的新功能、将 OpenAI 的大模型接入 Bing 搜索中,发布 New Bing 产品,成为第一批大模型成熟产品的典型。
B 端与 C 端的双线推进,不仅巩固了微软原有的 toB 优势,同时也加固自己的壁垒以防他人颠覆。
此外,在更底层的硬件层面,微软也对 AWS 等云服务厂商发起了攻击。在更底层的硬件层面,微软也从 2019 年在内部开始研发代号为「雅典娜」的 AI 芯片,这些芯片正式为训练大语言模型等软件而设计,同时可支持推理,为基于大模型的软件提供算力。初代产品基于 5 纳米工艺,微软也已规划了未来几代芯片产品。
极客公园了解到,经过年初的慌乱,巨头已经平静下来,开始了自己的动作。4 月,谷歌将 Deep Mind 与 Google Brain 合并重组为 Google DeepMind,由坚信 AGI 的 DeepMind 联合创始人 Demis Hassabis 担任部门领导,原 Google Brain 负责人 Jeff Dean 出任谷歌首席科学家——这样的架构调整不仅可以进一步聚集资源,更可以窥见谷歌追赶的决心。
合并后的 Google DeepMind 以及 Google Research,目标是攻克多个人工智能关键项目,其中第一个即为多模态模型。有消息传出,谷歌正在用 Youtube 的视频数据训练 Gemini。鉴于大模型的下一个关键技术将是多模态,这增加了谷歌是否会领先的猜测。
此外,大模型时代的硅谷,「Brain Drain(人才流失)is very real」。多个从业者告诉极客公园。无论从历史还是当下,任何巨头不能使用大模型构建出有竞争力的业务,顶级的 AI 工程师就会很快流失。早在 2022 年,因为 Meta 专注于元宇宙概念,曾被曝出多个资深 AI 专家跳槽,伦敦分部几乎全部垮掉。OpenAI 早期更是从 Google 挖走了一百多人来扩展业务。而离开一家公司的顶级 AI 程序员,在短期内基本不可能回流。
据 AI Infrastructure Alliance 在 2022 年的年度调查显示,收集、策划和清洗数据集是模型生产中最大的挑战。
如今数据领域风头最盛的 Scale AI 创立于 2016 年,最初主要为无人车提供数据标注服务,后来逐渐积累了包括电商、短视频甚至政府机构的客户。过程中,它积累了 1000 人的科技管理团队,几十万来自全球的长期外包人员和严格的验收体系。这些积累使得它在大模型时代快速转身,为企业提供 RLHF 的微调业务。目前,硅谷顶尖的 AI 公司,包括 OpenAI,Cohere,Inflection AI 都是它的客户。
2016 年,19 岁的华裔创始人 Alexandr Wang 已经有了两年工程师经验。在硅谷的当红公司、美国知乎 Quora,他看到了硅谷科技大公司在和远程的外包人员合作上的效率痛点,于是,大一的他从 MIT 辍学创立了 Scale AI。
Scale AI 的专长是利用超规格的工程团队和高素质的外包管理人员,解决数据标注的效率和成本问题。他们在全球招募外包人员进行数据标注,同时将总部设在硅谷,雇佣高质量的硅谷工程师根据企业任务快速构建新的数据标注平台,再根据外包人员的反馈及时对平台的功能做出调整。并通过全球化的招募系统,将价格降到最低——相比于美国大厂为了保证反馈需要在国内招人标注,Scale AI 可以根据任务难度,将简单的任务分发给发展中国家的数据标注员,同时只需支付当地的最低工资。
这又是一家快速转身抓住机会的公司。据极客公园了解,Scale AI 最初在 RLHF 方面并没有太深的积累,但是通过过去数据标注方面的积累和极强的工程能力,公司迅速开发出了适合 RLHF 标注的软件。
借大模型的东风,Scale AI 预计今年业务将增长一倍,据悉毛利在 60% 左右。今年初,首席执行官 Alexandr Wang 在推特上表示,他预测 AI 实验室很快就会在人类标注数据上花费与底层算力同等量级的数十亿美元。
承接硅谷模型水平最高的客户和拥有最高数据标注吞吐量,利用这些优势,Scale AI 进一步提供了 Evaluation 和 api 服务。前者可以为训练模型的企业提供人工测试、给出客观的建议;后者则可以让企业自行接入模型,对模型进行特定业务能力的测试。
无论是期待拉平 OpenAI 的大模型能力,还是企业想拥有基于自己的数据精调大模型,开源,都被寄予厚望——这导致了 Hugging Face 的崛起。
Hugging Face 是一个专门针对机器学习的开源平台和社区,在当下则被视为大模型领域的 Github。截止极客公园发稿前,Hugging Face 上拥有超过 27 万的模型,超过四万八千个数据集。而仅仅一个多月前,这个数据还是 21 万多个训练模型和三万八千个数据集。增长速度十分惊人,其流行程度可见一斑。
成立之初,Hugging Face 只是一个做聊天机器人的创业公司,因为公司业务需要,一直关注 NLP 技术。Transformer 架构刚刚出现时,研究者想要接入大模型的成本很高,因为一次重写方案的分享(Hugging Face 分享了自己将基于 tensorflow 实现的 BERT 模型用 pytorch 进行了重写的方案),Hugging Face 受到了极大的关注。此后,在 Github 中由 Hugging Face 创建的 Transformers 库里,不断有其他研究者在其中添加自己的开源模型。很快,Transformers 库很快成为 GitHub 增长最快的项目,Hugging Face 也转身开始创建自己的开源平台。
Hugging Face 的中国区负责人王铁震告诉极客公园,在技术上,Hugging Face 针对 AI 的特点做了许多优化,比 GitHub 更适合 AI。例如 :
Hugging Face 支持大文件的上传。
免费提供 hosting,免费提供全球 CDN 的 deliver。
开发者在 Hugging Face 平台可以做版本控制以及开源协作,可使用交互式的方式直接展示模型效果,还可以一键部署,快速将模型部署到亚马逊云上使用起来。
文化上,Hugging Face 也做了许多细致的、ROI 并不高的工作,来培养开源社区的氛围。比如对第一次来贡献代码的开发者进行非常细致的辅导。
从早期主要思考如何帮助研究者快速部署模型,Hugging Face 逐步向工业界发展,开始尝试提供更多的工具,让企业能够更快速地用上一个学术界发布的新模型。
现在,通过 Hugging Face,企业不但可以直接通过 API 接入大模型的能力,也可以通过上传自己的数据,由 Hugging Face 在多种不同的模型和训练方法上,找到最适合企业的那一个,直接训练一个属于企业自己的大模型。
Hugging Face 没有特别披露过它的营收状态,但据福布斯披露,在 2022 年,Hugging Face 已接近盈亏平衡,拥有了英特尔、 eBay、辉瑞、彭博社等超过一千家客户,2023 年乘上大模型浪潮,客户只会更多。最新报道称,Hugging Face 的估值可达 40 亿美金。