通信人家园
标题: 特斯拉芯片路线图发布 [查看完整版帖子] [打印本页]
时间: 2026-1-20 11:04
作者: coffee198375
标题: 特斯拉芯片路线图发布
英伟达通常以每年发布一款人工智能GPU,这使该公司始终领先于所有竞争对手。AMD投入巨资以保持竞争力,因此也以每年发布新款人工智能加速器。显然,埃隆·马斯克希望特斯拉发展得更快,每九个月发布一款新的人工智能处理器,最终赶上AMD,进而赶上市场领导者英伟达。马斯克的计划似乎存在一些限制,但他似乎正在寻求解决方案。
“我们的AI5芯片设计已接近完成,AI6也处于早期阶段,但未来还会有AI7、AI8、AI9,”埃隆·马斯克在X上发帖称。“目标是9个月的设计周期。加入我们,共同打造我预测迄今为止全球产量最高的AI芯片!”
埃隆·马斯克的特斯拉在发布新硬件方面不如AMD和英伟达那样迅速。这背后的原因在于:特斯拉的处理器主要面向汽车,而汽车对冗余性和安全性认证有着极高的要求。虽然冗余设计对于尺寸往往达到极限(即EUV光刻系统光罩尺寸极限)的大型高性能AI处理器来说很常见,但汽车所需的安全性却完全是另一个级别。
汽车芯片(尤其是用于高级驾驶辅助系统 (ADAS) 和自动驾驶系统的芯片)的自动化安全性必须符合严格的功能安全要求。ISO 26262 标准是相关规范之一,但绝非唯一标准。
对于高级驾驶辅助系统(ADAS)和自动驾驶(直至完全自动驾驶),监管机构越来越要求进行基于场景的测试(包括极端情况和故障模式)、道路测试许可(针对更高自动化程度)、预期功能的安全性以及网络安全合规性和软件更新。毕竟,开发汽车处理器比开发数据中心处理器要容易得多,这一点毋庸置疑。
假设特斯拉继续将其处理器用于汽车和数据中心,那么芯片的研发周期能否缩短?这似乎是可行的,但必须满足非常严格的限制条件,而且不会像传统的“全新”芯片研发周期那样。让我们来详细分析一下。
只有当 AI6、AI7、AI8 和 AI9 是基于平台的增量迭代,而非全新设计时,9 个月的设计周期才是现实的。这意味着要复用相同的核心架构、编程模型、内存层次结构、安全框架和大部分 IP,改动仅限于扩展计算能力、调整 SRAM、对数据流进行适度调整,或计划中的节点重新定向。任何引入超出计算范围的内容,例如新的内存类型、编译器模型、一致性方案或安全架构,都会立即延长开发周期。然而,在英伟达主导的竞争激烈的数据中心领域,这些标准是多余的:性能和软件栈才是关键。
特斯拉芯片,改写规则
特斯拉是如何记住30秒前看到的停车标志的?人形机器人又是如何搬运沉重且晃动的箱子并保持完美平衡的?
这都归功于旋转位置编码(RoPE: Rotary Positional Encoding)——人工智能的“大脑GPS”,它通过为每个数据分配一个独特的旋转角度,使人工智能能够理解自身在时空中的位置。
通常,这种计算对硬件要求极高。为了防止这些角度“漂移”到混乱状态,需要耗电且发热量大的32位处理器(能够以极高的十进制精度进行计算的芯片)。
但特斯拉却找到了一种突破物理定律的方法。特斯拉的“混合精度桥”(MIXED-PRECISION BRIDGE)技术已在专利US20260017019A1中公开,它是一种数学转换器,能够让低成本、低功耗的8位硬件(通常只能处理简单的整数)执行高精度的32位旋转运算,而不会丢失任何坐标。
这项突破性技术就是秘密的“Silicon Bridge”,它赋予Optimus和FSD高端智能,同时又不会牺牲一英里的续航里程或损坏内部电路。它有效地将特斯拉高效的“预算型”硬件变成了一台高保真度的移动超级计算机。
1、问题:精度的高昂代价
在自动驾驶汽车和人形机器人领域,我们始终在精度和性能之间进行着一场博弈。像Transformer这样的现代人工智能模型依赖于RoPE算法来帮助人工智能理解物体在序列或三维空间中的位置。
关键在于,这些三角函数(正弦和余弦)通常需要32位浮点运算——想象一下,要用10位小数的精度来计算飞行路径。
如果试图将其塞进用于提高速度的标准8位乘法器(INT8)中(这相当于将所有结果四舍五入到最接近的整数),误差会迅速累积。这辆车实际上对细微之处视而不见。
对于Optimus这样的机器人来说,哪怕是微小的计算误差都可能导致失去平衡或误判与易碎物体的距离。为了弥补这一缺陷,又不至于简单地增加更昂贵的芯片,特斯拉必须从根本上重新思考数据在硅芯片中的传输方式。
2、特斯拉的解决方案:
对数捷径(logarithmic shortcut )和预计算
特斯拉的工程师意识到,他们无需强制整个流程都达到高精度。相反,他们设计了混合精度桥接器。
他们将用于定位的关键角度转换为对数。由于对数的“动态范围”远小于原始数值,因此更容易在窄精度的 8 位硬件中传输数据,而不会丢失信息的“灵魂”。
这有点像为了便于运输而脱水食物;它占用空间更小,更易于处理,而且之后可以完美地复原。
至关重要的是,该专利揭示了该系统并非每次都实时计算这些对数。相反,它会从一个专门的“速查表”(查找存储)中检索预先计算好的对数值,从而节省计算周期。
通过将数据保持在这种“脱水”的对数状态,特斯拉确保了精度在从存储芯片到实际计算核心的传输过程中不会“泄露”。然而,将数据保持在对数状态仅仅是成功的一半;芯片最终需要重新理解实数。
3、恢复架构:旋转矩阵和霍纳方法
当 8 位乘法器(乘法累加器或 MAC)完成其工作时,数据仍然处于“脱水”的对数状态。为了在不产生巨大计算成本的情况下将其恢复到实数角度 theta,特斯拉的高精度 ALU 使用了一种通过霍纳方法优化的泰勒级数展开。
这是一个经典的计算机科学技巧,它将复杂的方程式(例如指数运算)分解成一系列简单的乘法和加法运算。
通过分三个特定阶段运行此过程——每一步都乘以 1/3 和 1/2 等常数——特斯拉能够在极短的时钟周期内,以 32 位精度近似计算出角度的精确值。
角度恢复后,高精度逻辑电路会生成一个旋转矩阵(一个由正弦和余弦值组成的网格),将数据点锁定到其正确的 3D 坐标系中。
这种计算效率令人印象深刻,但特斯拉并没有止步于提高计算速度;他们还找到了一种方法,使数据本身的“高速”传输速度翻倍。
4、数据拼接:8 位输入到 16 位输出
专利中详述的最巧妙的硬件“技巧”之一是特斯拉如何通过 8 位总线传输 16 位精度的数据。它们将 MAC 用作高速交织器——实际上就像一个“交通警察”,负责合并两条数据通道。
它接收两个 8 位值(例如,X 坐标和对数的前半部分),并将其中一个乘以 2 的幂,从而将其“左移”。
这有效地将它们粘合在一起,形成输出寄存器中的一个 16 位字,使得低精度域可以充当高速打包器,供高精度 ALU “解包”。
这项技术无需对硬件进行物理重新设计,即可有效地将芯片上现有线路的带宽提升一倍。有了这条高速数据传输通道,该系统最终能够解决自主人工智能领域最大的挑战之一:物体恒存性。
5、长上下文记忆:记住停车标志
这项高精度数学运算的最终目标是解决“遗忘”问题。在之前的FSD版本中,汽车可能看到一个停车标志,但如果一辆卡车挡住了它的视线5秒钟,它就可能“忘记”这个标志的存在。
特斯拉使用“长上下文”窗口,允许人工智能回溯30秒或更久以前的数据。
然而,随着时间“距离”的增加,标准的位置运算通常会发生漂移。特斯拉的混合精度管道通过保持高位置分辨率来解决这个问题,确保人工智能即使在长时间移动后也能准确知道被遮挡的停车标志的位置。
RoPE的旋转精度非常高,以至于标志始终清晰可见。车辆的“心理地图”会将视频“锁定”在它自身的三维坐标上。但记住30秒的高保真视频会造成巨大的存储瓶颈。
5、KV缓存优化和分页注意力机制:扩展内存
为了使这30秒的视频记忆能够实时使用而不会耗尽RAM,特斯拉优化了KV缓存(键值缓存)——人工智能的“工作内存”暂存区。
特斯拉的硬件通过将位置的对数直接存储在缓存中来处理这个问题。这减少了50%或更多的内存占用,使特斯拉能够在相同的RAM容量下存储两倍的“历史记录”(最多12.8万个标记)。
此外,特斯拉还采用了分页注意力机制——一种借鉴自操作系统的技术。它不是预留一大块连续的内存(效率低下),而是将内存分割成小的“页面”。
这使得AI5芯片能够仅在需要的地方动态分配空间。大幅增加车辆可同时追踪的物体(行人、车辆、标志)数量,而不会出现系统延迟。
然而,即使存储效率无限高,人工智能的注意力机制也存在缺陷:当超出训练极限时,它容易崩溃。
6、流水线完整性:“只读”安全锁
该专利中一个微妙但至关重要的细节是特斯拉如何保护这些数据。一旦生成转换后的坐标,它们就会存储在一个特定位置,下游组件可以读取,但无法写入。
此外,高精度 ALU 本身也无法从该位置读取数据。
这种单向“气锁”可防止系统意外覆盖自身的历史记忆或创建可能导致人工智能产生幻觉的反馈回路。它确保车辆位置的“真实”信息只沿一个方向流动:向前,流向决策引擎。
7、注意力接收器:防止内存溢出
即使使用精简的键值缓存,机器人连续运行数小时后,不可能永远记住所有信息。特斯拉利用注意力接收器(Attention Sink)令牌来解决这个问题。
Transformer 处理器倾向于将“多余的”注意力信息存储在序列的第一个令牌中,因此,如果特斯拉简单地使用“滑动窗口”来删除旧记忆,人工智能就会丢失这些“接收器”令牌,其大脑实际上就会崩溃。
特斯拉的硬件设计旨在将这些注意力接收器永久“固定”在键值缓存(KV-cache)中。通过保持这些数学锚点的稳定,同时让剩余的记忆窗口向前滑动,特斯拉可以防止机器人的神经网络在长时间、数小时的工作轮班期间出现不稳定。
虽然注意力接收器可以稳定“记忆”,但“计算”方面也存在效率低下的问题——具体来说,就是在空的空间上浪费电力。
8、稀疏张量:精简计算
特斯拉的定制芯片不仅在精度上取巧,而且在计算量上也取巧。在现实世界中,汽车或机器人的大部分计算都依赖于……看到的是“空白”空间(例如晴朗的天空)。
在人工智能数学中,这些空白空间在稀疏张量(一种忽略空白空间的数据结构)中表示为“零”。标准芯片会浪费能量来计算所有这些零,但特斯拉最新的架构集成了原生稀疏加速技术。
该硬件采用“基于坐标”的系统,仅存储非零值及其具体位置。这样,芯片就可以完全跳过“空白空间”,只关注真正重要的数据——实际的车辆和障碍物。
这种硬件级的稀疏性支持有效地将 AI5 芯片的吞吐量提高了一倍,同时显著降低了每次操作的能耗。
9、音频优势:警报器的对数求和指数
特斯拉的“Silicon Bridge”不仅用于视觉,它还使您的特斯拉成为世界一流的聆听者。为了安全导航,自动驾驶汽车需要使用对数梅尔频谱图来识别紧急警报声和附近碰撞的声音。该方法(以可视化的“热图”形式呈现声音频率)。
该专利详细介绍了一种用于处理此问题的特定对数求和指数 (LSE) 近似技术。通过在对数域内进行运算,该系统仅使用 8 位硬件即可处理巨大的声音“动态范围”——从微弱的嗡嗡声到刺耳的消防车鸣笛声——而不会对响亮的声音进行“削波”或丢失轻柔的声音。
这使得汽车能够以32位清晰度“聆听”并识别环境声音。当然,所有这些高科技硬件的性能都取决于驱动它的大脑,因此特斯拉的训练过程也同样专业化。
10、量化感知训练:预先适应“大脑”
最后,为了确保这个“混合精度桥接”完美运行,特斯拉采用了量化感知训练 (QAT)。
特斯拉并没有像通常那样先在完美的 32 位环境下训练 AI,然后再将其“缩小”(这通常会导致 AI 变得“不听使唤”且不准确),而是从一开始就训练模型以适应 8 位限制。
在训练阶段,他们会模拟硬件的舍入误差和“噪声”,从而创建一个“预强化”的神经网络。这就像飞行员在飞行模拟器中训练,模拟器能够完美模拟风暴;当他们真正遇到现实世界中的真实天气时,人工智能不会“漂移”或变得不准确,因为它是在这种环境下诞生的。
这种极致的优化为在远小于汽车的设备上运行特斯拉人工智能打开了大门。
11、战略路线图:从 AI5 到无处不在的边缘人工智能
这项专利并非仅仅是“锦上添花”的优化;它是特斯拉整个硬件路线图的数学前提。如果没有这个“混合精度桥”,下一代自动驾驶的热力学和功率方程式根本无法成立。
它首先解锁 AI5 芯片,预计其性能将是现有硬件的 40 倍。如果内存带宽成为瓶颈,那么强大的性能也毫无用处。
通过将 32 位旋转数据压缩成密集的对数空间 8 位数据包,这项专利有效地将有效带宽提高了四倍,使芯片能够充分利用其庞大的矩阵计算阵列而不会出现卡顿。
这种效率对于芯片的“半光罩”设计至关重要,该设计在保持超级计算机级吞吐量的同时,缩小了硅片尺寸以最大限度地提高制造良率。
这种效率对于 Tesla Optimus 而言更为关键,因为它关乎其运行的成败。该机器人使用 2.3 kWh 的电池(大约是 Model 3 电池组的 1/30)。
标准的 32 位 GPU 计算会在不到 4 小时内耗尽该电池容量,仅“思考”一项就需要消耗 500W 以上的功率。
通过将复杂的 RoPE 数学运算卸载到这种混合逻辑上,特斯拉将计算功率预算削减到 100W 以下。这解决了“热墙”问题,确保机器人能够在长达 8 小时的工作班次中保持平衡和感知能力而不会过热。
这种稳定性直接促成了端到端神经网络的转型。专利中描述的“旋转矩阵”校正技术可以防止通常困扰长上下文跟踪的数学“漂移”。
这确保了30秒前看到的停车标志始终“固定”在世界模型中的正确3D坐标上,而不是因为舍入误差而漂移。
最后,将这些数学运算嵌入芯片中,确保了特斯拉的战略独立性。这使公司摆脱了英伟达CUDA生态系统的束缚,并使其能够与三星和台积电采用双代工厂策略,从而降低供应链风险。
这造成了计算能力的有意“过剩”,有可能将其闲置的芯片和未售出的芯片转化为一个分布式推理云,其效率可与AWS相媲美。
但特斯拉的路线图远不止于此。由于这种混合精度架构能够大幅降低功耗,它为“特斯拉人工智能无所不能”的愿景奠定了基础。
它为将世界一流的视觉模型移植到智能家居中心或智能手机等小型硬件设备打开了大门。这将使小型、低发热的芯片能够以零延迟计算3D空间定位——无需将私有数据发送到庞大的云服务器,即可将超级计算机级别的智能带到边缘。
时间: 2026-1-20 11:04
作者: coffee198375
芯片都变成唐僧肉了。。。。
时间: 2026-1-20 14:43
作者: shabbyju
马斯克这步子迈得有点大啊,9个月迭代一次芯片,汽车级认证可不是闹着玩的。
| 通信人家园 (https://www.txrjy.com/) |
Powered by C114 |