智东西11月20日报道,今日,马斯克的xAI公司推出xAI API的两大更新:快速、低成本、以智能体为中心的新模型Grok 4.1 Fast和智能体工具xAI Agent Tools API。
Grok 4.1 Fast是其迄今为止性能最佳的工具调用模型,拥有支持200万token上下文的窗口,它能够准确快速地进行推理并完成智能体任务,尤其擅长处理客户支持和财务等复杂的实际应用场景。
▲基于Grok 4.1 Fast搭建支持用户改预定的应用(图源:xAI)
该模型在人工智能分析智能指数(AII)中跃升4位,达到第六位,仅次于第五位的Grok 4。其中,其在智能体调用测评-Bench Telecom排行榜上以93.3%的得分位居榜首,以更低成本超越了GPT-5.1(high)、Gemini 3 Pro等模型的性能表现,比Grok 4 Fast提高了27分。xAI还提到,Grok 4.1 Fast在事实性方面更准确,幻觉率比Grok 4 Fast降低了一半。
▲AII指数情况(图源:Artificial Analysis)
Agent Tools API使智能体能够访问实时X数据、网络搜索、远程代码执行等功能。
Grok 4.1 Fast和Agent Tools API结合使用,使开发人员能够构建专门用于工具调用和智能体搜索的生产级智能体。
智东西第一时间对Grok 4.1 Fast进行了体验,发现正如xAI所说,其在实时信息检索效果上要比Grok 4 Fast明显提升,但在经典编程案例表现上相比Grok 4 Fast出现了“翻车”。这或许是其在追求更高智能体工具调用能力和速度时,损失了特定维度的模型性能。
定价方面,Grok 4.1 Fast输入价格为0.2美元/百万tokens,缓存输入价格为0.05美元/百万tokens;输出价格0.5美元/百万tokens,Agent Tools API调用价格5美元起/1000次成功调用。
在12月3日之前,用户两周内可以免费体验以上服务。
▲Grok 4.1 Fast及Agent Tools API定价(图源:xAI)
API地址:
https://console.x.ai/team/default/api-keys
OpenRouter体验地址:
https://openrouter.ai/x-ai/grok-4.1-fast
01.登顶智能体调用榜单,实测编程“翻车”?
Grok 4.1 Fast专门针对实际企业用例而训练,尤其在智能体调用方面提升较大。
通过在模拟环境中进行强化学习训练,Grok 4.1 Fast接触到了涵盖数十个领域的各种工具。这种多样化的训练使Grok 4.1 Fast在τ-bench Telecom测试中表现出色,以更低成本超过了GPT-5.1(high)、Gemini 3 Pro、Claude 4.5 Sonnet的性能。τ-bench Telecom是一个极具挑战性的基准测试,用于评估智能体工具在真实客户支持场景中的使用情况。
▲Grok 4.1 Fast测评表现(图源:xAI)
Grok 4.1 Fast尤其擅长工具调用。随着开发者构建出功能越来越强大的自主智能体,这些智能体能够进行长期规划并独立运行,模型必须在不牺牲速度和成本的前提下提供智能体服务。
Grok 4.1 Fast是xAI的答案:它是一款兼具前沿工具调用性能、极快推理速度和成本效益的模型。
▲Grok 4.1 Fast测评表现(图源:xAI)
智能体模型面临的一个常见挑战是,随着上下文长度的增加,其性能会下降。xAI使用长时域强化学习训练了Grok 4.1 Fast,并着重强调多回合场景,从而确保其在长达200 万个token的上下文窗口中保持稳定的性能。
▲Grok 4.1 Fast测评表现(图源:xAI)
智东西第一时间对Grok 4.1 Fast和Grok 4 Fast进行了对比测试,发现Grok 4.1 Fast在实时信息检索方面表现明显优于Grok 4 Fast,但在经典编程问题上却发挥失常,不如Grok 4 Fast。
当我输入经典试题:“模拟一个旋转六边形内弹跳球”,如下图所示,Grok 4 Fast在几秒内生成了正确的模拟。
▲Grok 4 Fast实测表现(图源:智东西)
新版的Grok 4.1 Fast也是在几秒内完成,却出现了错误,与提示词要求不符,六角形框效果酷炫,但没出现关键的小球。
▲Grok 4.1 Fast实测表现(图源:智东西)
当我将测试升级为:“模拟一个旋转六边形内弹跳球,有两个球体积相同,球a的质量是球b的2倍”,Grok 4 Fast依然能在几秒之内生成基本正确的模拟。
▲Grok 4 Fast实测表现(图源:智东西)
但新模型Grok 4.1 Fast直接出现了黑屏情况,没有一次模拟出要求的实验,并且无法修复成功。这可能是由于兼顾智能体调用、速度和性能仍是一件有挑战的事,但Grok 4.1 Fast是否在智能体和速度优化中损失了部分维度性能,仍需更多案例来验证。
▲Grok 4.1 Fast实测表现(图源:智东西)
不过,在需要依赖工具的实时检索信息上,Grok 4.1 Fast比Grok 4 Fast表现更佳。
当我输入“关于本周xAI的重要新闻”,如下图所示,Grok 4.1 Fast和Grok 4 Fast的输出耗时都在几秒之内,但Grok 4.1 Fast输出的信息时效性更强、更全,覆盖了“今天Grok 4.1 Fast发布”这条新闻;Grok 4 Fast未覆盖到今天的最新动态。
▲Grok 4.1 Fast实测表现(图源:智东西)
▲Grok 4 Fast实测表现(图源:智东西)
02.联动智能体工具API,几行代码浏览网页
xAI同时推出了服务器端工具Agent Tools API,使Grok 4.1 Fast能够作为完全自主的智能体运行。
只需几行代码,开发者就可以让Grok浏览网页、搜索X帖子、执行代码、检索上传的文档等。
▲仅需几行代码让Grok调用工具(图源:xAI)
这些工具完全运行在xAI的基础架构上,因此开发者无需再管理API密钥、速率限制、沙箱或检索管道。Grok会决定何时以及如何使用这些工具,通常会在多个回合中并行调用多个工具,直到获得提供最终答案所需的所有信息。
▲Agent Tools API应用案例(图源:xAI)
Agent Tools API可显著扩展xAI基础Grok模型的功能,主要功能包括:
搜索工具:利用实时X和互联网搜索,快速、全面地了解时事和趋势。
文件搜索:智能搜索并检索用户上传文件中的相关文档,并附上引用信息。
代码执行:在安全沙箱中执行Python代码,以分析数据并运行模拟。
MCP工具:无缝连接到外部MCP服务器,从而可以访问强大的自定义第三方工具。
03.擅长实时检索和深度研究,幻觉率降低一半
与Agent Tools API联合使用,实时信息检索和深度研究是Grok 4.1 Fast的一大核心优势。凭借与X生态系统的集成和网页浏览功能,由xAI API驱动的搜索智能体在基准测试中拿下高分。
X Browse是一个内部基准测试,用于评估智能体在X上的多跳搜索和浏览能力。
Grok 4.1 Fast在事实性方面树立了新的标准,与Grok 4 Fast相比,幻觉率降低了一半,同时在FActScore评估中仍能达到与Grok 4相当的性能。
▲Grok 4.1 Fast测评表现(图源:xAI)
xAI将在API上发布Grok 4.1 Fast的两个变体:
grok-4-1-fast-reasoning,可达到最大智能。
grok-4-1-fast-non-reasoning,擅长即时回复。
接下来的两周,xAI的模型和工具将在部分平台上免费提供:
xAI与OpenRouter合作,免费提供Grok 4.1 Fast。
xAI通过xAI Agent Tools API完全免费提供所有智能体工具。
04.结语:聚焦智能体,大模型竞赛升级
当下,AI圈的模型和产品迭代陆续都开始聚焦智能体。这是市场需求倒逼技术升级的体现,当开发者构建出功能越来越强大的自主智能体,模型就需要提供更好的智能体服务,但又要注意不牺牲速度和成本。
马斯克本次推出Grok 4.1 Fast,并配套提供易于集成的Agent Tools API,在一众方案中显得更强调与实际应用场景结合。围绕AI智能体商业化落地的军备竞赛悄然升级,以xAI这种具备更强应用生态的企业具备优势。但话说回来,模型性能的稳定依然关键,Grok 4.1 Fast的性能表现如何,还需要更多实测验证。
来源:36kr
|