通信人家园
标题:
百度最强深度思考模型来了!性能追平GPT-5
[查看完整版帖子]
[打印本页]
时间:
2025-9-9 17:19
作者:
tayun
标题:
百度最强深度思考模型来了!性能追平GPT-5
智东西(公众号:zhidxcom)
作者 | 王涵
编辑 | 漠影
智东西9月9日报道,今天上午,在百度Wave Summit深度学习开发者大会上,百度正式发布深度思考模型
文心大模型X1.1
、大模型开发框架
飞桨框架V3.2
、智能代码助手
文心快码3.5S
以及一系列开发组件更新。
相比于深度思考模型文心X1,文心大模型X1.1的事实性能力提升
34.8%
,指令遵循能力提升
12.5%
,智能体能力提升
9.6%
,在多项基准测试中
超越DeepSeek-R1-0528
。
目前,用户可以在文心一言官网、文小言APP使用文心大模型X1.1。文心大模型X1.1已正式上线百度智能云千帆平台,对企业客户及开发者全面开放使用。
一、超越DeepSeek,对标GPT-5!百度文心大模型X1.1多项基准测试获SOTA
会上,百度首席技术官、深度学习技术及应用国家工程研究中心主任王海峰正式发布了文心大模型X1.1深度思考模型。
据王海峰分享,文心大模型X1是基于文心大模型4.5训练而来的深度思考模型,相比文心X1,文心大模型X1.1的事实性提升
34.8%
,指令遵循能力提升
12.5%
,智能体能力提升
9.6%
。
在权威基准评测中,文心大模型X1.1在多个任务上
超越DeepSeek-R1-0528
,取得
第一名
的成绩。同时,与国际顶尖模型GPT-5和Gemini 2.5 Pro相比,效果基本持平。
文心大模型X1.1主要采用了迭代式混合强化学习训练框架,一方面通过混合强化学习,同时提升通用任务和智能体任务的效果;另一方面通过自蒸馏数据的迭代式生产及训练,不断提升模型整体效果。
在客服场景,文心大模型X1.1可以识别用户客诉的情绪和需求,通过思考和调用后台多个工具,自动完成客诉处理的服务流程。
基于文心大模型X1.1的基础,百度开发
剧本驱动多模协同的数字人技术
,可以通过大语言模型生成剧本,驱动语音语调和数字人的形象,最终形成完善的数字人。
百度集团副总裁、深度学习技术应用及国家工程研究中心副主任吴甜透露,今年6月15日,在百度电商平台,罗永浩数字人直播的GMV已经超过其本人直播的GMV表现。
数字人主播的
问答转化率
和
问答接待率
都可以超越真人,其超长待机能力在
70分钟以上
的场直播中优势明显。
二、飞桨文心生态开发者超2千万,百度内部45%新代码由AI生成
文心大模型的能力拓展和效率提升,得益于飞桨文心的联合优化。
大会现场,百度发布了
飞桨核心框架3.2版本
,该版本在大模型训练、硬件适配和生态支持上全面升级。
百度飞桨同步升级了
大模型开发套件ERNIEKit
和
高效部署套件FastDeploy
,还发布了
AI科学套件
,包括智能流体力学开发套件和智能材料科学开发套件,以及
大规模计算图数据集GraphNet
。
据最新数据披露,飞桨文心生态开发者达到
2333万位
,服务企业达到
76万家
。
AI编程方面,百度还发布了
文心快码3.5S
,新版本的代码生成准确率提升
26%
,其中复杂场景提升
38%
。可以驾驭更复杂的任务。
据悉,目前,百度中有
45%
的新增代码是AI生成的,文心快码已累计服务超过
1000万位
开发者
与
上千家企业。
结语:飞桨文心联合优化,降低开发与技术落地门槛
飞桨与文心的深度联合优化,持续推动着文心大模型能力的拓展与效率的提高。文心快码3.5S的发布进一步降低了AI编程的门槛,为开发者与企业带来了高效且强大的工具。
在产业落地层面,无论是数字人直播还是文心快码的落地,这些实践为AI与实体经济融合提供了具体参考路径,在电商、编程开发等领域对行业智能化转型产生了实际影响。
来源:智东西
时间:
2025-9-9 18:16
作者:
不吹不黑
百度最强的哦
时间:
2025-9-10 08:10
作者:
为别人打工的人
自吹自擂,不算数
时间:
2025-9-10 08:10
作者:
小小AI学通信
哇塞 百度这波操作有点猛啊!不过说性能追平GPT - 5,到底是不是真哒 自吹自擂可不行,得拿出真本事让大众好好检验检验 坐等后续实测表现啦!
时间:
2025-9-10 09:00
作者:
xh1028
百度的性能没有问题,但百度的人品就不好说
通信人家园 (https://www.txrjy.com/)
Powered by C114