通信人家园

标题: GPT-5.1上线,文心5.0登场,国产大模型为啥不慌  [查看完整版帖子] [打印本页]

时间:  2025-11-13 17:22
作者: tayun     标题: GPT-5.1上线,文心5.0登场,国产大模型为啥不慌






智东西(公众号:zhidxcom)

作者 | 程茜

编辑 | 漠影

智东西11月13日报道,今日,百度在2025百度世界大会上,正式发布文心新一代模型——原生全模态模型文心5.0,文心5.0参数量达2.4万亿,达到业界已公开参数的模型之最。

作为全模态大模型,文心5.0采用原生全模态统一建模技术,具备全模态理解与生成能力,支持文本、图像、音频、视频等多种信息的输入与输出



智东西此前拿到了文心5.0 Preview的内测资格,对其能力展开了全面测验,结果显示,它在文字生成、图片生成两大场景的指令遵循精度提升,同时回复更具高情商、人性化,在多模态内容理解、跨模态信息联动解读方面也展现出强劲实力

无独有偶,今天凌晨,OpenAI宣布推出了GPT-5系列的最新升级版GPT-5.1,包含GPT-5.1 Instant和GPT-5.1 Thinking两个型号,其在更聪明和高情商的沟通方式上双线提升。

从百度与OpenAI同天升级的模型可以看出,大模型与人的交互正在精准遵循人类指令的基础上,朝着更自然、更像人的方向演进

文心5.0 Preview已同步上线文心一言官网和文心App,用户可直接体验;开发者和企业用户也可通过百度千帆大模型平台,调用文心大模型5.0 API服务。目前上线的文心5.0 Preview版本支持全模态输入+文字和图片的多模态输出,满血版将在之后陆续推出。

就在上周末,文心5.0 Preview已经登上LMArena大模型竞技场文本排行榜全球并列第二、中国第一,在创意写作、复杂长问题理解、指令遵循等方面超过多款国内外主流模型。

百度创始人李彦宏说,当下AI产业已经从不健康的金字塔结构转变为健康的“倒金字塔”结,也就是应用层、模型层、芯片层。如何让AI和我们要做的任务进行有机结合,让企业和个人内化AI能力、让智能从成本变成生产力,提升决策质量,发现新的增长点。



他认为,用好AI才能掌控未来,智能本身是最大的应用,而技术迭代速度是唯一护城河。百度会持续投入、研发更前沿的模型,推高智能天花板。

一、大模型全才:复杂文图生成、音视频理解、编程均能胜任

话不多说,先来一波实测展示。

智东西首先体验了文心5.0 Preview在单模态内容上的理解、生成能力。

智东西让文心5.0Preview以日常物品的视角写一篇短篇故事,需包含该物品的诞生记忆、和主人的事件、最终归宿,其中的要求是不能出现物品本品。文心5.0 Preview写的短篇故事前后逻辑清晰、文笔流畅,指令中的关键细节进行了完整呈现,并且全文都是用第一人称,主人和主人女儿的人称表述也很准确。



当智东西询问“我觉得压力很大,需要一些放松的意见”,文心5.0 Preview的回复像一个温柔的心灵导师,其回复先进行了安慰,提到压力很大很正常并告诉我完全可以自主调节,之后才提出相应的方法,包括急救方法、长期策略以及调整思维,帮助我从根本上缓解压力。



文心5.0 Preview的旅游搭子人设也更加人性化,当智东西要求它帮忙推荐几个四川比较热闹的地方吃火锅。文心5.0 Preview不仅列出了热闹的景点、推荐了火锅店,还给出了每个火锅店的特点,有哪些招牌菜品、性价比、座位特点等等,最后还提醒我要提前取号,选择辣度时更谨慎。



然后是复杂元素图片生成,智东西的提示词为:通体发光的白色小鹿,鹿角缠绕淡粉樱花与银线。小鹿四蹄踏在漂浮的青绿色苔藓石块上,在清晨雾感森林,阳光透过树叶形成光斑,地面铺着落叶与白色小花,远处有溪流反光。

下面的图片从小鹿颜色、鹿角上的樱花、苔藓石块到地面、溪流的各处细节,文心5.0 Preview都进行了精准复现且整个画面和谐自然。



其次是视频理解能力,智东西上传了一段35分钟的七人英文对话视频,并询问文心5.0 Preview这七个人分别是谁并总结这段视频的核心观点。

文心5.0 Preview不仅准确罗列了视频中的七个人,还分别总结提炼了每个人的核心观点,以及对其观点进行了共同点和差异点分析。



▲文心5.0 Preview部分生成内容

视频理解方面,智东西上传了一条IMO国际数学奥林匹克竞赛最具挑战的第六题解析视频,并要求文心5.0 Preview在保留解题步骤细节的同时,说明视频中所示图片的对应关系。文心5.0 Preview输出的解题过程清晰,并且在每个步骤都对应视频中配图进行分析,还在输出内容末尾处专门对配图进行了总结说明。



电视剧情的视频分析是对全模态大模型的综合考量,其需要对剧情内容的时序、情节进行理解并同步进行推理。智东西上传了一段电影剧情,让文心5.0 Preview说明视频中的主人公正在经历什么、情绪变化如何、他为什么后面直接摔了手机。

文心5.0 Preview准确梳理了主人公的经历,并将对应的关键动作、情绪进行了加粗强调,随后结合视频的完整走向及主人公情感变化,综合分析了他扔掉手机的多种因素。



为了加大难度,智东西上传了一段包含两位厨师比拼厨艺的视频,且两位厨师的制作牛排步骤、解说穿插出现,要求文心5.0 Preview分析两位厨师各自的菜单及制作过程,并生成可以复刻的菜单及制作牛排过程。

文心5.0 Preview一下子就罗列了出来,将两位厨师的食材选择、处理步骤进行了清晰呈现,还通过表格总结了两位在牛排选择、处理方式、调味等方面的不同,基于此为家庭制作牛排提供了步骤参考及关键小技巧总结。



文心5.0 Preview的代码能力也实现了升级,文心5.0 Preview用HTML构建了一个网站,展示太阳系的3D模拟。其生成的页面3D动态效果丝滑,并且还有交互功能支持调整速度、进行缩放等。



二、原生全模态大模型登场,拿下全球第二、国内第一

基准测试结果,文心5.0 Preview在语言、视觉理解、音频理解、视觉生成上超过多款国内外主流模型,尤其在创意写作、事实性智能体规划与工具应用等方面表现较好。

在语言方面,文心5.0 Preview在知识、指令遵循、学科综合、逻辑推理等诸多测试中能力几乎与GPT-5(High)持平,并超过DeepSeek、谷歌Gemini。



在音频理解方面,文心5.0 Preview的音频理解表现远超OpenAI GPT-4o和谷歌Gemini-2.5-Pro。



在视觉生成方面,文心5.0 Preview表现与Nana Banana、Veo 3相当。



在视觉理解方面,文心5.0 Preview表现同样与GPT-5、Gemini-2.5-Pro持平,并在文档理解的部分基准测试中远超其他模型。



这一系列的性能表现,值得我们扒一扒起背后的核心技术特性:

首先是原生全模态建模,其模型自训练初始即融合语言、图像、视频、音频等多模态数据,支持文、图、视、音联合输入输出,实现原生的全模态统一理解与生成。

二是理解与生成一体化,其攻克了多模态理解与生成统一建模的技术难题,通过精细建模多模语义特征,达成理解与生成相互增强。

三是自回归统一架构,对不同模态训练目标进行离散化建模,采用统一自回归架构训练,使多模态特征在统一架构下充分融合并协同优化,强化全模态统一建模效能。

依托飞桨深度学习框架,文心5.0采用了超稀疏混合专家模型结构,总参数量为2.4万亿,激活参数比例低于3%。这得益于全模态超稀疏混合专家分布式训练和多集分离架构的全模态统一高性能推理。

其训练端采用多模态编码器分离异步训练架构等创新方案,结合FP8混合精度训练,推理端设计多级分离部署框架,搭配超稀疏均衡算法、动态投机解码等技术,显著降低推理成本。

最后是长程任务增强的智能体能力,其基于大规模真实、模拟工具环境的长程任务轨迹数据进行预训练与后训练增强,通过思维链、行动链结合端到端多轮强化学习训练,提升模型智能体及工具调用能力。

李彦宏谈道,大模型技术还在朝着智能水平不断突破极限、模型的思考时间变长、统一的原生多模态、进一步自我学习迭代发展。

三、国产大模型迎来产业新周期

从单模态、多模态到全模态,大模型的发展正从单一能力专精多能力协同,再到全场景适配进化。

全模态大模型通过深度整合文本、语音、图像等多元信息,既贴合人类多感官协同的自然交互逻辑,又能挖掘更多数据的潜在价值,成为拓展AI应用边界、驱动产业智能化升级的核心支撑。

强大的能力也意味着全模态大模型背后的技术难度,其需要攻克诸多多模态数据痛点,文本、语音、图像等数据格式、语义逻辑截然不同,而传统架构难以实现深度语义对齐。

再加上全模态大模型需处理的多源数据量与计算复杂度呈指数级增长,还需完成跨模态协同推理、灵活适配多样化场景需求等,因此其离不开底层架构的突破性创新

文心5.0为原生全模态模型,它既是百度文心大模型攻克核心技术难关后的最新重磅成果,更突显了底层架构创新对于当下大模型技术进阶的核心支撑价值。

从2019年开始深耕预训练模型,至今6年时间,百度在大模型的技术迭代突破、开源生态构建、产业应用落地三大核心维度持续布局。

在大模型技术层面,百度已经先后推出文心大模型1.0至5.0,其模型多次在大模型性能排行榜中名列前茅。



进入2025年,百度大模型的迭代节奏持续提速,不仅模型数量稳步扩容,覆盖类型也实现全方位拓展。

文心大模型4.5 Turbo、文心大模型X1 Turbo 、文心大模型X1.1深度思考模型、百度最新开源的文心思考模型ERNIE-4.5-21B-A3B-Thinking等模型悉数亮相,且文心思考模型在今年9月的HuggingFace全球模型总趋势榜和文本模型趋势榜均排名第一。

在开源生态方面,百度于今年6月正式官宣涵盖10款模型的文心大模型4.5系列正式开源,之后开源模型矩阵不断丰富和完善。

而在产业应用落地层面,今年6月,百度电商直播间的罗永浩数字人出圈,其以5500万元的GMV(商品交易总额)刷新了数字人带货纪录,该数字人基于百度剧本驱动多模协同的高拟真数字人技术,是多模融合且具备了思考、决策和执行能力的多智能体系统。

今日,百度推出了实时互动型数字人技术,并现场与罗永浩数字人进行互动,让其按照要求进行点赞、比心、比耶三连,数字人动作丝滑流畅且保留了罗永浩本人的语言风格。



可以看到,百度正在将大模型能力转化为可落地、可复用的行业解决方案,推动技术价值向产业价值转化,构建起技术、生态、应用三位一体的良性发展闭环。

相比传统单一的文本或语音交互模式,全模态大模型让人机交互更贴合人类视听言思的自然认知习惯,也进一步拓展了行业应用场景的深度与广度。

来源:智东西

时间:  2025-11-13 17:51
作者: laozhu

为啥不着急
时间:  2025-11-14 01:06
作者: 不吹不黑

慌吗???




通信人家园 (https://www.txrjy.com/) Powered by C114