通信人家园

 找回密码
 注册

只需一步,快速开始

短信验证,便捷登录

搜索

军衔等级:

  少校

注册:2010-4-2811
跳转到指定楼层
1#
发表于 2025-5-30 11:13:49 |只看该作者 |倒序浏览

去年火山引擎大会上,豆包团队展示一项功能:

用摄像头对准一个物体提问,AI能实时作答。当时看完演示视频,我有一个念头:如果做成了,AI 真的「长」眼睛了。

但这类技术从演示到落地,需要时间。毕竟,理解真实世界的视觉信息,远比生成文字或图像复杂得多;过去大半年我一直关注进展,直到上周六,终于上线了:视频通话功能。

多数人把它当作新奇玩意儿,用来玩梗、搞笑。我认为,这是一个技术拐点,它会在商业世界里引发一系列新的想象。

01

可以先思考一个问题:视觉理解跟传统的图像识别,有什么本质不同?可能有三点关键差异。

首先,技术从“标签化”走向“语义化”。

以前图像识别,是一个巨型分类器。你给它一张图,它能告诉你这是猫、那是苹果,仅此而已,它的逻辑,靠大量打标签的数据训练出来的。

看到某种像素组合,就知道对应哪个对象,但它不理解猫为什么会在这儿,也不知道苹果放在厨房和实验室意味着什么。

语义化不一样。当看到一张“猫躺在沙发上的照片”,AI要识别出猫和沙发这两个元素,还要理解「躺着」的状态、「沙发」这个环境,甚至推测这是一个安静的家庭场景:猫在休息,家里没人打扰。

它开始解析背后的“故事”,进行推理和常识判断。这种能力怎么实现的呢?

表面上看,是多模态大模型的突破。传统图像识别只能处理图像,是单模态系统。豆包这次的能力,是建立在一个既能看懂图像、又能理解语言的大模型之上。

这意味着 AI 不仅能看到,还能调用知识库,把画面翻译成语言,再进一步分析思考。但这还不是全部,它还有两个关键能力:实时交互和上下文理解。

传统图片、拍照对话,三四轮就结束了,豆包是实时的、连续的、可追问的。你可以一边对着画面提问,一边不断深入,聊到你烦了为止,这对用户体验来说,是个质的飞跃。

第三点最值得关注:它已经显现出「具身智能」的雏形。

什么叫具身智能?简单讲,AI 没有实体,但可以通过摄像头感知外部世界,并作出反应。

它不再是那种被动等你下指令的工具,而是一个能看、会想、还能回应的智能体——把图像、语言和逻辑整合在一起,开始具备类似人类的感知能力。

所以我说,这种对真实世界的“感知”能力,是 AI 走向更高阶智能形态的关键一步。

02

让AI看到东西,还能回答问题,听起来像开挂,背后却藏着一堆技术难题。什么难题呢?

讲技术,太干巴了,跟你讲个故事:

你生过孩子吗?生过,更好;没有,也不要紧张。至少见过刚出生的婴儿吧,他一睁眼,世界就在面前了,哇哇的哭,看起来特别可爱。

不过,他能「看见」,却什么都「不懂」;你指着一个杯子说:这是杯子。他眨眨眼,脑子里压根没建立起声音、图像和意义之间的联系。

AI也是一样。它不是不会看,而是看得见但看不懂。豆包这次上线的能力,不是加了个摄像头让它多认几个字,是让它完成了一次真正的「认知成长」。

就像婴儿一样,AI也得一步步来,第一步:先学会「眼睛和耳朵对得上」,把「看到的画面」和「听到的语言」真正连接起来。

它看到一张图里有人在笑,你问它:他在干嘛?它识别出「嘴巴张开了」后,还得知道「张开嘴巴+眼角弯弯=笑」,然后才能说:他在笑。

所以,这跟婴儿第一次听到「笑」这个词,再看到大人笑的样子一样,慢慢把信号对在一起。

对在一起,然后呢?还得反应快,还要会想。

要知道,我们不是来看AI做作业的,是来问问题的。你不可能等它慢慢分析完再来回答你;它得一边看,一边听,一边想,三件事同步进行,而且还要说得准。

好像那个长大的孩子,你指着一个东西问他:这是啥?;他不用翻字典,就能立刻告诉你答案,甚至还能补一句:我记得上次你也用过它。

有了反应还不够,还要能猜出来。怎么猜?

现实世界哪有什么标准答案?拍一张照片,光线暗、角度怪、遮挡多,AI得在这种混乱中找出线索。你还可以指着一个它没学过的工具问:“这是干啥用的?”

这时候,它不能只会说“我不认识”,得靠自己推理出一个合理的答案。

孩子长大了,你带他去工地,他没见过某个零件,但他能根据它的形状、位置、颜色,猜出它可能是用来拧螺丝的。这才是真正的「看懂」。

所以,长眼睛和开天眼,不一样;一个是具备某个能力,一个是把看、听、说串联在一起。它像人一样,经历从「看得到」到「看得懂」的成长过程,这一层一层的认知升级,才有机会理解人类的世界。

03

既然AI能「看懂」物理世界,那麻烦来了。比如:会不会改变熟悉的行业?又会催生哪些新的商业模式?

说点近距离的。办公场景中,很多人面对屏幕时,除了看文字、图表、设计图、还有代码界面等等。

当你看到一段K线图搞不懂时,只要共享一下屏幕,AI能帮你分析走势,告诉你是涨还是跌;再比如写文章卡壳了,灵感没了,怎么办?拿出手机对着屏幕一拍,AI能根据你写的内容提供建议。

这种能力,会催生一种新服务模式:我把它叫做「屏幕即服务」。

当然,未来真正值得关注的是教育、医疗这两个对“理解”要求很高的行业。

你想,孩子做题时突然卡住了,问谁呢?以后,他可以直接指着题目说:帮我看看这道题怎么解?AI能一边看题,一边听问题,然后,用语音告诉你思路。

那医生呢?

以前看CT片要花很多时间,医生找角度,反复对比。以后是不是只要拿手机一拍,AI能立刻告诉你有没有异常?有没有结节?有没有早期迹象?效率提升的不只是几倍,而是几十倍。

再来看零售。

现在购物体验,最多是拍照搜同款。未来,你打开摄像头,对准感兴趣的商品,马上知道这是什么品牌、多少钱、评价怎么样,甚至直接跳转购买链接。

走在大街上,看到橱窗里的衣服,朋友戴的首饰,杂志上的推荐单品;只要对着它们一拍,信息立马浮现出来,这不是科幻,是正在发生的现实。

而且,这种能力还会催生一个新的趋势:即时兴趣到即时购买;用户从“感兴趣”到“下单”,中间不再需要复杂的流程,决策路径被缩短了。

再进一步,智能导购、门店运营也会发生根本性变化。

想象一下,未来的门店里装上了AI摄像头,它能实时观察顾客的行为:他在哪个商品前停留了多久?对哪类首饰特别关注?有没有反复回头看?有没有皱眉、犹豫?

这些细节,AI都能捕捉到,并据此判断顾客的兴趣偏好;同时,商家也能通过AI视觉分析客流热点、动线轨迹、商品陈列效果,从而不断优化门店布局和服务策略。

再来看看制造业。

过去很多工厂靠人工巡检,靠经验判断良品率。但人眼总有盲区,疲劳也会影响判断;未来,AI摄像头可以自动监控生产线,识别表面瑕疵、零件错位、颜色偏差等问题。

这样不仅能看得更细,还能记得更多,形成数据反馈闭环,帮助工厂实现真正的智能化管理。

除了这些,还有很多我没想到的场景。可以说,这项能力带来感知世界方式的一次跃迁。它让我们重新思考:该如何与世界交互?又该如何在此基础上创造新的商业价值?

04

来势汹汹的豆包,会不会卷到阿里、腾讯、百度?

肯定会。

背后站着字节,这家公司在理解用户需求、打造爆款产品、快速迭代的能力上,毋庸置疑;

作为它的AI旗舰应用,天然具备两个关键优势:一能快速获取海量用户的反馈数据;二有「用户工厂」的基因,擅长用数据驱动产品创新。

所以你看,现在“天眼”虽然装在豆包里,但以后未必只出现在这一个产品上;它可能很快会被复制到抖音、甚至投资的其他项目里,比如:AI眼镜、智能终端等等。

你可以想象一下:只要有一个设备能搭载AI视觉能力,它就能「看见」一切;再加上它本身强大的知识问答能力,这就意味着:AI不再只是个工具,而是真正走向了「全民助手」的阶段。

再来看看,其他大厂相比,到底有什么不同?

夸克也在做AI视觉相关的功能,拍照搜题、搜同款商品,目前更像「搜索+AI」的路线;核心优势是信息检索能力,擅长从海量数据中快速找到匹配的内容,就像一位经验丰富的图书管理员。

豆包是从大模型和多模态能力切入的,强调「看懂」画面背后的含义,还能推理、解释、互动;更像一个「看得见、听得懂、会思考」的私人导师。

我认为,两者各有优势,在AI视觉这条赛道上,谁也替代不了谁,形成了良好的互补。

再来看腾讯元宝。这款产品在上线初期吸引大量用户关注,但从公开讨论来看,用户留存率还有待提升。

一方面,大模型「幻觉」问题还没有完全解决,影响了实际使用体验;另一方面,当前,交互方式还停留在传统的二维界面操作,缺乏「像人一样对话」的智能体式交互。

相比之下,豆包有点「IP角色」的感觉,在桌面端可以随时调用、自由交互。这种体验上的差异,也是影响用户粘性的重要因素。

对了,前几天,我还刷到腾讯张军的视频号,他也发了一条元宝「开天眼」的视频,我还点了个赞,相信这一切,也很快要来了。

至于百度文小言,今年,我也看到它在视频生成模型上的突破,开源是好事,但实际APP上,还要更多时间去打磨,比如:它的视频通话要拍照才可以识别。

通义千问APP视频通话,现在已经悄悄增加了一个「预约体验」入口,看来也在摩拳擦掌。

尽管豆包视觉模型来势汹汹,它要真正建立起长期优势,也不是一蹴而就的事。有两个关键点值得持续关注:

一,AI再聪明,也离不开高质量、多样化的数据喂养。如何在合规前提下,收集更多有助于多模态训练的数据,是所有厂商都面临的问题。

二,真正的行业融合

把它作为一个解题工具,价值太有限了,要想真正跑赢别人,得把能力嵌入到教育、医疗、制造等行业中去,成为行业变革的一部分。

所以,豆包这次的「开天眼」,意味着AI正在从「被动响应」走向「主动感知」,从「工具走向助手」。

接下来谁能走得更远,拼的不只是技术,更是数据、场景、生态的全面布局,对了,还有用户体验。希望其他巨头们,尽快跟上这场「视觉革命」


来源:36kr

举报本楼

本帖有 3 个回帖,您需要登录后才能浏览 登录 | 注册
您需要登录后才可以回帖 登录 | 注册 |

版规|手机版|C114 ( 沪ICP备12002291号-1 )|联系我们 |网站地图  

GMT+8, 2025-6-1 17:02 , Processed in 0.193649 second(s), 17 queries , Gzip On.

Copyright © 1999-2023 C114 All Rights Reserved

Discuz Licensed

回顶部