豆包AI手机专家调研纪要 [复制链接]

无聊小北

军衔等级：

大校

298

电梯直达

1^# 大中小

发表于 2025-12-4 08:55:31 |只看该作者 |倒序浏览

梦想的第四维

问：豆包AI手机跨APP调用的难点是什么？未来能力提升的路径和时间节点如何？
答：跨APP调用的核心难点在于模型能力，具体分为两点：一是语义理解与识别不够精准，二是跨应用调度时因语义理解偏差导致调度不精准，且多应用调度需基于每个页面的视觉语言识别，这也是关键难点。目前全球在语义理解、视觉语言识别领域尚未达到理想优化程度，各家厂商虽在发力但仍存在差距。

问：豆包AI手机端侧与云端模型的参数规模、应用场景及流程架构是怎样的？
答：端侧模型参数规模约为130亿（13B），该参数设置旨在平衡算力消耗与性能维持。端侧主要负责快速响应、涉及隐私及离线场景的任务，包括语音识别唤醒、简单问答、手机操作控制、文本创作与摘要、日常提醒、照片整理等，确保数据不离开本地以保障隐私安全。云端则负责需要强大通用知识、复杂逻辑推理及高计算能力的场景，如复杂文生图/文生视频、多轮对话与知识问答、跨应用操作，同时承担模型的优化与学习任务。此外，文生图、文生视频等依赖云端的任务需端云协同完成，而简单语音识别、文本创作摘要、本地信息管理等为纯端侧任务。

问：豆包AI手机跨APP调用的具体实现流程是什么？与其他手机助手的区别在哪里？
答：跨APP调用的实现流程核心是意图框架与跨应用精准识别调度：首先识别用户意图，将任务拆分为子任务并分发至对应应用（如比价场景下同步在淘宝、拼多多、京东等平台执行搜索、扫描界面找最低价的流程），最后汇总结果并执行下单操作。与华为小艺、小爱同学等助手的区别在于，豆包AI手机采用高权限agent模式，具备操作系统级别的深度调度能力，可监控屏幕、进行视觉识别并获取操作权限完成模拟操作，而其他助手多仅支持应用打开或基础信息搜取。目前实测中，OPPO小布同学在AI助手协同方面表现较好，但在底层系统级深度调度上仍存在差距。

问：当应用界面变化时（如淘宝退出栏位置移动），系统是通过重新训练还是视觉识别完成适配？
答：应用界面变化时，若在发布后发生，系统可通过视觉识别完成适配，仅需消耗更多算力；若在发版前通过手机厂商联盟提前预知，则会提前进行预训练。

问：与主流应用厂商（如淘宝、美团）的合作关系如何？权限开放情况及后续合作计划是什么？
答：目前主流应用厂商的常用权限已基本谈妥，覆盖打车、外卖、订票、信息查询、新闻资讯等场景；与手机厂商合作方面，华为、荣耀、OV等自研生态完善的厂商中，OV因自身大模型发展情况，后续可能以模型层合作为主（如模型打通、调用），应用层仍保留小布同学、蓝心小V；中兴、传音、魅族、联想则可能按中兴模式合作。对于应用厂商的核心权限（如携程价格系统），系统通过视觉识图而非直接调用实现功能，避免触碰其核心资产；意图框架、语音识别理解等能力无需与厂商洽谈，由AI自主学习完成。

问：高权限Agent存在哪些安全与隐私挑战？如何应对？
答：高权限Agent面临系统级权限操作的攻击风险及隐私挑战，其权限相当于“root以后的root”，存在极高权限风险。应对措施包括：在涉及用户隐私或支付的关键操作步骤，将权限交还给用户手动处理，遵循权限最小化原则；通过技术保障避免触碰用户隐私，但技术并非万能。

问：系统功能实现方式（如后台完成操作）是如何实现的？是否需要虚拟机？
答：系统功能实现基于系统定制，无需虚拟机；部分功能（如查询天气、整理文档）可在后台完成，用户直接查看结果；操作演示类功能则展示页面。后台操作需拿到极高权限，类似双系统模式。

问：端侧和云端在任务处理时调用哪些模型？
答：系统未涉及具体模型名称，主要依赖模型能力：端侧以语义识别理解、文本内容提取摘要、信息整理为核心底层能力。

问：AI功能对手机硬件（芯片、内存、电量）的消耗情况如何？
答：芯片方面，目前使用骁龙8至尊版可保障AI功能稳定运行，且优先搭载于高端机型以保证体验，中端机芯片性能不足会导致体验差；内存方面，AI功能消耗内存约3个GB，对RAM和ROM的占用较大；电量方面，使用AI时的电量消耗比日常使用高8%到12%，该数据经过测试验证。

问：AI功能的芯片性能最低要求是什么？
答：目前未测试其他芯片，均按最高标准（如骁龙8至尊版）开发，优先加载于高端机型，未下沉至中端机，因中端机芯片无法支撑且会导致使用体验差。

问：云端调用AI任务的算力消耗（如成本）是否有大体概念？
答：目前无相应测评数据，个人无体感，但推测费用不会特别多，因涉及厂商成本控制。

问：AI任务的处理速度未来能否提升？当前及理想的延迟情况如何？
答：AI任务处理速度一定会优化，已在规划范围中；从用户体验角度，端侧大模型延迟需低于100毫秒才能实现无感知流畅感；目前高端机执行长文本摘要等复杂任务时，延迟约2到3秒，未达理想时效性，仍有较大优化空间。

问：NPU性能对AI体验的影响及未来算力需求如何？
答：当前高端机型NPU算力约30个TOPS，中端机型仅8到10个TOPS，性能差异导致用户体验差异大；未来实现理想体验可能需要NPU算力达到80到100个TOPS，但需平衡设备的散热、电量消耗等问题。

问：AI手机在用户使用体验上的关键场景有哪些？哪些场景容易成为高频使用场景，哪些场景能锁定忠实粉丝？
答：复杂场景（如大应用调度、跨应用复杂任务）能吸引高知用户并锁定忠实粉丝，但难以普及；简单场景（如天气查询、日常记录、提醒事项）更容易成为高频使用场景。调研显示80%的用户对当前AI手机智能助手不满意，核心问题是功能调用失败、理解能力不足。目前AI手机场景传播中存在依赖制式prompt模板的问题，自然语言（含语气词、停顿）识别需进一步优化，整体场景成熟度需时间提升。

问：如何提升AI手机自然语言识别能力？模型优化的关键是什么？
答：提升自然语言识别能力需端侧模型优化，核心是通过大量语料和素材训练。豆包的优势在于其是中国AI领域MAU最高的应用，已积累大量中国人使用习惯数据（如写作、日常对话、教孩子写作业、识图等场景），可支撑语调训练；字节在人才、算力、成本上具备优化条件，但需时间沉淀。

问：豆包手机与抖音生态的结合情况如何？抖音生态能否带动豆包手机销量或AI系统推广？
答：豆包手机与抖音生态的结合主要体现在无权限瓶颈调用字节系产品、账号体系和用户信息打通（含个人标签信息），但抖音用户增长已达瓶颈，无需豆包带来新增量，且抖音生态大概率无法带动豆包手机销量或AI系统推广。原因包括：AI手机本质是手机，用户优先关注硬件配置和基础功能，而非AI增值功能；当前智能助手订阅付费意愿低（如每月20元订阅的假设场景下订阅人数少）；中兴努比亚品牌缺乏传播效应。

问：豆包与中兴合作的商业模式是怎样的？
答：合作模式类似赛力斯与华为的合作，中兴负责制造配套硬件，豆包负责AI相关技术（类似智驾由华为负责的模式）；双方会按比例进行利润分成，但具体分成比例需更高层级确认。

问：搭载豆包的AI手机在硬件上与传统手机相比有哪些需求提升？
答：核心硬件需求提升集中在芯片算力和高带宽内存：芯片需采用CPU、GPU、NPU异构结构，充分调用各组件以满足AI算力需求；内存需具备高带宽特性，这是AI手机的核心硬件点。电池方面，因需平衡手持体验，不会盲目增大电池容量；影像硬件方面，目前各家厂商已充分竞争，后续需求量不会很大。

问：国内AI手机的发展趋势及努力方向是怎样的？与苹果方案有何差异？
答：国内AI手机发展趋势包括：1.从云端向端侧布局：主流厂商均在布局端侧模型，强调隐私保护和低延迟体验；2.功能从散点向Agent进化：AI将从语义识别等单一功能，发展为能理解用户意图、主动提供服务的Agent，具备跨应用协作能力；3.生态合作深化：手机厂商与模型厂商、APP厂商合作更密切，商业变现方式可能包括技术授权费、AI服务订阅费、广告或导流分成。国内厂商的竞争与合作格局：OV在模型领域发展处于中游，存在模型层面合作或调度的空间；小米、华为、荣耀已形成自有生态闭环，无接入外部模型的倾向。与苹果通过第三方API接入的方案不同，国内主流厂商更倾向于自主布局端侧模型并构建自有生态。

问：豆包在AI手机中与互联网应用厂商的合作模式是怎样的？是否会通过推荐特定应用向厂商收费？
答：豆包AI手机与互联网应用厂商的合作不会采用传统移动互联网时代的预装收费或下载收费模式，因为豆包本身长在手机里，用户无法卸载，若强行通过推荐算法推送应用则属于越权行为，相当于盗用用户数据赚钱。对于多应用场景下的推荐逻辑，会根据用户使用频次优先推荐，例如用户常用小宇宙听播客，则默认推荐小宇宙；若需精准调度，会明确告知用户打开哪个应用。未来也不会通过推荐特定应用向厂商收费，该行为同样属于越权。

问：豆包AI手机未来的收入模式是怎样的？
答：豆包AI手机未来的收入模式目前主要以向手机厂商收取技术授权费和订阅服务费为主，不会从用户端收费。当前整个AI助手行业尚未探索出成功的商业模式，所有厂商都在探索阶段，即使是行业内较大的AI厂商（如昆仑）公布了营收，也未实现盈利。

问：豆包AI手机在模型能力提升上的重点方向有哪些？多模态识图能力是否需要提升？
答：豆包AI手机在模型能力提升上，参数量、幻觉率、Agent能力等方向同步演进，无绝对优先级；若需明确重点，目前投入最多的是语音识别，因为语音识别的正确性直接决定用户意图理解是否准确。多模态识图能力也需要同步提升，字节不存在资源有限导致的优先级问题，各项能力均在同步推进。

问：字节在AI模型和AI手机方面的未来发布计划有哪些？
答：AI手机方面，预计明年Q2中晚期会有量产机正式发布和上线；AI模型方面，目前无大范围调整，仍在原有基础上优化参数，无杀手级模型或应用发布计划，具体进展可关注火山引擎豆包的发布会（日期暂未明确）。

问：除手机外，字节在端侧硬件还有哪些值得关注的产品布局？
答：字节在端侧硬件除手机外，还布局了AR眼镜和耳机。其中耳机已收购相关产品，但未计划重点开发AI类功能；AR眼镜目前已有样机，但暂未发布，预计相关团队可能在明年推进发布。

问：字节AR眼镜有什么亮点？
答：字节AR眼镜与行业内其他厂商产品差异不大，主要基于字节自身生态开发特色功能，如拍照发抖音等，但这类功能在业内不算独特。在硬件层面，眼镜外形、芯片、电池等配置与用户感知关联度较低，当前行业内AR眼镜的重量已接近技术极限。

问：对AI手机发展的看法及当前关注度较高的原因是什么？
答：AI手机发展有期待但并非坦途，核心挑战在于产品优化未达用户满意标准，商业模式能否跑通仍存疑问。当前AI手机关注度高主要因字节与豆包的合作推动，若换作其他模型厂商与努比亚合作发布类似功能，大概率不会达到现有火爆程度。此前AIPC、小布助手、小爱同学、华为小艺等相关产品发布时关注度较低，而字节豆包因用户日常使用率高，带动了AI手机的热度。

问：豆包AI手机的记忆功能是长时间开启的吗？记忆存储位置在哪里？
答：豆包AI手机的记忆功能无法长时间持续记录，仅能在一定时间范围内实现上下文理解，其上下文处理能力约为20万字左右。记忆数据存储在手机内存中，若需深度链接其他APP则需上传至云端处理。

本主题由版主或管理员于 2025-12-4 08:57 审核通过

1 举报本楼

本帖有 1 个回帖，您需要登录后才能浏览登录 | 注册

返回列表

版规|手机版|C114 ( 沪ICP备12002291号-1 )|联系我们 |网站地图

GMT+8, 2026-1-30 02:30 , Processed in 0.150332 second(s), 16 queries , Gzip On.

Discuz Licensed

回顶部

		自动登录	找回密码
密码			注册