通信人家园

标题: 首个统一多模态模型评测标准,DeepSeek Janus理解能力领跑开源  [查看完整版帖子] [打印本页]

时间:  2025-4-10 10:46
作者: see122     标题: 首个统一多模态模型评测标准,DeepSeek Janus理解能力领跑开源


MME-Benchmarks团队 投稿量子位 | 公众号 QbitAI

统一多模态大模型(U-MLLMs)逐渐成为研究热点,近期GPT-4o,Gemini-2.0-flash都展现出了非凡的理解和生成能力,而且还能实现跨模态输入输出,比如图像+文本输入,生成图像或文本。

相比传统的多模态模型(比如 GPT-4V 或 DALL·E 3),这类模型在任务适应性和灵活性上更具优势。然而,当前研究领域还存在几个突出的问题:





1. 评测标准混乱:不同研究选用的评测数据集与指标各不相同,使得模型之间难以公平比较;

2. 混合模态生成能力缺乏评测体系:例如,在图像中画辅助线解题、根据推理结果生成图像等案例虽然很有代表性,但没有统一的 benchmark 能够全面测评这类能力。

这些问题严重限制了U-MLLMs的发展和落地应用,因此迫切需要一个系统、标准的评测框架。

主要贡献

MME-Unify(简称 MME-U)正是为了解决上述问题而提出的,具体贡献如下:

首次提出统一评测框架:MME-U 是第一个涵盖“理解”、“生成”与“统一任务(混合模态生成)”的 benchmark,支持从不同维度系统性评估 U-MLLMs 的综合能力。

构建覆盖广泛的任务体系:

统一评测标准:

设计五类“统一任务”,考察模型对多模态信息的协同处理能力:

实测分析12个主流U-MLLMs表现:包括 Janus-Pro、EMU3、Gemini 2 等,发现它们在多项任务中差异显著,尤其是在复杂生成任务和指令理解方面仍有很大提升空间。

揭示了开放模型与闭源模型之间的差距:闭源模型如GPT-4o、Gemini 2.0 Flash在生成质量与细节还原度方面甚至优于一些专用生成模型(如 DALL·E-3);而开放模型的性能则尚显不足。





MME-Unify不仅为统一多模态大模型的评估提供了缺失已久的标准化工具,也进一步推动了这一方向从“炫技”向“实用”迈进,是当前U-MLLMs 领域不可或缺的基准评测体系。





分为三个主要评测能力板块,涵盖数据构建、任务设计与评估策略,整体条理清晰、便于理解。





MME-Unify 评测框架设计详解

本节介绍MME-Unify的数据构建方式、任务标注流程以及统一的评测方法。MME-U将多模态统一模型能力划分为三大类:

- 多模态理解能力
- 多模态生成能力
- 统一任务能力

多模态理解(Multimodal Understanding)

数据构建

理解类任务根据视觉输入类型划分为三类:

- SIPU(单图感知与理解):评估图文对的理解能力。
- MITIU(多图/图文交叉理解):评估模型处理多张图和交替图文输入的能力。
- VPU(视频感知与理解):评估模型的视频理解能力。

共收集1900个样本,覆盖OCR、图表解析、空间感知、属性/行为推理等24种任务,其中感知类任务1600条,推理类任务300条,每类子任务不少于50对 QA 样本。

QA 标准化转化

为统一评估标准,所有理解类任务转为四选一多选题,干扰项与正确选项语义接近;无法处理视频的模型则使用关键帧,单图模型取首图。

评估策略

采用规则匹配法过滤答案(如 MME-Realworld),并随机打乱选项顺序以避免位置偏差。最终以平均准确率评估理解能力。

2.2 多模态生成(Multimodal Generation)

任务类型(6类)

1. FIR:图像细节重建
2. TIE:文本指导图像编辑
3. TIG:文本生成图像
4. CIVG:图像+文本生成视频
5. TVG:文本生成视频
6. VP:视频预测(预测后续帧)

每类任务不少于 200 个样本,数据来源包括 COCO、MSR-VTT、Pexel 等。

数据标准化流程

- 属性统一:将 30 多种属性统一为 Text Prompt、Src Image、Ref Image、Video 等。
- 任务专属提示语:为每类生成任务设计 prompt 模板,并统一数据格式。

评估策略

2.3 统一任务能力(Unify Capability)

MME-Unify 精心设计了5类混合模态统一任务,每类任务包括文本与图像双重输入输出,体现 U-MLLMs 的综合处理能力:

1. 常识问答生成图像(CSQ)

2. 图像编辑与解释(IEE)

3. 找不同任务(SpotDiff)

4. 几何题辅助线任务(Auxiliary Lines)

5. 视觉链式推理(Visual CoT)

统一任务评估策略

用 CLIP-T 相似度判断模型生成解释与正确选项的接近程度;或直接选择选项。

用 CLIP-I 计算生成图与选项图像的相似度,选出最高者。

acc 与 acc+:

acc:文本准确率与图像准确率的平均值;
acc+:文本和图像都答对的样本占比;

对于 Visual CoT,则分别统计动作、坐标、图像的 acc,再取平均。

最终,MME-U 总得分为理解分 + 生成分 + 统一任务分的平均值,构成系统的、全面的模型评估体系。

有趣的实验发现总结

本文对多模态大模型(MLLMs)和统一多模态大模型(U-MLLMs)进行了系统性评测,总共涵盖了22个主流模型。研究重点集中在三个维度:理解能力(Understanding)生成能力(Generation)以及统一能力(Unify Capability)。评估采用MME-U评分体系,并包含多个细粒度子任务。以下为实验中的关键发现与亮点总结:





理解能力方面

生成能力方面





统一能力方面(Unify Tasks)

深入分析与趋势观察





例如,MiniGPT-5、GILL、Anole 在统一任务设计上更激进,但牺牲了基础理解与生成能力,导致整体分数偏低。

而如MIO-Instruct虽然在基础能力上表现优秀,但在图文交错生成的统一任务中表现不佳。

这种表现差异提示:现有训练范式未能有效整合基础任务与跨模态任务的学习目标,可能需要重新设计对齐策略或任务混合训练流程。

总结

整体来看,U-MLLMs虽然展示了多模态统一任务的潜力,但距离实际可用仍有明显距离。特别是在如何协调理解与生成、单步与多步、图文协同等维度,仍存在诸多技术挑战。MME-Unify提供了一套系统性测评框架,并量化了主流模型的能力上限,为未来模型设计提供了清晰参照与方向指引。

项目地址:

https://mme-unify.github.io


来源:网易


时间:  2025-4-10 19:18
作者: 不吹不黑

超越了哦!




通信人家园 (https://www.txrjy.com/) Powered by C114