通信人家园

 找回密码
 注册

只需一步,快速开始

短信验证,便捷登录

搜索

军衔等级:

  大元帅

注册:2007-12-102402
跳转到指定楼层
1#
发表于 2026-1-14 11:20:42 |只看该作者 |倒序浏览
1 月 14 日消息,智谱今日宣布联合华为开源新一代图像生成模型 GLM-Image,模型基于昇腾 Atlas 800T A2 设备和昇思 MindSpore AI 框架完成从数据到训练的全流程,是首个在国产芯片上完成全程训练的 SOTA 多模态模型

GLM-Image 采用自主创新的“自回归 + 扩散解码器”混合架构,实现了图像生成与语言模型的联合。


IT之家附 GLM-Image 核心亮点如下:


  • 架构革新,面向“认知型生成”的技术探索:采用“自回归 + 扩散编码器”混合架构,兼顾全局指令理解与局部细节刻画,克服了海报、PPT、科普图等知识密集型场景生成难题,向探索以 Nano Banana Pro 为代表的新一代“知识 + 推理”的认知型生成模型迈出一步。
  • 首个在国产芯片完成全程训练的 SOTA 模型:模型自回归结构基座基于昇腾 Atlas 800T A2 设备与昇思 MindSpore AI 框架,完成了从数据预处理到大规模训练的全流程构建,验证了在国产全栈算力底座上训练前沿模型的可行性。
  • 文字渲染开源 SOTA:在 CVTG-2K(复杂视觉文本生成)和 LongText-Bench(长文本渲染)榜单获得开源第一,尤其擅长汉字生成任务
  • 性价比与速度优化:API 调用模式下,生成一张图片花费 0.1 元,速度优化版本即将更新。

据智谱官方介绍,通过改进 Tokenizer 策略,GLM-Image 能够自适应处理多种分辨率,原生支持从 1024x1024 到 2048×2048 尺寸的任意比例图像的生成任务,无需重新训练。


GLM-Image 在文字渲染的权威榜单中达到开源 SOTA 水平。



举报本楼

本帖有 1 个回帖,您需要登录后才能浏览 登录 | 注册
您需要登录后才可以回帖 登录 | 注册 |

版规|手机版|C114 ( 沪ICP备12002291号-1 )|联系我们 |网站地图  

GMT+8, 2026-1-14 18:58 , Processed in 0.109098 second(s), 16 queries , Gzip On.

Copyright © 1999-2025 C114 All Rights Reserved

Discuz Licensed

回顶部