通信人家园

 找回密码
 注册

只需一步,快速开始

短信验证,便捷登录

搜索

军衔等级:

  新兵

注册:2024-5-12
跳转到指定楼层
1#
发表于 2025-10-17 09:34:48 |只看该作者 |倒序浏览
这次重点都在GPU上了,提升确实很大,主要是作为补全了rt和tensor两项feature的第一代apple GPU,某种意义上来说这就是apple的RTX时代首先是这次最重头的果版Tensor Core的Neural Accelerators,继nv,amd和intel之后,aPPLE终于在GPU中集成了matrix加速单元。不过很遗憾苹果并没有公布算力,甚至没有开发布会,所以一切只能结合A19P的介绍来猜
Neural Accelerators这里的苹果自己的例子用了首个词源相应速度,说的应该是是ttft,也就是prefill阶段的性能。我觉得还是比较厚道老实的,作为计算密集场景,相比于IO密集的decoding阶段更能反应GPU的算力算力,不然如果用decoding阶段的性能,那就没法看了。重点还是看和M4的提升,底下小字写的是用的是FP16精度,也就是并没有使用8位甚至4位的低精度来取巧,所以也就不存在所谓的fp16性能位2x,fp8性能为4x这种纯降精度提升的把戏所以M5相比M4在规模不变的情况下,在这一项性能为M4的3.5+x,和发布会上A19P相比前代的的4X峰值性能提升基本吻合。参考A19P的Vector部分,双倍的FP16的峰值性能也就是2x的性能,这一项基本可以确定是Neural Accelerators贡献的。从这个角度来说,M5的作为第一代具有Neural Accelerators的GPU,算是中规中矩的,4x的算力,相比纯vector的GPU提升明显,但是并不像nv/intel这几代那样激进,并且支持的精度也没有非常多(甚至还在fp16),颇有点turing那代的感觉,有点试水的意思。150GB带宽(128bit-9600)M5的Neural Accelerators的峰值算力我猜也就是20T FP16左右,大约各家初代tensor core的水平,在这个时间点算不上高,相比150GB带宽(128bit-9600)的PTL的120T的FP8 ,270GB带宽(256bit-8500)的GB10的1000T FP4算力,至少看起来不是那么拿得出手,所以也能理解苹果为啥对于算力闭口不提了。M5甚至M5P的iGPU算力大概率都不如NPU,但是通用性和易用性上会好很多。这也缓解了i/a/n的SoC跑llm卡io,果硅卡算力的尴尬局面
至于光追这块,苹果说是M5是自家三代光追,同理还是比较M4,1.7x的性能对于一个一年时间的架构升级来说,提升还是比较恐怖的。参考blender benchmark,苹果从M1开始几乎每代都会有接近2x的离线渲染性能的提升,这个升级速度甚至比老黄在RTX时期还快得多(而且老黄是两年一更新) 从这点也能看出,能看得出苹果一直在完善GPU的corner case,离线渲染这块从刚开始的不入流到一路紧逼老黄,作为所谓的“生产力工具”,果硅在单纯的性能层面已经是逐渐可用了,结合统一内存的容量优势,在某些方面可能还更有优势。参考M4系列的性能,估计M5M和M5U是唯一能挤到Blender benchmark第一页的非nVidia设备(a就不说了,7900xtx一个384bit的旗舰大核心,没跑过残血M4M和移动版RTX 4000 Ada,个位数优势领先5060ti,真的是拉完了,intel更是前四页都查无此人)
游戏,Gaming的测试大陆官方没有,绷游戏,规模不变工艺小优化的情况下,1.44x性能(虽然2077应该是最拿得出手的一个),参考A19P,应该在功耗小幅度上涨的情况下,能有个综合30%以的提升,这个没啥好说的,提升不小,不过苹果本身比起N家的架构起步是有差距的,所以进步大也是正常。也建议天天刷轻度负载的高通好好学学,别整天在那儿刷手机benchmark,X Elite一跑3A直接露馅
多核编译比较接近多核性能,反正CPU和内存带宽都是规模不变的情况下25%左右的提升,参考A19P,Die Size不仅没变大还缩了,这一代在架构上还是下了功夫的(反面案例就是热衷刷分的联发科,一个mobile soc已经快和桌面soc差不多大了)。老实说intel史诗级提升的adl在die size大涨的情况下,也就差不多就这个性能提升,不过这些相比本代GPU的提升,那就不足为奇了。
综上,M5只是开胃菜,之后M5P和M5M才是重头戏,至于M5U,更是能在端侧给老黄压力的东西。还是很高兴,在整个社区拿着果硅两位数算力的纯vector gpu硬跑了四年的大模型之后,苹果终于开始了重视起算力了,也算是能给老黄一点压力。老黄这两年的日子过的还是太好了,一个256bit位宽,273GB带宽,M4 Pro级别的DGX Spark都能卖到3W+,属于是脸都不要了

举报本楼

本帖有 1 个回帖,您需要登录后才能浏览 登录 | 注册
您需要登录后才可以回帖 登录 | 注册 |

版规|手机版|C114 ( 沪ICP备12002291号-1 )|联系我们 |网站地图  

GMT+8, 2025-10-18 23:39 , Processed in 0.088479 second(s), 15 queries , Gzip On.

Copyright © 1999-2025 C114 All Rights Reserved

Discuz Licensed

回顶部