通信人家园

标题: 华为宣布开源盘古7B稠密和72B混合专家模型 [查看完整版帖子] [打印本页]

时间: 2025-7-1 10:11

作者: coffee198375 标题: 华为宣布开源盘古7B稠密和72B混合专家模型

[中国，深圳，2025年6月30日] 今日，华为正式宣布开源盘古70亿参数的稠密模型、盘古Pro MoE 720亿参数的混合专家模型和基于昇腾的模型推理技术。

此举是华为践行昇腾生态战略的又一关键举措，推动大模型技术的研究与创新发展，加速推进人工智能在千行百业的应用与价值创造。

盘古Pro MoE 72B模型权重、基础推理代码，已正式上线开源平台。
基于昇腾的超大规模MoE模型推理代码，已正式上线开源平台。
盘古7B相关模型权重与推理代码将于近期上线开源平台。

时间: 2025-7-1 10:17

作者: lhxcyz

本帖最后由 lhxcyz 于 2025-7-1 10:20 编辑

猜一下，会不会又有公司“自研”大模型突飞猛进，可以运行在昇腾上，可以对标华为盘古的呢？

时间: 2025-7-1 10:45

作者: 客家人

没有deepseek好

时间: 2025-7-1 11:03

作者: 狼人克星

客家人发表于 2025-7-1 10:45
没有deepseek好

定位都不一样，客总要多学习

时间: 2025-7-1 11:44

作者: coffee198375

客家人发表于 2025-7-1 10:45
没有deepseek好

客总还会用盘古？叛变了吗。。。。

时间: 2025-7-1 11:45

作者: coffee198375

其实都是为了助推昇腾系列。。。。

时间: 2025-7-1 13:50

作者: 不吹不黑

coffee198375 发表于 2025-07-01 11:45:09 其实都是为了助推昇腾系列。。。。

时间: 2025-7-1 13:51

作者: 不吹不黑

这个东西，只有大厂玩的转

时间: 2025-7-1 18:12

作者: Vladimir_lenin

这些东西凸显了該科技的尬.
大厂不会用这个东西，自研的产品香的很，也不缺这些技术栈；
小厂用不着这些东西，业务量支持不了这么高的成本；
运营商用不着这些东西，本身业务就走下坡路；
公用服务商用这些东西粉饰倒可以；
但是运营商要用这些东西,因为他们是大头

时间: 2025-7-1 18:27

作者: axuan

会不会是座屎山

时间: 2025-7-1 20:05

作者: lovexioy

lhxcyz 发表于 2025-7-1 10:17
猜一下，会不会又有公司“自研”大模型突飞猛进，可以运行在昇腾上，可以对标华为盘古的呢？

很有可能

时间: 2025-7-1 22:57

作者: coffee198375

Vladimir_lenin 发表于 2025-7-1 18:12
这些东西凸显了該科技的尬.
大厂不会用这个东西，自研的产品香的很，也不缺这些技术栈；
小厂用不着这些东 ...

蛙总都这么牛叉帮客户做主了，自己开了几个公司呀。。。。

时间: 2025-7-5 09:28

作者: michaelfang0116

最新消息，涉嫌抄袭

时间: 2025-7-5 13:37

作者: Vladimir_lenin

michaelfang0116 发表于 2025-7-5 09:28
最新消息，涉嫌抄袭

这不是那司的基本操作么？别人不开源，就是被卡脖子，一开源就说自己谣谣领先

时间: 2025-7-5 17:17

作者: SOHU2021

使用LLaMA和qwen的开源组件，遵循了开源规范，社区鼓励，不是抄袭

属于在别人的基础上借鉴哈哈哈哈哈

时间: 2025-7-6 18:04

作者: SOHU2021

经过内部的分析，他们实际上是使用Qwen 1.5 110B续训而来，通过加层，扩增ffn维度，添加盘古pi论文的一些机制得来，凑够了大概135B的参数。实际上，旧的135B有107层，而这个模型只有82层，各种配置也都不一样。新的来路不明的135B训练完很多参数的分布也和Qwen 110B几乎一模一样。连模型代码的类名当时都是Qwen，甚至懒得改名。后续这个模型就是所谓的135B V2。而这个模型当时也提供给了很多下游，甚至包括外部客户。

内部人披露的不知真假要专业人士自己去分析

时间: 2025-7-6 18:15

作者: coffee198375

Vladimir_lenin 发表于 2025-7-5 13:37
这不是那司的基本操作么？别人不开源，就是被卡脖子，一开源就说自己谣谣领先

您的基操这样倒是没错。。。。

时间: 2025-7-6 18:16

作者: coffee198375

michaelfang0116 发表于 2025-7-5 09:28
最新消息，涉嫌抄袭

自媒体的话。。。。

时间: 2025-7-6 18:16

作者: coffee198375

SOHU2021 发表于 2025-7-5 17:17
使用LLaMA和qwen的开源组件，遵循了开源规范，社区鼓励，不是抄袭

冷嘲热讽没啥用。。。。

时间: 2025-7-6 18:17

作者: coffee198375

SOHU2021 发表于 2025-7-6 18:04
经过内部的分析，他们实际上是使用Qwen 1.5 110B续训而来，通过加层，扩增ffn维度，添加盘古pi论文的一些机 ...

瞎猜的多了去了。。。。

时间: 2025-7-6 20:16

作者: 客家人

本帖最后由客家人于 2025-7-6 20:16 编辑

coffee198375 发表于 2025-7-6 18:17
瞎猜的多了去了。。。。

内部人员都曝光了，pangu大模型是抄袭的

时间: 2025-7-8 15:51

作者: coffee198375

客家人发表于 2025-7-6 20:16
内部人员都曝光了，pangu大模型是抄袭的

哪个内部人员？谁定性了？客总抄袭的还少嘛。。。。

时间: 2025-7-8 16:07

作者: 客家人

coffee198375 发表于 2025-7-8 15:51
哪个内部人员？谁定性了？客总抄袭的还少嘛。。。。

内部人员都开始撕逼和爆料了！有好戏看

时间: 2025-7-9 16:36

作者: coffee198375

客家人发表于 2025-7-8 16:07
内部人员都开始撕逼和爆料了！有好戏看

客总再high一点，让我们看看好戏。。。。

时间: 2025-7-13 04:37

作者: pwgate

开源的目的就是给别人抄的

时间: 2025-7-13 07:26

作者: 客家人

pwgate 发表于 2025-7-13 04:37
开源的目的就是给别人抄的

那就不要宣传是自研

时间: 2025-7-13 15:33

作者: coffee198375

客家人发表于 2025-7-13 07:26
那就不要宣传是自研

客总把菊花买下来。。。。

通信人家园 (https://www.txrjy.com/)