通信人家园

标题: 华为宣布开源盘古7B稠密和72B混合专家模型  [查看完整版帖子] [打印本页]

时间:  2025-7-1 10:11
作者: coffee198375     标题: 华为宣布开源盘古7B稠密和72B混合专家模型

[中国,深圳,2025年6月30日] 今日,华为正式宣布开源盘古70亿参数的稠密模型、盘古Pro MoE 720亿参数的混合专家模型和基于昇腾的模型推理技术。

此举是华为践行昇腾生态战略的又一关键举措,推动大模型技术的研究与创新发展,加速推进人工智能在千行百业的应用与价值创造。



时间:  2025-7-1 10:17
作者: lhxcyz

本帖最后由 lhxcyz 于 2025-7-1 10:20 编辑

猜一下,会不会又有公司“自研”大模型突飞猛进,可以运行在昇腾上,可以对标华为盘古的呢?
时间:  2025-7-1 10:45
作者: 客家人

   没有deepseek好
时间:  2025-7-1 11:03
作者: 狼人克星

客家人 发表于 2025-7-1 10:45
没有deepseek好

定位都不一样,客总要多学习
时间:  2025-7-1 11:44
作者: coffee198375

客家人 发表于 2025-7-1 10:45
没有deepseek好

客总还会用盘古?叛变了吗。。。。
时间:  2025-7-1 11:45
作者: coffee198375

其实都是为了助推昇腾系列。。。。
时间:  2025-7-1 13:50
作者: 不吹不黑

coffee198375 发表于 2025-07-01 11:45:09 其实都是为了助推昇腾系列。。。。


时间:  2025-7-1 13:51
作者: 不吹不黑

这个东西,只有大厂玩的转
时间:  2025-7-1 18:12
作者: Vladimir_lenin

这些东西凸显了該科技的尬.
大厂不会用这个东西,自研的产品香的很,也不缺这些技术栈;
小厂用不着这些东西,业务量支持不了这么高的成本;
运营商用不着这些东西,本身业务就走下坡路;
公用服务商用这些东西粉饰倒可以;
但是运营商要用这些东西,因为他们是大头

时间:  2025-7-1 18:27
作者: axuan

会不会是座屎山
时间:  2025-7-1 20:05
作者: lovexioy

lhxcyz 发表于 2025-7-1 10:17
猜一下,会不会又有公司“自研”大模型突飞猛进,可以运行在昇腾上,可以对标华为盘古的呢?

很有可能
时间:  2025-7-1 22:57
作者: coffee198375

Vladimir_lenin 发表于 2025-7-1 18:12
这些东西凸显了該科技的尬.
大厂不会用这个东西,自研的产品香的很,也不缺这些技术栈;
小厂用不着这些东 ...

蛙总都这么牛叉帮客户做主了,自己开了几个公司呀。。。。
时间:  2025-7-5 09:28
作者: michaelfang0116

最新消息, 涉嫌抄袭
时间:  2025-7-5 13:37
作者: Vladimir_lenin

michaelfang0116 发表于 2025-7-5 09:28
最新消息, 涉嫌抄袭

这不是那司的基本操作么?别人不开源,就是被卡脖子,一开源就说自己谣谣领先
时间:  2025-7-5 17:17
作者: SOHU2021

使用LLaMA和qwen的开源组件,遵循了开源规范,社区鼓励,不是抄袭


属于在别人的基础上借鉴 哈哈哈哈哈
时间:  2025-7-6 18:04
作者: SOHU2021

经过内部的分析,他们实际上是使用Qwen 1.5 110B续训而来,通过加层,扩增ffn维度,添加盘古pi论文的一些机制得来,凑够了大概135B的参数。实际上,旧的135B有107层,而这个模型只有82层,各种配置也都不一样。新的来路不明的135B训练完很多参数的分布也和Qwen 110B几乎一模一样。连模型代码的类名当时都是Qwen,甚至懒得改名。后续这个模型就是所谓的135B V2。而这个模型当时也提供给了很多下游,甚至包括外部客户。


内部人披露的  不知真假 要专业人士自己去分析
时间:  2025-7-6 18:15
作者: coffee198375

Vladimir_lenin 发表于 2025-7-5 13:37
这不是那司的基本操作么?别人不开源,就是被卡脖子,一开源就说自己谣谣领先

您的基操这样倒是没错。。。。
时间:  2025-7-6 18:16
作者: coffee198375

michaelfang0116 发表于 2025-7-5 09:28
最新消息, 涉嫌抄袭

自媒体的话。。。。
时间:  2025-7-6 18:16
作者: coffee198375

SOHU2021 发表于 2025-7-5 17:17
使用LLaMA和qwen的开源组件,遵循了开源规范,社区鼓励,不是抄袭

冷嘲热讽没啥用。。。。
时间:  2025-7-6 18:17
作者: coffee198375

SOHU2021 发表于 2025-7-6 18:04
经过内部的分析,他们实际上是使用Qwen 1.5 110B续训而来,通过加层,扩增ffn维度,添加盘古pi论文的一些机 ...

瞎猜的多了去了。。。。
时间:  2025-7-6 20:16
作者: 客家人

本帖最后由 客家人 于 2025-7-6 20:16 编辑
coffee198375 发表于 2025-7-6 18:17
瞎猜的多了去了。。。。

  内部人员都曝光了,pangu大模型是抄袭的
时间:  2025-7-8 15:51
作者: coffee198375

客家人 发表于 2025-7-6 20:16
内部人员都曝光了,pangu大模型是抄袭的

哪个内部人员?谁定性了?客总抄袭的还少嘛。。。。
时间:  2025-7-8 16:07
作者: 客家人

coffee198375 发表于 2025-7-8 15:51
哪个内部人员?谁定性了?客总抄袭的还少嘛。。。。

   内部人员都开始撕逼和爆料了!有好戏看
时间:  2025-7-9 16:36
作者: coffee198375

客家人 发表于 2025-7-8 16:07
内部人员都开始撕逼和爆料了!有好戏看

客总再high一点,让我们看看好戏。。。。
时间:  2025-7-13 04:37
作者: pwgate

开源的目的就是给别人抄的
时间:  2025-7-13 07:26
作者: 客家人

pwgate 发表于 2025-7-13 04:37
开源的目的就是给别人抄的

   那就不要宣传是自研
时间:  2025-7-13 15:33
作者: coffee198375

客家人 发表于 2025-7-13 07:26
那就不要宣传是自研

客总把菊花买下来。。。。




通信人家园 (https://www.txrjy.com/) Powered by C114