通信人家园
标题: 华为宣布开源盘古7B稠密和72B混合专家模型 [查看完整版帖子] [打印本页]
时间: 2025-7-1 10:11
作者: coffee198375
标题: 华为宣布开源盘古7B稠密和72B混合专家模型
[中国,深圳,2025年6月30日] 今日,华为正式宣布开源盘古70亿参数的稠密模型、盘古Pro MoE 720亿参数的混合专家模型和基于昇腾的模型推理技术。
此举是华为践行昇腾生态战略的又一关键举措,推动大模型技术的研究与创新发展,加速推进人工智能在千行百业的应用与价值创造。
- 盘古Pro MoE 72B模型权重、基础推理代码,已正式上线开源平台。
- 基于昇腾的超大规模MoE模型推理代码,已正式上线开源平台。
- 盘古7B相关模型权重与推理代码将于近期上线开源平台。
时间: 2025-7-1 10:17
作者: lhxcyz
本帖最后由 lhxcyz 于 2025-7-1 10:20 编辑
猜一下,会不会又有公司“自研”大模型突飞猛进,可以运行在昇腾上,可以对标华为盘古的呢?
时间: 2025-7-1 10:45
作者: 客家人
没有deepseek好
时间: 2025-7-1 11:03
作者: 狼人克星
客家人 发表于 2025-7-1 10:45
没有deepseek好
定位都不一样,客总要多学习
时间: 2025-7-1 11:44
作者: coffee198375
客家人 发表于 2025-7-1 10:45 
没有deepseek好
客总还会用盘古?叛变了吗。。。。
时间: 2025-7-1 11:45
作者: coffee198375
其实都是为了助推昇腾系列。。。。
时间: 2025-7-1 13:50
作者: 不吹不黑
coffee198375 发表于 2025-07-01 11:45:09
其实都是为了助推昇腾系列。。。。
时间: 2025-7-1 13:51
作者: 不吹不黑
这个东西,只有大厂玩的转
时间: 2025-7-1 18:12
作者: Vladimir_lenin
这些东西凸显了該科技的尬.
大厂不会用这个东西,自研的产品香的很,也不缺这些技术栈;
小厂用不着这些东西,业务量支持不了这么高的成本;
运营商用不着这些东西,本身业务就走下坡路;
公用服务商用这些东西粉饰倒可以;
但是运营商要用这些东西,因为他们是大头
时间: 2025-7-1 18:27
作者: axuan
会不会是座屎山
时间: 2025-7-1 20:05
作者: lovexioy
lhxcyz 发表于 2025-7-1 10:17 
猜一下,会不会又有公司“自研”大模型突飞猛进,可以运行在昇腾上,可以对标华为盘古的呢?
很有可能
时间: 2025-7-1 22:57
作者: coffee198375
Vladimir_lenin 发表于 2025-7-1 18:12 
这些东西凸显了該科技的尬.
大厂不会用这个东西,自研的产品香的很,也不缺这些技术栈;
小厂用不着这些东 ...
蛙总都这么牛叉帮客户做主了,自己开了几个公司呀。。。。
时间: 2025-7-5 09:28
作者: michaelfang0116
最新消息, 涉嫌抄袭
时间: 2025-7-5 13:37
作者: Vladimir_lenin
michaelfang0116 发表于 2025-7-5 09:28
最新消息, 涉嫌抄袭
这不是那司的基本操作么?别人不开源,就是被卡脖子,一开源就说自己谣谣领先
时间: 2025-7-5 17:17
作者: SOHU2021
使用LLaMA和qwen的开源组件,遵循了开源规范,社区鼓励,不是抄袭
属于在别人的基础上借鉴 哈哈哈哈哈
时间: 2025-7-6 18:04
作者: SOHU2021
经过内部的分析,他们实际上是使用Qwen 1.5 110B续训而来,通过加层,扩增ffn维度,添加盘古pi论文的一些机制得来,凑够了大概135B的参数。实际上,旧的135B有107层,而这个模型只有82层,各种配置也都不一样。新的来路不明的135B训练完很多参数的分布也和Qwen 110B几乎一模一样。连模型代码的类名当时都是Qwen,甚至懒得改名。后续这个模型就是所谓的135B V2。而这个模型当时也提供给了很多下游,甚至包括外部客户。
内部人披露的 不知真假 要专业人士自己去分析
时间: 2025-7-6 18:15
作者: coffee198375
Vladimir_lenin 发表于 2025-7-5 13:37 
这不是那司的基本操作么?别人不开源,就是被卡脖子,一开源就说自己谣谣领先
您的基操这样倒是没错。。。。
时间: 2025-7-6 18:16
作者: coffee198375
michaelfang0116 发表于 2025-7-5 09:28 
最新消息, 涉嫌抄袭
自媒体的话。。。。
时间: 2025-7-6 18:16
作者: coffee198375
SOHU2021 发表于 2025-7-5 17:17 
使用LLaMA和qwen的开源组件,遵循了开源规范,社区鼓励,不是抄袭
冷嘲热讽没啥用。。。。
时间: 2025-7-6 18:17
作者: coffee198375
SOHU2021 发表于 2025-7-6 18:04 
经过内部的分析,他们实际上是使用Qwen 1.5 110B续训而来,通过加层,扩增ffn维度,添加盘古pi论文的一些机 ...
瞎猜的多了去了。。。。
时间: 2025-7-6 20:16
作者: 客家人
本帖最后由 客家人 于 2025-7-6 20:16 编辑
coffee198375 发表于 2025-7-6 18:17
瞎猜的多了去了。。。。
内部人员都曝光了,pangu大模型是抄袭的
时间: 2025-7-8 15:51
作者: coffee198375
客家人 发表于 2025-7-6 20:16 
内部人员都曝光了,pangu大模型是抄袭的
哪个内部人员?谁定性了?客总抄袭的还少嘛。。。。
时间: 2025-7-8 16:07
作者: 客家人
coffee198375 发表于 2025-7-8 15:51 
哪个内部人员?谁定性了?客总抄袭的还少嘛。。。。
内部人员都开始撕逼和爆料了!有好戏看
时间: 2025-7-9 16:36
作者: coffee198375
客家人 发表于 2025-7-8 16:07 
内部人员都开始撕逼和爆料了!有好戏看
客总再high一点,让我们看看好戏。。。。
时间: 2025-7-13 04:37
作者: pwgate
开源的目的就是给别人抄的
时间: 2025-7-13 07:26
作者: 客家人
pwgate 发表于 2025-7-13 04:37
开源的目的就是给别人抄的
那就不要宣传是自研
时间: 2025-7-13 15:33
作者: coffee198375
客家人 发表于 2025-7-13 07:26 
那就不要宣传是自研
客总把菊花买下来。。。。
通信人家园 (https://www.txrjy.com/) |
Powered by C114 |