国内首个千亿级MoE架构大模型开源

今天,APUS与新旦智能联合训练、研发的千亿MoE(Mixture of Experts)架构大模型,在GitHub上正式开源,该模型可以在低端算力芯片4090上运行,综合性能达到了GPT-4 的90%。APUS-xDAN大模型4.0(MoE)采用GPT4类似的MoE架构,特点是多专家模型组合,同时激活使用只有2个子模块,实际运行效率对比传统Dense同尺寸模型效率提升200%,推理成本下降400%。

原文连接

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索
error: 您点击的内容受到保护~