蚂蚁集团Ling团队发表技术成果论文,推出两款不同规模的MoE大语言模型,以及该模型在使用国产GPU进行训练时展现出的优异性能和技术创新。
财联社3月24日消息,近日蚂蚁集团Ling团队发布了一篇技术成果论文。从论文中我们可以了解到,蚂蚁集团成功推出了两款不同规模的MoE大语言模型,它们分别是百灵轻量版(Ling – Lite)和百灵增强版(Ling – Plus)。
这两款模型在参数规模上有着明显的差异。其中,百灵轻量版的参数规模为168亿,激活参数是27.5亿;而百灵增强版的基座模型参数规模则高达2900亿,激活参数达到288亿。令人瞩目的是,这两款模型的性能均处于行业领先水平。
除了拥有自研的高性能大模型之外,这篇技术论文还有一大亮点,即提出了一系列创新方法。这些方法的主要目的是提升在资源受限环境下AI开发的效率与可及性。通过相关实验表明,蚂蚁集团3000亿参数的MoE(混合专家)大模型能够在使用国产GPU的低性能设备上完成高效训练。而且,其训练后的性能与完全使用英伟达芯片、同规模的稠密模型及MoE模型不相上下。
本文介绍了蚂蚁集团推出的两款MoE大语言模型百灵轻量版和百灵增强版,其性能达行业领先。同时重点突出了论文提出的创新方法,使得3000亿参数的MoE大模型能用国产GPU低性能设备高效训练,且性能与使用英伟达芯片相当,展现了蚂蚁集团在大模型领域的技术实力和创新成果。
原创文章,作者:marjorie,如若转载,请注明出处:https://www.lingtongdata.com/4163.html