通过以上配置和优化,MoE架构可以实现相比传统密集模型3-4倍的效率提升,同时保持甚至超越其性能表现。 其实很多人都不知道MoE架构是什么? 二、MOE模型的现状 1. 深度学习推动MOE模型的复兴 随着深度学习的兴起,尤其是大规模神经网络模型的发展,MOE模型再次受到关注。 深度学习模型的规模和复杂性日益增加,训练和推理的计算成本也不断攀升,如何有效利用计算资源成为一个关键问题。 MoE(专家混合)架构就像个高手云集的团队,每个专家都有自己的拿手好戏。 当有任务进来时,系统会根据任务的特点,动态地把它分配给最适合的专家,这就是所谓的“动态路由”。 那为啥这种“动态路由”能训练出来呢?
About | JSMNZXR
MoE允许我们训练数万亿参数的模型,比如开源的1.6T参数的Switch Transformer,除了NLP之外,MoE也可以用在计算机视觉领域。 什么是稀疏性? 稀疏性使用了条件计算的思想,每次只激活部分参数。 MoE就使用了这个思想。 但是这就带来一个问题, 如何平衡各个专家呢?
2021年的V-MoE将MoE架构应用在计算机视觉领域的Transformer架构模型中,同时通过路由算法的改进在相关任务中实现了更高的训练效率和更优秀的性能表现; 2022年的LIMoE是首个应用了稀疏混合专家模型技术的多模态模型,模型性能相较于CLIP 也有所提升。
第二部分,介绍以Gshard为代表的MoE模型架构。 如果你不想了解MoE分布式训练,只想知道MoE模型长什么样,是如何运作的,可以只看这部分 第三部分,介绍MoE并行训练中的分布式初始化。 阅读本章需要对Megatron混合并行原理和Megatron源码架构有了解。 MoE模型本身也并不是一个全新的概念,它的理论基础可以追溯到1991年由MichaelJordan和GeoffreyHinton等人提出的论文,距今已经有30多年的历史,但至今依然在被广泛应用的技术。 MoE模型利用稀疏性特点,加快了大模型训练和推理的速度。 但是由于路由器倾向于激活主要的几个专家,导致每个专家被分配的token不均衡,主流解决方案集中在优化路由器分配策略,负载均衡损失和变长的批量计算。