AMD GPU性能暴涨7倍,优化算法首次开源!高效MoE支持任意专家数量
新智元报道编辑:LRST【新智元导读】通过完全启用并发多块执行,支持任意专家数量(MAX_EXPERT_NUMBER==256),并积极利用共享内存(5kB LDS)和寄存器(52 VGPRs,48 SGPRs),MoE Align
10小时前00
新智元报道编辑:LRST【新智元导读】通过完全启用并发多块执行,支持任意专家数量(MAX_EXPERT_NUMBER==256),并积极利用共享内存(5kB LDS)和寄存器(52 VGPRs,48 SGPRs),MoE Align