热门推荐
-
浏览20
-
浏览18 评论1
-
浏览17
-
浏览15
Deepseek 开源周第三日的开源项目,DeepGEMM 是一个专为高效 FP8 通用矩阵乘法 (GEMM) 设计的库,支持密集型和混合专家 (MoE) GEMM。它用约 300 行核心代码,将 NVIDIA H800 的计算性能提升至 2.7 倍,帮助训练和推理模型实现更高效率。
DeepGEMM 的核心特点包括:
我们在 NVIDIA H800 上测试了 DeepGEMM 的性能,结果如下:
M | N | K | 计算 (TFLOPS) | 内存带宽 (GB/秒) | 加速倍数 |
---|---|---|---|---|---|
64 | 2112 | 7168 | 206 | 1688 | 2.7x |
64 | 24576 | 1536 | 289 | 2455 | 1.7x |
128 | 2112 | 7168 | 352 | 1509 | 2.4x |
4096 | 2112 | 7168 | 1058 | 527 | 1.1x |
DeepGEMM 支持两种 MoE 布局:连续布局和掩码布局。以下是测试结果:
#群组 | 每组 M | N | K | 计算 (TFLOPS) | 内存带宽 (GB/秒) | 加速倍数 |
---|---|---|---|---|---|---|
4 | 8192 | 4096 | 7168 | 1297 | 418 | 1.2x |
8 | 4096 | 4096 | 7168 | 1288 | 494 | 1.2x |
#群组 | 每组 M | N | K | 计算 (TFLOPS) | 内存带宽 (GB/秒) | 加速倍数 |
---|---|---|---|---|---|---|
1 | 1024 | 4096 | 7168 | 1233 | 924 | 1.2x |
2 | 512 | 4096 | 7168 | 1040 | 1288 | 1.2x |
要使用 DeepGEMM,您需要以下环境:
有关更多详细信息,请参阅GitHub 项目页面。
本站内容依据 知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议 授权发布。
▎资源使用免责声明:
▎侵权处理:如发现本站存在侵权内容,请在下方留言反馈,我们会尽快处理。