加速 AI 与图形处理性能
ASUS 是 NVIDIA OVX 服务器系统的指定供货商,也是经验丰富且值得信赖的 AI 解决方案供货商,能利用其专业知识和能力消除技术鸿沟,为客户提供优化解决方案。
ASUS 是 NVIDIA OVX 服务器系统的指定供货商,也是经验丰富且值得信赖的 AI 解决方案供货商,能利用其专业知识和能力消除技术鸿沟,为客户提供优化解决方案。
较短的交货期
性能比 A100 高出 2 倍
强大的 AI 与图形处理
微调 LLM
4 小时
GPT-175B 860M Tokens
LLM 推论
1.1 倍
与 HGX A100 性能比较
AI 推论
1.5 倍
与 A100 80GM SXM2 性能比较
L40S | A100 80GB SXM | |
---|---|---|
适合用于 | 生成式 AI 的通用 GPU | 最高性能的多节点 AI |
GPU 架构 | NVIDIA Ada Lovelace | NVIDIA Ampere |
FP64 | 不适用 | 9.7 TFLOPS |
FP32 | 91.6 TFLOPS | 19.5 TFLOPS |
RT 核心 | 212 TFLOPS | 不适用 |
TF32 Tensor 核心 | 366 TFLOPS | 312 TFLOPS |
FP16/BF16 Tensor 核心 | 733 TFLOPS | 624 TFLOPS |
FP8 Tensor 核心 | 1466 TFLOPS | 不适用 |
INT8 Tensor 核心 | 1466 TOPS | 1248 TFLOPS |
GPU 内存 | 48 GB GDDR6 | 80 GB HBM2e |
GPU 内存带宽 | 864 GB/s | 2039 GB/s |
L2 缓存 | 96 MB | 40 MB |
媒体引擎 | 3 NVENC (+AV1) 3 NVDEC 4 NVJPEG |
0 NVENC 5 NVDEC 5 NVJPEG |
功率 | 最高 350 瓦 | 最高 400 瓦 |
外型尺寸 | 双插槽 FHFL | 8 卡 HGX |
互连界面 | PCle Gen4 x 16:64 GB/s | PCle Gen4 x 16:64 GB/s |
微调现有模型 (训练 860M Tokens 的时间) |
|||
---|---|---|---|
TE/FP8 的预期加速 | |||
HGX A100 | L40S | HGX H100 | |
GPT-40B LoRA (8 GPU) | 12 小时 | 1.7 倍 | 4.4 倍 |
GPT-175B LoRA (64 GPU) | 6 小时 | 1.6 倍 | 4.3 倍 |
训练小型模型 (训练 10B Tokens 的时间) |
|||
---|---|---|---|
TE/FP8 的预期加速 | |||
HGX A100 | L40S | HGX H100 | |
GPT-7B (8 GPU) | 12 小时 | 1.7 倍 | 4.4 倍 |
GPT-13B (8 GPU) | 6 小时 | 1.6 倍 | 4.3 倍 |
训练基础模型 (训练 300B Tokens 的时间) |
|||
---|---|---|---|
TE/FP8 的预期加速 | |||
HGX A100 | L40S | HGX H100 | |
GPT-175B (256 GPU) | 64 小时 | 1.4 倍 | 4.5 倍 |
GPT-175B (1K GPU) | 16 小时 | 1.3 倍 | 4.6 倍 |
GPT-175B (4K GPU) | 4 小时 | 1.2 倍 | 4.1 倍 |
8 GPU、4U、双插槽第 4 代 Intel Xeon 可扩展 CPU
4 GPU、2U、双插槽第 4 代 Intel Xeon 可扩展 CPU
4 GPU、2U、双插槽第 3 代 Intel Xeon 可扩展 CPU
8 GPU、4U、双插槽 EPYC 9004 CPU PCIe 5.0 交换器解决方案
8 GPU、4U、双插槽 EPYC 7003 CPU
4 GPU、2U、单插槽 EPYC 9004 CPU
4 GPU、2U、单插槽 EPYC 7003 & 7002 CPU