报告AI Translated Content

应该使用哪个 GPU 来自托管 LLM

Float16 团队
8 min read
应该使用哪个 GPU 来自托管 LLM

Float16 团队已经对数字进行了基准测试,并快速总结如下:

TL:DR

GPT-OSS 120B

GPU 型号 最大并发 最小并发
H100 1 32 2
H100 2 128 16
B200 1 64 4
B200 2 256 32
PRO 6000 Blackwell 1 24 2
PRO 6000 Blackwell 2 96 16

GPT-OSS 20B

GPU 型号 最大并发 最小并发
H100 1 128 32
H100 2 384 128
B200 1 256 64
B200 2 768 256
PRO 6000 Blackwell 1 96 24
PRO 6000 Blackwell 2 288 96

Qwen3-30B-A3B

GPU 型号 最大并发 最小并发
H100 1 128 24
H100 2 320 48
B200 1 256 48
B200 2 640 96
PRO 6000 Blackwell 1 96 24
PRO 6000 Blackwell 2 288 96

Typhoon2.1-gemma3-12b

GPU 型号 最大并发 最小并发
H100 1 64 16
H100 2 128 32
B200 1 128 32
B200 2 256 64
PRO 6000 Blackwell 1 48 12
PRO 6000 Blackwell 2 96 24

完整详情请访问 https://docs.google.com/spreadsheets/d/1ITmiYOTslh0x4OjmKaB3yk_sVtQOpJMxLCp0KmEvXMA/edit?usp=sharing

推广来自 Typhoon 团队的开源 AI 社区群组 https://www.facebook.com/groups/748411841298712


详细说明

自变量、控制量和范围变量

影响 LLM 模型并发的因素包括 4 个因素:

  1. 输入长度(上下文窗口)
  2. 输出长度(最大生成 Token)
  3. GPU 型号 - 使用的 GPU 型号
  4. GPU 数量

我们用于此基准测试的变量:

  1. 每个用户的 Token 必须超过 30 个 Token 才能计为 1 个并发
  2. 忽略首个 Token 时间,可能需要长达 60 秒
  3. 忽略完成输出生成的持续时间

范围

这些数字不能用于线性缩放。线性缩放最多可以使用 4 张卡。超过这个数量,需要新的计算公式,并且添加超过 1 个服务器节点不能再用线性缩放计算。如果您需要计算超过 1 个节点,请联系 Float16 团队处理特殊情况。


基准测试设计

此基准测试故意设计为与当前用例一致的工作负载。我们将工作负载分为 3 种类型:

  1. 一般聊天
  2. 网络搜索聊天或 RAG
  3. 深度研究或代理聊天

这 3 种工作负载类型影响输入长度如下:

工作负载 ISL(输入长度) OSL(输出长度)
聊天 512 1024
网络搜索 8k 1024
深度研究 16k 1024

我们定义:

工作负载聊天等于最大并发

工作负载深度研究等于最小并发

测试方法

  1. 使用 vllm 设置 1 个 LLM 服务器
  2. 然后使用 genai-perf 进行测试

自托管 LLM 教程

测试首先为每个工作负载发送相同请求大小为 300 个请求的请求,但不同的并发依次为:16、32、64、128

genai-perf 提供全面的结果,包括首个 Token 时间、Token 间时间、Min Max P99 P90 P75,我们将在后续步骤中总结。

GenAI-Perf 结果示例

测试的模型

GPT-OSS-120B & GPT-OSS-20B

Qwen3-30B-A3B

Qwen3-30B-A3B 的基准测试可以参考该系列中的其他模型,如 Qwen3-Coder-30B-A3B 等。

Typhoon2.1-gemma3-12b

Typhoon 是专门针对泰语 - 英语的模型。了解更多信息请访问 https://opentyphoon.ai/

结果总结

测试结果进展顺利,测试期间发生了一些现象,例如超线性和非线性现象。

超线性缩放现象

当 GPU 翻倍时,并发容量超过两倍,就会发生这种现象。

超线性缩放的原因是 KV Cache。

超线性缩放

KV Cache 是处理每个请求的缓存部分。如果 KV Cache 大小小于请求,它将减慢处理速度。

当 1 个 GPU 的 KV Cache 空间太小,无法并发处理传入的请求,导致内存瓶颈时,就会发生超线性缩放。

因此,添加 1 个额外的 GPU 有助于计算和内存,从而由于计算和内存的好处而导致添加 GPU 的性能提升超过 2 倍。

非线性缩放现象

当 GPU 翻倍或使用超过 1 个节点时,并发少于两倍或可能少于 1 倍时,就会发生这种现象。

非线性缩放的原因是节点之间或卡之间的网络带宽。

比较高带宽和低带宽

当连接超过 1 个 GPU 或超过 1 个节点时,就会发生非线性缩放。特别是连接超过 1 个节点需要节点之间的同步以进行连续处理。节点越快越多,同步必须在所有节点上完成。因此,如果网络带宽和速度比同步慢,性能将受到该同步的限制。

最后的想法

我们希望每个人都喜欢使用 GPU 进行自托管 LLM。如果您有问题,可以随时通过 Float16 Discord 或 Float16 Facebook Messenger 询问。

注意事项

B200 和 PRO 6000 Blackwell 的结果是从 H100 结果推断的理论计算,在实际测试中可能会有偏差。

呈现的数字(B200、PRO 6000 Blackwell)是最小估计数字。实际测试很有可能获得比呈现的数字更高的数字。这些数字可以用作初步评估的指南。


联系方式