应该使用哪个 GPU 来自托管 LLM

Float16 团队已经对数字进行了基准测试，并快速总结如下：

TL:DR

GPT-OSS 120B

GPU 型号	卡	最大并发	最小并发
H100	1	32	2
H100	2	128	16
B200	1	64	4
B200	2	256	32
PRO 6000 Blackwell	1	24	2
PRO 6000 Blackwell	2	96	16

GPT-OSS 20B

GPU 型号	卡	最大并发	最小并发
H100	1	128	32
H100	2	384	128
B200	1	256	64
B200	2	768	256
PRO 6000 Blackwell	1	96	24
PRO 6000 Blackwell	2	288	96

Qwen3-30B-A3B

GPU 型号	卡	最大并发	最小并发
H100	1	128	24
H100	2	320	48
B200	1	256	48
B200	2	640	96
PRO 6000 Blackwell	1	96	24
PRO 6000 Blackwell	2	288	96

Typhoon2.1-gemma3-12b

GPU 型号	卡	最大并发	最小并发
H100	1	64	16
H100	2	128	32
B200	1	128	32
B200	2	256	64
PRO 6000 Blackwell	1	48	12
PRO 6000 Blackwell	2	96	24

完整详情请访问 https://docs.google.com/spreadsheets/d/1ITmiYOTslh0x4OjmKaB3yk_sVtQOpJMxLCp0KmEvXMA/edit?usp=sharing

推广来自 Typhoon 团队的开源 AI 社区群组 https://www.facebook.com/groups/748411841298712

详细说明

自变量、控制量和范围变量

影响 LLM 模型并发的因素包括 4 个因素：

输入长度（上下文窗口）
输出长度（最大生成 Token）
GPU 型号 - 使用的 GPU 型号
GPU 数量

我们用于此基准测试的变量：

每个用户的 Token 必须超过 30 个 Token 才能计为 1 个并发
忽略首个 Token 时间，可能需要长达 60 秒
忽略完成输出生成的持续时间

范围

这些数字不能用于线性缩放。线性缩放最多可以使用 4 张卡。超过这个数量，需要新的计算公式，并且添加超过 1 个服务器节点不能再用线性缩放计算。如果您需要计算超过 1 个节点，请联系 Float16 团队处理特殊情况。

基准测试设计

此基准测试故意设计为与当前用例一致的工作负载。我们将工作负载分为 3 种类型：

一般聊天
网络搜索聊天或 RAG
深度研究或代理聊天

这 3 种工作负载类型影响输入长度如下：

工作负载	ISL（输入长度）	OSL（输出长度）
聊天	512	1024
网络搜索	8k	1024
深度研究	16k	1024

我们定义：

工作负载聊天等于最大并发

工作负载深度研究等于最小并发

测试方法

使用 vllm 设置 1 个 LLM 服务器
然后使用 genai-perf 进行测试

自托管 LLM 教程

测试首先为每个工作负载发送相同请求大小为 300 个请求的请求，但不同的并发依次为：16、32、64、128

genai-perf 提供全面的结果，包括首个 Token 时间、Token 间时间、Min Max P99 P90 P75，我们将在后续步骤中总结。

GenAI-Perf 结果示例

测试的模型

GPT-OSS-120B & GPT-OSS-20B

Qwen3-30B-A3B

Qwen3-30B-A3B 的基准测试可以参考该系列中的其他模型，如 Qwen3-Coder-30B-A3B 等。

Typhoon2.1-gemma3-12b

Typhoon 是专门针对泰语 - 英语的模型。了解更多信息请访问 https://opentyphoon.ai/

结果总结

测试结果进展顺利，测试期间发生了一些现象，例如超线性和非线性现象。

超线性缩放现象

当 GPU 翻倍时，并发容量超过两倍，就会发生这种现象。

超线性缩放的原因是 KV Cache。

超线性缩放

KV Cache 是处理每个请求的缓存部分。如果 KV Cache 大小小于请求，它将减慢处理速度。

当 1 个 GPU 的 KV Cache 空间太小，无法并发处理传入的请求，导致内存瓶颈时，就会发生超线性缩放。

因此，添加 1 个额外的 GPU 有助于计算和内存，从而由于计算和内存的好处而导致添加 GPU 的性能提升超过 2 倍。

非线性缩放现象

当 GPU 翻倍或使用超过 1 个节点时，并发少于两倍或可能少于 1 倍时，就会发生这种现象。

非线性缩放的原因是节点之间或卡之间的网络带宽。

比较高带宽和低带宽

当连接超过 1 个 GPU 或超过 1 个节点时，就会发生非线性缩放。特别是连接超过 1 个节点需要节点之间的同步以进行连续处理。节点越快越多，同步必须在所有节点上完成。因此，如果网络带宽和速度比同步慢，性能将受到该同步的限制。

最后的想法

我们希望每个人都喜欢使用 GPU 进行自托管 LLM。如果您有问题，可以随时通过 Float16 Discord 或 Float16 Facebook Messenger 询问。

注意事项

B200 和 PRO 6000 Blackwell 的结果是从 H100 结果推断的理论计算，在实际测试中可能会有偏差。

呈现的数字（B200、PRO 6000 Blackwell）是最小估计数字。实际测试很有可能获得比呈现的数字更高的数字。这些数字可以用作初步评估的指南。

联系方式

Medium : Float16.cloud
Facebook : Float16.cloud
X : Float16.cloud
Discord : Float16.cloud
Youtube : Float16.cloud
Email : business[at]float16.cloud