GPU Mana Yang Harus Anda Gunakan untuk Self-Host LLM

Pasukan Float16 telah melakukan benchmark angka dan merumuskannya dengan pantas seperti berikut:

TL:DR

GPT-OSS 120B

GPU Model	Card	Max Concurrent	Min Concurrent
H100	1	32	2
H100	2	128	16
B200	1	64	4
B200	2	256	32
PRO 6000 Blackwell	1	24	2
PRO 6000 Blackwell	2	96	16

GPT-OSS 20B

GPU Model	Card	Max Concurrent	Min Concurrent
H100	1	128	32
H100	2	384	128
B200	1	256	64
B200	2	768	256
PRO 6000 Blackwell	1	96	24
PRO 6000 Blackwell	2	288	96

Qwen3-30B-A3B

GPU Model	Card	Max Concurrent	Min Concurrent
H100	1	128	24
H100	2	320	48
B200	1	256	48
B200	2	640	96
PRO 6000 Blackwell	1	96	24
PRO 6000 Blackwell	2	288	96

Typhoon2.1-gemma3-12b

GPU Model	Card	Max Concurrent	Min Concurrent
H100	1	64	16
H100	2	128	32
B200	1	128	32
B200	2	256	64
PRO 6000 Blackwell	1	48	12
PRO 6000 Blackwell	2	96	24

Butiran lengkap di https://docs.google.com/spreadsheets/d/1ITmiYOTslh0x4OjmKaB3yk_sVtQOpJMxLCp0KmEvXMA/edit?usp=sharing

Promosikan kumpulan Open Source AI Community daripada pasukan Typhoon https://www.facebook.com/groups/748411841298712

Penjelasan Butiran Panjang

Pembolehubah Bebas, Kawalan, dan Skop

Faktor yang mempengaruhi LLM Model Concurrents merangkumi 4 faktor:

Panjang input (Context windows)
Panjang output (Max Generate Token)
GPU Model - Model GPU yang digunakan
Jumlah GPU

Pembolehubah yang kami gunakan untuk Benchmark ini:

Token Per User mesti lebih daripada 30 Tokens Per User untuk dikira sebagai 1 Concurrent
Abaikan Time To First Token, boleh mengambil masa sehingga 60 saat
Abaikan tempoh untuk menyelesaikan generasi output

Skop

Angka-angka ini tidak boleh digunakan untuk Linear Scaling. Linear Scaling mungkin sehingga maksimum 4 Card. Lebih daripada itu, formula pengiraan baru diperlukan, dan menambah lebih daripada 1 Server Node tidak boleh dikira dengan Linear Scaling lagi. Jika anda perlu mengira lebih daripada 1 Node, sila hubungi pasukan Float16 untuk kes khas.

Reka Bentuk Benchmark

Benchmark ini sengaja direka dengan beban kerja yang selaras dengan kes penggunaan semasa. Kami membahagikan beban kerja kepada 3 jenis:

General Chat
Web Search Chat atau RAG
Deep Research atau Agentic Chat

3 jenis beban kerja ini mempengaruhi panjang Input seperti berikut:

Workload	ISL (Input Length)	OSL (Output Length)
Chat	512	1024
Web Search	8k	1024
Deep Research	16k	1024

Dan kami mentakrifkan:

Workload Chat sama dengan Max Concurrent

Workload Deep Research sama dengan Min Concurrent

Kaedah Testing

Setup 1 LLM Server dengan vllm
Kemudian gunakan genai-perf untuk testing

Tutorial untuk Self-Hosting LLM

Testing bermula dengan menghantar Requests untuk setiap Workload dengan saiz Request yang sama iaitu 300 Requests tetapi Concurrent berbeza secara berurutan: 16, 32, 64, 128

genai-perf memberikan hasil komprehensif termasuk Time To First Token, Inter Token Time, Min Max P99 P90 P75 yang akan kami rumuskan di langkah seterusnya.

Contoh Hasil GenAI-Perf

Model yang Ditest

GPT-OSS-120B & GPT-OSS-20B

Qwen3-30B-A3B

Benchmark untuk Qwen3-30B-A3B boleh dirujuk untuk model lain dalam keluarga seperti Qwen3-Coder-30B-A3B, dsb.

Typhoon2.1-gemma3-12b

Typhoon adalah Model khusus untuk bahasa Thai - English. Ketahui lebih lanjut di https://opentyphoon.ai/

Ringkasan Hasil

Hasil test berjalan lancar dengan beberapa fenomena berlaku semasa testing, seperti fenomena Super-Linear dan Non-Linear.

Fenomena Super-Linear Scaling

Fenomena ini berlaku apabila menggandakan GPU menghasilkan lebih daripada dua kali ganda kapasiti Concurrent.

Punca Super-Linear Scaling adalah KV Cache.

Super-Linear Scaling

KV Cache adalah bahagian caching untuk memproses setiap Request. Jika saiz KV Cache lebih kecil daripada Requests, ia akan melambatkan pemprosesan.

Super-Linear Scaling berlaku apabila 1 GPU mempunyai ruang KV Cache terlalu sedikit untuk pemprosesan concurrent Requests yang masuk, menyebabkan bottleneck Memory.

Oleh itu, menambah 1 GPU lagi membantu dengan Compute dan Memory, menghasilkan keuntungan prestasi lebih daripada 2x daripada menambah GPU kerana faedah daripada Compute dan Memory.

Fenomena Non-Linear Scaling

Fenomena ini berlaku apabila menggandakan GPU atau menggunakan lebih daripada 1 Node menghasilkan kurang daripada dua kali ganda Concurrent atau mungkin kurang daripada 1x.

Punca Non-Linear Scaling adalah Inter-Network Bandwidth antara Node atau antara Card.

Membandingkan High Bandwidth dan Low Bandwidth

Non-Linear Scaling berlaku apabila menghubungkan lebih daripada 1 GPU atau lebih daripada 1 Node. Terutamanya menghubungkan lebih daripada 1 Node memerlukan Synchronization antara Node untuk pemprosesan berterusan. Semakin pantas dan semakin banyak Node ada, Synchronization mesti dilakukan merentas semua Node. Oleh itu, jika Network Bandwidth dan Speed lebih perlahan daripada Synchronization, prestasi akan dihadkan oleh Synchronization itu.

Pemikiran Akhir

Kami berharap semua orang menikmati menggunakan GPU untuk Self-Hosting LLM. Jika anda mempunyai soalan, anda boleh bertanya bila-bila masa melalui Float16 Discord atau Float16 Facebook Messenger.

Nota

Hasil B200 dan PRO 6000 Blackwell adalah pengiraan teoritikal yang diekstrapolasi daripada hasil H100, yang mungkin mempunyai penyelewengan dalam testing sebenar.

Angka yang dibentangkan (B200, PRO 6000 Blackwell) adalah angka anggaran minimum. Testing sebenar mempunyai peluang tinggi mendapat angka lebih tinggi daripada yang dibentangkan. Angka-angka ini boleh digunakan sebagai Garis Panduan untuk penilaian awal.

Hubungi

Medium : Float16.cloud
Facebook : Float16.cloud
X : Float16.cloud
Discord : Float16.cloud
Youtube : Float16.cloud
Emel : business[at]float16.cloud