GPU Mana Yang Harus Anda Gunakan untuk Self-Host LLM
Pasukan Float16 telah melakukan benchmark angka dan merumuskannya dengan pantas seperti berikut:
TL:DR
GPT-OSS 120B
| GPU Model | Card | Max Concurrent | Min Concurrent | 
|---|---|---|---|
| H100 | 1 | 32 | 2 | 
| H100 | 2 | 128 | 16 | 
| B200 | 1 | 64 | 4 | 
| B200 | 2 | 256 | 32 | 
| PRO 6000 Blackwell | 1 | 24 | 2 | 
| PRO 6000 Blackwell | 2 | 96 | 16 | 
GPT-OSS 20B
| GPU Model | Card | Max Concurrent | Min Concurrent | 
|---|---|---|---|
| H100 | 1 | 128 | 32 | 
| H100 | 2 | 384 | 128 | 
| B200 | 1 | 256 | 64 | 
| B200 | 2 | 768 | 256 | 
| PRO 6000 Blackwell | 1 | 96 | 24 | 
| PRO 6000 Blackwell | 2 | 288 | 96 | 
Qwen3-30B-A3B
| GPU Model | Card | Max Concurrent | Min Concurrent | 
|---|---|---|---|
| H100 | 1 | 128 | 24 | 
| H100 | 2 | 320 | 48 | 
| B200 | 1 | 256 | 48 | 
| B200 | 2 | 640 | 96 | 
| PRO 6000 Blackwell | 1 | 96 | 24 | 
| PRO 6000 Blackwell | 2 | 288 | 96 | 
Typhoon2.1-gemma3-12b
| GPU Model | Card | Max Concurrent | Min Concurrent | 
|---|---|---|---|
| H100 | 1 | 64 | 16 | 
| H100 | 2 | 128 | 32 | 
| B200 | 1 | 128 | 32 | 
| B200 | 2 | 256 | 64 | 
| PRO 6000 Blackwell | 1 | 48 | 12 | 
| PRO 6000 Blackwell | 2 | 96 | 24 | 
Butiran lengkap di https://docs.google.com/spreadsheets/d/1ITmiYOTslh0x4OjmKaB3yk_sVtQOpJMxLCp0KmEvXMA/edit?usp=sharing
Promosikan kumpulan Open Source AI Community daripada pasukan Typhoon https://www.facebook.com/groups/748411841298712
Penjelasan Butiran Panjang
Pembolehubah Bebas, Kawalan, dan Skop
Faktor yang mempengaruhi LLM Model Concurrents merangkumi 4 faktor:
- Panjang input (Context windows)
 - Panjang output (Max Generate Token)
 - GPU Model - Model GPU yang digunakan
 - Jumlah GPU
 
Pembolehubah yang kami gunakan untuk Benchmark ini:
- Token Per User mesti lebih daripada 30 Tokens Per User untuk dikira sebagai 1 Concurrent
 - Abaikan Time To First Token, boleh mengambil masa sehingga 60 saat
 - Abaikan tempoh untuk menyelesaikan generasi output
 
Skop
Angka-angka ini tidak boleh digunakan untuk Linear Scaling. Linear Scaling mungkin sehingga maksimum 4 Card. Lebih daripada itu, formula pengiraan baru diperlukan, dan menambah lebih daripada 1 Server Node tidak boleh dikira dengan Linear Scaling lagi. Jika anda perlu mengira lebih daripada 1 Node, sila hubungi pasukan Float16 untuk kes khas.
Reka Bentuk Benchmark
Benchmark ini sengaja direka dengan beban kerja yang selaras dengan kes penggunaan semasa. Kami membahagikan beban kerja kepada 3 jenis:
- General Chat
 - Web Search Chat atau RAG
 - Deep Research atau Agentic Chat
 
3 jenis beban kerja ini mempengaruhi panjang Input seperti berikut:
| Workload | ISL (Input Length) | OSL (Output Length) | 
|---|---|---|
| Chat | 512 | 1024 | 
| Web Search | 8k | 1024 | 
| Deep Research | 16k | 1024 | 
Dan kami mentakrifkan:
Workload Chat sama dengan Max Concurrent
Workload Deep Research sama dengan Min Concurrent
Kaedah Testing
- Setup 1 LLM Server dengan vllm
 - Kemudian gunakan genai-perf untuk testing
 
Tutorial untuk Self-Hosting LLM
Testing bermula dengan menghantar Requests untuk setiap Workload dengan saiz Request yang sama iaitu 300 Requests tetapi Concurrent berbeza secara berurutan: 16, 32, 64, 128
genai-perf memberikan hasil komprehensif termasuk Time To First Token, Inter Token Time, Min Max P99 P90 P75 yang akan kami rumuskan di langkah seterusnya.

Contoh Hasil GenAI-Perf
Model yang Ditest
GPT-OSS-120B & GPT-OSS-20B
Qwen3-30B-A3B
Benchmark untuk Qwen3-30B-A3B boleh dirujuk untuk model lain dalam keluarga seperti Qwen3-Coder-30B-A3B, dsb.
Typhoon2.1-gemma3-12b
Typhoon adalah Model khusus untuk bahasa Thai - English. Ketahui lebih lanjut di https://opentyphoon.ai/
Ringkasan Hasil
Hasil test berjalan lancar dengan beberapa fenomena berlaku semasa testing, seperti fenomena Super-Linear dan Non-Linear.
Fenomena Super-Linear Scaling
Fenomena ini berlaku apabila menggandakan GPU menghasilkan lebih daripada dua kali ganda kapasiti Concurrent.
Punca Super-Linear Scaling adalah KV Cache.

Super-Linear Scaling
KV Cache adalah bahagian caching untuk memproses setiap Request. Jika saiz KV Cache lebih kecil daripada Requests, ia akan melambatkan pemprosesan.
Super-Linear Scaling berlaku apabila 1 GPU mempunyai ruang KV Cache terlalu sedikit untuk pemprosesan concurrent Requests yang masuk, menyebabkan bottleneck Memory.
Oleh itu, menambah 1 GPU lagi membantu dengan Compute dan Memory, menghasilkan keuntungan prestasi lebih daripada 2x daripada menambah GPU kerana faedah daripada Compute dan Memory.
Fenomena Non-Linear Scaling
Fenomena ini berlaku apabila menggandakan GPU atau menggunakan lebih daripada 1 Node menghasilkan kurang daripada dua kali ganda Concurrent atau mungkin kurang daripada 1x.
Punca Non-Linear Scaling adalah Inter-Network Bandwidth antara Node atau antara Card.

Membandingkan High Bandwidth dan Low Bandwidth
Non-Linear Scaling berlaku apabila menghubungkan lebih daripada 1 GPU atau lebih daripada 1 Node. Terutamanya menghubungkan lebih daripada 1 Node memerlukan Synchronization antara Node untuk pemprosesan berterusan. Semakin pantas dan semakin banyak Node ada, Synchronization mesti dilakukan merentas semua Node. Oleh itu, jika Network Bandwidth dan Speed lebih perlahan daripada Synchronization, prestasi akan dihadkan oleh Synchronization itu.
Pemikiran Akhir
Kami berharap semua orang menikmati menggunakan GPU untuk Self-Hosting LLM. Jika anda mempunyai soalan, anda boleh bertanya bila-bila masa melalui Float16 Discord atau Float16 Facebook Messenger.
Nota
Hasil B200 dan PRO 6000 Blackwell adalah pengiraan teoritikal yang diekstrapolasi daripada hasil H100, yang mungkin mempunyai penyelewengan dalam testing sebenar.
Angka yang dibentangkan (B200, PRO 6000 Blackwell) adalah angka anggaran minimum. Testing sebenar mempunyai peluang tinggi mendapat angka lebih tinggi daripada yang dibentangkan. Angka-angka ini boleh digunakan sebagai Garis Panduan untuk penilaian awal.
Hubungi
- Medium : Float16.cloud
 - Facebook : Float16.cloud
 - X : Float16.cloud
 - Discord : Float16.cloud
 - Youtube : Float16.cloud
 - Emel : business[at]float16.cloud
 
