GPU Mana Yang Harus Anda Gunakan untuk Self-Host LLM
Tim Float16 telah melakukan benchmark angka dan merangkumnya dengan cepat sebagai berikut:
TL:DR
GPT-OSS 120B
| GPU Model | Card | Max Concurrent | Min Concurrent | 
|---|---|---|---|
| H100 | 1 | 32 | 2 | 
| H100 | 2 | 128 | 16 | 
| B200 | 1 | 64 | 4 | 
| B200 | 2 | 256 | 32 | 
| PRO 6000 Blackwell | 1 | 24 | 2 | 
| PRO 6000 Blackwell | 2 | 96 | 16 | 
GPT-OSS 20B
| GPU Model | Card | Max Concurrent | Min Concurrent | 
|---|---|---|---|
| H100 | 1 | 128 | 32 | 
| H100 | 2 | 384 | 128 | 
| B200 | 1 | 256 | 64 | 
| B200 | 2 | 768 | 256 | 
| PRO 6000 Blackwell | 1 | 96 | 24 | 
| PRO 6000 Blackwell | 2 | 288 | 96 | 
Qwen3-30B-A3B
| GPU Model | Card | Max Concurrent | Min Concurrent | 
|---|---|---|---|
| H100 | 1 | 128 | 24 | 
| H100 | 2 | 320 | 48 | 
| B200 | 1 | 256 | 48 | 
| B200 | 2 | 640 | 96 | 
| PRO 6000 Blackwell | 1 | 96 | 24 | 
| PRO 6000 Blackwell | 2 | 288 | 96 | 
Typhoon2.1-gemma3-12b
| GPU Model | Card | Max Concurrent | Min Concurrent | 
|---|---|---|---|
| H100 | 1 | 64 | 16 | 
| H100 | 2 | 128 | 32 | 
| B200 | 1 | 128 | 32 | 
| B200 | 2 | 256 | 64 | 
| PRO 6000 Blackwell | 1 | 48 | 12 | 
| PRO 6000 Blackwell | 2 | 96 | 24 | 
Detail lengkap di https://docs.google.com/spreadsheets/d/1ITmiYOTslh0x4OjmKaB3yk_sVtQOpJMxLCp0KmEvXMA/edit?usp=sharing
Promosikan grup Open Source AI Community dari tim Typhoon https://www.facebook.com/groups/748411841298712
Penjelasan Detail Panjang
Variabel Independen, Kontrol, dan Lingkup
Faktor yang mempengaruhi LLM Model Concurrents meliputi 4 faktor:
- Panjang input (Context windows)
 - Panjang output (Max Generate Token)
 - GPU Model - Model GPU yang digunakan
 - Jumlah GPU
 
Variabel yang kami gunakan untuk Benchmark ini:
- Token Per User harus lebih dari 30 Tokens Per User untuk dihitung sebagai 1 Concurrent
 - Abaikan Time To First Token, dapat memakan waktu hingga 60 detik
 - Abaikan durasi untuk menyelesaikan generasi output
 
Lingkup
Angka-angka ini tidak dapat digunakan untuk Linear Scaling. Linear Scaling dimungkinkan hingga maksimal 4 Card. Lebih dari itu, formula perhitungan baru diperlukan, dan menambahkan lebih dari 1 Server Node tidak dapat dihitung dengan Linear Scaling lagi. Jika Anda perlu menghitung lebih dari 1 Node, silakan hubungi tim Float16 untuk kasus khusus.
Desain Benchmark
Benchmark ini sengaja dirancang dengan workload yang selaras dengan use case saat ini. Kami membagi workload menjadi 3 jenis:
- General Chat
 - Web Search Chat atau RAG
 - Deep Research atau Agentic Chat
 
3 jenis workload ini mempengaruhi panjang Input sebagai berikut:
| Workload | ISL (Input Length) | OSL (Output Length) | 
|---|---|---|
| Chat | 512 | 1024 | 
| Web Search | 8k | 1024 | 
| Deep Research | 16k | 1024 | 
Dan kami mendefinisikan:
Workload Chat sama dengan Max Concurrent
Workload Deep Research sama dengan Min Concurrent
Metode Testing
- Setup 1 LLM Server dengan vllm
 - Kemudian gunakan genai-perf untuk testing
 
Tutorial untuk Self-Hosting LLM
Testing dimulai dengan mengirim Requests untuk setiap Workload dengan ukuran Request yang sama yaitu 300 Requests tetapi Concurrent berbeda secara berurutan: 16, 32, 64, 128
genai-perf memberikan hasil komprehensif termasuk Time To First Token, Inter Token Time, Min Max P99 P90 P75 yang akan kami rangkum di langkah selanjutnya.

Contoh Hasil GenAI-Perf
Model yang Ditest
GPT-OSS-120B & GPT-OSS-20B
Qwen3-30B-A3B
Benchmark untuk Qwen3-30B-A3B dapat direferensikan untuk model lain dalam keluarga seperti Qwen3-Coder-30B-A3B, dll.
Typhoon2.1-gemma3-12b
Typhoon adalah Model khusus untuk bahasa Thai - English. Pelajari lebih lanjut di https://opentyphoon.ai/
Ringkasan Hasil
Hasil test berjalan dengan baik dengan beberapa fenomena terjadi selama testing, seperti fenomena Super-Linear dan Non-Linear.
Fenomena Super-Linear Scaling
Fenomena ini terjadi ketika menggandakan GPU menghasilkan lebih dari dua kali lipat kapasitas Concurrent.
Penyebab Super-Linear Scaling adalah KV Cache.

Super-Linear Scaling
KV Cache adalah bagian caching untuk memproses setiap Request. Jika ukuran KV Cache lebih kecil dari Requests, ini akan memperlambat pemrosesan.
Super-Linear Scaling terjadi ketika 1 GPU memiliki ruang KV Cache terlalu sedikit untuk pemrosesan concurrent dari Requests yang masuk, menyebabkan bottleneck Memory.
Oleh karena itu, menambahkan 1 GPU lagi membantu dengan Compute dan Memory, menghasilkan gain performa lebih dari 2x dari menambahkan GPU karena manfaat dari Compute dan Memory.
Fenomena Non-Linear Scaling
Fenomena ini terjadi ketika menggandakan GPU atau menggunakan lebih dari 1 Node menghasilkan kurang dari dua kali lipat Concurrent atau mungkin kurang dari 1x.
Penyebab Non-Linear Scaling adalah Inter-Network Bandwidth antara Node atau antara Card.

Membandingkan High Bandwidth dan Low Bandwidth
Non-Linear Scaling terjadi ketika menghubungkan lebih dari 1 GPU atau lebih dari 1 Node. Terutama menghubungkan lebih dari 1 Node memerlukan Synchronization antara Node untuk pemrosesan berkelanjutan. Semakin cepat dan semakin banyak Node ada, Synchronization harus dilakukan di semua Node. Oleh karena itu, jika Network Bandwidth dan Speed lebih lambat dari Synchronization, performa akan dibatasi oleh Synchronization itu.
Pemikiran Akhir
Kami berharap semua orang menikmati menggunakan GPU untuk Self-Hosting LLM. Jika Anda memiliki pertanyaan, Anda dapat bertanya kapan saja melalui Float16 Discord atau Float16 Facebook Messenger.
Catatan
Hasil B200 dan PRO 6000 Blackwell adalah perhitungan teoritis yang diekstrapolasi dari hasil H100, yang mungkin memiliki deviasi dalam testing aktual.
Angka yang disajikan (B200, PRO 6000 Blackwell) adalah angka estimasi minimum. Testing aktual memiliki kemungkinan tinggi mendapatkan angka lebih tinggi dari yang disajikan. Angka-angka ini dapat digunakan sebagai Pedoman untuk penilaian awal.
Kontak
- Medium : Float16.cloud
 - Facebook : Float16.cloud
 - X : Float16.cloud
 - Discord : Float16.cloud
 - Youtube : Float16.cloud
 - Email : business[at]float16.cloud
 
