- Home
- /
- Learn
- /
- LLM Deployment from an Instance to Cluster
- /
- SLA Metrics
Chapter 7 of 8•1 min read
SLA Metrics
ตัวชี้วัดประสิทธิภาพของการให้บริการ (SLA) สำหรับ LLM
Chapter 7: SLA Metrics
ตัวชี้วัดประสิทธิภาพของการให้บริการ (Service Level Agreement) ที่สำคัญสำหรับ LLM
Key Metrics
TTFT (Time to First Token)
เวลาตั้งแต่ส่งคำขอจนกระทั่งได้คำแรกกลับมา
Target: < 100ms for interactive applications
Measurement: Request start -> First token received
ITL (Inter-Token Latency)
ความเร็วในการสร้างคำถัด ๆ ไป
Target: < 50ms per token
Measurement: Time between consecutive tokens
Throughput
จำนวน Token ที่ประมวลผลได้ต่อวินาที
Target: 1000+ tokens/second per instance
Measurement: Total tokens / Total time
Availability/Uptime
ความพร้อมใช้งานของระบบ
Target: 99.9% (three nines)
SLA: 99.95% - 99.99% for enterprise
Monitoring Dashboard Example
+------------------+------------------+
| TTFT: 85ms | Status: 99.95% |
| (Target: <100ms) | (Target: 99.9%) |
+------------------+------------------+
| ITL: 32ms | Throughput: 1200 |
| (Target: <50ms) | tokens/sec |
+------------------+------------------+
SLO Definitions
| Metric | Green | Yellow | Red |
|---|---|---|---|
| TTFT | <100ms | 100-200ms | >200ms |
| ITL | <30ms | 30-50ms | >50ms |
| Throughput | >1000 | 500-1000 | <500 |
| Availability | >99.9% | 99-99.9% | <99% |