Chapter 7 of 81 min read

SLA Metrics

ตัวชี้วัดประสิทธิภาพของการให้บริการ (SLA) สำหรับ LLM

Chapter 7: SLA Metrics

ตัวชี้วัดประสิทธิภาพของการให้บริการ (Service Level Agreement) ที่สำคัญสำหรับ LLM

Key Metrics

TTFT (Time to First Token)

เวลาตั้งแต่ส่งคำขอจนกระทั่งได้คำแรกกลับมา

Target: < 100ms for interactive applications
Measurement: Request start -> First token received

ITL (Inter-Token Latency)

ความเร็วในการสร้างคำถัด ๆ ไป

Target: < 50ms per token
Measurement: Time between consecutive tokens

Throughput

จำนวน Token ที่ประมวลผลได้ต่อวินาที

Target: 1000+ tokens/second per instance
Measurement: Total tokens / Total time

Availability/Uptime

ความพร้อมใช้งานของระบบ

Target: 99.9% (three nines)
SLA: 99.95% - 99.99% for enterprise

Monitoring Dashboard Example

+------------------+------------------+
| TTFT: 85ms       | Status: 99.95%   |
| (Target: <100ms) | (Target: 99.9%)  |
+------------------+------------------+
| ITL: 32ms        | Throughput: 1200 |
| (Target: <50ms)  | tokens/sec       |
+------------------+------------------+

SLO Definitions

Metric Green Yellow Red
TTFT <100ms 100-200ms >200ms
ITL <30ms 30-50ms >50ms
Throughput >1000 500-1000 <500
Availability >99.9% 99-99.9% <99%