Chapter 2 of 81 min read

LLM Serving Framework

เครื่องมือและซอฟต์แวร์สำหรับรันและให้บริการโมเดล LLM

Chapter 2: LLM Serving Framework

เครื่องมือและซอฟต์แวร์ที่ใช้สำหรับรันและให้บริการโมเดล LLM อย่างมีประสิทธิภาพ

vLLM

  • PagedAttention สำหรับ memory management
  • High throughput สำหรับ batch requests
  • Continuous batching

SGLang

  • Structured generation
  • Multi-constraint decoding
  • Native support สำหรับหลาย frameworks

TRT-LLM (TensorRT-LLM)

  • NVIDIA optimized
  • FP8 inference support
  • Dynamic batch sizing

Key Features Comparison

Framework Memory Opt FP8 Multi-GPU Latency
vLLM PagedAttention Yes Yes Low
SGLang Efficient Yes Yes Very Low
TRT-LLM Optimized Yes Yes Lowest

Deployment Example

# vLLM example
python -m vllm.entrypoints.api_server \
    --model meta-llama/Llama-2-7b \
    --tensor-parallel-size 1