- Home
- /
- Learn
- /
- LLM Deployment from an Instance to Cluster
- /
- LLM Serving Framework
Chapter 2 of 8•1 min read
LLM Serving Framework
เครื่องมือและซอฟต์แวร์สำหรับรันและให้บริการโมเดล LLM
Chapter 2: LLM Serving Framework
เครื่องมือและซอฟต์แวร์ที่ใช้สำหรับรันและให้บริการโมเดล LLM อย่างมีประสิทธิภาพ
Popular Serving Frameworks
vLLM
- PagedAttention สำหรับ memory management
- High throughput สำหรับ batch requests
- Continuous batching
SGLang
- Structured generation
- Multi-constraint decoding
- Native support สำหรับหลาย frameworks
TRT-LLM (TensorRT-LLM)
- NVIDIA optimized
- FP8 inference support
- Dynamic batch sizing
Key Features Comparison
| Framework | Memory Opt | FP8 | Multi-GPU | Latency |
|---|---|---|---|---|
| vLLM | PagedAttention | Yes | Yes | Low |
| SGLang | Efficient | Yes | Yes | Very Low |
| TRT-LLM | Optimized | Yes | Yes | Lowest |
Deployment Example
# vLLM example
python -m vllm.entrypoints.api_server \
--model meta-llama/Llama-2-7b \
--tensor-parallel-size 1