Chapter 2 of 8•1 min read

LLM Serving Framework

เครื่องมือและซอฟต์แวร์สำหรับรันและให้บริการโมเดล LLM

Chapter 2: LLM Serving Framework

เครื่องมือและซอฟต์แวร์ที่ใช้สำหรับรันและให้บริการโมเดล LLM อย่างมีประสิทธิภาพ

Framework	Memory Opt	FP8	Multi-GPU	Latency
vLLM	PagedAttention	Yes	Yes	Low
SGLang	Efficient	Yes	Yes	Very Low
TRT-LLM	Optimized	Yes	Yes	Lowest

# vLLM example
python -m vllm.entrypoints.api_server \
    --model meta-llama/Llama-2-7b \
    --tensor-parallel-size 1