Self-Hosted LLMs for Enterprise #1

ในยุคที่ Generative AI กลายเป็นผู้ช่วยประจำวันของใครหลายคน ไม่ว่าจะเขียนโค้ด ตอบคำถาม หรือสรุปรายงาน หลายองค์กรเริ่มสนใจจะ ติดตั้งและใช้งาน LLM ภายในเอง เพื่อความเป็นส่วนตัว ความยืดหยุ่น และควบคุมต้นทุน ซีรีส์นี้จะพาไปตั้งค่าระบบทีละขั้น ตั้งแต่ติดตั้งไดรเวอร์ ไปจนถึงรัน LLM ผ่าน API ได้ในเครื่อง Ubuntu ของคุณเอง

Infrastructure ที่เลือกใช้ในบทความนี้จะเป็นของ AWS ซึ่งเราจะเลือกใช้ EC2 เป็นเครื่องสำหรับการทำ Demo กันนะครับ

สำหรับ Instance Type ที่เลือกใช้จะเป็น g5g.xlarge ที่มี GPU ให้ใช้งาน

1.หาค่า `$distro` และ `$arch` ให้ตรงกับระบบของเรา

เปิดตารางเทียบได้จาก Official Document

จากตัวอย่างเครื่อง demo ของเราเป็น:

Ubuntu 24.04 LTS
Architecture: arm64

เราจะได้ค่า:

$distro = ubuntu2404
$arch = sbsa
$arch_ext = sbsa

ถ้าใช้งานกับเครื่อง spec อื่นต้องเช็คให้ค่าให้ตรงกับเครื่องที่ใช้ด้วยนะ

2.ติดตั้ง keyring ของ NVIDIA ด้วยค่า `$distro` และ `$arch` ที่ได้จากขั้นตอนที่แล้ว

# ตัวอย่าง: ถ้าใช้ Ubuntu 24.04 + ARM64 (จากขั้นตอนที่ 1) 
wget  https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2404/sbsa/cuda-keyring_1.1-1_all.deb  
# ติดตั้ง keyring 
sudo dpkg -i cuda-keyring_1.1-1_all.deb  
# อัปเดต 
apt index sudo apt update

3.ติดตั้ง NVIDIA Proprietary Driver และ CUDA Toolkit

sudo apt install cuda-drivers
sudo apt install cuda-toolkit

4.ตรวจสอบการทำงานของ Driver

nvidia-smi

สรุป Part 1

ในบทนี้สิ่งที่จะได้:

ตรวจสอบข้อมูลระบบเพื่อใช้เลือกเวอร์ชัน driver ให้ถูกต้อง
เชื่อมต่อ Ubuntu กับ NVIDIA Repository
ติดตั้ง NVIDIA proprietary GPU driver แบบง่ายด้วยคำสั่ง apt
ตรวจสอบการทำงานของ GPU ด้วย nvidia-smi

หากทำตามนี้เครื่องก็จะพร้อมสำหรับการใช้งาน GPU แล้ว ✅

Next: ใช้ GPU ร่วมกับ Docker Container

ในตอนต่อไป เราจะมาดูวิธี:

ตั้งค่าให้ Docker ใช้ GPU ได้อย่างถูกต้อง
ติดตั้ง nvidia-container-toolkit
และเตรียม environment สำหรับรัน LLM API แบบ Work-from-Home หรือภายในองค์กร

อย่าลืมติดตามตอนต่อไปครับ! 🙌