Self-Hosted LLMs cho Doanh Nghiệp #1
Trong thời đại mà Generative AI đã trở thành trợ lý hàng ngày cho nhiều người, dù là để viết code, trả lời câu hỏi, hay tóm tắt báo cáo, nhiều tổ chức đang quan tâm đến việc cài đặt và sử dụng LLM nội bộ để bảo mật, linh hoạt và kiểm soát chi phí. Chuỗi bài viết này sẽ hướng dẫn bạn thiết lập hệ thống từng bước, từ cài đặt driver đến chạy LLM qua API trên máy Ubuntu của riêng bạn.
Infrastructure được chọn trong bài viết này sẽ là từ AWS, và chúng ta sẽ sử dụng EC2 làm máy cho Demo của chúng ta.
Đối với Instance Type, chúng ta sẽ sử dụng g5g.xlarge có GPU.
1. Tìm giá trị $distro và $arch phù hợp với hệ thống của chúng ta
Mở bảng so sánh từ Tài liệu Chính thức
Từ ví dụ máy demo của chúng ta:
- Ubuntu 24.04 LTS
 - Kiến trúc: arm64
 
Chúng ta nhận được các giá trị:
$distro = ubuntu2404$arch = sbsa$arch_ext = sbsa
Nếu sử dụng thông số máy khác, hãy kiểm tra các giá trị để phù hợp với máy của bạn.
2. Cài đặt NVIDIA keyring với giá trị $distro và $arch từ bước trước
# Ví dụ: Nếu sử dụng Ubuntu 24.04 + ARM64 (từ bước 1)
wget  https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2404/sbsa/cuda-keyring_1.1-1_all.deb
# Cài đặt keyring
sudo dpkg -i cuda-keyring_1.1-1_all.deb
# Cập nhật apt index
sudo apt update
3. Cài đặt NVIDIA Proprietary Driver và CUDA Toolkit
sudo apt install cuda-drivers
sudo apt install cuda-toolkit
4. Kiểm tra Hoạt động của Driver
nvidia-smi
Tóm Tắt Phần 1
Trong phần này, bạn sẽ có:
- Kiểm tra thông tin hệ thống để chọn phiên bản driver chính xác
 - Kết nối Ubuntu với NVIDIA Repository
 - Cài đặt driver GPU proprietary NVIDIA dễ dàng với lệnh 
apt - Xác minh hoạt động GPU với 
nvidia-smi 
Nếu bạn làm theo điều này, máy của bạn bây giờ đã sẵn sàng để sử dụng GPU.
Tiếp Theo: Sử Dụng GPU với Docker Container
Trong phần tiếp theo, chúng ta sẽ xem xét cách:
- Cấu hình Docker để sử dụng GPU chính xác
 - Cài đặt 
nvidia-container-toolkit - Chuẩn bị môi trường để chạy LLM API Work-from-Home hoặc trong tổ chức
 
Đừng bỏ lỡ phần tiếp theo!