Self-Hosted LLMs cho Doanh Nghiệp #3
Đối với những người mới gặp phần này, bạn có thể quay lại và đọc 2 phần trước tại:
Trong 2 phần trước, chúng ta đã cài đặt GPU Driver và kết nối GPU với Docker thành công. Trong phần này, chúng ta sẽ cài đặt các công cụ quan trọng cần thiết cho tải xuống mô hình LLM và chạy inference server qua API.
Điều kiện tiên quyết:
- Phiên bản Python 3.10 hoặc cao hơn
 - git command line
 - Sử dụng trong Docker container hoặc VM/EC2
 - GPU Driver và NVIDIA Container Toolkit được cài đặt thành công
 
1. Cài đặt Hugging Face CLI
Hugging Face là gì?
Hugging Face giống như GitHub cho các mô hình AI. Bạn có thể:
- Tải xuống các mô hình (như LLaMA, Mistral, Phi-2)
 - Chia sẻ và tìm dataset để huấn luyện mô hình
 - Làm việc dễ dàng với cộng đồng Open Source
 
Để cài đặt CLI, chúng tôi khuyên bạn nên tạo Tài khoản Hugging Face trước tại https://huggingface.co/join
Cài đặt CLI
pip install huggingface-hub[cli]==0.23.2
Nếu bạn nhận được cảnh báo này sau khi cài đặt:
WARNING: The script huggingface-cli is installed in '/home/ubuntu/.local/bin' which is not on PATH
Thêm PATH với lệnh này:
echo 'export PATH=$PATH:/home/ubuntu/.local/bin' >> ~/.bashrc
source ~/.bashrc
Sau đó thử chạy:
huggingface-cli --help
Tạo Access Token
- Đi đến Profile > Setting > Access Tokens
 - Tạo token mới
 - Chỉ định tên Token
 - Thay đổi Token type thành READ
 - Tạo Token
 
Đăng nhập với token
Vì một số repository yêu cầu xác thực trước khi tải xuống mô hình, tôi khuyên bạn nên đăng nhập trước để thuận tiện:
huggingface-cli login <token>
2: Cài đặt llama-cpp-python
llama-cpp-python là một thư viện open source để chạy LLM nhẹ, hỗ trợ CUDA để sử dụng GPU.
Khai báo môi trường cần thiết:
export CUDACXX=/usr/local/cuda-12.9/bin/nvcc
Cài đặt llama-cpp-python
CMAKE_ARGS="-DGGML_CUDA=on -DCMAKE_CUDA_ARCHITECTURES=75" pip install llama-cpp-python==0.3.8
CMAKE_CUDA_ARCHITECTURES=75 là compute capability cho A10G / T4 / V100 (kiểm tra giá trị phù hợp cho GPU máy của bạn tại https://developer.nvidia.com/cuda-gpus Đối với EC2 g5g chúng tôi sử dụng cho Demo, đó là NVIDIA T4 GPU, vì vậy compute capability là 7.5 (trong argument, xóa dấu thập phân để có 75)
Tóm Tắt Phần 3
Trong phần này, chúng ta đã chuẩn bị bằng cách:
- Cài đặt Hugging Face CLI để tải xuống mô hình LLM từ cộng đồng
 - Cài đặt 
llama-cpp-pythonđể inference GPU 
Đến bây giờ, chúng ta đã chuẩn bị tất cả các công cụ quan trọng. Lần tới, chúng ta sẽ thực sự triển khai LLM của riêng mình và học cách sử dụng nó qua API. Hãy theo dõi!