Self-Hosted LLMs cho Doanh Nghiệp #3

Đối với những người mới gặp phần này, bạn có thể quay lại và đọc 2 phần trước tại:

Trong 2 phần trước, chúng ta đã cài đặt GPU Driver và kết nối GPU với Docker thành công. Trong phần này, chúng ta sẽ cài đặt các công cụ quan trọng cần thiết cho tải xuống mô hình LLM và chạy inference server qua API.

Điều kiện tiên quyết:

Phiên bản Python 3.10 hoặc cao hơn
git command line
Sử dụng trong Docker container hoặc VM/EC2
GPU Driver và NVIDIA Container Toolkit được cài đặt thành công

1. Cài đặt Hugging Face CLI

Hugging Face là gì?

Hugging Face giống như GitHub cho các mô hình AI. Bạn có thể:

Tải xuống các mô hình (như LLaMA, Mistral, Phi-2)
Chia sẻ và tìm dataset để huấn luyện mô hình
Làm việc dễ dàng với cộng đồng Open Source

Để cài đặt CLI, chúng tôi khuyên bạn nên tạo Tài khoản Hugging Face trước tại https://huggingface.co/join

Cài đặt CLI

pip install huggingface-hub[cli]==0.23.2

Nếu bạn nhận được cảnh báo này sau khi cài đặt:

WARNING: The script huggingface-cli is installed in '/home/ubuntu/.local/bin' which is not on PATH

Thêm PATH với lệnh này:

echo 'export PATH=$PATH:/home/ubuntu/.local/bin' >> ~/.bashrc
source ~/.bashrc

Sau đó thử chạy:

huggingface-cli --help

Tạo Access Token

Đi đến Profile > Setting > Access Tokens
Tạo token mới
Chỉ định tên Token
Thay đổi Token type thành READ
Tạo Token

Đăng nhập với token

Vì một số repository yêu cầu xác thực trước khi tải xuống mô hình, tôi khuyên bạn nên đăng nhập trước để thuận tiện:

huggingface-cli login <token>

2: Cài đặt llama-cpp-python

llama-cpp-python là một thư viện open source để chạy LLM nhẹ, hỗ trợ CUDA để sử dụng GPU.

Khai báo môi trường cần thiết:

export CUDACXX=/usr/local/cuda-12.9/bin/nvcc

Cài đặt llama-cpp-python

CMAKE_ARGS="-DGGML_CUDA=on -DCMAKE_CUDA_ARCHITECTURES=75" pip install llama-cpp-python==0.3.8

CMAKE_CUDA_ARCHITECTURES=75 là compute capability cho A10G / T4 / V100 (kiểm tra giá trị phù hợp cho GPU máy của bạn tại https://developer.nvidia.com/cuda-gpus Đối với EC2 g5g chúng tôi sử dụng cho Demo, đó là NVIDIA T4 GPU, vì vậy compute capability là 7.5 (trong argument, xóa dấu thập phân để có 75)

Tóm Tắt Phần 3

Trong phần này, chúng ta đã chuẩn bị bằng cách:

Cài đặt Hugging Face CLI để tải xuống mô hình LLM từ cộng đồng
Cài đặt llama-cpp-python để inference GPU

Đến bây giờ, chúng ta đã chuẩn bị tất cả các công cụ quan trọng. Lần tới, chúng ta sẽ thực sự triển khai LLM của riêng mình và học cách sử dụng nó qua API. Hãy theo dõi!

Self-Hosted LLMs cho Doanh Nghiệp #3

1. Cài đặt Hugging Face CLI

Hugging Face là gì?

Cài đặt CLI

Tạo Access Token

Đăng nhập với token

2: Cài đặt llama-cpp-python

Tóm Tắt Phần 3

Related Articles

Bảng điều khiển Giám sát GPU

Kiểm thử E2E hỗ trợ AI với Midscene.js và Playwright

Thiết lập Driver GPU Nvidia: Các Bước Thiết yếu cho Nhà phát triển AI