Hướng dẫnAI Translated Content

Self-Hosted LLMs cho Doanh Nghiệp #3

Đội ngũ Float16
3 min read
Self-Hosted LLMs cho Doanh Nghiệp #3

Đối với những người mới gặp phần này, bạn có thể quay lại và đọc 2 phần trước tại:

Phần 1

Phần 2

Trong 2 phần trước, chúng ta đã cài đặt GPU Driver và kết nối GPU với Docker thành công. Trong phần này, chúng ta sẽ cài đặt các công cụ quan trọng cần thiết cho tải xuống mô hình LLMchạy inference server qua API.

Điều kiện tiên quyết:

  • Phiên bản Python 3.10 hoặc cao hơn
  • git command line
  • Sử dụng trong Docker container hoặc VM/EC2
  • GPU Driver và NVIDIA Container Toolkit được cài đặt thành công

1. Cài đặt Hugging Face CLI

Hugging Face là gì?

Hugging Face giống như GitHub cho các mô hình AI. Bạn có thể:

  • Tải xuống các mô hình (như LLaMA, Mistral, Phi-2)
  • Chia sẻ và tìm dataset để huấn luyện mô hình
  • Làm việc dễ dàng với cộng đồng Open Source

Để cài đặt CLI, chúng tôi khuyên bạn nên tạo Tài khoản Hugging Face trước tại https://huggingface.co/join

Cài đặt CLI

pip install huggingface-hub[cli]==0.23.2

Nếu bạn nhận được cảnh báo này sau khi cài đặt:

WARNING: The script huggingface-cli is installed in '/home/ubuntu/.local/bin' which is not on PATH

Thêm PATH với lệnh này:

echo 'export PATH=$PATH:/home/ubuntu/.local/bin' >> ~/.bashrc
source ~/.bashrc

Sau đó thử chạy:

huggingface-cli --help

Tạo Access Token

  • Đi đến Profile > Setting > Access Tokens
  • Tạo token mới
  • Chỉ định tên Token
  • Thay đổi Token type thành READ
  • Tạo Token

Đăng nhập với token

Vì một số repository yêu cầu xác thực trước khi tải xuống mô hình, tôi khuyên bạn nên đăng nhập trước để thuận tiện:

huggingface-cli login <token>

2: Cài đặt llama-cpp-python

llama-cpp-python là một thư viện open source để chạy LLM nhẹ, hỗ trợ CUDA để sử dụng GPU.

Khai báo môi trường cần thiết:

export CUDACXX=/usr/local/cuda-12.9/bin/nvcc

Cài đặt llama-cpp-python

CMAKE_ARGS="-DGGML_CUDA=on -DCMAKE_CUDA_ARCHITECTURES=75" pip install llama-cpp-python==0.3.8

CMAKE_CUDA_ARCHITECTURES=75 là compute capability cho A10G / T4 / V100 (kiểm tra giá trị phù hợp cho GPU máy của bạn tại https://developer.nvidia.com/cuda-gpus Đối với EC2 g5g chúng tôi sử dụng cho Demo, đó là NVIDIA T4 GPU, vì vậy compute capability là 7.5 (trong argument, xóa dấu thập phân để có 75)

Tóm Tắt Phần 3

Trong phần này, chúng ta đã chuẩn bị bằng cách:

  • Cài đặt Hugging Face CLI để tải xuống mô hình LLM từ cộng đồng
  • Cài đặt llama-cpp-python để inference GPU

Đến bây giờ, chúng ta đã chuẩn bị tất cả các công cụ quan trọng. Lần tới, chúng ta sẽ thực sự triển khai LLM của riêng mình và học cách sử dụng nó qua API. Hãy theo dõi!