TutorialAI Translated Content

Self-Hosted LLM untuk Enterprise #3

Pasukan Float16
2 min read
Self-Hosted LLM untuk Enterprise #3

Untuk mereka yang baru menemui bahagian ini, anda boleh kembali dan membaca 2 bahagian sebelumnya di:

Bahagian 1

Bahagian 2

Di 2 bahagian terakhir, kita memasang GPU Driver dan menghubungkan GPU ke Docker dengan jayanya. Di bahagian ini, kita akan memasang alat penting yang diperlukan untuk memuat turun model LLM dan menjalankan inference server melalui API.

Prerequisites:

  • Python versi 3.10 atau lebih tinggi
  • git command line
  • Gunakan di Docker container atau VM/EC2
  • GPU Driver dan NVIDIA Container Toolkit terpasang dengan jayanya

1. Pasang Hugging Face CLI

Apakah Hugging Face?

Hugging Face seperti GitHub untuk model AI. Anda boleh:

  • Memuat turun model (seperti LLaMA, Mistral, Phi-2)
  • Berkongsi dan mencari dataset untuk melatih model
  • Bekerja dengan mudah dengan komuniti Open Source

Untuk pemasangan CLI, kami mengesyorkan mencipta Hugging Face Account terlebih dahulu di https://huggingface.co/join

Pasang CLI

pip install huggingface-hub[cli]==0.23.2

Jika anda mendapat amaran ini selepas pemasangan:

WARNING: The script huggingface-cli is installed in '/home/ubuntu/.local/bin' which is not on PATH

Tambah PATH dengan arahan ini:

echo 'export PATH=$PATH:/home/ubuntu/.local/bin' >> ~/.bashrc
source ~/.bashrc

Kemudian cuba jalankan:

huggingface-cli --help

Cipta Access Token

  • Buka Profile > Setting > Access Tokens
  • Cipta token baru
  • Tentukan nama Token
  • Tukar Token type kepada READ
  • Cipta Token

Login dengan token

Kerana beberapa repository memerlukan pengesahan sebelum memuat turun model, saya mengesyorkan login terlebih dahulu untuk kemudahan:

huggingface-cli login <token>

2: Pasang llama-cpp-python

llama-cpp-python adalah library open source untuk menjalankan LLM lightweight, menyokong CUDA untuk penggunaan GPU.

Isytiharkan persekitaran yang diperlukan:

export CUDACXX=/usr/local/cuda-12.9/bin/nvcc

Pasang llama-cpp-python

CMAKE_ARGS="-DGGML_CUDA=on -DCMAKE_CUDA_ARCHITECTURES=75" pip install llama-cpp-python==0.3.8

CMAKE_CUDA_ARCHITECTURES=75 adalah compute capability untuk A10G / T4 / V100 (periksa nilai yang sesuai untuk GPU mesin anda di https://developer.nvidia.com/cuda-gpus Untuk EC2 g5g yang kita gunakan untuk Demo, ia adalah NVIDIA T4 GPU, jadi compute capability adalah 7.5 (dalam argumen, buang perpuluhan untuk mendapat 75)

Ringkasan Bahagian 3

Di bahagian ini, kita menyediakan dengan:

  • Memasang Hugging Face CLI untuk memuat turun model LLM daripada komuniti
  • Memasang llama-cpp-python untuk inference GPU

Sehingga kini, kita telah menyediakan semua alat penting. Masa seterusnya, kita akan benar-benar deploy LLM kita sendiri dan belajar cara menggunakannya melalui API. Nantikan!