Self-Hosted LLM untuk Enterprise #3

Untuk mereka yang baru menemui bahagian ini, anda boleh kembali dan membaca 2 bahagian sebelumnya di:

Di 2 bahagian terakhir, kita memasang GPU Driver dan menghubungkan GPU ke Docker dengan jayanya. Di bahagian ini, kita akan memasang alat penting yang diperlukan untuk memuat turun model LLM dan menjalankan inference server melalui API.

Prerequisites:

Python versi 3.10 atau lebih tinggi
git command line
Gunakan di Docker container atau VM/EC2
GPU Driver dan NVIDIA Container Toolkit terpasang dengan jayanya

1. Pasang Hugging Face CLI

Apakah Hugging Face?

Hugging Face seperti GitHub untuk model AI. Anda boleh:

Memuat turun model (seperti LLaMA, Mistral, Phi-2)
Berkongsi dan mencari dataset untuk melatih model
Bekerja dengan mudah dengan komuniti Open Source

Untuk pemasangan CLI, kami mengesyorkan mencipta Hugging Face Account terlebih dahulu di https://huggingface.co/join

Pasang CLI

pip install huggingface-hub[cli]==0.23.2

Jika anda mendapat amaran ini selepas pemasangan:

WARNING: The script huggingface-cli is installed in '/home/ubuntu/.local/bin' which is not on PATH

Tambah PATH dengan arahan ini:

echo 'export PATH=$PATH:/home/ubuntu/.local/bin' >> ~/.bashrc
source ~/.bashrc

Kemudian cuba jalankan:

huggingface-cli --help

Cipta Access Token

Buka Profile > Setting > Access Tokens
Cipta token baru
Tentukan nama Token
Tukar Token type kepada READ
Cipta Token

Kerana beberapa repository memerlukan pengesahan sebelum memuat turun model, saya mengesyorkan login terlebih dahulu untuk kemudahan:

huggingface-cli login <token>

2: Pasang llama-cpp-python

llama-cpp-python adalah library open source untuk menjalankan LLM lightweight, menyokong CUDA untuk penggunaan GPU.

Isytiharkan persekitaran yang diperlukan:

export CUDACXX=/usr/local/cuda-12.9/bin/nvcc

Pasang llama-cpp-python

CMAKE_ARGS="-DGGML_CUDA=on -DCMAKE_CUDA_ARCHITECTURES=75" pip install llama-cpp-python==0.3.8

CMAKE_CUDA_ARCHITECTURES=75 adalah compute capability untuk A10G / T4 / V100 (periksa nilai yang sesuai untuk GPU mesin anda di https://developer.nvidia.com/cuda-gpus Untuk EC2 g5g yang kita gunakan untuk Demo, ia adalah NVIDIA T4 GPU, jadi compute capability adalah 7.5 (dalam argumen, buang perpuluhan untuk mendapat 75)

Ringkasan Bahagian 3

Di bahagian ini, kita menyediakan dengan:

Memasang Hugging Face CLI untuk memuat turun model LLM daripada komuniti
Memasang llama-cpp-python untuk inference GPU

Sehingga kini, kita telah menyediakan semua alat penting. Masa seterusnya, kita akan benar-benar deploy LLM kita sendiri dan belajar cara menggunakannya melalui API. Nantikan!

Self-Hosted LLM untuk Enterprise #3

1. Pasang Hugging Face CLI

Apakah Hugging Face?

Pasang CLI

Cipta Access Token

2: Pasang llama-cpp-python

Ringkasan Bahagian 3

Related Articles

Dashboard Pemantauan GPU

Testing E2E Berasaskan AI dengan Midscene.js dan Playwright

Setup Driver GPU Nvidia: Langkah Penting untuk Pembangun AI

Self-Hosted LLM untuk Enterprise #3

1. Pasang Hugging Face CLI

Apakah Hugging Face?

Pasang CLI

Cipta Access Token

Login dengan token

2: Pasang llama-cpp-python

Ringkasan Bahagian 3

Related Articles

Dashboard Pemantauan GPU

Testing E2E Berasaskan AI dengan Midscene.js dan Playwright

Setup Driver GPU Nvidia: Langkah Penting untuk Pembangun AI