Self-Hosted LLM untuk Enterprise #3

Untuk mereka yang baru menemukan bagian ini, Anda dapat kembali dan membaca 2 bagian sebelumnya di:

Di 2 bagian terakhir, kita menginstal GPU Driver dan menghubungkan GPU ke Docker dengan sukses. Di bagian ini, kita akan menginstal alat penting yang diperlukan untuk mengunduh model LLM dan menjalankan inference server melalui API.

Prerequisites:

Python versi 3.10 atau lebih tinggi
git command line
Gunakan di Docker container atau VM/EC2
GPU Driver dan NVIDIA Container Toolkit terinstal dengan sukses

1. Instal Hugging Face CLI

Apa itu Hugging Face?

Hugging Face seperti GitHub untuk model AI. Anda dapat:

Mengunduh model (seperti LLaMA, Mistral, Phi-2)
Berbagi dan menemukan dataset untuk melatih model
Bekerja dengan mudah dengan komunitas Open Source

Untuk instalasi CLI, kami merekomendasikan membuat Hugging Face Account terlebih dahulu di https://huggingface.co/join

Instal CLI

pip install huggingface-hub[cli]==0.23.2

Jika Anda mendapatkan peringatan ini setelah instalasi:

WARNING: The script huggingface-cli is installed in '/home/ubuntu/.local/bin' which is not on PATH

Tambahkan PATH dengan perintah ini:

echo 'export PATH=$PATH:/home/ubuntu/.local/bin' >> ~/.bashrc
source ~/.bashrc

Kemudian coba jalankan:

huggingface-cli --help

Buat Access Token

Buka Profile > Setting > Access Tokens
Buat token baru
Tentukan nama Token
Ubah Token type menjadi READ
Buat Token

Karena beberapa repository memerlukan autentikasi sebelum mengunduh model, saya merekomendasikan login terlebih dahulu untuk kemudahan:

huggingface-cli login <token>

2: Instal llama-cpp-python

llama-cpp-python adalah library open source untuk menjalankan LLM lightweight, mendukung CUDA untuk penggunaan GPU.

Deklarasikan environment yang diperlukan:

export CUDACXX=/usr/local/cuda-12.9/bin/nvcc

Instal llama-cpp-python

CMAKE_ARGS="-DGGML_CUDA=on -DCMAKE_CUDA_ARCHITECTURES=75" pip install llama-cpp-python==0.3.8

CMAKE_CUDA_ARCHITECTURES=75 adalah compute capability untuk A10G / T4 / V100 (periksa nilai yang sesuai untuk GPU mesin Anda di https://developer.nvidia.com/cuda-gpus Untuk EC2 g5g yang kita gunakan untuk Demo, itu adalah NVIDIA T4 GPU, jadi compute capability adalah 7.5 (dalam argumen, hapus desimal untuk mendapatkan 75)

Ringkasan Bagian 3

Di bagian ini, kita mempersiapkan dengan:

Menginstal Hugging Face CLI untuk mengunduh model LLM dari komunitas
Menginstal llama-cpp-python untuk inference GPU

Hingga sekarang, kita telah menyiapkan semua alat penting. Waktu berikutnya, kita akan benar-benar deploy LLM kita sendiri dan belajar cara menggunakannya melalui API. Nantikan!

Self-Hosted LLM untuk Enterprise #3

1. Instal Hugging Face CLI

Apa itu Hugging Face?

Instal CLI

Buat Access Token

2: Instal llama-cpp-python

Ringkasan Bagian 3

Related Articles

Dashboard Monitoring GPU

Testing E2E Berbasis AI dengan Midscene.js dan Playwright

Setup Driver GPU Nvidia: Langkah Penting untuk Developer AI

Self-Hosted LLM untuk Enterprise #3

1. Instal Hugging Face CLI

Apa itu Hugging Face?

Instal CLI

Buat Access Token

Login dengan token

2: Instal llama-cpp-python

Ringkasan Bagian 3

Related Articles

Dashboard Monitoring GPU

Testing E2E Berbasis AI dengan Midscene.js dan Playwright

Setup Driver GPU Nvidia: Langkah Penting untuk Developer AI