Self-Hosted LLM untuk Enterprise #3
Untuk mereka yang baru menemukan bagian ini, Anda dapat kembali dan membaca 2 bagian sebelumnya di:
Di 2 bagian terakhir, kita menginstal GPU Driver dan menghubungkan GPU ke Docker dengan sukses. Di bagian ini, kita akan menginstal alat penting yang diperlukan untuk mengunduh model LLM dan menjalankan inference server melalui API.
Prerequisites:
- Python versi 3.10 atau lebih tinggi
 - git command line
 - Gunakan di Docker container atau VM/EC2
 - GPU Driver dan NVIDIA Container Toolkit terinstal dengan sukses
 
1. Instal Hugging Face CLI
Apa itu Hugging Face?
Hugging Face seperti GitHub untuk model AI. Anda dapat:
- Mengunduh model (seperti LLaMA, Mistral, Phi-2)
 - Berbagi dan menemukan dataset untuk melatih model
 - Bekerja dengan mudah dengan komunitas Open Source
 
Untuk instalasi CLI, kami merekomendasikan membuat Hugging Face Account terlebih dahulu di https://huggingface.co/join
Instal CLI
pip install huggingface-hub[cli]==0.23.2
Jika Anda mendapatkan peringatan ini setelah instalasi:
WARNING: The script huggingface-cli is installed in '/home/ubuntu/.local/bin' which is not on PATH
Tambahkan PATH dengan perintah ini:
echo 'export PATH=$PATH:/home/ubuntu/.local/bin' >> ~/.bashrc
source ~/.bashrc
Kemudian coba jalankan:
huggingface-cli --help
Buat Access Token
- Buka Profile > Setting > Access Tokens
 - Buat token baru
 - Tentukan nama Token
 - Ubah Token type menjadi READ
 - Buat Token
 
Login dengan token
Karena beberapa repository memerlukan autentikasi sebelum mengunduh model, saya merekomendasikan login terlebih dahulu untuk kemudahan:
huggingface-cli login <token>
2: Instal llama-cpp-python
llama-cpp-python adalah library open source untuk menjalankan LLM lightweight, mendukung CUDA untuk penggunaan GPU.
Deklarasikan environment yang diperlukan:
export CUDACXX=/usr/local/cuda-12.9/bin/nvcc
Instal llama-cpp-python
CMAKE_ARGS="-DGGML_CUDA=on -DCMAKE_CUDA_ARCHITECTURES=75" pip install llama-cpp-python==0.3.8
CMAKE_CUDA_ARCHITECTURES=75 adalah compute capability untuk A10G / T4 / V100 (periksa nilai yang sesuai untuk GPU mesin Anda di https://developer.nvidia.com/cuda-gpus Untuk EC2 g5g yang kita gunakan untuk Demo, itu adalah NVIDIA T4 GPU, jadi compute capability adalah 7.5 (dalam argumen, hapus desimal untuk mendapatkan 75)
Ringkasan Bagian 3
Di bagian ini, kita mempersiapkan dengan:
- Menginstal Hugging Face CLI untuk mengunduh model LLM dari komunitas
 - Menginstal 
llama-cpp-pythonuntuk inference GPU 
Hingga sekarang, kita telah menyiapkan semua alat penting. Waktu berikutnya, kita akan benar-benar deploy LLM kita sendiri dan belajar cara menggunakannya melalui API. Nantikan!