TutorialAI Translated Content

Self-Hosted LLM untuk Enterprise #3

Tim Float16
2 min read
Self-Hosted LLM untuk Enterprise #3

Untuk mereka yang baru menemukan bagian ini, Anda dapat kembali dan membaca 2 bagian sebelumnya di:

Bagian 1

Bagian 2

Di 2 bagian terakhir, kita menginstal GPU Driver dan menghubungkan GPU ke Docker dengan sukses. Di bagian ini, kita akan menginstal alat penting yang diperlukan untuk mengunduh model LLM dan menjalankan inference server melalui API.

Prerequisites:

  • Python versi 3.10 atau lebih tinggi
  • git command line
  • Gunakan di Docker container atau VM/EC2
  • GPU Driver dan NVIDIA Container Toolkit terinstal dengan sukses

1. Instal Hugging Face CLI

Apa itu Hugging Face?

Hugging Face seperti GitHub untuk model AI. Anda dapat:

  • Mengunduh model (seperti LLaMA, Mistral, Phi-2)
  • Berbagi dan menemukan dataset untuk melatih model
  • Bekerja dengan mudah dengan komunitas Open Source

Untuk instalasi CLI, kami merekomendasikan membuat Hugging Face Account terlebih dahulu di https://huggingface.co/join

Instal CLI

pip install huggingface-hub[cli]==0.23.2

Jika Anda mendapatkan peringatan ini setelah instalasi:

WARNING: The script huggingface-cli is installed in '/home/ubuntu/.local/bin' which is not on PATH

Tambahkan PATH dengan perintah ini:

echo 'export PATH=$PATH:/home/ubuntu/.local/bin' >> ~/.bashrc
source ~/.bashrc

Kemudian coba jalankan:

huggingface-cli --help

Buat Access Token

  • Buka Profile > Setting > Access Tokens
  • Buat token baru
  • Tentukan nama Token
  • Ubah Token type menjadi READ
  • Buat Token

Login dengan token

Karena beberapa repository memerlukan autentikasi sebelum mengunduh model, saya merekomendasikan login terlebih dahulu untuk kemudahan:

huggingface-cli login <token>

2: Instal llama-cpp-python

llama-cpp-python adalah library open source untuk menjalankan LLM lightweight, mendukung CUDA untuk penggunaan GPU.

Deklarasikan environment yang diperlukan:

export CUDACXX=/usr/local/cuda-12.9/bin/nvcc

Instal llama-cpp-python

CMAKE_ARGS="-DGGML_CUDA=on -DCMAKE_CUDA_ARCHITECTURES=75" pip install llama-cpp-python==0.3.8

CMAKE_CUDA_ARCHITECTURES=75 adalah compute capability untuk A10G / T4 / V100 (periksa nilai yang sesuai untuk GPU mesin Anda di https://developer.nvidia.com/cuda-gpus Untuk EC2 g5g yang kita gunakan untuk Demo, itu adalah NVIDIA T4 GPU, jadi compute capability adalah 7.5 (dalam argumen, hapus desimal untuk mendapatkan 75)

Ringkasan Bagian 3

Di bagian ini, kita mempersiapkan dengan:

  • Menginstal Hugging Face CLI untuk mengunduh model LLM dari komunitas
  • Menginstal llama-cpp-python untuk inference GPU

Hingga sekarang, kita telah menyiapkan semua alat penting. Waktu berikutnya, kita akan benar-benar deploy LLM kita sendiri dan belajar cara menggunakannya melalui API. Nantikan!