教程AI Translated Content

企业自托管 LLM #3

Float16 团队
3 min read
企业自托管 LLM #3

对于刚刚遇到这部分的人,您可以回去阅读前 2 部分:

第 1 部分

第 2 部分

在过去的 2 部分中,我们安装了 GPU 驱动程序并成功将 GPU 连接到 Docker。 在这一部分中,我们将安装下载 LLM 模型通过 API 运行推理服务器所需的重要工具。

先决条件:

  • Python 版本 3.10 或更高
  • git 命令行
  • 在 Docker 容器或 VM/EC2 中使用
  • 成功安装 GPU 驱动程序和 NVIDIA Container Toolkit

1. 安装 Hugging Face CLI

什么是 Hugging Face?

Hugging Face 就像 AI 模型的 GitHub。您可以:

  • 下载模型(如 LLaMA、Mistral、Phi-2)
  • 共享和查找用于训练模型的数据集
  • 轻松与开源社区合作

对于 CLI 安装,我们建议首先在 https://huggingface.co/join 创建一个 Hugging Face 帐户

安装 CLI

pip install huggingface-hub[cli]==0.23.2

如果安装后收到此警告:

WARNING: The script huggingface-cli is installed in '/home/ubuntu/.local/bin' which is not on PATH

使用此命令添加 PATH:

echo 'export PATH=$PATH:/home/ubuntu/.local/bin' >> ~/.bashrc
source ~/.bashrc

然后尝试运行:

huggingface-cli --help

创建访问令牌

  • 转到 Profile > Setting > Access Tokens
  • 创建新令牌
  • 指定令牌名称
  • 将令牌类型更改为 READ
  • 创建令牌

使用令牌登录

由于某些存储库在下载模型之前需要身份验证,我建议先登录以方便:

huggingface-cli login <token>

2: 安装 llama-cpp-python

llama-cpp-python 是一个用于运行轻量级 LLM 的开源库,支持 CUDA 以使用 GPU。

声明必要的环境:

export CUDACXX=/usr/local/cuda-12.9/bin/nvcc

安装 llama-cpp-python

CMAKE_ARGS="-DGGML_CUDA=on -DCMAKE_CUDA_ARCHITECTURES=75" pip install llama-cpp-python==0.3.8

CMAKE_CUDA_ARCHITECTURES=75 是 A10G / T4 / V100 的计算能力(在 https://developer.nvidia.com/cuda-gpus 检查您机器的 GPU 的适当值) 对于我们用于演示的 EC2 g5g,它是 NVIDIA T4 GPU,因此计算能力为 7.5(在参数中,删除小数得到 75)

第 3 部分总结

在这一部分中,我们通过以下方式进行了准备:

  • 安装 Hugging Face CLI 以从社区下载 LLM 模型
  • 安装 llama-cpp-python 用于 GPU 推理

到现在为止,我们已经准备好了所有重要的工具。下次,我们将实际部署我们自己的 LLM 并学习如何通过 API 使用它。敬请期待!