企业自托管 LLM #3

对于刚刚遇到这部分的人，您可以回去阅读前 2 部分：

第 1 部分

第 2 部分

在过去的 2 部分中，我们安装了 GPU 驱动程序并成功将 GPU 连接到 Docker。在这一部分中，我们将安装下载 LLM 模型和通过 API 运行推理服务器所需的重要工具。

先决条件：

Python 版本 3.10 或更高
git 命令行
在 Docker 容器或 VM/EC2 中使用
成功安装 GPU 驱动程序和 NVIDIA Container Toolkit

1. 安装 Hugging Face CLI

什么是 Hugging Face？

Hugging Face 就像 AI 模型的 GitHub。您可以：

下载模型（如 LLaMA、Mistral、Phi-2）
共享和查找用于训练模型的数据集
轻松与开源社区合作

对于 CLI 安装，我们建议首先在 https://huggingface.co/join 创建一个 Hugging Face 帐户

安装 CLI

pip install huggingface-hub[cli]==0.23.2

如果安装后收到此警告：

WARNING: The script huggingface-cli is installed in '/home/ubuntu/.local/bin' which is not on PATH

使用此命令添加 PATH：

echo 'export PATH=$PATH:/home/ubuntu/.local/bin' >> ~/.bashrc
source ~/.bashrc

然后尝试运行：

huggingface-cli --help

创建访问令牌

转到 Profile > Setting > Access Tokens
创建新令牌
指定令牌名称
将令牌类型更改为 READ
创建令牌

使用令牌登录

由于某些存储库在下载模型之前需要身份验证，我建议先登录以方便：

huggingface-cli login <token>

2: 安装 llama-cpp-python

llama-cpp-python 是一个用于运行轻量级 LLM 的开源库，支持 CUDA 以使用 GPU。

声明必要的环境：

export CUDACXX=/usr/local/cuda-12.9/bin/nvcc

安装 llama-cpp-python

CMAKE_ARGS="-DGGML_CUDA=on -DCMAKE_CUDA_ARCHITECTURES=75" pip install llama-cpp-python==0.3.8

CMAKE_CUDA_ARCHITECTURES=75 是 A10G / T4 / V100 的计算能力（在 https://developer.nvidia.com/cuda-gpus 检查您机器的 GPU 的适当值）对于我们用于演示的 EC2 g5g，它是 NVIDIA T4 GPU，因此计算能力为 7.5（在参数中，删除小数得到 75）

第 3 部分总结

在这一部分中，我们通过以下方式进行了准备：

安装 Hugging Face CLI 以从社区下载 LLM 模型
安装 llama-cpp-python 用于 GPU 推理

到现在为止，我们已经准备好了所有重要的工具。下次，我们将实际部署我们自己的 LLM 并学习如何通过 API 使用它。敬请期待！

企业自托管 LLM #3

1. 安装 Hugging Face CLI

什么是 Hugging Face？

安装 CLI

创建访问令牌

使用令牌登录

2: 安装 llama-cpp-python

第 3 部分总结

Related Articles

GPU 监控仪表板

使用 Midscene.js 和 Playwright 进行 AI 驱动的 E2E 测试

Nvidia GPU 驱动程序设置：AI 开发者的基本步骤