教程AI Translated Content
企业自托管 LLM #3
Float16 团队
3 min read
对于刚刚遇到这部分的人,您可以回去阅读前 2 部分:
在过去的 2 部分中,我们安装了 GPU 驱动程序并成功将 GPU 连接到 Docker。 在这一部分中,我们将安装下载 LLM 模型和通过 API 运行推理服务器所需的重要工具。
先决条件:
- Python 版本 3.10 或更高
 - git 命令行
 - 在 Docker 容器或 VM/EC2 中使用
 - 成功安装 GPU 驱动程序和 NVIDIA Container Toolkit
 
1. 安装 Hugging Face CLI
什么是 Hugging Face?
Hugging Face 就像 AI 模型的 GitHub。您可以:
- 下载模型(如 LLaMA、Mistral、Phi-2)
 - 共享和查找用于训练模型的数据集
 - 轻松与开源社区合作
 
对于 CLI 安装,我们建议首先在 https://huggingface.co/join 创建一个 Hugging Face 帐户
安装 CLI
pip install huggingface-hub[cli]==0.23.2
如果安装后收到此警告:
WARNING: The script huggingface-cli is installed in '/home/ubuntu/.local/bin' which is not on PATH
使用此命令添加 PATH:
echo 'export PATH=$PATH:/home/ubuntu/.local/bin' >> ~/.bashrc
source ~/.bashrc
然后尝试运行:
huggingface-cli --help
创建访问令牌
- 转到 Profile > Setting > Access Tokens
 - 创建新令牌
 - 指定令牌名称
 - 将令牌类型更改为 READ
 - 创建令牌
 
使用令牌登录
由于某些存储库在下载模型之前需要身份验证,我建议先登录以方便:
huggingface-cli login <token>
2: 安装 llama-cpp-python
llama-cpp-python 是一个用于运行轻量级 LLM 的开源库,支持 CUDA 以使用 GPU。
声明必要的环境:
export CUDACXX=/usr/local/cuda-12.9/bin/nvcc
安装 llama-cpp-python
CMAKE_ARGS="-DGGML_CUDA=on -DCMAKE_CUDA_ARCHITECTURES=75" pip install llama-cpp-python==0.3.8
CMAKE_CUDA_ARCHITECTURES=75 是 A10G / T4 / V100 的计算能力(在 https://developer.nvidia.com/cuda-gpus 检查您机器的 GPU 的适当值) 对于我们用于演示的 EC2 g5g,它是 NVIDIA T4 GPU,因此计算能力为 7.5(在参数中,删除小数得到 75)
第 3 部分总结
在这一部分中,我们通过以下方式进行了准备:
- 安装 Hugging Face CLI 以从社区下载 LLM 模型
 - 安装 
llama-cpp-python用于 GPU 推理 
到现在为止,我们已经准备好了所有重要的工具。下次,我们将实际部署我们自己的 LLM 并学习如何通过 API 使用它。敬请期待!