教程AI Translated Content
企业自托管 LLM #1
Float16 团队
3 min read
在生成式 AI 已成为许多人日常助手的时代,无论是用于编写代码、回答问题还是总结报告,许多组织对内部安装和使用 LLM 以实现隐私、灵活性和成本控制感兴趣。本系列将逐步指导您设置系统,从安装驱动程序到在您自己的 Ubuntu 机器上通过 API 运行 LLM。
本文中选择的基础设施将来自 AWS,我们将使用 EC2 作为我们演示的机器。
对于实例类型,我们将使用具有 GPU 的 g5g.xlarge。
1. 找到与我们的系统匹配的 $distro 和 $arch 值
从官方文档打开比较表
从我们的演示机器示例:
- Ubuntu 24.04 LTS
 - 架构:arm64
 
我们得到值:
$distro = ubuntu2404$arch = sbsa$arch_ext = sbsa
如果使用不同的机器规格,请检查值以匹配您的机器。
2. 使用上一步的 $distro 和 $arch 值安装 NVIDIA keyring
# 示例:如果使用 Ubuntu 24.04 + ARM64(来自步骤 1)
wget  https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2404/sbsa/cuda-keyring_1.1-1_all.deb
# 安装 keyring
sudo dpkg -i cuda-keyring_1.1-1_all.deb
# 更新 apt 索引
sudo apt update
3. 安装 NVIDIA 专有驱动程序和 CUDA Toolkit
sudo apt install cuda-drivers
sudo apt install cuda-toolkit
4. 检查驱动程序操作
nvidia-smi
第 1 部分总结
在这部分中,您将拥有:
- 检查系统信息以选择正确的驱动程序版本
 - 将 Ubuntu 连接到 NVIDIA 存储库
 - 使用 
apt命令轻松安装 NVIDIA 专有 GPU 驱动程序 - 使用 
nvidia-smi验证 GPU 操作 
如果您遵循了这一点,您的机器现在已准备好用于 GPU 使用。
下一步:使用 Docker 容器的 GPU
在下一部分中,我们将了解如何:
- 配置 Docker 以正确使用 GPU
 - 安装 
nvidia-container-toolkit - 为运行 LLM API 在家工作或组织内准备环境
 
不要错过下一部分!