教程AI Translated Content

企业自托管 LLM #1

Float16 团队
3 min read
企业自托管 LLM #1

在生成式 AI 已成为许多人日常助手的时代,无论是用于编写代码、回答问题还是总结报告,许多组织对内部安装和使用 LLM 以实现隐私、灵活性和成本控制感兴趣。本系列将逐步指导您设置系统,从安装驱动程序到在您自己的 Ubuntu 机器上通过 API 运行 LLM。

本文中选择的基础设施将来自 AWS,我们将使用 EC2 作为我们演示的机器。

对于实例类型,我们将使用具有 GPU 的 g5g.xlarge。

1. 找到与我们的系统匹配的 $distro$arch

从官方文档打开比较表

从我们的演示机器示例:

  • Ubuntu 24.04 LTS
  • 架构:arm64

我们得到值:

  • $distro = ubuntu2404
  • $arch = sbsa
  • $arch_ext = sbsa

如果使用不同的机器规格,请检查值以匹配您的机器。

2. 使用上一步的 $distro$arch 值安装 NVIDIA keyring

# 示例:如果使用 Ubuntu 24.04 + ARM64(来自步骤 1)
wget  https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2404/sbsa/cuda-keyring_1.1-1_all.deb
# 安装 keyring
sudo dpkg -i cuda-keyring_1.1-1_all.deb
# 更新 apt 索引
sudo apt update

3. 安装 NVIDIA 专有驱动程序和 CUDA Toolkit

sudo apt install cuda-drivers
sudo apt install cuda-toolkit

4. 检查驱动程序操作

nvidia-smi

第 1 部分总结

在这部分中,您将拥有:

  • 检查系统信息以选择正确的驱动程序版本
  • 将 Ubuntu 连接到 NVIDIA 存储库
  • 使用 apt 命令轻松安装 NVIDIA 专有 GPU 驱动程序
  • 使用 nvidia-smi 验证 GPU 操作

如果您遵循了这一点,您的机器现在已准备好用于 GPU 使用。


下一步:使用 Docker 容器的 GPU

在下一部分中,我们将了解如何:

  • 配置 Docker 以正确使用 GPU
  • 安装 nvidia-container-toolkit
  • 为运行 LLM API 在家工作或组织内准备环境

不要错过下一部分!