部署与 DevOps¶

部署是你的模型从研究产物转变为产品的那一刻。本文涵盖面向机器学习的 Docker、模型服务、实验跟踪、可复现性、生产环境监控、特征存储和流水线编排——这些基础设施将一个训练好的模型从笔记本带到数百万用户面前。

一个只能在你笔记本上运行的模型是原型。一个能在生产规模下可靠运行、在毫秒级内提供预测、能从故障中恢复、并能无停机更新的模型才是产品。两者之间的差距就是部署与 DevOps。
大多数机器学习工程师在部署、监控和生产问题调试上花的时间比训练模型还要多。对于任何构建真实机器学习系统的人来说，理解这些基础设施是不可或缺的。

Docker for ML¶

我们在第13章（操作系统）从概念上介绍了容器。这里我们聚焦于实践方面：为机器学习工作负载编写 Dockerfile。
Dockerfile 是构建容器镜像的配方：

# 从官方 CUDA 基础镜像开始
FROM nvidia/cuda:12.1.0-cudnn8-runtime-ubuntu22.04

# 系统依赖
RUN apt-get update && apt-get install -y \
    python3.11 python3-pip git \
    && rm -rf /var/lib/apt/lists/*

# Python 依赖（单独安装以便缓存）
COPY requirements.txt .
RUN pip install --no-cache-dir -r requirements.txt

# 复制源代码（经常变化，所以这一层放在最后）
COPY src/ /app/src/
COPY configs/ /app/configs/
WORKDIR /app

# 入口点
CMD ["python3", "src/scripts/serve.py", "--config", "configs/serve.yaml"]

层缓存：Docker 会缓存每一层。如果 requirements.txt 没有改变，重新构建时会跳过 pip install。将不常变化的层（系统包、pip 安装）放在频繁变化的层（源代码）之前。这能将 10 分钟的构建变成 10 秒的重建。
GPU 访问：使用 nvidia/cuda 基础镜像，并通过 docker run --gpus all 运行。nvidia-container-toolkit 提供从宿主机到容器的 GPU 透传。
多阶段构建 通过将构建环境与运行环境分离来减小镜像大小：

# 构建阶段：安装构建工具、编译依赖
FROM python:3.11 AS builder
COPY requirements.txt .
RUN pip install --user -r requirements.txt

# 运行阶段：仅包含运行时的依赖
FROM nvidia/cuda:12.1.0-cudnn8-runtime-ubuntu22.04
COPY --from=builder /root/.local /root/.local
COPY src/ /app/src/
ENV PATH=/root/.local/bin:$PATH

最终镜像只包含运行时库，不包含编译器、头文件或构建工具。一个 5 GB 的构建镜像变成了 2 GB 的运行镜像。
Docker Compose 运行多容器设置（模型服务器 + 负载均衡器 + 监控）：

# docker-compose.yml
services:
  model:
    build: .
    ports:
      - "8080:8080"
    deploy:
      resources:
        reservations:
          devices:
            - capabilities: [gpu]
  prometheus:
    image: prom/prometheus
    ports:
      - "9090:9090"

模型服务¶

模型服务 将推理作为一个服务运行：接收请求，运行模型，返回预测。
FastAPI（见文件03）是低到中等吞吐量最简单的方案。对于高吞吐量和 GPU 优化的服务，使用专用工具：
Triton Inference Server（NVIDIA）：支持 TensorRT、ONNX、PyTorch 和 TensorFlow 格式的模型。特性：
- 动态批处理：收集单个请求并将它们批处理以提高 GPU 效率。一串单个请求的流被批处理成 32 个一组，显著提高吞吐量。
- 模型集成：在单个请求中串联多个模型（预处理 → 模型 → 后处理）。
- 多模型服务：在同一 GPU 上同时服务多个模型，共享资源。
- 并发模型执行：在同一 GPU 上并行运行多个推理请求。
TorchServe（PyTorch）：通过 REST/gRPC API 服务 PyTorch 模型。支持模型版本化、A/B 测试和自定义处理器。
vLLM：专门为 LLM 服务设计。实现了 PagedAttention（高效 KV 缓存管理）、连续批处理和跨 GPU 的张量并行。对于大语言模型，其吞吐量比朴素服务高出 10-20 倍。
Cactus（github.com/cactus-compute/cactus）：一个用于移动端和边缘端设备上服务的低延迟 AI 引擎。Cactus 提供与 OpenAI 兼容的 API（聊天补全、流式、工具调用、转录、嵌入、RAG、视觉），完全在设备本地运行，当本地模型无法处理请求时自动回退到云端。这种混合架构意味着你的应用程序代码使用相同的 API，无论推理是在本地还是云端运行——引擎会根据模型置信度和设备能力做出决策。提供 Python、Swift、Kotlin、Flutter、React Native 和 Rust 的 SDK，HuggingFace 上有预转换的模型权重。支持多模态推理（LLM、视觉、语音），并为 ARM CPU 上的最快推理提供了自定义 ARM SIMD 内核，以及零拷贝内存映射，可将 RAM 使用量降低 10 倍（见第16章、第17章）。
模型格式优化：
- ONNX：用于互操作性的开放格式。从 PyTorch/TensorFlow 导出，随处运行。
- TensorRT：NVIDIA 的优化器。融合层、选择最优内核、量化权重。在 NVIDIA GPU 上通常比 PyTorch 快 2-5 倍。
- GGUF/GGML：用于 CPU 高效推理的格式，在消费级硬件上运行 LLM 很流行。

实验跟踪¶

没有实验跟踪，机器学习研究就会退化到：“我觉得上周二那个我改了某个配置的模型是最好的，但我不记得改了啥。”
Weights & Biases (W&B)：最流行的实验跟踪工具。从训练脚本中记录任何内容：

import wandb

wandb.init(project="my-project", config={
    "model": "transformer",
    "lr": 3e-4,
    "batch_size": 64,
})

for epoch in range(num_epochs):
    train_loss = train_one_epoch()
    val_loss = validate()

    wandb.log({
        "train/loss": train_loss,
        "val/loss": val_loss,
        "epoch": epoch,
    })

    # 将模型记录为 artifact
    if val_loss < best_loss:
        wandb.save("best_model.pt")

wandb.finish()

W&B 提供：用于比较实验的仪表板、超参数搜索工具、模型注册表、数据集版本控制和团队协作。
MLflow：开源替代方案。可在本地或服务器上运行：

import mlflow

mlflow.set_experiment("my-experiment")

with mlflow.start_run():
    mlflow.log_params({"lr": 3e-4, "batch_size": 64})
    mlflow.log_metric("val_loss", 0.042, step=epoch)
    mlflow.pytorch.log_model(model, "model")

模型注册表：一个中心化的已训练模型存储，支持版本化、环境阶段（开发 → 预发布 → 生产）和元数据。W&B 和 MLflow 都提供注册表。注册表能回答：“当前生产中的是哪个模型？谁训练的？它的验证准确率是多少？是哪个代码/数据产生的？”

可复现性¶

可复现性意味着：给定相同的代码、数据和配置，产生相同的模型。由于 GPU 操作的非确定性、数据打乱和浮点数累加，这在机器学习中出奇地困难。
可复现性检查清单：

项目	如何做
代码版本	Git commit hash
配置 / 超参数	配置文件（版本化于 git 或记录到 W&B）
随机种子	设置并记录所有种子（Python、NumPy、PyTorch、CUDA）
数据版本	DVC hash、数据集版本标签或 S3 对象版本
依赖	`pip freeze`、Docker image hash 或 lockfile
硬件	GPU 类型、GPU 数量、CUDA 版本
非确定性	`torch.backends.cudnn.deterministic = True`（更慢但可复现）

锁定一切：pip install torch==2.2.1 而不是 torch>=2.0。一个次版本号的提升可能会改变数值行为、优化器实现或默认超参数。
用 Docker 实现可复现性：Docker 镜像固定了操作系统、系统库、Python 版本和 pip 包。镜像哈希就是完整的环境指纹。如果你能复现 Docker 镜像，你就能复现训练过程。

生产环境监控¶

部署模型不是终点——它是一系列新问题的起点。随着真实世界的变化（概念漂移）和输入数据分布的变化（数据漂移），模型会逐渐退化。
需要监控的内容：
- 延迟：推理需要多长时间？跟踪 p50（中位数）、p95 和 p99。p99 为 500ms 意味着每 100 个用户中有 1 个要等待半秒，这可能是不可接受的。
- 吞吐量：每秒多少请求？系统能否跟上需求？
- 错误率：请求失败的比例是多少（异常、超时、无效输入）？
- 模型指标：在保留集上的准确率、精确率、召回率。如果生产环境中有标注数据（例如用户纠正），则跟踪在线指标。
- 数据漂移：输入数据的分布是否发生了变化？在白天的照片上训练的模型可能会在晚上的照片上失败。统计检验（KS 检验、PSI）比较训练分布和实时分布。
- 特征漂移：单个特征的分布是否发生了变化？一个在训练时呈正态分布的特征现在变成双峰分布，这标志着数据流水线出了问题。
工具：
- Prometheus + Grafana：基础设施监控的标准。Prometheus 收集指标，Grafana 在仪表板中可视化这些指标并支持告警。
- Evidently AI：开源的机器学习监控工具。生成数据漂移、模型性能和数据质量的报告。
告警：不要只做仪表板——要设置自动化告警。“如果 p99 延迟超过 200ms 持续 5 分钟，发送 Slack 通知。”“如果数据漂移分数超过阈值，呼叫值班工程师。”

特征存储¶

特征存储 是一个集中化的预计算特征仓库，在训练和服务之间共享。它解决了两个问题：
- 训练-服务偏差：训练时使用的特征必须与服务时使用的特征完全相同。如果训练用一种方式计算 user_age_at_signup，而服务用另一种方式计算，模型的预测就会静默地出错。
- 特征复用：多个模型经常使用相同的特征（用户画像、物品嵌入、聚合统计）。计算一次并共享可以避免重复和不一致。
Feast 是最流行的开源特征存储。它管理在线特征（低延迟，从 Redis 或 DynamoDB 提供服务）和离线特征（批处理，存储在数据仓库中用于训练）。
特征存储对于推荐系统、欺诈检测以及任何需要从原始数据流水线计算特征的应用都至关重要。

流水线编排¶

一个生产级机器学习系统不仅仅是模型。它是一个流水线：数据摄取 → 预处理 → 特征计算 → 训练 → 评估 → 部署 → 监控。每个步骤都依赖于前一步，可以独立失败，并且可能需要按不同的调度运行。
编排器 管理这些流水线：
Apache Airflow：数据流水线编排的标准。DAG（有向无环图）定义任务依赖关系。每个任务独立运行，失败时可以被重试，并通过 Web UI 进行监控。

# airflow DAG 示例（简化）
from airflow import DAG
from airflow.operators.python import PythonOperator

dag = DAG("training_pipeline", schedule="@daily")

preprocess = PythonOperator(task_id="preprocess", python_callable=preprocess_data, dag=dag)
train = PythonOperator(task_id="train", python_callable=train_model, dag=dag)
evaluate = PythonOperator(task_id="evaluate", python_callable=evaluate_model, dag=dag)
deploy = PythonOperator(task_id="deploy", python_callable=deploy_model, dag=dag)

preprocess >> train >> evaluate >> deploy

Kubeflow Pipelines：在 Kubernetes 上运行机器学习特定的编排。每个步骤运行在容器中，GPU 资源按需分配，实验自动跟踪。
Prefect 和 Dagster：Airflow 的现代替代方案，开发者体验更好，原生 Python API，内置数据血缘。
何时需要编排：当你的流水线超过 2-3 步、按调度运行、涉及多个团队或服务、或者需要自动从故障中恢复时。单个脚本的训练作业不需要编排器。但一个每日重新训练的流水线，需要从 5 个源摄取数据、训练 3 个模型、评估它们并部署最佳的那个——这种绝对需要编排器。