vllm

拉取vllm docker 镜像

sudo docker pull vllm/vllm-openai:latest

运行本地模型

sudo docker run -d --runtime=nvidia --gpus all \  # 以守护进程方式运行 Docker 容器，并使用 NVIDIA 运行时访问所有 GPU
    -v /mnt/sdb3/model/DeepSeek-R1-Distill-Llama-70B:/models/deepseek-70b \  # 挂载本地模型目录到容器内部
    -p 8006:8000 \  # 将容器内部的 8000 端口映射到宿主机的 8006 端口
    --ipc=host \  # 共享 IPC（进程间通信）资源，提高多进程任务的效率
    --name vllm-deepseek-r1-llama-70b \  # 指定容器名称为 vllm-deepseek-r1-llama-70b
    vllm/vllm-openai:latest \  # 运行 vllm-openai 最新版本的 Docker 镜像
    --model /models/deepseek-70b \  # 指定要加载的模型路径（容器内部路径）
    --served-model-name DeepSeek-R1-Distill-Llama-70B \  # 设置 API 端点中返回的模型名称
    --tensor-parallel-size 4 \  # 设定张量并行度为 4，提高多 GPU 计算能力
    --gpu_memory_utilization 0.8 \  # 设置 GPU 内存利用率上限为 80%
    --max_model_len 4096 \  # 设置最大支持的序列长度为 4096
    --enable-chunked-prefill False \  # 关闭 chunked prefill 以减少前向计算的分片操作
    --api-key xxx  # 设置 API 访问的密钥（建议使用更安全的方法管理密钥）