vllm
拉取vllm docker 镜像
sudo docker pull vllm/vllm-openai:latest
运行本地模型
sudo docker run -d --runtime=nvidia --gpus all \ # 以守护进程方式运行 Docker 容器,并使用 NVIDIA 运行时访问所有 GPU
-v /mnt/sdb3/model/DeepSeek-R1-Distill-Llama-70B:/models/deepseek-70b \ # 挂载本地模型目录到容器内部
-p 8006:8000 \ # 将容器内部的 8000 端口映射到宿主机的 8006 端口
--ipc=host \ # 共享 IPC(进程间通信)资源,提高多进程任务的效率
--name vllm-deepseek-r1-llama-70b \ # 指定容器名称为 vllm-deepseek-r1-llama-70b
vllm/vllm-openai:latest \ # 运行 vllm-openai 最新版本的 Docker 镜像
--model /models/deepseek-70b \ # 指定要加载的模型路径(容器内部路径)
--served-model-name DeepSeek-R1-Distill-Llama-70B \ # 设置 API 端点中返回的模型名称
--tensor-parallel-size 4 \ # 设定张量并行度为 4,提高多 GPU 计算能力
--gpu_memory_utilization 0.8 \ # 设置 GPU 内存利用率上限为 80%
--max_model_len 4096 \ # 设置最大支持的序列长度为 4096
--enable-chunked-prefill False \ # 关闭 chunked prefill 以减少前向计算的分片操作
--api-key xxx # 设置 API 访问的密钥(建议使用更安全的方法管理密钥)