码上灵感
  • 经验

    • 服务器

      • 操作系统
      • 网络配置
      • ssh配置
      • 压力测试
      • IPMI
    • 基础工具

      • xshell
      • xftp
    • 基础环境

      • anaconda
      • v2ray
      • cuda
      • docker
      • nginx
      • ufw
      • git lfs 大文件
    • ubuntu

      • virtualbox
    • minio

      • 安装
    • postgres

      • 安装
    • AI相关折腾

      • maxkb
      • huggingface
      • vllm
      • ktransformers
      • wan2.1
    • 疑难杂症

      • ubuntu自动更新
      • xshell隧道转发失败
      • video自动播放不成功的问题
      • 3d模型快速生成

vllm

拉取vllm docker 镜像

sudo docker pull vllm/vllm-openai:latest

运行本地模型

sudo docker run -d --runtime=nvidia --gpus all \  # 以守护进程方式运行 Docker 容器,并使用 NVIDIA 运行时访问所有 GPU
    -v /mnt/sdb3/model/DeepSeek-R1-Distill-Llama-70B:/models/deepseek-70b \  # 挂载本地模型目录到容器内部
    -p 8006:8000 \  # 将容器内部的 8000 端口映射到宿主机的 8006 端口
    --ipc=host \  # 共享 IPC(进程间通信)资源,提高多进程任务的效率
    --name vllm-deepseek-r1-llama-70b \  # 指定容器名称为 vllm-deepseek-r1-llama-70b
    vllm/vllm-openai:latest \  # 运行 vllm-openai 最新版本的 Docker 镜像
    --model /models/deepseek-70b \  # 指定要加载的模型路径(容器内部路径)
    --served-model-name DeepSeek-R1-Distill-Llama-70B \  # 设置 API 端点中返回的模型名称
    --tensor-parallel-size 4 \  # 设定张量并行度为 4,提高多 GPU 计算能力
    --gpu_memory_utilization 0.8 \  # 设置 GPU 内存利用率上限为 80%
    --max_model_len 4096 \  # 设置最大支持的序列长度为 4096
    --enable-chunked-prefill False \  # 关闭 chunked prefill 以减少前向计算的分片操作
    --api-key xxx  # 设置 API 访问的密钥(建议使用更安全的方法管理密钥)
    

Prev
huggingface
Next
ktransformers