OpenAI本地部署vLLM框架怎么使用？

AI优尚网 AI 实战应用 Apr 27, 2026 4

OpenAI本地部署vLLM框架使用指南：高效推理与私有化部署实战

目录导读

vLLM框架简介与核心优势
环境准备与依赖安装
模型下载与配置
启动vLLM服务并兼容OpenAI API
调用本地部署的OpenAI兼容接口
高级特性：量化与批量推理优化
总结与常见问题解答

vLLM框架简介与核心优势

vLLM是由加州大学伯克利分校开发的高性能大语言模型推理引擎,专为解决本地部署LLM时的显存瓶颈和推理延迟问题而设计，其核心创新在于PagedAttention算法，通过动态管理KV缓存，将显存利用率提升至接近理论极限，同时支持连续批处理（Continuous Batching），显著提高吞吐量。

OpenAI本地部署vLLM框架怎么使用？-第1张图片-AI优尚网

核心优势：

显存效率提升：相比Hugging Face Transformers，显存占用降低约60%-80%
推理速度优化：支持FP16、INT4、INT8等多精度推理
API兼容性：原生提供与OpenAI API完全兼容的REST接口，可直接替换
模型支持广泛：支持Llama、Mistral、Qwen、ChatGLM等主流开源模型

问答：vLLM与Hugging Face推理有何区别？ 答：Hugging Face每次推理需为序列单独分配显存，而vLLM采用Page-based显存管理，类似操作系统的虚拟内存机制，多个序列可共享显存块，因此在大并发场景下性能提升显著。

环境准备与依赖安装

1 硬件要求

GPU显存：至少8GB（运行7B模型），推荐24GB以上（运行13B-70B模型）
操作系统：Linux（Ubuntu 20.04+）或Windows（需WSL2）
CUDA版本：11.8或12.1及以上

2 安装步骤

# 创建Python虚拟环境（推荐3.10-3.12）
conda create -n vllm python=3.10 -y
conda activate vllm
# 安装vLLM（自动匹配CUDA版本）
pip install vllm
# 若需使用flash attention加速
pip install flash-attn --no-build-isolation

问答：没有GPU能跑vLLM吗？ 答：vLLM设计初衷是针对GPU优化，CPU模式效率极低，不推荐纯CPU部署，若只有CPU，建议使用llama.cpp配合量化模型。

模型下载与配置

1 从Hugging Face下载模型

# 方法一：使用huggingface-cli
huggingface-cli download Qwen/Qwen2-7B-Instruct --local-dir ./models/Qwen2-7B-Instruct
# 方法二：使用git lfs（适用于大文件）
git lfs install
git clone https://hf-mirror.com/Qwen/Qwen2-7B-Instruct ./models/Qwen2-7B-Instruct

2 模型文件夹结构规范

确保模型包含以下关键文件：

config.json：模型配置
tokenizer.json 或 tokenizer.model：分词器
模型权重文件（.safetensors或.bin）

提示：国内用户建议使用镜像站（如hf-mirror.com）加速下载，若需注册域名可访问 www.jxysys.com 获取企业级镜像服务。

启动vLLM服务并兼容OpenAI API

1 启动命令全解析

python -m vllm.entrypoints.openai.api_server \
    --model ./models/Qwen2-7B-Instruct \
    --served-model-name qwen2-7b \
    --port 8000 \
    --gpu-memory-utilization 0.9 \
    --max-model-len 8192 \
    --trust-remote-code

参数解读： | 参数 | 作用 | |------|------| | --model | 模型路径或Hugging Face ID | | --served-model-name | API中的模型名称标识 | | --gpu-memory-utilization | 显存利用率上限（0.9表示90%） | | --max-model-len | 最大上下文长度 | | --trust-remote-code | 允许执行模型自定义代码 |

2 验证服务是否启动

# 查看API文档
curl http://localhost:8000/docs
# 返回的Swagger UI说明服务运行正常

调用本地部署的OpenAI兼容接口

1 使用OpenAI Python SDK调用

from openai import OpenAI
# 关键：修改base_url指向本地服务
client = OpenAI(
    base_url="http://localhost:8000/v1",
    api_key="not-needed"  # vLLM不校验key，但需占位
)
response = client.chat.completions.create(
    model="qwen2-7b",  # 需与--served-model-name一致
    messages=[
        {"role": "system", "content": "你是一个 helpful assistant。"},
        {"role": "user", "content": "什么是vLLM？"}
    ],
    temperature=0.7,
    max_tokens=1024
)
print(response.choices[0].message.content)

2 使用curl测试

curl http://localhost:8000/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
  "model": "qwen2-7b",
  "messages": [{"role": "user", "content": "Hello!"}],
  "max_tokens": 100
}'

问答：调用时返回404错误怎么办？ 答：检查API路径是否正确：vLLM的端点固定为/v1/chat/completions，且model参数必须匹配启动时设置的--served-model-name。

高级特性：量化与批量推理优化

1 使用AWQ量化模型

# 安装AWQ依赖
pip install autoawq
# 启动量化模型服务
python -m vllm.entrypoints.openai.api_server \
    --model TheBloke/Qwen2-7B-Instruct-AWQ \
    --quantization awq \
    --dtype half \
    --port 8000

2 批量推理性能调优

在客户端发送请求时,可利用vLLM的请求池化特性：

# 并发发送多个请求（vLLM会自动批处理）
import asyncio
from openai import AsyncOpenAI
async def send_request(prompt):
    client = AsyncOpenAI(base_url="http://localhost:8000/v1", api_key="x")
    response = await client.chat.completions.create(
        model="qwen2-7b",
        messages=[{"role": "user", "content": prompt}]
    )
    return response
# 同时发送10个请求
tasks = [send_request(f"问题{i}") for i in range(10)]
results = await asyncio.gather(*tasks)