从零搭建私有 AI API 服务：vLLM + Ollama + SD-WAN 完整部署教程

为什么要自建 AI API？

省 90% 成本

GPT-4o API 价格约 $2.5/百万Token输入。自建 vLLM 使用开源模型，边际成本为零

数据不外泄

敏感业务数据全部本地处理，不经过任何第三方 API

无限额度

不受 API Rate Limit 限制，不限并发请求数

方案选型对比

框架	适合场景	优点	缺点
vLLM	高性能推理(首选)	PagedAttention 吞吐极高	显存占用较大
Ollama	轻量快速上手	一条命令启动	并发能力较弱
llama.cpp	低显存量推理	GGUF 量化可用	精度有损失
TGI (HF)	企业级部署	功能完善	配置复杂

实战：用 vLLM 部署 Qwen2.5-72B

前置条件

Linux 服务器（Ubuntu 22.04 推荐），GPU 显存 >= 48GB
NVIDIA 驱动 >= 525，CUDA >= 12.1
Python 3.10+
已安装 YSKJ SD-WAN 客户端并联网

启动 vLLM 服务

vllm serve Qwen/Qwen2.5-72B-Instruct \
  --host 172.172.100.2 \     <-- 只监听 SD-WAN 内网！
  --port 8000 \
  --api-key sk-YourSecureKeyHere \
  --tensor-parallel-size 2 \   <-- 2 张 GPU 并行
  --max-model-len 32768

关键安全提示：--host 一定要设为 SD-WAN 内网 IP（如 172.172.100.2），绝对不要用 0.0.0.0！

vLLM 兼容 OpenAI API 格式，只需改两行代码就能把现有应用替换为私有 API：

openai.api_base 改为 http://172.172.100.2:8000/v1
openai.api_key 改为你自己的 key

支持 OpenAI SDK、LangChain、LlamaIndex 等所有主流框架。

Ollama 快速替代方案

curl -fsSL https://ollama.com/install.sh | sh
ollama run qwen2.5:72b
export OLLAMA_HOST=172.172.100.2:11434  # 仅内网监听

Web UI 前端推荐

Open WebUI：开源 ChatGPT 风格界面，支持 RAG 和文档上传
LobeChat：国产优秀项目，插件生态丰富
LibreChat：功能丰富的多模型聊天前端

这些前端只需要把 Backend URL 指向你的 SD-WAN 内网地址即可，完全不需要公网暴露。

上一篇旁路由 + OpenWrt 部署指南：三步实现全子

没有了

从零搭建私有 AI API 服务：vLLM + Ollama + SD-WAN 完整部署教程

为什么要自建 AI API？

省 90% 成本

数据不外泄

无限额度

方案选型对比

实战：用 vLLM 部署 Qwen2.5-72B

前置条件

启动 vLLM 服务

Ollama 快速替代方案

Web UI 前端推荐

相关推荐

AI Token 与 API Key 安全防护：防止算力被盗用的完全指南

旁路由 + OpenWrt 部署指南：三步实现全子网 SD-WAN 组网

AI 驱动的网络异常自愈：让网络故障自动修复

AI 智能路由：SD-WAN 的下一核心技术