为什么要自建 AI API?

省 90% 成本

GPT-4o API 价格约 $2.5/百万Token输入。自建 vLLM 使用开源模型,边际成本为零

数据不外泄

敏感业务数据全部本地处理,不经过任何第三方 API

无限额度

不受 API Rate Limit 限制,不限并发请求数

方案选型对比

框架适合场景优点缺点
vLLM高性能推理(首选)PagedAttention 吞吐极高显存占用较大
Ollama轻量快速上手一条命令启动并发能力较弱
llama.cpp低显存量推理GGUF 量化可用精度有损失
TGI (HF)企业级部署功能完善配置复杂

实战:用 vLLM 部署 Qwen2.5-72B

前置条件

启动 vLLM 服务

vllm serve Qwen/Qwen2.5-72B-Instruct \
  --host 172.172.100.2 \     <-- 只监听 SD-WAN 内网!
  --port 8000 \
  --api-key sk-YourSecureKeyHere \
  --tensor-parallel-size 2 \   <-- 2 张 GPU 并行
  --max-model-len 32768
关键安全提示:--host 一定要设为 SD-WAN 内网 IP(如 172.172.100.2),绝对不要用 0.0.0.0!

vLLM 兼容 OpenAI API 格式,只需改两行代码就能把现有应用替换为私有 API:

支持 OpenAI SDK、LangChain、LlamaIndex 等所有主流框架。

Ollama 快速替代方案

curl -fsSL https://ollama.com/install.sh | sh
ollama run qwen2.5:72b
export OLLAMA_HOST=172.172.100.2:11434  # 仅内网监听

Web UI 前端推荐

这些前端只需要把 Backend URL 指向你的 SD-WAN 内网地址即可,完全不需要公网暴露。