为什么要自建 AI API?
省 90% 成本
GPT-4o API 价格约 $2.5/百万Token输入。自建 vLLM 使用开源模型,边际成本为零
数据不外泄
敏感业务数据全部本地处理,不经过任何第三方 API
无限额度
不受 API Rate Limit 限制,不限并发请求数
方案选型对比
| 框架 | 适合场景 | 优点 | 缺点 |
|---|---|---|---|
| vLLM | 高性能推理(首选) | PagedAttention 吞吐极高 | 显存占用较大 |
| Ollama | 轻量快速上手 | 一条命令启动 | 并发能力较弱 |
| llama.cpp | 低显存量推理 | GGUF 量化可用 | 精度有损失 |
| TGI (HF) | 企业级部署 | 功能完善 | 配置复杂 |
实战:用 vLLM 部署 Qwen2.5-72B
前置条件
- Linux 服务器(Ubuntu 22.04 推荐),GPU 显存 >= 48GB
- NVIDIA 驱动 >= 525,CUDA >= 12.1
- Python 3.10+
- 已安装 YSKJ SD-WAN 客户端并联网
启动 vLLM 服务
vllm serve Qwen/Qwen2.5-72B-Instruct \ --host 172.172.100.2 \ <-- 只监听 SD-WAN 内网! --port 8000 \ --api-key sk-YourSecureKeyHere \ --tensor-parallel-size 2 \ <-- 2 张 GPU 并行 --max-model-len 32768
关键安全提示:--host 一定要设为 SD-WAN 内网 IP(如 172.172.100.2),绝对不要用 0.0.0.0!
vLLM 兼容 OpenAI API 格式,只需改两行代码就能把现有应用替换为私有 API:
- openai.api_base 改为 http://172.172.100.2:8000/v1
- openai.api_key 改为你自己的 key
支持 OpenAI SDK、LangChain、LlamaIndex 等所有主流框架。
Ollama 快速替代方案
curl -fsSL https://ollama.com/install.sh | sh ollama run qwen2.5:72b export OLLAMA_HOST=172.172.100.2:11434 # 仅内网监听
Web UI 前端推荐
- Open WebUI:开源 ChatGPT 风格界面,支持 RAG 和文档上传
- LobeChat:国产优秀项目,插件生态丰富
- LibreChat:功能丰富的多模型聊天前端
这些前端只需要把 Backend URL 指向你的 SD-WAN 内网地址即可,完全不需要公网暴露。