目标:在自有环境中获得“可控/合规/可观测”的推理能力。
🎯 文章目标
- 选型路径:引擎、模型、硬件、部署拓扑
- 安全与合规基线:权限、日志、脱敏、留痕
- 运维观测:容量/延迟/成本与告警
📚 背景/前置
- 私有化优势:数据可控、成本可估、策略可自定义
- 难点:运维/容量规划/高可用/性能调优
🔧 核心内容
1) 选型维度
- 引擎:vLLM/TGI/Ollama/LMDeploy(OpenAI 兼容、吞吐、KV 缓存)
- 模型:开源/商用;量化/长上下文;多卡并行
- 硬件:显存/带宽/存储;GPU 或 CPU(小模型)
2) 网络与拓扑
- API 网关:鉴权/限速/审计/路由
- 内网通信:服务网格/零信任(可选)
- 灰度与回滚:版本分流、蓝绿/金丝雀
3) 安全与合规
- 权限:按站点/用户/组织隔离;机密注入不落盘
- 日志:脱敏(手机号/证件)、最小保留期
- 留痕:审计日志可追溯(请求/响应/工具调用)
💡 实战示例:vLLM OpenAI 兼容接口
bash
python -m vllm.entrypoints.openai.api_server \
--model Qwen/Qwen2.5-7B-Instruct \
--host 0.0.0.0 --port 8000 \
--max-model-len 4096 --gpu-memory-utilization 0.9 \
--max-num-batched-tokens 8192
📊 对比/取舍(速查)
- 自托管 vs 托管 API:可控性 vs 维护成本
- vLLM vs TGI/Ollama/LMDeploy:吞吐/易用性/资源占用
🧪 踩坑与经验
- 没有网关:key 暴露与成本失控
- 无观测:无法定位延迟与成本问题
- 无灰度:版本切换风险大
📎 参考与延伸
- vLLM/TGI/Ollama/LMDeploy 文档
- OpenAI 兼容接口规范
💭 总结
- 以“网关 + 引擎 + 观测 + 合规”四件套为基座,稳步私有化落地