Skip to content

目标:在自有环境中获得“可控/合规/可观测”的推理能力。

🎯 文章目标

  • 选型路径:引擎、模型、硬件、部署拓扑
  • 安全与合规基线:权限、日志、脱敏、留痕
  • 运维观测:容量/延迟/成本与告警

📚 背景/前置

  • 私有化优势:数据可控、成本可估、策略可自定义
  • 难点:运维/容量规划/高可用/性能调优

🔧 核心内容

1) 选型维度

  • 引擎:vLLM/TGI/Ollama/LMDeploy(OpenAI 兼容、吞吐、KV 缓存)
  • 模型:开源/商用;量化/长上下文;多卡并行
  • 硬件:显存/带宽/存储;GPU 或 CPU(小模型)

2) 网络与拓扑

  • API 网关:鉴权/限速/审计/路由
  • 内网通信:服务网格/零信任(可选)
  • 灰度与回滚:版本分流、蓝绿/金丝雀

3) 安全与合规

  • 权限:按站点/用户/组织隔离;机密注入不落盘
  • 日志:脱敏(手机号/证件)、最小保留期
  • 留痕:审计日志可追溯(请求/响应/工具调用)

💡 实战示例:vLLM OpenAI 兼容接口

bash
python -m vllm.entrypoints.openai.api_server \
  --model Qwen/Qwen2.5-7B-Instruct \
  --host 0.0.0.0 --port 8000 \
  --max-model-len 4096 --gpu-memory-utilization 0.9 \
  --max-num-batched-tokens 8192

📊 对比/取舍(速查)

  • 自托管 vs 托管 API:可控性 vs 维护成本
  • vLLM vs TGI/Ollama/LMDeploy:吞吐/易用性/资源占用

🧪 踩坑与经验

  • 没有网关:key 暴露与成本失控
  • 无观测:无法定位延迟与成本问题
  • 无灰度:版本切换风险大

📎 参考与延伸

  • vLLM/TGI/Ollama/LMDeploy 文档
  • OpenAI 兼容接口规范

💭 总结

  • 以“网关 + 引擎 + 观测 + 合规”四件套为基座,稳步私有化落地