我怎么判断一个业务值不值得接入大模型

2025年1月8日 · 阅读需 6 分钟

全栈开发者

过去一年我最常被问到的问题，不是“哪个模型更强”，而是“这个业务值不值得接大模型”。我后来发现，很多团队在这个问题上一开始就问歪了。他们问的是“技术上能不能做”，而不是“产品上值不值，工程上扛不扛得住，出问题以后谁来接”。

为了让这个判断不要继续停留在口头经验里，我后来逼自己把它压成一套更像决策表的东西。它不保证每次都选对，但至少能逼团队先看代价，而不是只盯着 Demo 效果。

我先拿 4 类最常见的需求来判断

为了避免这篇文章继续停留在抽象层，我先摆 4 个在团队里最常见的需求：

需求	第一反应	我的结论
查询订单是否签收	“可以做智能客服”	不该优先上大模型，先查系统状态
解释最新退款规则	“做问答助手”	可以上，但必须接知识源和引用
生成销售跟进摘要	“做总结助手”	很适合上，且收益明显
审批是否通过	“让 AI 给建议”	可以做辅助，但不能让模型拍板

只看这张表，你会发现一个关键事实：不是“业务和大模型契合不契合”这么简单，而是同样叫“智能化”，背后的问题结构完全不同。

我现在会先过一张决策矩阵，而不是先选模型

我现在会把一个需求放进 5 个维度里看：

维度	要问的问题	高分意味着什么
语言复杂度	输入是否高度依赖自然语言理解	越高越适合模型
正确性要求	出错代价是否很高	越高越不适合直接交给模型
知识时效性	答案是否依赖实时或频繁变更知识	越高越要接检索或工具
系统可替代性	规则/查库/搜索能否更简单解决	越高越不该先上模型
运维能力	团队能否做日志、评测、回收、回滚	越低越不该急着上

这张表的作用不是给出数学分数，而是逼团队承认：有些需求从业务上看很诱人，但从工程上并不值得做成 AI 能力。

明显不该把大模型放在主路径上的例子：订单状态查询

拿“订单是否签收”举例。

很多人看到客服场景就会本能想到大模型，但这个问题本质上只是：

识别用户订单号
查询订单状态
返回状态解释

其中只有“识别用户意图”这一小段和语言有关，真正答案来自数据库。这里如果上大模型做主路径，常见问题是：

成本更高
延迟更长
状态过期时更危险
用户对错误更敏感

所以我更愿意这样做：

async function handleOrderStatus(question, userId) {
  const extracted = await smallModelExtract({
    question,
    schema: {
      orderId: 'string | null',
    },
  })

  if (!extracted.orderId) {
    return '请提供订单号，我来帮你查询。'
  }

  const order = await orderService.getStatus(userId, extracted.orderId)
  return formatOrderStatus(order)
}

这里模型只负责抽参数，不负责生成事实本身。这个方案比“让大模型完整回答”更便宜，也更稳。因为真正答案来自数据库，不来自语言生成。

很适合上的例子：销售跟进摘要

再看“生成销售跟进摘要”。

这个需求天然符合大模型擅长的部分：

输入是长文本、口语记录、聊天片段
输出是归纳、改写、提炼重点
允许一定概率性表达
出错代价相对可控

这种场景我就会给高分，因为它的核心确实是语言理解和总结，而不是确定性规则执行。

但即便如此，我也不会直接让它变成“生成完自动发给客户”。更合理的做法通常是：

先生成内部摘要
再让销售确认
最后才决定是否进入对外链路

这就是我经常说的：值得接大模型，不等于值得全自动。能上模型，只说明它能补语言能力；要不要放权给模型，还得看错误代价和责任边界。

最容易被误判的例子：制度问答

“解释最新退款规则”这种需求，是我最常见到团队判断失误的地方。

表面看它像问答，似乎很适合模型；但真正上线时会遇到两个硬问题：

知识一直在变
用户往往需要依据，而不是只要一句答案

这类需求如果要做，我通常默认不是“纯模型回答”，而是：

检索最新制度
把证据片段带给模型
输出时保留引用
没把握就拒答或转人工

也就是说，这不是一个“接不接模型”的问题，而是“模型在这条链路里处于什么位置”的问题。很多需求并不是不该用模型，而是不该让模型直接承担最终事实。

最该克制的例子：审批建议

“用 AI 帮忙审批”听起来特别像提效项目，但我对这类需求通常最谨慎。

因为它经常同时具备几个危险条件：

错误代价高
责任边界模糊
历史口径不统一
最终判定必须有人担责

这类项目如果强行上大模型做主判断，很容易变成：

表面效率提升
实际上线风险陡增

更合理的姿势通常是让模型做：

材料摘要
风险点提示
缺失字段提醒

而不是让它做“审批是否通过”的最后决定。

我现在特别看重一件事：有没有更简单的替代方案

这可能是我和很多团队最大的分歧点。

我经常会先问一句：

这件事如果不用大模型，能不能被规则、搜索、数据库查询或人工流程更稳地解决？

如果答案是“能，而且明显更稳”，那我基本不会建议直接上大模型。因为这说明模型不是在补能力空白，而是在制造新的复杂度。

最后我会把判断压成一份能现场使用的清单

现在如果一个需求摆在我面前，我会按这 6 步快速判断：

先问核心难点是不是语言理解。
再问答案是不是依赖实时数据或变动知识。
再问错误代价高不高。
再问有没有更简单的替代方案。
再问团队有没有评测、日志、回滚能力。
最后才问选哪个模型。

顺序不能反。只要把“选模型”放到最前面，团队就很容易直接滑进技术兴奋，而忽略产品和工程代价。

我真正想保留的结论

我怎么判断一个业务值不值得接入大模型？核心不是“模型能不能做出来”，而是：

它是不是语言问题
它值不值得承担概率性风险
它有没有更简单的替代方案
团队有没有能力把它长期托住

一个业务真正值得接大模型，不只是因为“模型能帮忙”，而是因为模型补的是系统真正缺的那块能力，而且补进去之后，系统仍然能稳。很多项目的问题不在于模型不够强，而在于它本来就不该被放在那条主路径上。

我先拿 4 类最常见的需求来判断​

我现在会先过一张决策矩阵，而不是先选模型​

明显不该把大模型放在主路径上的例子：订单状态查询​

很适合上的例子：销售跟进摘要​

最容易被误判的例子：制度问答​

最该克制的例子：审批建议​

我现在特别看重一件事：有没有更简单的替代方案​

最后我会把判断压成一份能现场使用的清单​

我真正想保留的结论​