跳到主要内容

本周试了一个模型,最有价值的 1 个发现

· 阅读需 2 分钟
一介布衣
全栈开发者 / 技术写作者

补档说明:本文属于「AI 工程落地周记」系列,计划发布时间为 2025-01-10 11:40。当前先保留为草稿,后续补充真实案例、代码片段和复盘细节后再发布。

这周我试了一个偏“小而快”的模型,本来只是想验证它能不能扛住基础分类任务。结果最有价值的发现并不是“它比大模型便宜”,而是它在一个被约束得很清楚的场景里,稳定性反而比我预期更好。

当时的任务非常简单:把用户问题分成几个固定类别,再把结果交给后面的规则链路处理。这个任务没有复杂推理,也不要求长文本生成,真正重要的是输出稳定、延迟低、格式不要乱。

现象

我最初默认这种任务应该直接用更强的模型兜底,省得后面再折腾。但跑了一轮之后发现,小模型在“标签集合清晰、输出格式固定、上下文干净”的条件下,表现其实已经够用,而且波动比想象中小。

真正让结果变差的,反而不是模型大小,而是:

  • 标签定义模糊
  • 样本边界不清
  • 输出约束没写死

判断

这次实验让我更坚定一个判断:不是所有 AI 功能都应该从“大模型优先”开始。

如果任务天然就很窄,真正需要的是稳定分类、参数抽取、字段补全,那先把问题收窄,再用更轻的模型去跑,通常比一开始就把所有请求都丢给大模型更合理。

处理

我现在会先问三个问题:

  • 这个任务是不是固定标签空间?
  • 输出是不是可以完全结构化?
  • 错误能不能通过规则再兜一层?

如果这三个答案都偏向“是”,我会优先把它放进“小模型候选池”。

结论

这周最有价值的发现不是某个模型本身,而是一条更实用的路线:先把任务边界收紧,再决定模型大小。很多时候,清晰的问题定义比更强的模型更能带来稳定收益。