跳到主要内容

27 篇博文 含有标签「AI」

查看所有标签

工具调用和人工审核的边界怎么划

· 阅读需 3 分钟
一介布衣
全栈开发者

工具调用与人工审核边界 这件事在 2023 年开始越来越频繁地进入真实项目,但很多团队一开始只看到表面收益,没有先把边界收住。只要 把高风险动作直接交给自动化链路,短期看很顺,长期一定会在责任边界上出问题,问题就会很快从“一个小体验瑕疵”变成系统性的维护成本。

AI 工作流里的幂等键应该放在哪

· 阅读需 3 分钟
一介布衣
全栈开发者

工作流幂等键 这件事在 2023 年开始越来越频繁地进入真实项目,但很多团队一开始只看到表面收益,没有先把边界收住。只要 模型和工具都可能重试,如果幂等控制不在入口统一,重复动作会层层叠加,问题就会很快从“一个小体验瑕疵”变成系统性的维护成本。

Function calling 的工具 schema 要像 API 一样设计

· 阅读需 2 分钟
一介布衣
全栈开发者

工具 schema 设计 这件事在 2023 年开始越来越频繁地进入真实项目,但很多团队一开始只看到表面收益,没有先把边界收住。只要 字段定义模糊、可选项太多,模型会频繁给出半对半错的调用参数,问题就会很快从“一个小体验瑕疵”变成系统性的维护成本。

RAG 观测指标先看命中率和上下文链路

· 阅读需 3 分钟
一介布衣
全栈开发者

RAG 观测体系 这件事在 2023 年开始越来越频繁地进入真实项目,但很多团队一开始只看到表面收益,没有先把边界收住。只要 系统效果波动时,只能靠人工体感猜是哪一环出了问题,问题就会很快从“一个小体验瑕疵”变成系统性的维护成本。

高频问题的 RAG 缓存层怎么放

· 阅读需 3 分钟
一介布衣
全栈开发者

RAG 缓存层 这件事在 2023 年开始越来越频繁地进入真实项目,但很多团队一开始只看到表面收益,没有先把边界收住。只要 每次都全链路重跑检索和生成,高频场景的成本和延迟会持续被放大,问题就会很快从“一个小体验瑕疵”变成系统性的维护成本。

RAG 回答里的引用和 grounding 风格

· 阅读需 2 分钟
一介布衣
全栈开发者

引用与 grounding 风格 这件事在 2023 年开始越来越频繁地进入真实项目,但很多团队一开始只看到表面收益,没有先把边界收住。只要 模型回答看起来很自信,但用户根本不知道依据来自哪里,问题就会很快从“一个小体验瑕疵”变成系统性的维护成本。

切换 embedding 模型前先算切换成本

· 阅读需 3 分钟
一介布衣
全栈开发者

embedding 模型切换成本 这件事在 2023 年开始越来越频繁地进入真实项目,但很多团队一开始只看到表面收益,没有先把边界收住。只要 只盯着单点评测结果,忽略了索引重建和线上切换的系统代价,问题就会很快从“一个小体验瑕疵”变成系统性的维护成本。

Rerank 阶段到底值不值得加

· 阅读需 3 分钟
一介布衣
全栈开发者

rerank 阶段 这件事在 2023 年开始越来越频繁地进入真实项目,但很多团队一开始只看到表面收益,没有先把边界收住。只要 初始召回虽然覆盖到了答案,但排序顺序不对,模型看到的上下文依然不够好,问题就会很快从“一个小体验瑕疵”变成系统性的维护成本。