29 篇博文含有标签「AI」

切换 embedding 模型前先算切换成本

2023年11月12日 · 阅读需 3 分钟

全栈开发者

embedding 模型切换成本这件事在 2023 年开始越来越频繁地进入真实项目，但很多团队一开始只看到表面收益，没有先把边界收住。只要只盯着单点评测结果，忽略了索引重建和线上切换的系统代价，问题就会很快从“一个小体验瑕疵”变成系统性的维护成本。

Rerank 阶段到底值不值得加

2023年11月8日 · 阅读需 3 分钟

一介布衣

全栈开发者

rerank 阶段这件事在 2023 年开始越来越频繁地进入真实项目，但很多团队一开始只看到表面收益，没有先把边界收住。只要初始召回虽然覆盖到了答案，但排序顺序不对，模型看到的上下文依然不够好，问题就会很快从“一个小体验瑕疵”变成系统性的维护成本。

检索前做 query rewrite 什么时候值得

2023年11月4日 · 阅读需 2 分钟

一介布衣

全栈开发者

query rewrite 这件事在 2023 年开始越来越频繁地进入真实项目，但很多团队一开始只看到表面收益，没有先把边界收住。只要原始问题太口语或太短，检索阶段根本抓不到真正意图，问题就会很快从“一个小体验瑕疵”变成系统性的维护成本。

离线评测要先于在线 A/B

2023年10月20日 · 阅读需 3 分钟

一介布衣

全栈开发者

离线评测优先级这件事在 2023 年开始越来越频繁地进入真实项目，但很多团队一开始只看到表面收益，没有先把边界收住。只要线上实验承担了本该在离线阶段就拦住的问题，影响真实用户体验，问题就会很快从“一个小体验瑕疵”变成系统性的维护成本。

大模型应用的第一版评测集怎么搭

2023年10月17日 · 阅读需 3 分钟

一介布衣

全栈开发者

2023 年很多 AI 项目都会经历一个阶段：最初几天大家都被 Demo 效果鼓舞，但很快就会遇到一个更现实的问题，模型今天看起来好，明天为什么又不稳定了？

LLM 评测数据集的标注规则先写清楚

2023年10月10日 · 阅读需 2 分钟

一介布衣

全栈开发者

评测标注规则这件事在 2023 年开始越来越频繁地进入真实项目，但很多团队一开始只看到表面收益，没有先把边界收住。只要不同人按不同理解给样本打分，最后得出的结论只会越来越混乱，问题就会很快从“一个小体验瑕疵”变成系统性的维护成本。

向量检索里的 metadata 过滤先设计再扩字段

2023年5月20日 · 阅读需 2 分钟

一介布衣

全栈开发者

metadata 过滤设计这件事在 2023 年开始越来越频繁地进入真实项目，但很多团队一开始只看到表面收益，没有先把边界收住。只要字段命名和过滤粒度不一致，导致向量召回只能靠全文语义硬扛，问题就会很快从“一个小体验瑕疵”变成系统性的维护成本。

向量数据库与 RAG 的基础认知

2023年5月16日 · 阅读需 2 分钟

一介布衣

全栈开发者

当 2023 年大家真正把大模型往业务里接时，很快就会撞上一堵墙：模型很强，但它并不知道你公司的资料、文档、规则和业务上下文。

RAG 里的 chunk overlap 不该凭感觉定

2023年5月10日 · 阅读需 3 分钟

一介布衣

全栈开发者

chunk overlap 这件事在 2023 年开始越来越频繁地进入真实项目，但很多团队一开始只看到表面收益，没有先把边界收住。只要重叠太少时语义会断，重叠太多时索引体积和噪音一起膨胀，问题就会很快从“一个小体验瑕疵”变成系统性的维护成本。

Few-shot 示例挑选比示例数量更重要

2023年4月24日 · 阅读需 2 分钟

一介布衣

全栈开发者

Few-shot 示例筛选这件事在 2023 年开始越来越频繁地进入真实项目，但很多团队一开始只看到表面收益，没有先把边界收住。只要为了追求“多给点参考”，把重复且同质的示例不断堆进上下文，问题就会很快从“一个小体验瑕疵”变成系统性的维护成本。