17 篇博文含有标签「成本优化」

查看所有标签

一个评测样本为什么改了我的产品判断

1970年1月1日 · 阅读需 4 分钟

一介布衣

全栈开发者 / 技术写作者

补档说明：本文属于「AI 工程落地周记」系列，计划发布时间为 2025-09-22 09:10。当前先保留为草稿，后续补充真实案例、代码片段和复盘细节后再发布。

很多时候，团队会天然相信“整体分数”比单个样本更重要。这个判断通常没错，但我后来有过一次很深的体会：一个样本也可能比一百个平均分更能暴露产品问题。

那次我在看一套评测结果时，大盘分数其实不难看。可其中有一条样本让我停了很久，最后直接改了我对产品形态的判断。

开源模型和商业模型，我现在更实际的取舍方法

1970年1月1日 · 阅读需 5 分钟

一介布衣

全栈开发者 / 技术写作者

补档说明：本文属于「AI 工程落地周记」系列，计划发布时间为 2025-09-29 09:10。当前先保留为草稿，后续补充真实案例、代码片段和复盘细节后再发布。

关于开源模型和商业模型，过去很长一段时间讨论都容易变成“立场题”：

开源更可控
商业更强
开源更便宜
商业更省事

这些话都各有一部分对，但真做项目时，它们都不够。因为真正的取舍不是价值观问题，而是你愿意把复杂度放在哪一层。

我现在越来越少问“哪个阵营更好”，而是更实际地问：

当前业务的不确定性大不大
团队有没有能力接住模型基础设施
成本压力到底发生在调用费，还是发生在人力和运维
数据和合规边界到底有多硬

这些问题一回答，很多所谓“阵营之争”其实就没那么悬了。

推理引擎、显存、并发，这些指标怎么影响真实成本

1970年1月1日 · 阅读需 5 分钟

一介布衣

全栈开发者 / 技术写作者

补档说明：本文属于「AI 工程落地周记」系列，计划发布时间为 2025-10-04 16:10。当前先保留为草稿，后续补充真实案例、代码片段和复盘细节后再发布。

很多人在算大模型私有化或自托管成本时，最容易先盯住的是两件事：

一张卡多少钱
模型需要多少显存

这两个数字当然重要，但如果只看到这里，最后经常会算出一张很“理论正确、线上失真”的成本表。
因为真实成本不是由单一硬件价格决定的，而是由推理引擎、显存占用、并发效率和服务稳定性一起决定的有效产能。

也就是说，真正该问的问题不是“这张卡贵不贵”，而是“这套栈每小时到底能稳定完成多少个有效请求”。

一次多模型路由策略的简化记录

1970年1月1日 · 阅读需 4 分钟

一介布衣

全栈开发者 / 技术写作者

补档说明：本文属于「AI 工程落地周记」系列，计划发布时间为 2025-10-05 16:10。当前先保留为草稿，后续补充真实案例、代码片段和复盘细节后再发布。

有一阵子我们把多模型路由做得越来越“聪明”：

先按任务类型分
再按风险等级分
再按上下文长度分
再按历史命中率分
失败后还有二级 fallback

纸面上看，这套策略非常精细。真正上线后，问题却越来越明显：

成本走势很难解释
某个请求为什么走了某个模型很难追
调一条规则，别的路径会不会被带偏不清楚
出现效果抖动时，排查几乎像在查一个“规则黑箱”

后来我们做了一次很克制的重构：不是继续加规则，而是把路由策略砍掉一大半。结果反而更稳了。

当模型开始影响业务决策，责任边界怎么定

1970年1月1日 · 阅读需 2 分钟

一介布衣

全栈开发者 / 技术写作者

补档说明：本文属于「AI 工程落地周记」系列，计划发布时间为 2025-11-10 16:10。当前先保留为草稿，后续补充真实案例、代码片段和复盘细节后再发布。

如果把「当模型开始影响业务决策，责任边界怎么定」放到真实项目里，应该先从哪些约束和取舍开始判断？

主文以完整判断链路为主，重点写清背景、取舍、工程落地和复盘结论。

一个看板指标为什么应该删掉

1970年1月1日 · 阅读需 2 分钟

一介布衣

全栈开发者 / 技术写作者

补档说明：本文属于「AI 工程落地周记」系列，计划发布时间为 2025-12-21 09:10。当前先保留为草稿，后续补充真实案例、代码片段和复盘细节后再发布。

为什么「一个看板指标应该删掉」这个问题在 AI 工程里值得单独拆开讨论？

短更以单点观察为主，重点记录一个具体问题、一次实验或一个小的工程判断。

统一 Prompt、工具、知识、评测之后，组织才开始提效

1970年1月1日 · 阅读需 2 分钟

一介布衣

全栈开发者 / 技术写作者

补档说明：本文属于「AI 工程落地周记」系列，计划发布时间为 2025-12-28 20:15。当前先保留为草稿，后续补充真实案例、代码片段和复盘细节后再发布。

围绕「统一 Prompt、工具、知识、评测之后，组织才开始提效」，我希望沉淀出一个能被后续项目复用的判断框架。

主文以完整判断链路为主，重点写清背景、取舍、工程落地和复盘结论。