关注“输入/输出格式、大小限制、延迟与成本”的工程路径。
🎯 文章目标
- 给出文本-图像/语音的关键接口与提示约束
- 最小示例与评估要点
📚 背景/前置
- 输入:Base64/URL/文件;注意大小/分辨率限制
- 输出:JSON/文本/文件
🔧 核心内容
1) 文本-图像
- OCR/图表解读/截图 QA:必要时做“区域裁剪”
- 提示:要求引用坐标位置与置信度
2) 文本-语音
- 识别:语言/标点/时间戳
- 合成:音色/语速/情感/停顿
💡 实战示例:调用示意(Node.js)
javascript
// 伪代码:传入图片 URL,输出结构化描述
const resp = await client.chat.completions.create({
model: process.env.VISION_MODEL,
messages: [
{ role:'user', content: [{type:'text', text:'描述图片要点'}, {type:'image_url', image_url:{ url }}] }
]
})
📊 对比/取舍(速查)
- 质量 vs 成本:图像/语音都会显著拉高成本
- 延迟:尽量压缩输入尺寸;分段/分块处理
🧪 踩坑与经验
- 输入过大导致超时;
- 无结构化输出导致不可用
📎 参考与延伸
- Vision/Audio API 规范、示例与限制
💭 总结
- 以“格式/大小/提示约束 + 结构化输出 + 分块处理”落地多模态