Skip to content

关注“输入/输出格式、大小限制、延迟与成本”的工程路径。

🎯 文章目标

  • 给出文本-图像/语音的关键接口与提示约束
  • 最小示例与评估要点

📚 背景/前置

  • 输入:Base64/URL/文件;注意大小/分辨率限制
  • 输出:JSON/文本/文件

🔧 核心内容

1) 文本-图像

  • OCR/图表解读/截图 QA:必要时做“区域裁剪”
  • 提示:要求引用坐标位置与置信度

2) 文本-语音

  • 识别:语言/标点/时间戳
  • 合成:音色/语速/情感/停顿

💡 实战示例:调用示意(Node.js)

javascript
// 伪代码:传入图片 URL,输出结构化描述
const resp = await client.chat.completions.create({
  model: process.env.VISION_MODEL,
  messages: [
    { role:'user', content: [{type:'text', text:'描述图片要点'}, {type:'image_url', image_url:{ url }}] }
  ]
})

📊 对比/取舍(速查)

  • 质量 vs 成本:图像/语音都会显著拉高成本
  • 延迟:尽量压缩输入尺寸;分段/分块处理

🧪 踩坑与经验

  • 输入过大导致超时;
  • 无结构化输出导致不可用

📎 参考与延伸

  • Vision/Audio API 规范、示例与限制

💭 总结

  • 以“格式/大小/提示约束 + 结构化输出 + 分块处理”落地多模态