多模态概览
多模态能力用于在同一次任务中处理文本、图片、文件或视频。ClawdRouter 当前支持图片理解、图片生成、PDF 文件理解和 Veo 视频生成;不同能力对应不同协议和终结点。
能力选择
| 目标 | 推荐入口 | 说明 |
|---|---|---|
| 图片理解 | POST /v1beta/models/{model}:generateContent | 使用 Gemini 原生多模态,上传图片并提问 |
| 图片生成 | POST /v1/images/generations 或 POST /v1beta/models/{model}:generateContent | GPT 图片模型走 Images API;Gemini 图片模型走 Google 原生协议 |
| PDF 文件理解 | POST /v1beta/models/{model}:generateContent | 将 PDF 作为 inlineData 输入,让模型总结、抽取或问答 |
| 视频生成 | POST /v1/video/generations | Veo 异步任务,提交后到任务中心下载结果 |
先区分“理解”和“生成”
- 理解类任务通常把文件作为输入,让模型返回文本。
- 生成类任务通常把文本或参考图作为输入,让模型返回图片、视频或异步任务。
协议差异
| 协议 | 适合场景 | 常见模型 |
|---|---|---|
| OpenAI-compatible | 图片生成、统一聊天调用 | gpt-image-2、gpt-image-1 |
| Google 原生协议 | Gemini 图片理解、图片生成、PDF 文件理解 | gemini-2.5-flash、gemini-2.5-flash-image |
| Video API | Veo 文生视频、图生视频 | veo-3.1-generate-001、veo-3.1-fast-generate-001 |
设计建议
- 多模态输入通常比纯文本消耗更多额度,请在业务侧限制文件大小和并发。
- 上传图片或 PDF 时,确认
mimeType与文件真实格式一致。 - 图片生成和视频生成建议先用低成本参数试创意,再提高质量或分辨率。
- 视频生成是异步任务,不要按同步接口设计前端等待。