多模态概览

多模态能力用于在同一次任务中处理文本、图片、文件或视频。ClawdRouter 当前支持图片理解、图片生成、PDF 文件理解和 Veo 视频生成；不同能力对应不同协议和终结点。

能力选择

目标	推荐入口	说明
图片理解	`POST /v1beta/models/{model}:generateContent`	使用 Gemini 原生多模态，上传图片并提问
图片生成	`POST /v1/images/generations` 或 `POST /v1beta/models/{model}:generateContent`	GPT 图片模型走 Images API；Gemini 图片模型走 Google 原生协议
PDF 文件理解	`POST /v1beta/models/{model}:generateContent`	将 PDF 作为 `inlineData` 输入，让模型总结、抽取或问答
视频生成	`POST /v1/video/generations`	Veo 异步任务，提交后到任务中心下载结果

先区分“理解”和“生成”

协议	适合场景	常见模型
OpenAI-compatible	图片生成、统一聊天调用	`gpt-image-2`、`gpt-image-1`
Google 原生协议	Gemini 图片理解、图片生成、PDF 文件理解	`gemini-2.5-flash`、`gemini-2.5-flash-image`
Video API	Veo 文生视频、图生视频	`veo-3.1-generate-001`、`veo-3.1-fast-generate-001`