图像理解
图像理解适合识别图片内容、抽取截图信息、分析商品图、解释图表或对视觉内容进行问答。推荐使用 Google 原生多模态接口。
请求
POST __DOCS_API_ORIGIN__/v1beta/models/gemini-2.5-flash:generateContent
基础示例
curl __DOCS_API_ORIGIN__/v1beta/models/gemini-2.5-flash:generateContent \
-H "Content-Type: application/json" \
-H "Authorization: Bearer YOUR_API_KEY" \
-d '{
"contents": [
{
"role": "user",
"parts": [
{
"inlineData": {
"mimeType": "image/jpeg",
"data": "BASE64_ENCODED_IMAGE"
}
},
{"text": "请描述这张图片中的主要内容,并指出可能需要注意的细节。"}
]
}
]
}'
输入建议
| 项目 | 建议 |
|---|---|
| 图片格式 | 使用 image/png、image/jpeg 或 image/webp |
| 图片质量 | 避免模糊、过暗、过度压缩或包含大量无关背景 |
| 提问方式 | 明确告诉模型要“描述、比较、抽取、判断还是输出结构化 JSON” |
| 隐私信息 | 上传截图前先遮挡敏感字段,例如密钥、邮箱、手机号和订单号 |
适合的提示词
请读取这张控制台截图,按 JSON 输出:页面名称、主要指标、异常提示、下一步排查建议。
下一步
- Google 多模态 API 参考 - 查看完整请求体和响应字段
- 图像生成 - 使用文本或参考图生成图片