图像理解

图像理解适合识别图片内容、抽取截图信息、分析商品图、解释图表或对视觉内容进行问答。推荐使用 Google 原生多模态接口。

请求

POST __DOCS_API_ORIGIN__/v1beta/models/gemini-2.5-flash:generateContent

基础示例

curl __DOCS_API_ORIGIN__/v1beta/models/gemini-2.5-flash:generateContent \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -d '{
    "contents": [
      {
        "role": "user",
        "parts": [
          {
            "inlineData": {
              "mimeType": "image/jpeg",
              "data": "BASE64_ENCODED_IMAGE"
            }
          },
          {"text": "请描述这张图片中的主要内容，并指出可能需要注意的细节。"}
        ]
      }
    ]
  }'

输入建议

项目	建议
图片格式	使用 `image/png`、`image/jpeg` 或 `image/webp`
图片质量	避免模糊、过暗、过度压缩或包含大量无关背景
提问方式	明确告诉模型要“描述、比较、抽取、判断还是输出结构化 JSON”
隐私信息	上传截图前先遮挡敏感字段，例如密钥、邮箱、手机号和订单号

适合的提示词

请读取这张控制台截图，按 JSON 输出：页面名称、主要指标、异常提示、下一步排查建议。

下一步

Google 多模态 API 参考 - 查看完整请求体和响应字段
图像生成 - 使用文本或参考图生成图片

请求​

基础示例​

输入建议​

适合的提示词​

下一步​

请求

基础示例

输入建议

适合的提示词

下一步