logo
Gemini 使用指南
Vibe Coding

Gemini 使用指南

Google Gemini 是 Google 最新的多模态 AI 模型,支持文本、图像、音频和视频理解。

Gemini 使用指南多模态能力

Gemini 多模态能力(实用版)

更新时间:2026-01-11 数据来源:

Gemini API 提供原生多模态理解能力,可用 文本 + 图片 + 音频 + 视频 + PDF 组合输入,统一生成文本输出。不同模型对输入类型与上限略有差异,使用前请查官方 models 页面。

Gemini Vision
Gemini Vision

#1) 支持的模态类型

  • 文本:所有 Gemini 模型都支持。
  • 图片:图像理解、多图对比、图表/表格抽取。
  • 视频:支持上传视频文件或传入 YouTube URL,适合场景理解与时间轴分析。
  • 音频:语音转写、音频理解,可输出时间戳。
  • PDF / 文件:通过 Files API 上传后引用,用于长文档分析。

#2) 多模态常见应用场景

  • 图片 + 文本:产品 UI 评估、截图报错定位、海报/海报文案优化。
  • 视频 + 文本:课程总结、会议纪要、关键片段检索、字幕校对。
  • 音频 + 文本:访谈转写、客服通话总结、会议摘要。
  • PDF + 文本:合同条款要点、技术文档摘要、论文对比。

#3) 视频理解要点(Video Understanding)

官方文档展示了以下典型方式:

  • 上传视频文件:适合私有视频或较大体积内容。
  • 内联视频数据:小体积可直接传 base64(容易触发请求过大)。
  • YouTube URL:公开视频可用链接直接输入。
  • 时间戳引用:可针对某一时间段提问,例如“00:05 到 00:10 的演示在说明什么?”

#4) 音频处理要点(Audio)

官方示例涵盖:

  • 语音转文字
  • 音频理解(识别主题、情绪、关键事件)
  • 输出时间戳(对齐文字与时间)

#5) 图片理解要点(Image Understanding)

官方示例覆盖:

  • 内联图片数据:快速试验
  • URL 引用图片:减少上传成本
  • Files API 上传:适合多图/大图场景
  • 多图联合提示:用于对比分析

#6) Files API 的作用

Files API 支持上传并持久引用文件,适合:

  • 大体积视频/音频
  • 多页 PDF 文档
  • 多张图片批处理

官方 docs 页面提供 上传、查询元数据、列出文件、删除文件 的完整流程示例。

#7) 选型建议(快速决策)

  • 高质量理解:优先 gemini-3-pro-previewgemini-2.5-pro
  • 速度/成本优先gemini-3-flash-previewgemini-2.5-flash
  • 批量处理gemini-2.5-flash-lite

注意:不同模型对 PDF/视频/音频的支持情况与输出上限可能不同,务必对照官方 models 说明。

#8) 实操建议(降低失败率)

  1. 先文本后多模态:先用纯文本确认提示结构,再接入多模态内容。
  2. 拆分大文件:视频/音频过大时先切片,稳定性更好。
  3. 任务明确:给出输出格式(JSON/表格/要点),减少冗余。
  4. 文件上传优先 Files API:避免 inline base64 触发请求过大。
  5. 多模态任务要设定角色:例如“你是质检分析师,输出 5 条关键问题”。

#9) 官方入口

#实例 Prompt(短版)

text
你是多模态内容分析师。请读取我提供的图片和文本,输出 5 条关键信息,并以 JSON 返回: { "summary": "...", "highlights": ["..."] }
text
请总结这个视频的核心观点,并按时间戳列出 3 个关键片段(mm:ss)。

本页面由匠人学院 Wiki 系统维护。