logo
Gemini 使用指南
Vibe Coding

Gemini 使用指南

Google Gemini 是 Google 最新的多模态 AI 模型,支持文本、图像、音频和视频理解。

Gemini 使用指南Gemini 简介

Gemini 简介(更新版)

更新时间:2026-01-11 数据来源:

Gemini 是 Google 推出的多模态 AI 模型系列,支持 文本、图像、音频、视频、PDF 等多种输入,并通过统一的 API 输出高质量文本结果。Gemini API 适合构建多模态应用、AI 助手、自动化工具与智能 Agent。

Gemini API Logo
Gemini API Logo

#1) Gemini 能力概览

  • 多模态理解:同一请求里混合文本与图像/音频/视频/PDF。
  • 长上下文:主流模型支持百万级输入 token。
  • 工具调用:内置 Tools + 自定义 Function Calling。
  • 代码执行:可调用 Code Execution 进行计算与数据处理。

#2) 当前主流模型家族

模型系列定位场景
Gemini 3 Pro / Flash (Preview)最新代旗舰/高速复杂推理、多模态、Agent 任务
Gemini 2.5 Pro质量优先高质量理解与生成
Gemini 2.5 Flash / Flash-Lite成本与速度平衡实时交互与批量处理
Gemini 2.0 Flash / Flash-Lite旧代低成本兼容性或轻量任务

最新列表请以官方 Models 页面为准。

#3) Gemini 适合哪些人

  • 开发者:构建 AI 功能、接入工具链、自动化任务。
  • 产品经理:用多模态能力做竞品分析、用户反馈总结。
  • 数据/运营:用文本+表格/截图做分析与报告生成。
  • 内容团队:多模态素材理解与内容整理。

#4) 快速上手路径

  1. 选择模型:先用 gemini-2.5-flashgemini-3-flash-preview 打样。
  2. 设计 Prompt:定义输出格式、结构化字段、角色定位。
  3. 引入工具:需要操作数据或系统时使用 Function Calling。
  4. 成本评估:对 Pro/Flash/Lite 做基准测试。

#5) 需要关注的重点

  • 模型更新快:版本变动频繁,生产环境要有回退策略。
  • 长上下文成本:输入 token 大意味着成本显著上升。
  • 多模态输入体积:视频/音频建议使用 Files API。

#6) 进一步阅读

#实例 Prompt(短版)

text
你是 AI 助理教练。请把“如何用 Gemini 做竞品分析”拆成 5 个步骤,并给出每步输入输出示例。
text
我会给你一段需求描述,请输出:目标用户、关键功能、风险点三部分。

本页面由匠人学院 Wiki 系统维护。