
一、Gemma 3 的功能特性
Google的Gemma系列开源模型迎来更新,发布了针对多模态、长上下文优化的 Gemma 3,27B 版本性能比肩Gemini-1.5-Pro:
- 使用世界上最好的单加速器模型进行构建: Gemma 3 以其尺寸提供最先进的性能,在 LMArena 排行榜的初步人类偏好评估中胜过 Llama3-405B、DeepSeek-V3 和 o3-mini。这可以帮助您创建可安装在单个 GPU 或 TPU 主机上的引人入胜的用户体验。
- 以 140 种语言走向全球:构建使用客户语言的应用程序。Gemma 3 提供对超过 35 种语言的开箱即用支持和对超过 140 种语言的预训练支持。
- 打造具备高级文本和视觉推理能力的AI:轻松构建分析图片、文本、短视频等应用,开启交互智能化新可能1。
- 使用扩展的上下文窗口处理复杂任务: Gemma 3 提供 128k 令牌上下文窗口,让您的应用程序处理和理解大量信息。
- 使用函数调用创建 AI 驱动的工作流程: Gemma 3 支持函数调用和结构化输出,以帮助您自动执行任务并构建代理体验。
- 通过量化模型更快地实现高性能: Gemma 3 引入了官方量化版本,减少了模型大小和计算要求,同时保持了高精度。
二、Gemma 3 的背景和动机
- 发表时间:2025年3月(技术报告,非正式发表)。
- 研究问题:在Gemma 2的基础上,进一步提升模型的性能,并增加多模态(图像理解)、长文本处理和多语言支持能力。
- 核心目标:
- 硬件适配性:在消费级硬件(手机、笔记本)上高效运行。
- 性能提升:通过架构改进和训练优化,使4B参数的指令调优模型(Gemma3-4B-IT)性能接近Gemma2-27B-IT,27B模型(Gemma3-27B-IT)对标Gemini-1.5-Pro。
- 研究背景:
- 多模态融合的需求:现实世界的信息通常以多种形式存在(如文本、图像等),如何让模型理解和处理多模态信息成为一个重要的研究方向。
- 长文本处理的挑战:LLM在处理长文本时,面临着计算复杂度高、信息丢失等问题。
- 多语言支持的重要性:为了让LLM更好地服务于全球用户,需要提升其多语言处理能力。
三. Gemma 3 的相关研究
- Gemma 2:Gemma 3是Gemma 2的升级版,Gemma 2在性能和效率上都有不错的表现,但多模态、长文本和多语言能力有待加强。
- Gemini系列模型:Gemma 3在设计上与Gemini系列模型密切相关,但Gemini是规模更大的前沿模型,Gemma 3旨在实现与Gemini相近的性能,同时保持轻量化。
- SigLIP:Gemma 3采用了SigLIP视觉编码器,但需要针对Gemma的特点进行调整和优化,以降低图像处理的计算成本。
- LLaVA:Gemma 3借鉴了LLaVA的Pan & Scan方法,以支持处理任意分辨率的图像,但需要在Gemma中进行适配和改进。
- 其他长文本处理方法:现有长文本处理方法(如增加local attention layers)在降低KV缓存的内存占用方面有一定效果,但可能会影响模型性能,需要在Gemma 3中进行权衡。
四、Gemma 3 的核心思路
Gemma 3的核心思路是在Gemma 2的基础上,通过以下方式提升模型性能并增加多模态、长文本处理和多语言支持能力:
- 多模态:
- 采用SigLIP视觉编码器,将图像转换为token序列,使LLM能够处理图像信息。
- 通过Pan & Scan方法,支持处理任意分辨率的图像。
- 长文本处理:
- 增加上下文窗口大小到128K tokens(1B模型为32K)。
- 采用局部/全局注意力混合结构,降低KV缓存的内存占用。
- 多语言支持:
- 使用与Gemini 2.0相同的tokenizer,更好地支持非英语语言。
- 增加多语言训练数据,并采用Unimax策略处理语言不平衡问题。
- 知识蒸馏:使用知识蒸馏技术,将大型教师模型的知识迁移到小型学生模型中,提升模型性能。
- 后训练:采用一种新颖的后训练方法,提升模型在数学、推理、聊天、指令跟随和多语言等方面的能力。
- 采用监督微调(SFT)和强化学习人类反馈(RLHF)等技术,使模型更好地遵循指令。
- 使用权重平均奖励模型(WARM)等方法,提升模型的helpful, instruction-following, and multilingual abilities。
- 量化感知训练:
- 对模型进行量化,以减少内存占用和计算成本。
- 采用Quantization Aware Training (QAT)方法,在训练过程中模拟量化,以减少量化带来的性能损失。
五、Gemma 3 的实验结论
- 实验设计:
- 在多个benchmark上进行评测,包括MMLU、LiveCodeBench、MATH等,以评估模型的通用能力。
- 在LMSYS Chatbot Arena上进行人类评估,以评估模型的对话能力。
- 进行消融实验,分析不同技术对模型性能的影响。
- 实验结果:
- 长上下文验证:在RULER和MRCR基准测试中,128K上下文下Gemma 3-27B的KV缓存内存仅为纯全局注意力模型的15%。
- 多模态评估:DocVQA任务中,Gemma3-27B-IT达到90.4 ANLS,较Gemma2提升18.6%。
- 多语言能力:Global-MMLU-Lite基准上,Gemma3-27B准确率75.7%,优于Gemma2-27B的69.4%。
- 消融实验表明,局部/全局注意力混合结构可以在降低KV缓存内存占用的同时,保持模型性能。
- Pan & Scan方法可以有效提升模型处理任意分辨率图像的能力。
- 知识蒸馏中,大教师模型在长训练周期下优于小教师。

六、Gemma 3 的缺点和不足
- 视觉局限:固定分辨率编码器导致高分辨率图像细节丢失(如TextVQA任务中文本识别误差)。
- 量化精度损失:Int4量化使27B模型在MATH基准准确率从89.0%降至83.2%。
- 多语言不平衡:低资源语言(如印地语)性能仍落后英语20%以上。
- 长文本处理的trade-off:为了降低KV缓存的内存占用,Gemma 3采用了局部/全局注意力混合结构,但这可能会限制模型捕捉长距离依赖关系的能力,需要在实际应用中进行权衡。
- 知识污染的风险:文章提到,尽管使用了decontamination技术,但仍然存在benchmark被污染的风险,这可能会影响评估结果的准确性。
七、如何使用 Gemma 3?
1、在线使用:
- 打开使用 Google AI Studio 官网:https://aistudio.google.com/
- 直接在浏览器中以全精度试用 Gemma 3 - 无需任何设置。
国内IP无法正常登录!!请自备魔法上网/科学上网工具。

2、本地使用:
为了让更多用户能够轻松体验这一技术,根据下面步骤即可正常使用。
国内IP无法自动下载模型!!请自备魔法上网/科学上网工具。
1、打开 Ollama 官网,根据电脑系统,下载对应的Ollama客户端,如果已安装,请更新到最新版本,下载地址:https://ollama.com/download

2、按照提示步骤安装并打开Ollama

3、打开Ollama官网模型页面寻找合适的模型,https://ollama.com/search

4、根据自己电脑配置,下载合适版本的 Gemma 3

5、打开电脑终端,输入下面代码,按下回车,系统会自动下载对应模型,我们以12b的Gemma 3为例,等待下载结束即可。ollama run gemma3:12b

6、安装 ChatWise 客户端:极力推荐!提供直观的聊天界面,支持多种对话模式和高级功能。也可使用其他对话客户端,比如AnythingLLM、LMStudio等。即可正常使用啦~



