Google 於 2024 年 6 月 27 日向全球研究人員和開發者推出其新一代開放模型 Google Gemma 2。Gemma 2 提供 9 億(9B)和 27 億(27B)參數兩個版本,性能表現更為出色,推理效率顯著提升,並且內建多項安全改進。
Google Gemma 2 性能強悍
Gemma 2 採用了重新設計的架構,專為性能和推理效率而優化。以下是其主要特點:
- 27B 版本:在同級別模型中表現最佳,甚至超越尺寸為其兩倍的模型。27B Gemma 2 能在單一 NVIDIA H100 Tensor Core GPU 或 TPU 主機上運行,顯著降低部署成本。
- 9B 版本:同樣提供領先的性能,超越 Llama 3 8B 及其他同級別開源模型。
無與倫比的效率與成本節省
- 27B Gemma 2:設計上能在 Google Cloud TPU 主機、NVIDIA A100 80GB Tensor Core GPU 或 NVIDIA H100 Tensor Core GPU 上高效運行,既能保持高性能又能顯著降低成本,使 AI 部署更具經濟效益。
硬件兼容性
- 跨硬件的快速推理:Gemma 2 經過優化,能在廣泛的硬件上高速運行,從強大的遊戲筆記本電腦和高端桌面電腦,到基於雲的設置。用戶可以在 Google AI Studio 中以全精度測試 Gemma 2,或使用 Gemma.cpp 的量化版本在 CPU 上解鎖本地性能,甚至可以在家用電腦的 NVIDIA RTX 或 GeForce RTX 上通過 Hugging Face Transformers 進行嘗試。
為開發者與研究人員而設計
Gemma 2 不僅更強大,還更容易整合到開發者與研究人員的工作流程中:
開放與可訪問性
- 開放且可商用:與原版 Gemma 模型一樣,Gemma 2 在商業友好型 Gemma 許可下發布,允許開發者和研究人員分享並商業化他們的創新成果。
廣泛的框架兼容性
- 兼容主要 AI 框架:Gemma 2 與 Hugging Face Transformers、JAX、PyTorch 和 TensorFlow(通過 Keras 3.0、vLLM、Gemma.cpp、Llama.cpp 和 Ollama)等主要 AI 框架兼容。此外,Gemma 還經過 NVIDIA TensorRT-LLM 優化,可在 NVIDIA 加速基礎設施上運行,或作為 NVIDIA NIM 推理微服務運行,並將來會對 NVIDIA 的 NeMo 進行優化。用戶可以使用 Keras 和 Hugging Face 進行微調,Google 也在積極開發更多參數高效微調選項。
容易部署
- 輕鬆部署:從下個月起,Google Cloud 客戶將能輕鬆在 Vertex AI 上部署和管理 Gemma 2。用戶還可以參考全新的 Gemma Cookbook,這是一個實用範例和食譜集合,指導用戶如何構建應用程序並針對特定任務微調 Gemma 2 模型。
Gemma 2 現已在 Google AI Studio 中限定提供,可以在無需硬件要求的情況下測試其 27B 的全部性能能力。您還可以從 Kaggle 和 Hugging Face Models 下載 Gemma 2 的模型權重,Vertex AI Model Garden 即將推出。為了促進研究和開發,Gemma 2 還可通過 Kaggle 或 Colab notebooks 的免費層免費獲得。首次使用 Google Cloud 的客戶可能有資格獲得 300 美元的信用額度。學術研究人員可以申請 Gemma 2 學術研究計劃,以獲取 Google Cloud 信用額度,加速他們使用 Gemma 2 的研究。申請現已開放,截止日期為 8 月 9 日。