谷歌加速 Gemma 4：多 Token 预测草稿器实现更快推理

2026年5月5日 · 1 分钟

谷歌发布 Gemma 4 模型的多 Token 预测技术，通过草稿器机制显著提升了推理速度。该技术让模型能够同时预测多个后续 Token，而非逐字生成，大幅降低了延迟。这一创新有望在保持生成质量的同时，使大语言模型的部署成本进一步下降。