VibeThinker: 基于3B参数的模型，在推理能力上超越Opus 4.5，采用新的SFT+GRPO方法

VibeThinker团队发布了一款基于3B参数的语言模型，该模型通过结合新的SFT（Supervised Fine-tuning）和GRPO（Generative Response Pretraining on Open Web）技术，在推理能力方面超越了Opus 4.5。具体来说，VibeThinker模型在各种推理任务上展现出更强的性能，这表明该模型在理解和生成复杂文本方面取得了显著进展。这项研究为开发更强大的语言模型提供了新的思路，并有望推动人工智能领域的进一步发展。

📎 原文：VibeThinker: 3B param model that beats Opus 4.5 on reasoning with novel SFT+GRPO | 来源：Hacker News