VibeThinker团队发布了一款基于3B参数的语言模型,该模型通过结合新的SFT(Supervised Fine-tuning)和GRPO(Generative Response Pretraining on Open Web)技术,在推理能力方面超越了Opus 4.5。具体来说,VibeThinker模型在各种推理任务上展现出更强的性能,这表明该模型在理解和生成复杂文本方面取得了显著进展。这项研究为开发更强大的语言模型提供了新的思路,并有望推动人工智能领域的进一步发展。
📎 原文:VibeThinker: 3B param model that beats Opus 4.5 on reasoning with novel SFT+GRPO | 来源:Hacker News