研究人员发布ProgramBench基准测试,旨在评估AI语言模型从零重建程序的能力。该测试涵盖多种编程语言和任务类型,试图衡量AI在程序理解和代码重构方面的真实水平,为评估大模型的编程能力提供了全新视角。

📎 原文:ProgramBench: Can Language Models Rebuild Programs from Scratch? | 来源:Hacker News