ProgramBench：语言模型能否从零重建程序？

研究人员发布ProgramBench基准测试，旨在评估AI语言模型从零重建程序的能力。该测试涵盖多种编程语言和任务类型，试图衡量AI在程序理解和代码重构方面的真实水平，为评估大模型的编程能力提供了全新视角。