裸舞 抖音 提高大模子自动修Bug能力 豆包认真开源首个多说念话类SWE数据集

裸舞 抖音 提高大模子自动修Bug能力 豆包认真开源首个多说念话类SWE数据集

快科技4月10日音问,当天裸舞 抖音,字节进取豆包大模子团队通知,认真开源首个多说念话类SWE数据集——Multi-SWE-bench,可用于评估和提高大模子“自动修 Bug”能力。

在SWE-bench基础上,Multi-SWE-bench初度掩饰Python以外的7种主流编程说念话(Java、Go、Rust、C、C++、TypeScript、JavaScript),是确凿面向“全栈工程”的评测基准。

Multi-SWE-bench包含1632个实例,均来自GitHub issue裸舞 抖音,并历程补救的测试程序和专科开辟者的审核筛选,确保每个样本具备了了的问题描摹、正确的设立补丁以及可复现的运转测试环境。

豆包大模子团队但愿,Multi-SWE-bench能行动大模子在多种主流编程说念话与确切代码环境中的系统性评测基准,激动自动编程能力向更实用、更工程化的标的发展。

团队默示,比拟于以往聚焦Python的单说念话任务,Multi-SWE-bench更迫临现实中的多说念话开辟场景,也更能反应现时模子在“自动化软件工程”方进取的现实能力界限。

【本文抑制】如需转载请务必注明出处:快科技

性吧论坛

牵扯裁剪:拾柒裸舞 抖音

著作内容举报

]article_adlist-->   声明:新浪网独家稿件,未经授权阻遏转载。 -->