前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【GPT】开源 | 一个代码生成模型的综合鲁棒性评估基准ReCode

【GPT】开源 | 一个代码生成模型的综合鲁棒性评估基准ReCode

作者头像
CNNer
发布2023-02-28 11:10:43
7150
发布2023-02-28 11:10:43
举报
文章被收录于专栏:CNNerCNNer

论文地址: http://arxiv.org/pdf/2212.10264v1.pdf

来源: AWS AI Labs

论文名称:ReCode: Robustness Evaluation of Code Generation Models

原文作者:Shiqi Wang

内容提要

代码生成模型已经取得了令人印象深刻的性能。然而,它们往往很脆弱,因为对提示符的轻微修改可能会导致截然不同的生成;这些鲁棒性属性在实际应用程序中部署时对用户体验至关重要,但并没有很好地被理解。大多数现有的关于文本或代码任务中的鲁棒性的工作都集中在分类上,而生成任务中的鲁棒性是一个未知的领域,到目前为止还没有代码生成中的鲁棒性的综合基准。在本文中,我们提出了ReCode,一个代码生成模型的综合鲁棒性评估基准。我们专门为文档字符串、函数和变量名、代码语法和代码格式上的代码定制了30多种转换。它们经过精心设计,在现实编码实践中是自然的,保留原始语义,从而提供模型鲁棒性性能的多方面评估。通过人工注释,我们验证了超过90%的扰动提示不会改变原始提示的语义。此外,我们定义了代码生成模型的鲁棒性度量,考虑到每种扰动类型下的最坏情况行为,利用执行生成的代码可以作为客观评估的事实。我们使用HumanEval、MBPP以及从中派生的功能完成任务在SOTA模型上演示ReCode。得到了有趣的观察结果:CodeGen优于InCoder和GPT-J的鲁棒性;模型对语法扰动最为敏感;MBPP比HumanEval更具的稳健性。

主要框架及实验结果

声明:文章来自于网络,仅用于学习分享,版权归原作者所有

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2023-02-18,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 CNNer 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档