专栏首页arxiv.org翻译专栏CodeNet项目:用于学习多种编码任务的大规模代码数据集人工智能(CS)

CodeNet项目:用于学习多种编码任务的大规模代码数据集人工智能(CS)

深度学习和机器学习算法的进步使得计算机视觉、语音识别、自然语言处理等领域取得了突破性进展。此外,在过去的几十年里,软件已经被构建到我们社会的各个方面。这两种趋势在快速发展的代码人工智能研究领域产生了新的兴趣。随着软件开发在所有行业中变得无处不在,以及企业遗留应用程序的代码基础结构的老化,提高软件开发效率和使遗留应用程序现代化比以往任何时候都更加重要。在过去的十年里,像ImageNet这样的数据集,由于其规模和多样性,在从计算机视觉到语言和语音理解的算法进步方面发挥了关键作用。在本文中,我们介绍了Project CodeNet,这是一个第一个类型的、非常大规模的、多样化的、高质量的数据集,以加速代码人工智能的算法进步。它由14M代码样本和55种不同编程语言的约500M行代码组成。Project CodeNet不仅在规模上独一无二,而且在编码任务的多样性上,它可以帮助基准测试:从提高代码推荐算法的代码相似性和分类,以及多种编程语言之间的代码转换,到提高代码性能(运行时和内存)改进技术。CodeNet还为超过7M的代码样本提供了样本输入和输出测试集,这对于确定不同语言中的代码等价性非常重要。作为一个可用性特性,我们在Project CodeNet中提供了几个预处理工具来将源代码转换为可以作为机器学习模型输入的表示。

原文题目:Project CodeNet: A Large-Scale AI for Code Dataset for Learning a Diversity of Coding Tasks

原文:Advancements in deep learning and machine learning algorithms have enabled breakthrough progress in computer vision, speech recognition, natural language processing and beyond. In addition, over the last several decades, software has been built into the fabric of every aspect of our society. Together, these two trends have generated new interest in the fast-emerging research area of AI for Code. As software development becomes ubiquitous across all industries and code infrastructure of enterprise legacy applications ages, it is more critical than ever to increase software development productivity and modernize legacy applications. Over the last decade, datasets like ImageNet, with its large scale and diversity, have played a pivotal role in algorithmic advancements from computer vision to language and speech understanding. In this paper, we present Project CodeNet, a first-of-its-kind, very large scale, diverse, and high-quality dataset to accelerate the algorithmic advancements in AI for Code. It consists of 14M code samples and about 500M lines of code in 55 different programming languages. Project CodeNet is not only unique in its scale, but also in the diversity of coding tasks it can help benchmark: from code similarity and classification for advances in code recommendation algorithms, and code translation between a large variety programming languages, to advances in code performance (both runtime, and memory) improvement techniques. CodeNet also provides sample input and output test sets for over 7M code samples, which can be critical for determining code equivalence in different languages. As a usability feature, we provide several preprocessing tools in Project CodeNet to transform source codes into representations that can be readily used as inputs into machine learning models.

原文链接:https://arxiv.org/abs/2105.12655

原文作者:Ruchir Puri, David S. Kung, Geert Janssen, Wei Zhang, Giacomo Domeniconi, Vladmir Zolotov, Julian Do

我来说两句

0 条评论
登录 后参与评论

相关文章

  • IBM开源了5亿行代码数据集,里面最多的编程语言却不是Python

    让 AI 自动生成代码,是很多开发者的梦想,近些年来,有关这一方面的研究屡见不鲜。但要想训练一个好用的 AI,最重要的工作或许就是找到优质数据。

    机器之心
  • 成熟的AI应该自己写代码,IBM发布5亿行代码数据集,包含55种语言|开源

    在ImageNet频频出现在计算机视觉研究的今天,IBM也为智能编码(AI for Code)带来了它的专属数据集——CodeNet。

    量子位
  • 7 Papers & Radios | Transformer助力CAD草图生成;光学神经网络做数字识别

    论文 1:Self-Supervised Pillar Motion Learning for Autonomous Driving

    机器之心
  • 史上最快AI计算机发布!谷歌TPU V3的1/5功耗、1/30体积,首台实体机已交付

    这个名为Cerebras Wafer Scale Engine(WSE)的“巨无霸”面积达到42225 平方毫米,拥有1.2 万亿个晶体管,400000 个核心...

    大数据文摘
  • 斯坦福学长指路!给AI萌新的本科4年课程清单(课程直达)

    相信每个入行人工智能的老手,对自己过往的几年学习生涯都或多或少会有一些遗憾:如果我当年先从基本概念入手就好了,如果我当年把核心算法吃的更透一点就好了……

    CDA数据分析师
  • 训练AI来玩CS反恐精英!清华朱军与剑桥博士后的这项研究太燃了 | 童年回忆

    当听到CS这句经典的台词时,我就不禁想大喊一声:AWSL ! 俺的童年回忆!!!

    AI科技评论
  • 让孩子进阶中产的唯一路径是编程?

    作者 | 周翔 ****年,新的北京城已经建成**年了。 如今的北京已经是一座有着八千万人口的巨型城市,但是位于城市中心的紫禁城却不再属于每一个居民。 为了满足...

    AI科技大本营
  • 转载:程序员都应该访问的最佳网站

    Zoctopus
  • UC Berkeley EECS系是如何培养计算机学生的

    加州大学伯克利分校电子工程和计算机科学系(EECS)是世界知名的院系,计算机领域在2020 USNews排名第一[1]。EECS的使命是教育、创新和服务社会。自...

    陆道峰

扫码关注云+社区

领取腾讯云代金券