前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >MIT、Microsoft 和 Allen AI 开源一套 AI 编程谜题(P3:Python 编程谜题)

MIT、Microsoft 和 Allen AI 开源一套 AI 编程谜题(P3:Python 编程谜题)

作者头像
代码医生工作室
发布2021-07-16 16:04:16
5880
发布2021-07-16 16:04:16
举报
文章被收录于专栏:相约机器人相约机器人

AI 中的编程竞赛问题可用于评估程序员处理人工任务的能力并测试当前算法的边界。因此来自麻省理工学院、微软研究院和艾伦人工智能研究所的一个研究团队开源了 Python 编程谜题 (P3)。P3是一款全新的编程挑战套件 ,可以捕捉谜题的本质,用于教授和评估人工智能编程的熟练程度。

以下是该团队的贡献列表:

  • 引入了编程谜题,一种适用于算法问题解决的新问题(适用于机器和人类)。
  • 提议的 P3,一个具有各种领域和难度级别的开源拼图数据集。
  • 提供了人工评估和基线,以展示如何使用拼图来跟踪算法问题解决进度。

建议的谜题是用 Python 编写的,即 Python 函数,并以 answer 作为参数。目的是找到一个使函数的输出为真的输入 x,即满足 f(x) == True 的可接受答案 x。换句话说,解决问题需要找到一个返回“true”的解决方案。

受维基百科和编程竞赛启发的开源 P3 数据集包括难度级别、领域和算法工具方面的各种难题。

一些经典的谜题/问题是:

  • 河内塔和国际象棋谜题(例如,骑士之旅和 n-皇后问题变体)
  • 两人挑战,例如为 Tic-Tac-Toe、Rock-Paper-Scissors 和 Mastermind 寻找最佳策略或寻找一般和游戏的纳什均衡。
  • 来自 IMO(国际数学奥林匹克)和 ICPC(国际大学生程序设计竞赛)的谜题
  • 图论算法难题,例如最短路径或种植集团。
  • 初等代数和数论算法谜题等等。

问题集允许进行客观评估。这些问题不会增加知道任何答案关键偏差的负担,因为在不咨询答案关键的情况下评估候选答案是否有效很简单。

研究人员进行了广泛的测试/实验,以检查基于随机森林、转换器和各种形式的 GPT-3 提示的几个参数化枚举自顶向下求解器。他们还进行了一项用户调查,看看这些谜题是否能准确评估编程能力。

实验结果表明,人类程序员始终胜过 GPT-3 和枚举方法等 AI 求解器。例如,引导 GPT-3 解决了 60% 的难题,而新手和有经验的人类参与者分别为 76% 和 87%。研究人员还发现了 AI 求解器性能与人类程序员难度之间的相关性。

Github:

https://github.com/microsoft/PythonProgrammingPuzzles

论文:

https://arxiv.org/pdf/2106.05784.pdf

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2021-07-14,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 相约机器人 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
图数据库 KonisGraph
图数据库 KonisGraph(TencentDB for KonisGraph)是一种云端图数据库服务,基于腾讯在海量图数据上的实践经验,提供一站式海量图数据存储、管理、实时查询、计算、可视化分析能力;KonisGraph 支持属性图模型和 TinkerPop Gremlin 查询语言,能够帮助用户快速完成对图数据的建模、查询和可视化分析。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档