比肩真人!初创公司Cognition推出全球首位AI软件工程师
首个AI软件工程师一亮相,直接引爆整个科技圈。只需一句指令,它可端到端地处理整个开发项目。
查看效果:https://www.bilibili.com/video/BV1MH4y1s7CD/
初创公司 Cognition AI ,2 个月前才刚成立,一夜之间在 X 卷起了风暴,就因为他们一条浏览量上千万的推文:
今天,我们很高兴地向大家介绍,第一位 AI 软件工程师 Devin。
Cognition AI 团队藏龙卧虎,基本都是国际信息学奥林匹克竞赛金牌选手。Cognition AI 对于 Devin 的定义是:世界上第一位完全自主的 AI 软件工程师。
在SWE-bench基准测试中,它无需人类帮助,可解决13.86%的问题。相比之下,GPT-4只能处理1.74%的问题,且都需要人类提示告知处理哪些文件。可以说,它远远超过了此前所有AI大模型。
Devin解决的不只是代码,还包括与之相关的整个工作流。
从零构建网站、自主查找并修复Bug、甚至是训练和微调自己的AI模型通通都不在话下~也可为一些成熟的代码库做贡献。
一些不熟悉的技术,给它看一篇博客文章。它也能立马搞定。
Devin被介绍为世界首个完全自主的AI软件工程师。它在长程推理和规划上面下了很大功夫,可以规划和执行需要数千个决策才能完成的复杂软件工程任务。最终的Devin,让人类只需要发号施令,其他什么也不用做。
其主要能力有六个:
演示视频见:
在评估Devin的表现时,团队没有使用常见的HumanEval,而是用了更具挑战性的SWE-bench。这个数据集是由GitHub中的实际问题组成的,Devin不借助任何辅助,就取得了13.86%的最高解决率。而同样在无辅助的条件下,GPT-4的问题解决率为零,此前的最佳水平是1.96%,加入辅助也才4.8%。
公司目前已有10个IOI金牌得主。在SWE-bench上,Devin的表现远远超过Claude 2、Llama、GPT-4等选手。报道称,该AI程序员已经通过了一家AI公司面试,并在Upwork上完成了实际工作。
但这种“名不见经传”背后,实际是一个10人员工的编程天才团队,IOI金牌就有10块…人均一块。
Devin背后公司名为Cognition AI,总部设在纽约和旧金山,定位是一家专注于推理的应用AI实验室。目前该团队规模仅有10人,但共揽获了10枚IOI金牌,创始成员均曾在Cursor、Scale AI、Lunchclub、Modal、Google DeepMind、Waymo、Nuro等从事AI前沿工作。
参考链接:
[1]https://twitter.com/account/access
[2]https://www.cognition-labs.com/blog
[3]https://tech.ifeng.com/c/8XvOfJuFRue
[4]https://new.qq.com/rain/a/20240313A080GM00