首页
学习
活动
专区
工具
TVP
发布

机器之心

专栏成员
9145
文章
6881502
阅读量
281
订阅数
长文本杀不死RAG:SQL+向量驱动大模型和大数据新范式,MyScale AI数据库正式开源
大模型(LLM)的浪潮已经涌动一年多了,尤其是以 GPT-4、Gemini-1.5、Claude-3 等为代表的模型你方唱罢我登场,成为当之无愧的风口。在 LLM 这条赛道上,有的研究专注于增加模型参数,有的疯狂卷多模态…… 这当中,LLM 处理上下文长度的能力成为了评估模型的一个重要指标,更强的上下文意味着模型拥有更强的检索性能。例如有些模型一口气可以处理高达 100 万 token 的能力让不少研究者开始思考,RAG (Retrieval-Augmented Generation,检索增强生成)方法还有存在的必要吗?
机器之心
2024-04-12
8000
当LLM遇到Database:阿里达摩院联合HKU推出Text-to-SQL新基准​
大模型(LLM)为通用人工智能(AGI)的发展提供了新的方向,其通过海量的公开数据,如互联网、书籍等语料进行大规模自监督训练,获得了强大的语言理解、语言生成、推理等能力。然而,大模型对于私域数据的利用仍然面临一些挑战,私域数据是指由特定企业或个人所拥有的数据,通常包含了领域特定的知识,将大模型与私域知识进行结合,将会发挥巨大价值。
机器之心
2023-08-04
5200
AAAI 2023 | 基于T5的两阶段的多任务Text-to-SQL预训练模型MIGA
机器之心专栏 作者:网易互娱 AI Lab 网易互娱 AI Lab 联合广东外语外贸大学和哥伦比亚大学基于预训练语言模型 T5 的预训练方式,提出了两阶段的多任务预训练模型 MIGA。 越来越多的工作证明了预训练语言模型(PLM)中蕴含着丰富的知识,针对不同的任务,用合适的训练方式来撬动 PLM,能更好地提升模型的能力。在 Text-to-SQL 任务中,目前主流的生成器是基于语法树的,需要针对 SQL 语法进行设计。 近期,网易互娱 AI Lab 联合广东外语外贸大学和哥伦比亚大学基于预训练语言模型 T5
机器之心
2023-03-29
5460
登顶对话式语义解析国际权威榜单SParC和CoSQL,全新多轮对话表格知识预训练模型STAR解读
机器之心专栏 作者:蔡泽枫、李翔宇 阿里巴巴达摩院联合中国科学院深圳先进技术研究院提出面向多轮 Text-to-SQL 语义解析的 SQL 查询语句导向型预训练模型 STAR。 目前高速发展的互联网时代中,各种类型的数据不断涌现,其中,我们较为常用的就有表格数据,表格作为一种通用的结构化数据,我们可以根据需求设计 SQL 查询语句来获得表格中的知识,但是往往需要较高的设计成本以及学习成本。此时,Text-to-SQL 解析任务显得格外重要,而根据对话场景的不同,还分为单轮 Text-to-SQL 解析和多轮
机器之心
2023-03-29
5080
MIGA项目原作解读:基于生成式预训练语言模型T5的Text-to-SQL模型
越来越多的工作证明了预训练语言模型中蕴含着丰富的知识,针对不同的任务,用合适的训练方式来撬动预训练语言模型,能更好地提升模型的能力。在 Text-to-SQL 任务中,主流的方法主要是基于 SQL 语法树的 Encoder-Decoder 模型,可以确保生成的结果一定符合 SQL 语法,但是需要针对 SQL 语法进行特殊设计。最近也有一些关于 Text-to-SQL 的研究是基于生成式语言模型,可以有效地继承预训练语言模型的知识和能力。 在 2 月 7 日至 2 月 14 日于华盛顿举办的 AAAI 202
机器之心
2023-03-29
6510
世界首个!Meta AI开放6亿+宏基因组蛋白质结构图谱,150亿语言模型用两周完成
今年,DeepMind 公布了大约 2.2 亿种蛋白质的预测结构,它几乎涵盖了 DNA 数据库中已知生物体的所有蛋白质。现在,另一家科技巨头 Meta 正在填补另一空白,微生物领域。
机器之心
2022-12-15
3660
WAIC 2022 | 路特斯李博:让智能驾驶开发从「手工坊」变成「流水线」
机器之心报道 演讲:李博 编辑:于雷 为何说「后来者」路特斯竟会是最前瞻的智能车品牌之一? 虽然现在大家对「汽车机器人」的概念已不再陌生,但如此定位的汽车产品,仍需跨过极高的研发门槛。如今,随着路特斯打造汽车机器人的规划逐渐清晰,路特斯智能驾驶系统也将从高速快速路起,逐步覆盖城市路及泊车场景,实现高阶智能驾驶能力。而这套体系,也将应用到路特斯首款纯电智能 Hyper SUV Eletre 上。 9 月 3 日,在 WAIC 2022 AI 开发者论坛上,路特斯科技副总裁、智能驾驶业务线负责人李博发表主题演讲
机器之心
2022-09-14
3180
真·画蛇添足:给蛇做一套外骨骼,「实现梦想」长出四条腿
机器之心报道 编辑:泽南、蛋酱 蛇:这套机甲造得好,下次别整了。 在广为人知的伊甸园故事中,蛇是原罪的象征。根据一些古老的传说,蛇一度是有腿的物种,只因引诱夏娃和亚当吃了智慧树的果实,遭到了惩罚,才失去了腿,用肚子行走。 科学家们始终相信,蛇在很久之前曾经是有四条腿的,但一直没有发现化石证据。 2019 年,一个阿根廷研究团队在《Science Advances》刊登的研究报道表示,蛇可能最迟在 1.7 亿年前失去两条前腿,他们得出结论的依据是阿根廷巴塔哥尼亚北部出土的远古蛇化石。 尽管这种生物的形象在很
机器之心
2022-08-26
3450
疯狂砸钱补贴,拜登正式签署2800亿美元芯片法案,芯片股集体暴跌
机器之心报道 编辑:泽南、杜伟 拜登表示:「这项法案将为我们在美国制造半导体的努力注入活力。」 本周二,美国总统乔 · 拜登签署了一项具有里程碑意义的法案,它将为美国半导体生产和研究提供 527 亿美元的补贴,目标是使美国在与中国的科技竞争中保持领先。 ‍ 经过两年多的谈判和博弈,《芯片和科学法案》(CHIPS and Science Act)在 7 月 19 日获参议院通过,8 月 4 日获众议院通过。在全球芯片持续短缺的背景下,两党对于振兴美国创新以对抗中国终于达成了协议。在其对美国科学研究的投资中包
机器之心
2022-08-26
3230
WAIC金融科技与数据要素论坛报名启动,共论隐私计算助力金融数据治理
在这里,看懂隐私计算与金融数据的融合应用 2022 世界人工智能大会(WAIC)将于 9 月 1 日至 3 日,以线下线上结合的方式召开。本次大会将立足上海世博中心,联动浦东、徐汇等区。 数字经济时代,数据要素是基础性资源。在对数据价值的挖掘与使用上,高数据需求的金融业走得尤为靠前。9 月 2 日下午,由世界人工智能大会组委会办公室指导,华东师范大学长三角金融科技研究院、机器之心主办的「WAIC 2022 · 金融科技与数据要素论坛」将在张江科学会堂 304 举办。 本次论坛聚焦金融业数据要素融合生态建设
机器之心
2022-08-25
1.2K0
都2022年了,Python继续霸榜,SQL写得溜,面试或能加分
机器之心报道 机器之心编辑部 熟练掌握 SQL,或将成为职业香饽饽。 IEEE Spectrum 出炉了 2022 年度最受欢迎编程语言排名。 该排名最初由数据记者 Nick Diakopoulos 于 2013 年创建,今年是第九届。当前版本由 IEEE Spectrum 高级编辑 Stephen Cass 维护,并得到 Prachi Patel 和 Michael Novakovic 的开发支持。 作为业内比较权威的交互语言排行榜,本次排名结合了包括谷歌搜索、推特、Stack Overflow、Redd
机器之心
2022-08-25
3630
当理念冲突时,这些大佬选择与Meta分道扬镳,投身更开放社区
选自trino.io 作者:Martin Traverso等 机器之心编译 编辑:杜伟 这是高性能分布式 SQL 查询引擎 PrestoSQL(Trino)与 Meta 的故事。 在大厂工作,是很多人毕业后的理想选择。但有人却选择离开,他们是出于哪些考虑呢?本文将为大家讲述一群人离开 Meta、投身开放社区的历程(以第一人称讲述)。 离开 Meta 是我们做过最轻松的决定之一,这听起来可能让人觉得惊讶。很多讨论离开 FAANG(即 Meta、亚马逊、苹果、网飞和谷歌等五家科技巨头的合称)的帖子都大书特书丰厚
机器之心
2022-08-25
5540
DenseNet共一、CVPR 2017最佳论文得主刘壮博士论文,从另一视角看神经网络架构
机器之心报道 编辑:陈萍、杜伟 研究者希望这篇文章对神经网络架构感兴趣的人有所帮助,特别是那些正在寻找不同角度进行研究的研究者。 深度学习的基本原理可以追溯到几十年前,20 世纪 80 年代 Geoffrey Hinton 等人提出了基于梯度的反向传播学习算法,而 ConvNets 从早期就被应用于手写数字识别等计算机视觉任务。然而,深度学习的真正威力直到 2012 年才显露出来,那年 AlexNet 赢得了 ImageNet 大规模图像分类挑战赛。 之后数据可用性的提高、计算技术的进步和算法的改进使得深度
机器之心
2022-08-25
4150
图神经网络发Nature子刊,却被爆比普通算法慢104倍,质疑者:灌水新高度?
机器之心报道 机器之心编辑部 GNN 是近年来非常火的一个领域。最近,一篇 Nature 子刊论文提出了一种用 GNN 解决组合优化问题的方法,并声称该 GNN 优化器的性能与现有的求解器相当,甚至超过了现有的求解器。不过,这篇论文引来了一些质疑:有人指出,这个 GNN 的性能其实还不如经典的贪心算法,而且速度还比贪心算法慢得多(对于有一百万个变量的问题,贪心算法比 GNN 快 104 倍)。所以质疑者表示,「我们看不出有什么好的理由用这些 GNN 来解决该问题,就像用大锤砸坚果一样。」他们希望这些论文作者
机器之心
2022-08-25
3230
美限制ECAD软件出口,或切断国内3nm及以下芯片设计未来发展
机器之心报道 编辑:杜伟 长期来说,美国这一新的出口限制对国内芯片设计厂商将产生重大影响。 昨日,据彭博社、路透社等外媒报道,美国商务部发布了一份新的限制技术出口的声明,对支持先进半导体和燃气涡轮引擎的技术实施了新的出口管制,并称这些技术对其国家安全至关重要。 根据官方声明的显示,此次出口限制涉及到了超宽带隙半导体的基础材料氧化镓和金刚石、专为开发全栅极场效应晶体管(GAAFET)结构的集成电路而设计的电子计算机辅助软件(ECAD)、燃气涡轮发动机使用的增压燃烧(PGC)等四项技术。 该禁令将于 2022
机器之心
2022-08-25
4070
人工智能有大事发生,LeCun也转型了
选自noemamag 作者:Gary Marcus 机器之心编译 机器之心编辑部 「深度学习撞墙」激辩到第 N 回合,Gary Marcus 回怼 LeCun:你们对我说的话有误解。 符号处理是逻辑学、数学和计算机科学中常见的过程,它将思维视为代数操作。近 70 年来,人工智能领域最根本的争论就是人工智能系统应该建立在符号处理的基础上还是类似于人脑的神经系统之上。 实际上还有作为中间立场的第三种可能——混合模型。通过将神经网络的数据驱动学习与符号处理的强大抽象能力相结合,混合模型试图获得两全其美的能力。这
机器之心
2022-08-25
3230
有望变革电动车行业?美17岁高中生设计无需稀土的磁阻电动机,赢得50万大奖
机器之心报道 机器之心编辑部 这位少年简直是美国「稚晖君」! Robert Sansone 是一位天生的工程师。从仿生手臂到高速跑鞋,再到时速超过 70 英里的卡丁车,这位来自佛罗里达州皮尔斯堡的发明家在自己的业余时间已经完成了至少 60 个工程项目,而他只有 17 岁。 几年前,Sansone 看到了一则关于电动车优劣势的视频,其中讲到大多数电动车的电动机需要稀土元素制成的磁铁。但是,提取稀土元素在经济和环境方面的成本都很高。所需要的稀土材料每千克都要花费数百美元,相比之下,每千克铜只需要 7.83 美元
机器之心
2022-08-25
2690
小米抢发全尺寸人形机器人,雷布斯加速转型「雷斯克」
机器之心报道 机器之心编辑部 秀肌肉还是为了提振股价? 只发布一部手机就能收工的日子一去不复返了,「雷布斯」正在全力加速转型成为「雷斯克」。 去年的这个时候,雷军在 MIX4 发布会的结尾遛了一圈机器狗「铁蛋」,宣布进军仿生四足机器人。 昨晚的雷军年度演讲,小米首款「全尺寸人形仿生机器人」正式登场了。 只见它徐徐上台,手拿一朵小红花: 姓名「CyberOne」,小名「铁大」,高 1.77 米,重 52kg,狮子座,这是它的基本信息。 该说不说,乍一看,「铁大」的运动技能和波士顿动力的 Atlas 相比还有
机器之心
2022-08-25
4010
175亿美元,游戏引擎Unity会被移动广告商收购吗?
机器之心报道 机器之心编辑部 游戏领域最受瞩目的一次并购? 在游戏领域,很少有人不知道 Unity 游戏引擎。它是跨平台的 2D 和 3D 游戏引擎,由 Unity Technologies 开发,用于开发跨平台视频游戏,并延伸至基于 WebGL 技术的 HTML5 网页平台以及 tvOS、Oculus Rift、ARKit 等新一代多媒体平台。 细心的玩家们,可以在《王者荣耀》、《原神》、《炉石传说》等手游,以及《逃离塔克夫》这样的 PC 大作上看到 Unity 的标志。 8 月 10 日晚上,据路透社
机器之心
2022-08-25
5640
特斯拉全自动驾驶3次撞上儿童假人,撞后没停重新加速
机器之心报道 编辑:陈萍、小舟 特斯拉又「翻车」了。 Dan O'Dowd 是嵌入式开发公司 Green Hills Software 的 CEO,他于去年发起了一项名为「The Dawn Project」的活动,旨在禁止安全系统中使用不安全软件,其中就包括对特斯拉自动驾驶软件的测试。 为了模拟自动驾驶汽车在现实中遇到小朋友过马路时的反应,The Dawn Project 近日进行了一项新测试,结果表明配备 FSD Beta 10.12.2 自动驾驶软件的 Model 3 会撞上儿童的人形模型: 测试中
机器之心
2022-08-25
1870
点击加载更多
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档