首页
学习
活动
专区
工具
TVP
发布

机器之心

专栏作者
8931
文章
6282996
阅读量
277
订阅数
直接扩展到无限长,谷歌Infini-Transformer终结上下文长度之争
谷歌又放大招了,发布下一代 Transformer 模型 Infini-Transformer。
机器之心
2024-04-13
4070
Llama架构比不上GPT2?神奇token提升10倍记忆?
一个 7B 规模的语言模型 LLM 能存储多少人类知识?如何量化这一数值?训练时间、模型架构的不同将如何影响这一数值?浮点数压缩 quantization、混合专家模型 MoE、以及数据质量的差异 (百科知识 vs 网络垃圾) 又将对 LLM 的知识容量产生何种影响?
机器之心
2024-04-12
1150
开源版AI程序员来了:GPT-4加持,能力比肩Devin,一天1.4k Star
上个月火遍 AI 圈的「首位 AI 程序员」Devin,利用大模型能力已经掌握了全栈技能,仅需要人类给出自然语言指令,就可以自动完成复杂的代码任务。
机器之心
2024-04-12
960
离开OpenAI待业的Karpathy做了个大模型新项目,Star量一日破千
过去几天,OpenAI 非常热闹,先有 AI 大牛 Andrej Karpathy 官宣离职,后有视频生成模型 Sora 撼动 AI 圈。
机器之心
2024-02-26
1280
比A100性价比更高!FlightLLM让大模型推理不再为性能和成本同时发愁
大语言模型在端侧的规模化应用对计算性能、能效比需求的“提拽式”牵引,在算法与芯片之间,撕开了一道充分的推理竞争场。
机器之心
2024-01-11
3380
「唤醒」NPC,这家融资过亿的国内创企在做一种很新的游戏
在众多游戏类型中,开放世界游戏是非常受欢迎的一种,因为它允许玩家在一个引人入胜的虚拟世界中漫游,自由地去体验丰富的故事情节,同时完成一些复杂的支线、主线任务。这极大地满足了人的好奇心和探索欲。《荒野大镖客》、《GTA5》、《塞尔达传说》等大家耳熟能详的游戏都属于开放世界游戏。
机器之心
2024-01-04
1300
大模型总弄错「事实」怎么办?这有一份汇聚了300多篇文献的综述
大模型在掌握事实性知识上展现出巨大的能力和潜力,但是其仍然存在一些问题,比如缺乏领域知识,缺乏实时知识,可能会产生幻觉等等,这极大的限制了大模型的应用和可依靠性。近期已经有一些工作针对大模型的事实性进行了研究,但仍未有文章对大模型事实性的定义、影响、评估、分析和增强进行完整的梳理。
机器之心
2023-10-24
6920
Apache IoTDB:更适合工业物联网场景的新型数据库,存、查、用不再是难题
随着步入工业 4.0 时代,数字化和自动化的引入,生产环境变得更加高效。同时智能设备带来的海量数据的潜在价值被人们关注,可如何高效地存储智能设备产生的数据,如何更好地对海量数据进行分析成为了难题。传统的数据库模型和存储方式俨然已经无法适应这样的需求。于是有了时序数据库,旨在实现高效地存储、查询数据,帮助更好地发掘数据潜在的价值。
机器之心
2023-09-08
2570
研究完llama.cpp,我发现手机跑大模型竟这么简单
最近在开源社区,很多人都在探索大模型的优化方法。有一个叫 llama.cpp 的项目用原始 C++ 重写了 LLaMa 的推理代码,效果极好,获得了人们的广泛关注。
机器之心
2023-09-08
8470
Attention机制竟有bug,Softmax是罪魁祸首,影响所有Transformer
「我发现注意力公式里有个 bug,八年了都没有人发现。所有 Transformer 模型包括 GPT、LLaMA 都受到了影响。」
机器之心
2023-08-08
2610
我为什么放弃了 LangChain?
如果你关注了过去几个月中人工智能的爆炸式发展,那你大概率听说过 LangChain。
机器之心
2023-08-08
6150
基于Transformer的大模型是如何运行的?Meta从全局和上下文学习揭秘
随着大型语言模型(LLM)在使用和部署方面的不断增加,打开黑箱并了解它们的内部工作原理变得越来越重要。更好地理解这些模型是如何做出决策的,这对改进模型和减轻其故障(如幻觉或推理错误)至关重要。
机器之心
2023-08-07
1760
650亿参数,8块GPU就能全参数微调:邱锡鹏团队把大模型门槛打下来了
在大模型方向上,科技巨头在训更大的模型,学界则在想办法搞优化。最近,优化算力的方法又上升到了新的高度。
机器之心
2023-08-07
2270
结合符号性记忆,清华等提出ChatDB,提升大模型的复杂推理能力
随着大语言模型(Large Language Models)的爆火,例如 ChatGPT,GPT-4,PaLM,LLaMA 等,如何让大语言模型更好的应对有很长的上下文信息(超出其最大处理长度)的场景并利用相关历史信息做复杂的推理,成为一个热点研究话题。现有的主流做法是给大语言模型增加记忆(memory)模块,在需要的时候从记忆模块中提取相关的历史信息帮助大语言模型。
机器之心
2023-08-07
2300
训练时间减少71.4%,存储成本节省99.9%,厦大指令调优新方案MMA让羊驼模型实现多模态
机器之心报道 编辑:陈萍、小舟 本文提出了一种新颖且经济实惠的解决方案,用于有效地将 LLMs 适应到 VL(视觉语言)任务中,称为 MMA。MMA 不使用大型神经网络来连接图像编码器和 LLM,而是采用轻量级模块,即适配器,来弥合 LLMs 和 VL 任务之间的差距,同时也实现了图像模型和语言模型的联合优化。同时,MMA 还配备了一种路由算法,可以帮助 LLM 在不损害其自然语言理解能力的情况下,在单模态和多模态指令之间实现自动切换。 最近几个月,ChatGPT 等一系列大型语言模型(LLM)相继出现,随
机器之心
2023-05-31
3960
AutoGPT太火了,无需人类插手自主完成任务,GitHub2.7万星
机器之心报道 编辑:杜伟、陈萍 OpenAI 的 Andrej Karpathy 都大力宣传,认为 AutoGPT 是 prompt 工程的下一个前沿。 近日,AI 界貌似出现了一种新的趋势:自主人工智能。 这不是空穴来风,最近一个名为 AutoGPT 的研究开始走进大众视野。特斯拉前 AI 总监、刚刚回归 OpenAI 的 Andrej Karpathy 也为其大力宣传,并在推特赞扬:「AutoGPT 是 prompt 工程的下一个前沿。」 不仅如此,还有人声称 ChatGPT 已经过时了,AutoGP
机器之心
2023-04-21
6620
基于重排序的新量化方法RPTQ:实现大型语言模型的 3 比特量化
机器之心专栏 机器之心编辑部 作者提出了一种新颖的基于重排序的量化方法 RPTQ,解决了量化大型语言模型激活的问题。 大型语言模型(LLMs)在各种任务上表现出色,但由于其庞大的模型规模,部署方面存在挑战。 在这篇论文中,来自后摩智能、腾讯 AI Lab、华中科技大学、北京大学、伊利诺伊理工学院的研究人员发现量化大型语言模型的主要挑战来自于通道之间不同的激活范围,而不仅仅是离群值问题。 作者提出了一种新颖的基于重排序的量化方法 RPTQ,解决了量化大型语言模型激活的问题。RPTQ 通过重新排列激活中的通道,
机器之心
2023-04-11
4120
自己挖坑自己填,谷歌大改Transformer注意力,速度、内存利用率都提上去了
机器之心报道 机器之心编辑部 考虑到 Transformer 对于机器学习最近一段时间的影响,这样一个研究就显得异常引人注目了。 Transformer 有着巨大的内存和算力需求,因为它构造了一个注意力矩阵,需求与输入呈平方关系。谷歌大脑 Krzysztof Choromanski 等人最近提出的 Performer 模型因为随机正正交特性为注意力矩阵构建了一个无偏的估计量,可以获得线性增长的资源需求量。这一方法超越了注意力机制,甚至可以说为下一代深度学习架构打开了思路。 自面世以来,Transforme
机器之心
2023-03-29
4170
TikTok服务器已与字节跳动分离:首席安全官透露最新进展
机器之心报道 编辑:蛋酱、杜伟 TikTok 服务器已经实现了与母公司字节跳动系统的「完全剥离」,这在 TikTok 全球首席安全官新提交的一份法庭文件中得到了证实。 据外媒 The Verge 报道,TikTok 全球首席安全官在一份新的法庭文件中称,美国商务部就 TikTok app 如何存储和保护用户数据进行了错误的描述。所以,该公司再次提出动议,要求对特朗普政府迫在眉睫的禁令发出初步禁令。 在美国哥伦比亚特区联邦地方法院即将召开听证会之前,TikTok 全球首席安全官 Roland Cloutier
机器之心
2023-03-29
8560
中科大再登Nature封面,郭光灿团队首次实现多模式量子中继
机器之心报道 编辑:蛋酱、陈萍 来自中国的研究团队,又一次在量子技术领域取得了重大进展。 当两个量子产生纠缠,一个变了,另一个也会瞬变,无论相隔多远,借助量子纠缠可实现量子通信。近期,中国科学技术大学郭光灿院士团队李传锋、周宗权研究组利用固态量子存储器和外置纠缠光源,首次实现两个吸收型量子存储器之间的可预报量子纠缠,演示了多模式量子中继。 北京时间 6 月 2 日晚,该研究成果登上国际著名学术期刊《Nature》新一期封面。 这是量子存储和量子中继领域的重大进展。中科院量子信息重点实验室的博士后刘肖和博
机器之心
2023-03-29
2820
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档