机器之心-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

机器之心

专栏成员

9145

文章

6888406

阅读量

281

订阅数

Transformer本可以深谋远虑，但就是不做

模型数据优化缓存论文

Yann LeCun 表示太迟了，他已经看到了。今天要介绍的这篇「LeCun 非要看」的论文探讨的问题是：Transformer 是深谋远虑的语言模型吗？当它在某个位置执行推理时，它会预先考虑后面的位置吗？

2024-04-26

1130

谷歌10M上下文窗口正在杀死RAG？被Sora夺走风头的Gemini被低估了？

数据缓存测试论文模型

要说最近最郁闷的公司，谷歌肯定算得上一个：自家的 Gemini 1.5 刚刚发布，就被 OpenAI 的 Sora 抢尽了风头，堪称 AI 界的「汪峰」。

2024-02-28

1630

GPU推理提速4倍，256K上下文全球最长：无问芯穹刷新大模型优化记录

缓存 gpu 模型异步优化

报道显示，微软的 GitHub Copilot 业务（背后由 OpenAI 的 GPT 大模型支撑）虽然每月收费 10 美元，但平均还是要为每个用户倒贴 20 美元。可见当前 AI 服务提供商们正面临着严峻的经济账挑战 —— 这些服务不仅构建成本高昂，运营成本也非常高。

2023-11-07

4960

最多400万token上下文、推理提速22倍，StreamingLLM火了，已获GitHub 2.5K星

github 缓存 token 模型性能

如果你体验过与任何一款对话式 AI 机器人的交流，你一定能想起某些极具「挫败感」的时刻。比如，你在前一天的对话中讲述过的要点，被 AI 忘得干干净净……

2023-10-05

4930

RTX 5090最新爆料：架构大改，性能提升70%

缓存架构内存芯片性能

早在 2021 年，知名爆料者 kopite7kimi 就称英伟达将推出代号为「Blackwell」的 GPU 架构。

2023-09-20

5130

研究完llama.cpp，我发现手机跑大模型竟这么简单

存储缓存模型内存手机

最近在开源社区，很多人都在探索大模型的优化方法。有一个叫 llama.cpp 的项目用原始 C++ 重写了 LLaMa 的推理代码，效果极好，获得了人们的广泛关注。

2023-09-08

1.5K0

四插槽庞大体积、功耗最高600W，英伟达RTX 4090 Ti谍照再现身

游戏缓存内存设计原型

今年 1 月，数码博主 MEGAsizeGPU 就放出了一款四槽厚的英伟达公版显卡实物图，并认为它是「4090Ti/Titan Ada」。当时称最高功耗可以达到恐怖的 900W。下图为泄露的 Titan RTX Ada 四插槽散热器。

2023-08-07

3570

将26个token压缩成1个，新方法极致节省ChatGPT输入框空间

缓存 chatgpt token 模型压缩

机器之心报道编辑：Rome 降低 ChatGPT 等大语言模型的 prompt 成本，斯坦福大学的这篇论文提供了全新的思路。进入正文之前，先考虑一下像 ChatGPT 这样的 Transformer 语言模型（LM）的 prompt：随着每天产生数百万用户和查询，ChatGPT 使用自注意力机制对 prompt 进行反复编码，其时间和内存复杂度随输入长度呈二次方增长。缓存 prompt 的 transformer 激活可以防止部分重新计算，但随着缓存 prompt 数量的增加，这种策略仍然会产生很大

2023-05-09

9220

消费级GPU、速度提升3000倍，微软FastNeRF首次实现200FPS高保真神经渲染

神经网络渲染缓存架构数据

选自arXiv 作者：Stephan J. Garbin等机器之心编译编辑：小舟、杜伟近日，微软提出了一种基于 NeRF 的新系统 FastNeRF，用它来渲染逼真图像，速度能有多快呢？在高端消费级 GPU 上达到了惊人的 200FPS！神经辐射场（Neural Radiance Fields, NeRF）领域的最新研究展示了神经网络编码复杂 3D 环境的方式，这类方法能以新的视角真实地渲染环境。渲染这些图像需要非常大的计算量，即使在高端硬件上，这些新进展与实现交互式速率仍然相去甚远。在本文中

2023-03-29

2840

RTX 40时代，给深度学习买的显卡居然能保值9年？仔细一算绷不住了

深度学习缓存 gpu 内存性能

选自timdettmers.com 作者：Tim Dettmers 机器之心编译编辑：泽南 FP8 训练带来的速度提升可能要一统 AI 领域，但这是我要考虑的问题吗？深度学习对于算力的要求很高，对于个人来说，GPU 的选择很大程度上决定了你的工作、学习体验。显卡既贵又复杂，如果想购买新的 GPU，哪些功能最重要？内存、核心、Tensor Core 还是缓存？如何做出性价比高的选择？每出一代新 GPU 这些问题就要重新审视一番。近日，华盛顿大学在读博士 Tim Dettmers 通过一篇长文在 RTX

2023-03-29

1.3K0

ChatGPT模型参数≠1750亿，有人用反证法进行了证明

存储缓存 chatgpt 模型内存

选自 orenleung.super.site 作者：Oren 机器之心编译编辑：rome rome OpenAI 推出的 ChatGPT 到底是不是 1750 亿参数的等价大模型呢？这篇文章或许能带给你答案。 ChatGPT 的火热持续到了今天，围绕它的爆点新闻和技术解读不断涌现。关于其参数量，有一种普遍的假设认为，ChatGPT 的参数量与 GPT-3 论文中介绍的 1750 亿参数模型相同。但是，深耕于大语言模型领域工作的人很清楚这不是真的。通过对 A100 GPU 的内存带宽分析，就会发现 Cha

2023-03-29

4700

ChatGPT超级巨大漏洞，能看别人支付聊天内容，OpenAI公布技术细节

缓存 chatgpt openai 漏洞数据

机器之心报道编辑：杜伟、小舟原来，是缓存问题导致了 ChatGPT 的宕机。本周早些时候，ChatGPT 宕机数小时。现在，OpenAI 声明 ChatGPT 的暂时下线是因为开源库中的一个错误，该错误让一些用户能够看到另一个活跃用户聊天记录中的标题。如果两个用户大约同时在线，那么新创建的对话的第一条消息也可能在其他人的聊天记录中可见。OpenAI 表示现已修补这个 bug。图源：推特 @JordanLWheeler 经过更深入的调查，OpenAI 还发现，在特定的 9 小时窗口内，有 1.2%

2023-03-29

1.1K0

跑ChatGPT体量模型，从此只需一块GPU：加速百倍的方法来了

NLP 服务缓存文件存储

机器之心报道编辑：泽南 1750 亿参数，只需要一块 RTX 3090，ChatGPT 终于不再是大厂专属的游戏？计算成本是人们打造 ChatGPT 等大模型面临的重大挑战之一。据统计，从 GPT 进化到 GPT-3 的过程也是模型体量增长的过程 —— 参数量从 1.17 亿增加到了 1750 亿，预训练数据量从 5GB 增加到 45TB，其中 GPT-3 训练一次的费用是 460 万美元，总训练成本达 1200 万美元。除了训练，推理也很花钱。有人估算，现在 OpenAI 运行 ChatGPT

2023-02-23

1.5K0

如何高效实现矩阵乘？万文长字带你从CUDA初学者的角度入门

缓存单片机

矩阵乘作为目前神经网络计算中占比最大的一个部分，其快慢会显著影响神经网络的训练与推断所消耗的时间。虽然现在市面上已经有非常多的矩阵乘的高效实现——如基于 cpu 的 mkl、基于 arm 设备的 ncnn 与 emll、基于 cuda 的 cublas ——掌握了矩阵乘优化的思路不仅能帮助你更好的理解编写高性能代码的一些基本原则，而且许多神经网络加速领域进阶的技巧如算子融合都是与矩阵乘交互从而达到更高的性能。

2022-12-16

2.2K0

LeCun转推，PyTorch GPU内存分配有了火焰图可视化工具

缓存 pytorch python

近日，PyTorch 核心开发者和 FAIR 研究者 Zachary DeVito 创建了一个新工具（添加实验性 API），通过生成和可视化内存快照（memory snapshot）来可视化 GPU 内存的分配状态。这些内存快照记录了内存分配的堆栈跟踪以及内存在缓存分配器状态中的位置。

2022-12-15

5710

仅需1% Embedding参数，硬件成本降低十倍，开源方案单GPU训练超大推荐模型

批量计算深度学习 pytorch 缓存

深度推荐模型（DLRMs）已经成为深度学习在互联网公司应用的最重要技术场景，如视频推荐、购物搜索、广告推送等流量变现业务，极大改善了用户体验和业务商业价值。但海量的用户和业务数据，频繁地迭代更新需求，以及高昂的训练成本，都对 DLRM 训练提出了严峻挑战。

2022-12-15

6400

VLDB 2022最佳研究论文：克服通信挑战，新框架SANCUS实现GNN高效训练

缓存分布式流计算 Oceanus 神经网络编程算法

近年来，图神经网络（GNN）在社交媒体、电子商务、知识图谱、推荐系统、生命科学等领域得到了广泛应用。随着图数据规模的快速增长，亟需发展分布式大规模图神经网络高效训练技术。现有的方法主要采用中心化的参数服务器（PS）架构，计算节点间的大量网络通信成为了训练的性能瓶颈。

2022-12-15

4440

ECCV 2022 | 无需下游训练，Tip-Adapter大幅提升CLIP图像分类准确率

机器之心专栏机器之心编辑部本文提出了 Tip-Adapter，一种可以免于训练的将 CLIP 用于下游 few-shot 图像分类的方案。论文链接：https://arxiv.org/pdf/2207.09519.pdf 代码链接：https://github.com/gaopengcuhk/Tip-Adapter 一．研究背景对比性图像语言预训练模型（CLIP）在近期展现出了强大的视觉领域迁移能力，可以在一个全新的下游数据集上进行 zero-shot 图像识别。为了进一步提升 CLIP 的迁移性

2022-09-26

9750

千亿参数大模型免费在线畅玩！无需注册，零门槛体验OPT-175B

https 网络安全开源缓存

机器之心发布机器之心编辑部零代码体验AI大模型，打开网页就能玩。提起大模型，除了各种惊艳的性能表现，还伴随着高昂的硬件要求和运行成本，将绝大多数 AI社区成员都拒之门外。得益于开源社区的蓬勃发展，现在情况大有不同：无需注册，就可以免费白嫖 1750 亿参数的 OPT 模型！还不快打开下方链接，自己上手在线体验一下？云服务体验地址：https://service.colossalai.org/ 快速体验基于 1750 亿参数 OPT 大模型，该网站支持多种文本生成任务，包括事实问答、聊天机

2022-09-08

1.7K0

ResNeXt一作谢赛宁将从Meta离职，加入纽约大学任助理教授

声纹识别语音识别人工智能深度学习缓存

机器之心报道编辑：小舟、陈萍又一位知名人工智能研究者宣布从业界离职，回归学术界。近日，Facebook 人工智能研究院（FAIR）研究科学家谢赛宁在推特上宣布自己即将离开 FAIR，加入纽约大学担任助理教授。他表示自己在 FAIR 度过了极好的 4 年，将在明年 1 月正式加入纽约大学，并期待与广泛的科学和创意社区一起探索人工智能，建立新的跨学科合作。李磊、高若涵、杨笛一等多位知名研究者纷纷表示祝贺。图灵奖得主 Yann LeCun 也在推特上写道：「再次欢迎赛宁」。LeCun 不仅是 FAI

2022-09-06

5320

点击加载更多

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态