机器之心-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

机器之心

专栏成员

9145

文章

6891245

阅读量

281

订阅数

谷歌多模态大模型PaLI：采用参数量为4B的ViT-e，效果超过BEiT-3

css 编程算法网站

选自arXiv 作者：Xi Chen等机器之心编译编辑：张倩 PaLI-17B 在多个 benchmark 上都达到了 SOTA。语言和视觉任务的建模中，更大的神经网络模型能获得更好的结果，几乎已经是共识。在语言方面，T5、GPT-3、Megatron-Turing、GLAM、Chinchilla 和 PaLM 等模型显示出了在大文本数据上训练大型 transformer 的明显优势。视觉方面，CNN、视觉 transformer 和其他模型都从大模型中取得了很好的结果。language-and-v

2022-10-08

8330

NeurIPS 2022 | Meta 提出二值transformer网络BiT，刷新NLP网络压缩极限

神经网络 css https 网络安全

机器之心专栏机器之心编辑部来自 Meta 和北京大学的研究者在 BERT 模型上验证了二值化 transformer 的可行性。神经网络压缩一直被视为机器学习模型从实验室走向工业应用中的不可或缺的一步，而量化 (quantization) 又是神经网络压缩中最常用的方法之一。今天这篇 NeurIPS 论文 BiT 从实验和理论验证了极端压缩情况下的 1-bit 的 BERT 网络也能在自然语言处理的分类数据集 GLUE 上取得接近全精度网络的结果，将与全精度网络差距从之前方法的 16% 缩小到了仅

2022-10-08

7800

有效捕捉目标级别语义信息，之江实验室&浙大提出再注意机制TRT

css 访问管理声纹识别语音识别 tcp/ip

机器之心专栏机器之心编辑部来自之江实验室和浙江大学的研究者提出了一种再注意机制，旨在更有效地捕捉目标级别的语义信息，抑制背景干扰，实现更准确的目标定位能力。弱监督定位任务（Weakly supervised object localization, WSOL）仅利用图像级别的类别标签，就能实现目标级别的定位功能，因为其细粒度注释的最小化需求大大压缩了人工成本，于近年获得大量关注。由于缺乏目标级别标签的约束，仅利用图像标签进行分类训练，弱监督定位方法往往倾向于只定位图像中最具判别性的局部区域，难以涵盖

2022-08-25

2960

参数量仅0.5B，谷歌代码补全新方法将内部生产效率提升6%

NLP 服务 ide css 打包

选自Google AI Blog 作者：Maxim Tabachnyk等机器之心编译机器之心编辑部自 Copilot 问世以来，AI 代码补全工具正变得越来越普遍。在最近的一篇博客中，谷歌又介绍了他们开发的一种混合代码补全方法，而且进行了规模上万人的内部测试。测试结果显示，该方法可以将开发人员的编码效率提升 6%，而且有趣的是，该模型相当小，参数量只有 0.5B。目前，他们 3% 的新代码都是通过接受 ML 代码补全建议生成的。日益复杂的代码对软件工程的生产力提出了关键挑战。代码补全是一种基本工具

2022-08-25

6980

商汤的数字人研究，在CVPR上成了爆款

图像处理 css

机器之心原创作者：泽南在 CVPR 大会上，看数字人技术的最新趋势。对表情和手势进行精细建模、让数字人跳舞的算法、用 2D 图片生成 3D 模型…… 最近一段时间，AI 领域里面向元宇宙和数字人的新技术越来越多。人工智能最重要学术会议之一——CVPR 2022 这几天正在进行过程中，今年大会获得的投稿数量超过一万，接收论文数量超过 2000 篇，是历届规模最大的一次。在大会上，商汤科技及其联合实验室有 71 篇论文被录用，其中近四分之一为 Oral（口头报告）论文。值得关注的是，这些最新研究中有

2022-06-24

9270

文本生成图像这么火，你需要了解这些技术的演变

tcp/ip ide erp css

选自 Intento 作者：Grigory Sapunov 机器之心编译机器之心编辑部目前多模态任务成为行业热点，本文梳理了较为优秀的多模态文本图像模型：DALL·E、CLIP、GLIDE、DALL·E 2 (unCLIP)的模型框架、优缺点，及其迭代关系。 OpenAI 最近发布了 DALL·E 2 系统，在 AI 界引发了「地震」，该系统能够根据文本描述创建图像。这是 DALL·E 系统的第二个版本，第一个版本是在近一年前发布的。然而，在 OpenAI 内部，DALL·E 2 背后的模型被称为 u

2022-06-07

1.8K0

Transformer称霸的原因找到了？OpenAI前核心员工揭开注意力头协同工作机理

选自Quantamagazine 机器之心编译作者：Mordechai Rorvig 机器之心编辑部这家由 OpenAI 前核心员工组成的 AI 创业公司，正在努力打开 Transformer 的黑箱。在过去的两年里，人工智能在自然语言处理领域的突破达到了惊人的水平。很多重要的突破都是基于谷歌在 2017 年提出的 Transformer 架构。但在模型之下，我们仍然不知道 Transformer 对其处理的单词做了什么。从普遍的理解来看，它们能够以某种方式关注多个单词，从而可以立即进行「全局」分

2022-05-05

4390

满足不同下游任务特征需求！Sea AI Lab 提出多粒度自监督学习框架Mugs，刷新多项SOTA

面向对象编程监督学习 css 学习方法 linux

机器之心专栏机器之心编辑部由颜水成老师带领的 Sea AI Lab 提出了一种多粒度自监督学习框架 Mugs[1]，用以学习不同粒度的非监督特征，从而满足不同下游任务对不同粒度甚至多粒度特征的需求。在相同的实验设置下（相同数据集和模型等），该方法大幅超越了目前最好的自监督学习方法。在没有使用额外数据的情况下，该方法在 ImageNet 数据集上取得了目前最高的线性评估准确率（linear probing accuracy）82.1% 以及最高的 KNN 分类准确率 80.3%。详细结果请参看 pape

2022-05-05

7550

让移动设备用上轻量级、低延迟的视觉Transformer，苹果搞了个MobileViT

css 机器学习深度学习人工智能神经网络

机器之心报道机器之心编辑部在这篇论文中，来自苹果的研究者提出了一种用于移动设备的轻量级通用视觉 transformer——MobileViT。该网络在 ImageNet-1k 数据集上实现了 78.4% 的最佳精度，比 MobileNetv3 还要高 3.2%，而且训练方法简单。目前，该论文已被 ICLR 2022 接收。论文链接：https://arxiv.org/pdf/2110.02178.pdf 代码链接：https://github.com/apple/ml-cvnets 轻量级卷积神经网

2022-05-05

5350

有人声称「解决了」MNIST与CIFAR 10，实现了100%准确率

深度学习 css https 网络安全腾讯云测试服务

机器之心报道机器之心编辑部这不是数据泄露了吧？ MNIST 识别的准确率已经卷上 100% 了？近日，预印版平台 arXiv 中的一篇论文《Learning with Signatures》引起了人们的关注。在这项工作中，作者研究了在学习环境中使用 Signature Transform。该论文提出了一个监督框架，使用很少的标签提供了最先进的分类准确性，无需信用分配（credit assignment），几乎没有过拟合。作者通过使用 Signature 和对数 Signature 来利用谐波分析工具

2022-04-21

5530

7 Papers & Radios | 谷歌大牛Jeff Dean撰文深度学习的黄金十年；扩散模型生成视频

css 编程算法 https 网络安全 NLP 服务

机器之心 & ArXiv Weekly Radiostation 参与：杜伟、楚航、罗若天本周论文包括谷歌大牛 Jeff Dean 发文探索深度学习发展的黄金十年；Google Research 的研究者们提出了一种称为「自洽性（self-consistency）」的简单策略，显著提高了大型语言模型的推理准确率。目录 A Golden Decade of Deep Learning: Computing Systems & Applications Domain Generalization via

2022-04-18

4620

纯MLP在下游任务上欠佳？Meta AI等提出稀疏MLP，超越transformer

机器之心报道机器之心编辑部来自 Meta AI 和纽约州立大学布法罗分校的研究者分析了 MLP 在表达能力方面的局限性，并提出了在特征和输入（token）维度上带有混合专家系统（MoE）的稀疏激活 MLP。作为基于注意力模型的替代方案，纯 MLP 架构吸引了越来越多的关注。在 NLP 中，gMLP 等近期工作表明，纯 MLP 在语言建模方面可以达到与 transformer 相当的性能，但在下游任务中弱于 transformer。来自 Meta AI 和纽约州立大学布法罗分校的研究者分析了 MLP

2022-04-18

5140

识别形式语言能力不足，不完美的Transformer要克服自注意力的理论缺陷

css 编程算法腾讯云测试服务

选自arXiv 作者：David Chiang、Peter Cholak 机器之心编译机器之心编辑部最近一两年，transformer 已经在 NLP、CV 等多样化任务上实现了卓越的性能，并有一统 AI 领域的趋势。那么，推出已近五年的注意力机制真的是所有人需要的吗？近日，有论文检验了 transformer 在两种形式语言上的理论缺陷，并且设计了方法克服这种缺陷。文章还研究了可能出现的长度泛化的问题，并提出了相应的解决方案。尽管 transformer 模型在许多任务中都非常有效，但它们对一些看起

2022-04-13

6680

搞多模态不了解最新进展？中科院自动化所撰文首个视觉-语言预训练综述

选自arXiv 作者：Feilong Chen等机器之心编译编辑：陈萍一文了解视觉 - 语言预训练最新进展和新领域。让机器做出与人类相似的反应一直是 AI 研究不懈追求的目标。为了让机器具有感知和思考的能力，研究人员进行了一系列相关研究，如人脸识别、阅读理解和人机对话，通过这些任务训练和评估机器在特定方面的智能。一般来讲，领域专家通过手工构建标准数据集，然后在这些数据集上训练和评估相关模型。然而，由于相关技术的限制，训练模型往往需要大量的标注数据，以获得更好、更强大的模型。基于 Transfor

2022-03-28

4270

39亿参数模型公开可用，采样速度7倍提升，残差量化生成图片入选CVPR'22

机器学习神经网络深度学习人工智能 css

机器之心报道编辑：杜伟、陈萍基于残差量化的自回归图像生成，官方已将代码公开。向量量化（Vector quantization，VQ）已经成为自回归（AR）模型生成高分辨率图像的一种基本技术，具体来说，该技术将图像特征图通过 VQ 量化后，再进行光栅扫描等排序，之后将图像表示为离散编码序列。量化后，训练的 AR 模型对序列中的编码进行序列预测。也就是说，AR 模型可以生成高分辨率的图像，而无需预测图像中的全部像素。我们假设减少编码的序列长度对于图像的 AR 建模很重要。短编码序列可以显着降低 AR 模

2022-03-28

4520

Transformer将在AI领域一统天下？现在下结论还为时过早

机器学习其他 css 深度学习人工智能

选自 Quanta Magazine 机器之心编译作者：Stephen Ornes 机器之心编辑部从自然语言处理任务起家，又在图像分类和生成领域大放异彩，所向披靡的 Transformer 会成为下一个神话吗？想象一下你走进一家本地的五金店，在货架上看到一种新型的锤子。你听说过这种锤子：它比其他锤子敲得更快、更准确，而且在过去的几年里，在大多数用途中，它已经淘汰了许多其他锤子。此外，通过一些调整，比如这里加一个附件，那里拧一个螺丝，这种锤子还能变成一把锯，其切割速度能媲美其他任何替代品。一些处于工具

2022-03-14

2800

在注意力中重新思考Softmax：分解非线性，这个线性transformer变体实现多项SOTA

编程算法 css NLP 服务

机器之心报道编辑：杜伟、陈萍来自商汤、上海人工智能实验室等机构的研究者用线性 COSFORMER 来取代 transformer 中的 softmax 注意力机制，在多项任务上达到最优。 Transformer 在自然语言处理、计算机视觉和音频处理方面取得了巨大的成功。作为其核心组件之一，softmax 注意力有助于捕获长程依赖关系，但由于序列长度的二次空间和时间复杂度而禁止其扩展。研究者通常采用核（Kernel）方法通过逼近 softmax 算子来降低复杂度。然而，由于近似误差，它们的性能在不同的任务

2022-03-04

9570

解决训练难题，1000层的Transformer来了，训练代码很快公开

http css 编程算法机器翻译

机器之心报道机器之心编辑部 1000 层的 Transformer，深得吓人。昨日出炉的论文《DeepNet: Scaling Transformers to 1,000 Layers》在研究社区引起了热议，作者来自微软亚洲研究院。该研究直接把 Transformer 深度提升到 1000 层！下面让我们看下这篇研究说了什么。近年来，大规模 Transformer 模型出现了这样一种趋势：随着模型参数从数百万增加至数十亿甚至数万亿，性能相应地实现了显著提升。大规模模型在一系列任务上都取得了 SOT

2022-03-04

7700

完全基于Transformer的目标检测器，ICLR匿名论文实现视觉、检测统一

图像识别缓存 css

Transformer 在 NLP 任务中取得不错的发展，许多研究将其引入到计算机视觉任务中。毫不夸张的说，Transformer 正在改变计算机视觉的格局，尤其是在识别任务方面。例如 Detection transformer 是第一个用于目标检测的、端到端的学习系统，而 vision transformer 是第一个完全基于 transformer 的图像分类架构。在本文中，一篇被 ICLR 2022 接收的匿名论文集成了视觉和检测 Transformer (Vision and Detection Transformer，ViDT) 来构建有效且高效的目标检测器。

2022-02-24

5650

华人一作统一「视觉-语言」理解与生成：一键生成图像标注，完成视觉问答，Demo可玩

tcp/ip 网站 css

视觉 - 语言预训练 (Vision-Language Pre-training，VLP) 提高了许多视觉 - 语言任务的性能。然而，大多数现有的预训练模型只能在基于理解任务或基于生成任务中表现出色。

2022-02-23

4860

点击加载更多

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态