首页
学习
活动
专区
工具
TVP
发布

机器之心

专栏作者
8931
文章
6285199
阅读量
277
订阅数
10亿参数、多项SOTA,智源开源视觉基础模型EVA
作为一种视觉预训练方法,掩码图像建模(Masked Image Modeling,简称 MIM)近期得到了蓬勃发展,自从 BEiT 开始,一系列新方法诸如 SimMIM、MAE、MVP 等被陆续设计出,这个领域也受到了很大关注。然而,在十亿参数量级别的视觉预训练模型中,最具竞争力的模型例如 ViT-g、SwinV2、CoCa 等仍然严重依赖有监督或弱监督训练,以及不可公开访问的数亿级有标签数据。
机器之心
2022-12-16
8550
7 Papers & Radios | 谷歌推出DreamBooth扩散模型;张益唐零点猜想论文出炉
论文 1:DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation
机器之心
2022-12-16
7840
稠密检索新突破:华为提出掩码自编码预训练模型,大幅刷新多项基准
稠密检索是搜索、推荐、广告等领域的关键性技术;面向稠密检索的预训练是业界高度重视的研究课题。近期,华为泊松实验室联合北京邮电大学、华为昇思 MindSpore 团队提出“基于掩码自编码器的检索预训练语言模型 RetroMAE”,大幅刷新稠密检索领域的多项重要基准。而其预训练任务的简洁性与有效性,也为下一步技术的发展开辟了全新的思路。该工作已录用于自然语言处理领域顶级学术会议 EMNLP 2022。基于昇思开源学习框架的模型与源代码已向社区开放。
机器之心
2022-12-16
4950
人脸神经辐射场的掩码编辑方法NeRFFaceEditing,不会三维建模也能编辑立体人脸
想要个性化设计高真实感的三维立体人脸,却发现自己并不熟悉专业的设计软件?三维人脸编辑方法 NeRFFaceEditing 提供了新的解决方案,即使不会三维建模,也能自由编辑高真实感的立体人脸,建模元宇宙中的个性化数字肖像!
机器之心
2022-12-15
8700
2024年后,Arm芯片只能用公版?高通被禁用自研GPU
今年 9 月,Arm 和高通在美国地方法院就知识产权许可问题卷入了一场复杂的法律斗争。对于大型科技公司来说,吃官司并不罕见,但这一次可能会对芯片业界产生深远的影响。
机器之心
2022-12-15
8930
两次登顶常识推理问答榜单ProtoQA,哈工大深圳创新掩码模型重排序策略
常识是人工智能研究的重要内容,机器常识或机器对开放世界的理解和推理能力一直被认为是人工智能和自然语言理解的重要组成部分。常识问答则是机器推理上的一个重要的应用方向,目的是帮助计算机通过已有的知识推理判断未见过的输入信息,从而使计算机更自然地理解人们的表达。
机器之心
2022-12-15
2300
全方位支持任务数据集模型,Salesforce开源一站式视觉语言学习框架LAVIS
机器之心专栏 作者:HJZ Salesforce 亚洲研究院推出了一站式视觉语言开源框架 LAVIS。 视觉语言模型在内容推荐、电子商务里有广泛应用,例如图像描述生成、文本图像检索以及多模态内容分类。依托于海量互联网数据,多模型模型近期得到长足发展,其性能在下游任务上得到了广泛的验证。 尽管如此,现阶段的视觉语言方向的发展也存在其局限性。例如,由于语言视觉任务的多样性和复杂性,特别是对于初学者或者其他领域的工程研究人员,训练和评估现有视觉语言模型并不容易, 其较陡的学习曲线让很多新接触视觉语言方向的人望而却
机器之心
2022-09-28
6420
ECCV 2022 | 无需下游训练,Tip-Adapter大幅提升CLIP图像分类准确率
机器之心专栏 机器之心编辑部 本文提出了 Tip-Adapter,一种可以免于训练的将 CLIP 用于下游 few-shot 图像分类的方案。 论文链接:https://arxiv.org/pdf/2207.09519.pdf 代码链接:https://github.com/gaopengcuhk/Tip-Adapter 一.研究背景 对比性图像语言预训练模型(CLIP)在近期展现出了强大的视觉领域迁移能力,可以在一个全新的下游数据集上进行 zero-shot 图像识别。为了进一步提升 CLIP 的迁移性
机器之心
2022-09-26
7390
7 Papers & Radios | 无人机3D打印登Nature封面;哈工大用微波驱控机器人
机器之心 & ArXiv Weekly Radiostation 参与:杜伟、楚航、罗若天 本周主要论文包括英国帝国理工学院用无人机 3D 打印房子;哈佛大学新型固态锂电池 3 分钟充满电,可循环超 10000 次。 目录: Aerial additive manufacturing with multiple autonomous robots A dynamic stability design strategy for lithium metal solid state batteries Multi
机器之心
2022-09-26
4320
UCLA 蒋陈凡夫:从转系生到终身教授,十二年图形学物理模拟的自我回顾
机器之心转载 来源:知乎 作者:蒋陈凡夫 最近评上 tenure,有人来祝贺:”Now you can freely decline review requests!”。我想了想,似乎对心态上的改变确实如此而已。又想到也许可以写个什么纪念一下。那这 19 岁到 31 岁,有什么拿来回味的没有?好像有很多,但不整理一下的话,又不知从何说起。那还是直接写一点吧。从物理本科,到 CS PhD,CS 教职,又在数学 tenure,这看似曲折的十二年竟是在做同样的研究,一年都没有浪费。一路走来,有很多东西值得缅怀和总
机器之心
2022-09-22
1.3K0
差点被ECCV错过的Oral论文:视频理解新框架,仅用微调的「成本」,达到预训练的「全能」
机器之心专栏 机器之心编辑部 对于这项工作,研究者们希望可以启发人们探索视频和文本的结合,并为视频大模型的设计和研究铺平道路。 如何将现有的图像 - 文本多模态大模型(例如 OpenAI CLIP)用于视频内容理解,是一个非常实用且具有前景的研究课题。它不仅可以充分挖掘图像大模型的潜力,还可以为视频大模型的设计和研究铺平道路。 在视频内容理解领域,为节省计算 / 数据开销,视频模型通常 「微调」图像预训练模型。而在图像领域, 最近流行的语言 - 图像预训练模型展现了卓越的泛化性,尤其是零样本迁移能力。那么人
机器之心
2022-08-26
7040
图像大面积缺失,也能逼真修复,新模型CM-GAN兼顾全局结构和纹理细节
机器之心报道 机器之心编辑部 来自罗彻斯特大学和 Adobe Research 的研究者提出了一种新的生成网络 CM-GAN,很好地合成了整体结构和局部细节,在定量和定性评估方面都显著优于现有 SOTA 方法,如 CoModGAN 和 LaMa。 图像修复是指对图像缺失区域进行补全,是计算机视觉的基本任务之一。该方向有许多实际应用,例如物体移除、图像重定向、图像合成等。 早期的修复方法基于图像块合成或颜色扩散来填充图像缺失部分。为了完成更复杂的图像结构,研究人员开始转向数据驱动的方案,他们利用深度生成网络来
机器之心
2022-08-25
6280
有效捕捉目标级别语义信息,之江实验室&浙大提出再注意机制TRT
机器之心专栏 机器之心编辑部 来自之江实验室和浙江大学的研究者提出了一种再注意机制,旨在更有效地捕捉目标级别的语义信息,抑制背景干扰,实现更准确的目标定位能力。 弱监督定位任务(Weakly supervised object localization, WSOL)仅利用图像级别的类别标签,就能实现目标级别的定位功能,因为其细粒度注释的最小化需求大大压缩了人工成本,于近年获得大量关注。 由于缺乏目标级别标签的约束,仅利用图像标签进行分类训练,弱监督定位方法往往倾向于只定位图像中最具判别性的局部区域,难以涵盖
机器之心
2022-08-25
2720
迈向目标跟踪大统一:一个模型解决所有主流跟踪任务,8项基准出色
机器之心报道 机器之心编辑部 单目标跟踪、多目标跟踪、视频目标分割、多目标跟踪与分割这四个任务,现在一个架构就搞定了。 目标跟踪是计算机视觉中的一项基本任务,旨在建立帧间像素级或实例级对应关系,并输出 box 或掩码(mask)形式的轨迹。根据不同应用场景,目标跟踪主要分为四个独立的子任务:单目标跟踪(SOT)、多目标跟踪(MOT)、视频目标分割 (VOS) 、多目标跟踪与分割 (MOTS) 。 大多数目标跟踪方法仅针对其中一个或部分子任务。这种碎片化情况带来以下缺点:(1)跟踪算法过度专注于特定子任务,缺
机器之心
2022-07-26
7660
SIGIR 2022|邻域建模Graph-Masked Transformer提高微信视频点击率预测
机器之心专栏 腾讯 AI Lab 和微信公众平台 本文介绍的是腾讯 AI Lab 和微信公众平台共同研发的一种最新的在异质图上基于邻域交互的点击预测新模型。论文题目为《Neighbour Interaction based Click-Through Rate Prediction via Graph-masked Transformer》,论文已被 SIGIR2022 录用。并且在实际线上场景部署 A/B 测试中获得很好的效果。 论文地址:https://dl.acm.org/doi/abs/10.11
机器之心
2022-07-26
3660
俄罗斯被禁止下载Windows10、11了
机器之心报道 机器之心编辑部 这不是微软第一次限制俄罗斯用户。 据海外多家媒体报道,俄罗斯境内用户现已无法正常下载 Windows 10 和 Windows 11 系统安装程序。 目前,俄罗斯用户在尝试从微软网站下载 Windows 11 磁盘映像 (ISO) 时会提示:「错误:您的请求有问题。如需帮助,请访问 Microsoft 支持联系页面」。如果尝试下载 Windows 10,则会出现错误:「404 - Not Found」。 图源:https://www.oschina.net/news/2001
机器之心
2022-06-24
4600
人大高瓴人工智能学院Nature子刊:尝试利用多模态基础模型迈向通用人工智能
机器之心专栏 作者:中国人民大学高瓴人工智能学院 最近,中国人民大学高瓴人工智能学院卢志武教授、孙浩长聘副教授、以及院长文继荣教授作为共同通讯作者在国际综合期刊《自然·通讯》(英文名:Nature Communications,简称Nat Commun)上发表题为「Towards Artificial General Intelligence via a Multimodal Foundation Model」的研究论文,文章第一作者为博士生费楠益。该工作尝试利用多模态基础模型迈向通用人工智能,并将对各种
机器之心
2022-06-17
5420
AMD公布CPU路线图:Zen 4性能提升35%,2024年Zen 5大改
机器之心报道 编辑:泽南 Zen 5 架构将会获得全面的重新设计,并使用 3nm 工艺节点。 昨天,AMD 举行了 2022 Financial Analyst Day,在为投资者举行的活动上,公司分享了桌面、服务器、图形和移动方面产品的最新路线图。 作为助力 AMD 复苏并重新成为 x86 处理器领域有力竞争者的芯片架构,Zen 是 AMD 从最小嵌入式 CPU 到最大企业级芯片的基础。因此,未来几年在 Zen 架构上发生的事情对 AMD 乃至整个行业来说都是一件大事。 Zen 4:提高性能效率,年内上
机器之心
2022-06-13
7400
文本生成图像这么火,你需要了解这些技术的演变
选自 Intento 作者:Grigory Sapunov 机器之心编译 机器之心编辑部 目前多模态任务成为行业热点,本文梳理了较为优秀的多模态文本图像模型:DALL·E、CLIP、GLIDE、DALL·E 2 (unCLIP)的模型框架、优缺点,及其迭代关系。 OpenAI 最近发布了 DALL·E 2 系统,在 AI 界引发了「地震」,该系统能够根据文本描述创建图像。这是 DALL·E 系统的第二个版本,第一个版本是在近一年前发布的。然而,在 OpenAI 内部,DALL·E 2 背后的模型被称为 u
机器之心
2022-06-07
1.7K0
高通CEO:我们希望在Arm IPO中入股,不排除组建财团合力收购
机器之心报道 编辑:张倩 Arm 最终将何去何从? 前段时间,在英伟达收购 Arm 宣告失败之后,业界又传出了软银准备推动 Arm 在美国 IPO 的消息,争取至少 600 亿美元的估值。 从前年传出可能被英伟达收购到前段时间收购告吹,这家英国芯片设计公司的命运一直备受关注,它的所有权可能会对全球科技领域产生重要影响,因此其独立性、中立性问题一直是争议的焦点之一。 刚刚,美国芯片制造商高通向英国《金融时报》透露,他们希望在即将到来的 IPO 中购买 Arm 公司的股份。此外,高通还想和竞争对手一起组成一个财
机器之心
2022-05-31
3970
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档