选自arXiv 作者:林宇鋆、韩松等 机器之心编译 参与:刘晓坤 来自清华大学和斯坦福大学的研究者们发现,分布式随机梯度下降训练中 99.9% 的梯度交换都是冗余的——通过他们提出的深度梯度压缩(DGC)方法,神经网络训练可以大幅降低通信带宽需求。在多个基准模型上的对比实验表明,该方法可以在不降低准确率的情况下达到 270 倍到 600 倍的梯度压缩率,使得小带宽甚至移动设备上的大规模分布式训练变为可能。 作者简介 林宇鋆是清华大学电子工程系 NICS 实验室 2014 级本科生,于 2017 年暑假在斯坦
机器学习本质上是一系列的数值计算。当需要计算的数据量很大或者计算模型很大时,就需要设计一个合适的平台来进行这种计算。机器学习系统就是针对此方面的研究,目的在于开发一类特殊的系统,用于支持和部署机器学习模型。MLSys 会议正是来解决机器学习和计算机系统之间的交叉问题。首届会议于 2018 年在斯坦福举办,吸引了学界和业界的广泛关注,会议主要研究(1)设计支持机器学习的软件系统;(2)设计硬件系统;(3)设计系统以满足精度以外的其他需求,诸如隐私,安全,公平性等。
论文: Corner Proposal Network for Anchor-free,Two-stage Object Detection
本文对发表于 AAAI 2020 的论文《Fine-grained Recognition: Accounting for Subtle Differences between Similar Classes》进行解读。
对于知识图谱的研究在最近几年呈现逐渐热门的趋势,在今年的ICLR2020上,就涌现出了大量相关研究,其中,来自CMU和Google的研究者提出了一种新的将语料库作为虚拟知识库(Virtual Knowledge Base,KB)来回答复杂多跳问题的方法,其可以遍历文本数据,并遵循语料库中各个实体的关系路径,并基于评分的方法,实现了整个系统端到端的训练。实验结果证明此模型可以快速地实现更好的性能。
新用户和冷用户喜好预测问题一直是推荐系统领域的难题,并广泛存在于计算广告、App 推荐、电子商务和信息流推荐场景。
本文介绍一篇来自浙江大学宋明黎教授课题组和侯廷军教授课题组联合发表的一篇文章。该文章提出了一种用于化学反应预测的紧凑的分子字符串表示。该方法基于分子的SMILES字符串表示和Transformer语言翻译模型,通过在预处理阶段对训练集中的输入输出字符串进行对齐操作,来约束输入与输出之间的编辑距离并保证两者的一一对应关系。这使得模型能从学习复杂的SMILES语法中解脱出来,而专注于学习与化学反应相关的化学知识。
论文:Fine-grained Recognition: Accounting for Subtle Differences between Similar Classes
这一章我们聊聊有哪些方案可以不用微调直接让大模型支持超长文本输入,注意这里主要针对无限输入场景。之前在BERT系列中我们就介绍过稀疏注意力和片段递归的一些长文本建模方案长文本建模 BigBird & Longformer & Reformer & Performer,不过以上方案无一例外都需要在训练阶段引入。针对当前大模型微调成本高的问题,更多研究放到如何在模型外部支持长文本输入。先讨论下为啥当前的大模型会在推理时存在输入长度的限制,主要有以下几点原因
本文介绍韩国大田 KAIST 化学与生物分子工程系与人工智能研究生院的Yousung Jung团队2022年9月15日发表在Nature Machine Intelligence的研究成果A generalized-template-based graph neural network for accurate organic reactivity prediction。Yousung Jung团队提出了一个化学驱动的图神经网络,称为LocalTransform,它基于广义的反应模板学习有机反应性,以描述反应物和产物之间的电子构型的净变化。所提出的概念极大地减少了反应规则的数量,并表现出最先进的产物预测精度。除了广义反应模板的内在可解释性外,该模型的高分值-准确率相关性使用户可以评估机器预测的不确定性。
半监督学习是综合利用标注数据与未标注数据的学习方法。香侬科技研究了如何更有效地结合半监督自训练和预训练,即如何在大规模通用领域预训练的前提下,更好地利用大规模领域内无标注语料与标注语料,从而最大限度地提升模型效果。
代码自动补全功能(应用程序预测文本输入中的下一项)已成为消息传递等任务中便捷且广泛使用的工具,也是用于计算机编程所需的集成开发环境(IDE)最重要功能之一。
论文地址:https://arxiv.org/pdf/1905.12616.pdf
本文将介绍一种用于分类问题的后处理技巧(Trick),出自EMNLP 2021 Findings的一篇论文《When in Doubt: Improving Classification Performance with Alternating Normalization》。经过实测,CAN(Classification with Alternating Normalization)确实多数情况下能提升多分类问题的效果(CV、NLP通用),而且几乎没有增加预测成本,因为它仅仅只是对预测结果的重新归一化操作
论文: Generalized Focal Loss V2: Learning Reliable Localization Quality Estimationfor Dense Object Detection
Transformer可以通过注意力模块捕获长期依赖关系,并在自然语言处理任务中显示出巨大的成功。近年来,Transformer也被用于计算机视觉任务,用于图像分类、目标检测、语义分割、特征匹配等。通常情况下,图像被分成几个小的patches,这些小patches被Flatten并作为单词符号输入Transformer,以评估注意力得分。而在Token数量上,即图像patch的数量上,Transformer的计算复杂度是二次的。因此,将Transformer应用于计算机视觉应简化所涉及的计算。
全球性的搜索引擎 Google,看似简单的搜索框背后隐藏的是极其复杂的系统架构和搜索算法,其中排序(以下统称 Ranking)的架构和算法更是关键部分。Google 正是通过 PageRank 算法深刻改变搜索排序而一举击败众多竞争对手。本文将介绍有关搜索引擎排序的相关技术内容。
沿给定dim维度返回输入张量input中 k 个最大值。 如果不指定dim,则默认为input的最后一维。 如果为largest为 False ,则返回最小的 k 个值。
GPT 的全名:Generative Pre-Training,其论文标题是 Improving Language Understanding by Generative Pre-Training。
从深度学习被大家开始重视的时候,后续就出现一个神操作到现在还值得大家去使用,那就是“Dropout”的出现,为大家带来了很多优势,但是今年2018年NIPS开始搞事情了,更新换代的机会终于出现了,Hinton教授又为大家带来了新的发现,构建更新的架构——名为:Targeted Dropout!
常见的目标检测算法都针对特定的数据集进行训练,学习固定数量的类别,用于特定的场景。而论文则讨论一个更现实的场景,开放世界目标检测(Open World Object Detection)。在这个场景中,算法需要解决非目标误识别问题以及具备增量学习的能力。
性能评估模块提供了一系列用于模型性能评估的函数,这些函数在模型编译时由metrics关键字设置
还记得在理解 LSTM 的时候,我们会发现,它用一种门控机制记住重要的信息而遗忘不重要的信息。在此之后,很多机器学习方法都受到了门控机制的影响,包括 Highway Network 和 GRU 等等。北大的研究者同样也是,它们将门控机制加入到 CNN 剪枝中,让模型自己决定哪些滤波器不太重要,那么它们就可以删除了。
最近阅读论文的过程中,发现推荐系统中的评价指标真的是五花八门,今天我们就来系统的总结一下,这些指标有的适用于二分类问题,有的适用于对推荐列表topk的评价。
论文: CenterNet: Keypoint Triplets for Object Detection
导读:今天分享一下Facebook发表在KDD 2020的一篇关于社交网络搜索中的embedding检索问题的工作,干货很多,推荐一读。
**论文: Accelerating CNN Training by Pruning
今天给大家介绍的是Google Research和蚂蚁金服等团队在NeurlPS发表的一篇名为“Retrosynthesis Prediction withConditional Graph Logic Network”的文章。逆合成分析属于有机化学中的基本问题,在机器学习领域也引起广泛关注。文章中,作者把逆合成的任务描述为“在确定的分子空间中寻找可以用来合成产物分子的反应物分子集合”这一问题。大多数现有的方法依赖于子图匹配规则的基于模板的模型,但是化学反应是否可以进行并不是严格由决策规则定义的。在文章中,作者提出了一种使用条件图逻辑网络来完成这项任务的新方法,它可以学习何时应该应用反应模板中的规则,隐式地考虑所产生的反应是否具有化学可行性和策略性。作者还提出了一种有效的分层抽样来减少计算成本。在基准数据集上,与当时最先进的方法相比,作者的模型实现了8.1%的显著改进,同时还提供了对预测的解释。
作者:Tong He、Zhi Zhang、Hang Zhang、Zhongyue Zhang、Junyuan Xie、Mu Li
本文介绍了如何基于PyTorch实现自定义数据集,并使用该数据集进行Faster R-CNN目标检测。主要包括四个步骤:数据集制作、模型训练、模型验证和测试。在模型训练阶段,使用自定义数据集和预训练的VGG16模型进行训练,并采用随机数据增强和叠加训练方法。在模型验证和测试阶段,使用自定义数据集对Faster R-CNN模型进行微调,并使用测试集对模型进行测试。实验结果表明,该方法能够有效提高目标检测的准确率。
推荐 | 微软SAR近邻协同过滤算法解析(一)前面这篇介绍了整个SAR算法,算法本身比较容易理解。本篇主要对一下里面有趣的小函数。
机器之心专栏 Sea AI Lab (SAIL) 团队 VOLO 是第一个在 ImageNet 上无需额外数据达到 87.1% top-1 准确率的模型,进一步拉近了视觉 Transformer 与最顶级 CNN 模型的性能距离。 近十年来,计算机视觉识别任务一直由卷积神经网络 (CNN) 主导。尽管最近流行的视觉 Transformer 在基于 self-attention 的模型中显示出巨大的潜力,但是在没有提供额外数据的情况下,比如在 ImageNet 上的分类任务,它们的性能仍然不如最新的 SOTA
总第529篇 2022年 第046篇 今年,美团技术团队有多篇论文被KDD 2022收录,这些论文涵盖了图谱预训练、选择算法、意图自动发现、效果建模、策略学习、概率预测、奖励框架等多个技术领域。本文精选了7篇论文做简要介绍(附下载链接,论文排名不分先后),希望能对从事相关研究方向的同学有所帮助或启发。 论文01:Mask and Reason: Pre-Training Knowledge Graph Transformers for Complex Logical Queries(支持知识推理的图谱预训
今天给大家介绍的是近期发表在Briefings in Bioinformatics上有关逆合成的一篇综述。近些年,人工智能驱动的药物合成给社会带来极大的便利。逆合成设计在合成化学中占有重要的地位,因而受到了研究人员广泛的关注。本文详细介绍了深度学习背景下逆合成设计的发展历程,包括数据集、模型及常用工具,并且提出了目前深度逆合成设计面临的挑战。
基于“Proposal + Classification”的目标检测方法中,R-CNN 系列(R-CNN、 SPPnet、
论文名称:Training Region-based Object Detectors with Online Hard Example Mining 代码地址:OHEM OHEM(online hard example miniing)算法的核心思想是: 根据输入样本的损失进行筛选,筛选出hard example,表示对分类和检测影响较大的样本,然后将筛选得到的这些样本应用在随机梯度下降中训练。
2021年10月23日,浙江大学化学工程与生物工程学院的莫一鸣等人在Chemical Science杂志发表文章,介绍了对逆合成途径进行评估和聚类的机器学习策略。
自 2012 年 AlexNet 大展神威以来,研究者已经提出了各种卷积架构,包括 VGG、NiN、Inception、ResNet、DenseNet 和 NASNet 等,我们会发现模型的准确率正稳定提升。
2018年,香港浸会大学异构计算实验室与MassGrid合作,通过研究提出一种可用于低带宽网络的全局Top-k稀疏化的分布式同步SGD算法,并通过实验论证出在低带宽网络下也能高效进行AI训练。目前实验结果及相关论文已被ICDCS workshop收录。
本文首发于 【集智书童】,白名单账号转载请自觉植入本公众号名片并注明来源,非白名单账号请先申请权限,违者必究。
今天要为大家介绍的是清华大学唐杰教授课题组发表在 bioRxiv 上的文章 Improve the Protein Complex Prediction with Protein Language Models。本文提出了 ColAttn 方法,该方法利用蛋白质语言模型识别复合物的间相互作用,并进一步结合多序列比对方法来提升结构预测准确性。
人工智能(AI)和机器学习(ML)在过去十年中取得了爆炸式的增长。在计算机视觉中,这种增长背后的关键驱动力是神经网络的重新出现,尤其是卷积神经网络(CNNs)和最近的视觉Transformer。尽管通过反向传播训练的神经网络是在20世纪80年代发明的,但它们被用于更小规模的任务,如字符识别。直到AlexNet被引入ImageNet竞赛,神经网络reshape人工智能领域的潜力才得以充分实现。
这一次,来自富士通的研究人员用上了 2048 块 GPU,以 81,920 的批量大小用 74.7 秒完成了 ResNet-50 训练。
本文介绍了如何通过修改全连接层来改变CNN模型的行为,包括用于风格转换,风格迁移,人脸检测等。作者主要介绍了两种方法:1)使用预训练网络,通过冻结训练网络并微调它以适应新任务;2)使用自编码器进行无监督学习。
今天给大家带来的是美团在CIKM2022上中稿的论文,重点关注于CTR预估中的超长用户行为序列建模。与SIM、ETA这类基于“检索”的建模范式不同,论文提出了一种简单而且有效的基于“采样”的建模范式。基于采样多个hash function和SimHash,弥补了基于“检索”的建模范式中信息缺失以及效果和效率难以平衡的缺点,极大降低计算复杂度的同时实现了在超长行为序列下类似target-attention的建模效果,一起来看一下。
受到自然语言处理(NLP)[1]中占主导地位的Transformer结构的启发,计算机视觉(CV)领域见证了Vision Transformer(ViT)在视觉 Backbone 设计上的崛起。这一趋势在图像/动作识别[2, 3, 4, 5]和密集预测任务(如目标检测[6])中表现得最为明显。这些成功中的许多都可以归因于通过传统Transformer块中的自注意力机制对输入视觉token之间的长距离交互的灵活建模。最近,几项并行研究[7, 8, 9, 10, 11]指出,直接在视觉token序列上应用纯Transformer块是次优的。这种设计不可避免地缺乏对2D区域结构建模的正确感应偏差。为了缓解这一限制,它们引领了将卷积神经网络(CNN)的2D感应偏差注入ViT的新浪潮,产生了CNN+ViT混合 Backbone 。
【新智元导读】近日,北大校友、约翰·霍普金斯大学博士生提出了一种新的方法:MaskFeat,力压大神何恺明的新作MAE,摘下12个SOTA!
领取专属 10元无门槛券
手把手带您无忧上云