2024年2月26日,英国剑桥大学Pietro Lio教授团队,联合瑞典阿斯利康,在Nature Communications上发表文章Transfer learning with graph neural networks for improved molecular property prediction in the multi-fidelity setting。
音频按顺序分别为参考音频 1、以参考音频 1 的声线为输入的生成句子 1(Take a look at these pages for crooked creek drive.)、生成句子 2(There are several listings for gas station.)、参考音频 2、以参考音频 2 的声线为输入的生成句子 1(同上)、生成句子 2(同上)。
视觉语言预训练(Vision-language pre-training)的相关研究在各种多模态的下游任务中已经证明了其强大的实力。
作者:Lukas Höllein, Ang Cao, Andrew Owens, Justin Johnson, Matthias Nießner
本文中,Google 团队提出了一种文本语音合成(text to speech)神经系统,能通过少量样本学习到多个不同说话者(speaker)的语音特征,并合成他们的讲话音频。此外,对于训练时网络没有接触过的说话者,也能在不重新训练的情况下,仅通过未知说话者数秒的音频来合成其讲话音频,即网络具有零样本学习能力。
合成生物学研究本着师法自然、改造自然及超越自然的理念,其核心是通过人工方式将基因元件优化改造和重新组合,以得到满足需要的人工生物系统。获取性能优异的生物元件是构建和控制人工生物系统的基础。
视觉语言预训练 (VLP) 提高了许多视觉语言任务的性能。但是,大多数现有的预训练模型仅在基于理解的任务或基于生成的任务中表现出色。此外,通过使用从web收集的嘈杂的图像-文本对来扩展数据集,在很大程度上实现了性能改进,但这是监督的次优来源。
论文标题:Evolution of Transfer Learning in Natural Language Processing
本篇介绍了深度神经网络表示学习+聚类的方法(深度聚类)综述,有帮助的话,文末点个赞吧~
上周(5/6/19),国际学习表征会议(ICLR)开幕了。在此,我想深入研究一些我认为有趣的ICLR论文,这些论文大多与我个人感兴趣的领域有关(无监督学习、元学习、注意力、NLP),但我选择它们的原因却是因为它们在各自领域的高质量和影响力。本文第一部分将介绍在小数据集上深度学习领域的突破。第二部分将讨论在NLP和其他序列化数据方面的突破。最后的第三部分是我觉得有趣的杂七杂八的论文。
2018年是颇具意义的一年,以“Make AI Everywhere”为愿景,我们在医疗、农业和公益等AI应用领域取得不错进展,也正在通过游戏和机器人等实验平台探索解决AI终极难题——通用人工智能——的道路。 展望2019年,我们将继续通过前沿研究提升AI的认知、决策和创造力,深耕行业,拥抱消费互联网与产业互联网,做好“数字化助手”标配,提供更好的技术、工具与服务,为人们的日常生活和社会发展带来更多美好便利。 以下是我们对腾讯AI Lab在2018年重点工作的回顾,也预祝大家新春安康吉祥。 行业
为多维数据集创建图表(表格)是销售、人力资源、投资、工程、科研、教育等许多领域的常见应用。为了执行常规分析和发现见解,人们花费大量时间构建不同类型的图表来展示不同的观点。这个过程通常需要数据分析方面的专业知识和广泛的知识储备来创建适当的图表。
AI 科技评论按:通常而言,深度学习是典型的数据驱动型技术,面对数据有限的情况,传统的深度学习技术的性能往往不尽如人意。在本届 ICLR 上,许多研究者们利用元学习、迁移学习等技术对小样本学习问题进行了探究,发表了多篇高质量论文,可谓百家争鸣!深度学习工程师 Isaac Godfried 在 Medium 上发表了一篇文章,基于今年 ICLR 上关于小型数据集深度学习研究的论文,探讨了目前小样本学习的最新进展。AI 科技评论编译如下。
本文介绍一篇来自浙江大学侯廷军教授课题组、中南大学曹东升教授课题组、华东理工大学李洪林教授课题组联合发表的论文。该论文提出了一种能够在分子生成过程中考虑到蛋白-配体相互作用的深度学习生成模型RELATION,该模型适用于基于靶标结构的全新药物设计。RELATION模型同时使用百万量级的分子库以及蛋白-配体集合数据对变分自编码器进行训练,在引入双向迁移学习后,隐藏层的采样能够同时兼顾生成分子的骨架片段的新颖性以及对靶标蛋白的亲和性。RELATION模型还提供了药效团约束生成以及贝叶斯优化(BO)采样等模块,可供用户定制化生成药效团匹配度更高以及对靶标的对接打分表现更好的分子。
本文介绍由加拿大麦吉尔大学与蒙特利尔高等商学院、北京大学、复旦大学的研究人员联合发表在Nature Communications的研究成果:本文作者提出了单细胞嵌入式主题模型scETM(single-cell Embedded Topic Model)用于解决大规模scRNA-seq数据集的整合分析。scETM利用可迁移的基于神经网络的编码器,和一个通过矩阵三角分解而具有可解释的线性解码器。scETM同时学习一个编码器网络从而推测细胞类型混合物和一组高度可解释的基因embeddings,主题embeddings和来自多个scRNA-seq数据的批次效应线性截距(linear intercepts)。scETM可扩展到超过106个细胞,并且在跨组织和跨物种零次迁移学习上有着卓越的表现。通过基因集富集分析,作者发现scETM学习的主题富集到具有生物学意义且疾病相关的通路。scETM能将已知基因结合到基因embeddings中,从而通过主题embeddings学习通路和主题的相关性。
视觉 - 语言预训练 (Vision-Language Pre-training,VLP) 提高了许多视觉 - 语言任务的性能。然而,大多数现有的预训练模型只能在基于理解任务或基于生成任务中表现出色。
图像数据的特征设计,即特征描述,在过去一直是计算机视觉(Computer Vision, CV)头痛的问题,而深度学习在计算机视觉领域的兴起使得这一领域不再需要很多的人为干预,大大降低了对专业知识的需求(见下图)。对应的,围绕着深度学习开始出现大量的炒作,这样的炒作使得很多人开始对深度学习产生怀疑,但是同样不得忽视的是深度学习在计算机视觉任务上已经获得的大量成功。
大数据文摘作品 编译:蒋宝尚、小鱼 音乐Geek们昨天可能没能睡个安稳觉,最能体现他们创造力的一项能力——编曲技能正在被AI获取。 玩儿音乐的人都知道,编曲这项工作被公认为最能够体现艺术家创造力的一项能力。而就在昨天,Facebook AI研究院的发布的最新论文《一种通用的音乐迁移网络》称,他们已经可以通过迁移网络,实现音色和曲风的自动转化。 这是什么概念呢?简而言之就是,你随便吹出的一段口哨,已经可以在很短的时间内,被AI转换成为莫扎特风格的钢琴曲,又或者贝多芬风格的交响乐。 让我们先来听听下面这段音频,
最近开始看一本之前出版社老师赠送的书《图神经网络-基础、前言与应用》,开始系统地了解下图神经网络。
协议:CC BY-NC-SA 4.0 自豪地采用谷歌翻译 不要担心自己的形象,只关心如何实现目标。——《原则》,生活原则 2.3.c 在线阅读 ApacheCN 面试求职交流群 724187166 ApacheCN 学习资源 目录 TensorFlow 1.x 深度学习秘籍 零、前言 一、TensorFlow 简介 二、回归 三、神经网络:感知器 四、卷积神经网络 五、高级卷积神经网络 六、循环神经网络 七、无监督学习 八、自编码器 九、强化学习 十、移动计算 十一、生成模型和 CapsNet
去年 6 月份,机器之心报道过,谷歌发布了从声纹识别到多重声线语音合成的迁移学习,利用该技术能够从任意一段参考音频中提取出说话者的声纹信息,并生成与其相似度极高的合成语音(参考:学界 | 现实版柯南「蝴蝶结变声器」:谷歌发布从声纹识别到多重声线语音合成的迁移学习)。这不禁让人想起《黑镜》中利用逝者音频合成语音继续陪伴生者的精彩脑洞。
今天为大家介绍的是来自Garrett W. Roell, Yixin Chen和Yinjie J. Tang团队的一篇论文。从合成生物学期刊文章中挖掘知识以供机器学习(ML)应用是一项耗时的工作。自然语言处理(NLP)工具的发展,比如 GPT-4,可以加速在复杂菌株工程和生物反应器条件下发布的与微生物性能相关的信息的提取。作者提出了一个面向GPT-4 的工作流程,从两种酵母(Yarrowia lipolytica 和 Rhodosporidium toruloides)的 176 篇出版物中提取知识。经人工干预后,该流程获得了总共 2037 个数据实例。结构化的数据集和特征选择使 ML 方法能够以相当高的准确性预测 Yarrowia 的发酵产量。
今天给大家介绍由巴黎文理研究大学计算生物研究中心的Veronique Stoven教授课题组发表在J Cheminform上的一篇文章。作者提出一种具有深度学习功能的化学基因组神经网络(CN),以分子图和蛋白质序列编码器学习的分子和蛋白质表示形式的组合作为输入。实验结果显示,在大型数据集上深度学习CN模型优于最先进的浅层方法,与基于专家的描述符的深层方法相当;而在小型数据集上浅层方法比深层学习方法具有更好的预测性能。作者还使用了数据增强技术,即多视图和迁移学习,以提高化学基因组神经网络的预测性能。
大数据文摘作品 编译:小鱼 不久前,文摘菌给大家分享了一篇Ian Goodfellow的论文,教大家如何把一张哈士奇的图像硬生生的AI成一只猫咪,论文的结果确实会让人傻傻分不清楚,点击这里查看相关内容。 然而,今天的这篇论文效果更棒!先上两张图片: 当你养了一只哈士奇觉得不过瘾的时候,你可以AI出四只小猫咪,让它们一起陪你玩耍。 用一张猫咪的图像生成老虎、狮子或者豹子等其他猫科动物的图像! 用一张猫咪的图像生成小柯基、萨摩耶或者二哈的图像! 当然你也可以用豹子的图像生成萨摩耶、二哈或者小柯基的图像…… 这种
【导读】 ICML ( International Conference on Machine Learning),国际机器学习大会如今已发展为由国际机器学习学会(IMLS)主办的年度机器学习国际顶级会议。今天,第35届 ICML 大会在瑞典的斯德哥尔摩正式召开,与大家一同分享这一领域在这一年里的突破。ICML 2018 共有 2473 篇论文投稿,共有 621 篇论文杀出重围入选获奖名单,接受率接近25%。其中 Google 强势领跑,Deep Mind 、FaceBook和微软也是精彩纷呈;而在高校中 UC Berkeley 和 Stanford 、CMU 以近 30 篇荣登 Top 榜。
LiveVideoStack:贺雯迪,你好,感谢你接受LiveVideoStack的采访,作为本次大会AI与多媒体内容生产创作专场的讲师,请先和大家介绍一下你目前负责的工作方向和演讲内容。
贺雯迪:我目前在喜马拉雅担任音频算法工程师,工作研发方向是TTS前端模块的搭建和优化(文本规整化、分词、多音字、韵律预测等),后端算法(基于深度生成模型的说话人风格转换,情感控制,音色克隆、神经声码器的优化等方向)。演讲的方向是基于现在语音合成领域中比较具有发展前瞻性和讨论性的:语音合成中风格迁移、情感合成、音色克隆等衍生方向上技术和应用方面的探讨。
2017年12月,一位名为“Deepfakes”的用户在全球流量排名第四的国际互联网社区“Reddit”上发布了一段好莱坞女星盖尔·加朵的伪造人脸视频,掀起了一阵轰动,这一事件作为开端,标志着人脸深度伪造技术的兴起,而该用户的用户名也被引用成为了这一类技术的代名词“Deepfake[1]”。 因此,Deepfake指代人脸的深度伪造,即将目标视频人物的脸替换成指定的原始视频人脸,或让目标人脸重演、模仿原始人脸的动作、表情等,从而制作出目标人脸的伪造视频。
TLDR: 本文与已有的LLM4Rec一个主要区别在于,已有的ChatGPT4Rec文献大多是调用OpenAI API来做prompt工程,本文则是将1750亿的GPT-3作为item encoder替换ID。为了对该范式(论文称之为TCF范式,在过去几年涌现了大量相关论文,不过多是使用BERT,word2vec等中小型item 编码器)性能进行极限研究和评价,论文甚至对600亿LLM做微调或者重新训练,目的是为了回答基于文本的推荐范式的若干核心问题,相关实验可以看出完成该论文的算力成本之高。
呜啦啦啦啦啦啦啦大家好,本周的AI Scholar Weekly栏目又和大家见面啦!
以深度学习为代表的机器学习技术,已经在很大程度颠覆了传统学科的研究方法。然后,对于传统学科的研究人员,机器学习算法繁杂多样,到底哪种方法更适合自己的研究问题,常常是一大困扰。
来源:PaperWeekly 本文共1296字,建议阅读6分钟。 本文为你分享9款实用的AI开源项目,功能强大,值得收藏! Semantic Segmentation PyTorch #PyTorch上最好的语义分割工具包 本项目是由 MIT CSAIL 实验室开源的 PyTorch 语义分割工具包,其中包含多种网络的实现和预训练模型。自带多卡同步 bn,能复现在 MIT ADE20K 上 SOTA 的结果。 ADE20K 是由 MIT 计算机视觉团队开源的规模最大的语义分割和场景解析数据集。 从右至左:
PTM 通常是基于大规模文本语料训练通用的语言表示,而缺乏领域特定的知识。通过外部知识库引入领域知识被证明可以提升模型结果。这些外部知识包括:语言知识、语义知识、常识知识、事实知识和其他领域特定的知识等。
事实上,许多制造商已经开始将AI解决方案集成到生产线上,但数据稀缺成了最大的挑战。
在本文中,作者重新审视了迁移学习的简单范式:首先在一个大规模标记数据集(例如JFT-300M和ImageNet-21k数据集)上进行预训练,然后对目标任务上的每个训练权重进行精调任务,减少目标任务所需的数据量和优化时间。作者们拟议的迁移学习框架是BiT(大转移),由许多组件组成,包含了大量构建有效模型的必需组件,使其能够借助于大规模数据集学习到通用的、可迁移的特征表达。
TLDR: 本文综述了近期关于可迁移推荐系统的发展现状,并分别介绍了基于ID、基于模态和基于大语言模型的可迁移推荐系统的代表性工作,最后对该方向进行了系统性的总结和展望。
https://github.com/westlake-repl/Recommendation-Systems-without-Explicit-ID-Features-A-Literature-Review
一、年龄迁移 1,Continuous Face Aging via Self-estimated Residual Age Embedding 📷 人脸合成,尤其是年龄迁移,一直是生成对抗网络 (GAN) 的重要应用之一。大多数现有的人脸年龄迁移方法会将数据集分为几个年龄组并利用基于组的训练策略,这在本质上缺乏提供精细控制的连续年龄合成的能力。 这项工作提出统一的网络结构,将线性年龄估计器嵌入到基于 GAN 的模型中,年龄估计器与编码器和解码器联合训练以估计人脸图像的年龄并提供个性化的目标年龄特征嵌入。
迁移学习是Google、Salesforce、IBM和Azure云服务商提供的托管AutoML服务的基础。它现在在最新的NLP研究中占据突出的地位——包括谷歌的BERT以及ULMFIT中有重要的作用。
生成对抗网络(Generative adversarial networks,简称GANs)由Ian Goodfellow于2014年推出,近年来成为机器学习研究中非常活跃的话题。GAN是一种无监督生成模型,它隐含地学习底层分布。在GAN框架中,学习过程是两个网络之间的极大极小博弈,一个生成器,生成给定随机噪声向量的合成数据,一个鉴别器,区分真实数据和生成器的合成数据。
十七、图像转换 43、 SPatchGAN: A Statistical Feature Based Discriminator for Unsupervised Image-to-Image Translation 对于无监督的图像到图像转换,提出一种判别器架构专注于统计特征而不是单个patch感受野。与现有方法对生成器施加越来越多的约束不同,方法通过简化框架促进了形状变形并增强细节。 所提出的方法在各种具有挑战性的应用中优于现有模型,包括自拍到动漫、男性到女性和眼镜去除等应用。 📷 44、 Dual
人类公元纪年2019年伊始,深度学习技术也同样处在一个新的“开端”,宜review、宜展望。
在机器学习、深度学习和数据挖掘的大多数任务中,我们都会假设training和inference时,采用的数据服从相同的分布(distribution)、来源于相同的特征空间(feature space)。但在现实应用中,这个假设很难成立,往往遇到一些问题:
【导语】为了加速自然语言处理 (NLP) 在更多语言上实现零样本迁移学习 (zero-shot transfer learning),Facebook 研究者扩展并增强了 LASER (Language-Agnostic Sentence Representations) 工具包,并在近期开源了这个项目。
在科学研究中,从方法论上来讲,都应“先见森林,再见树木”。当前,人工智能学术研究方兴未艾,技术迅猛发展,可谓万木争荣,日新月异。对于AI从业者来说,在广袤的知识森林中,系统梳理脉络,才能更好地把握趋势。为此,我们精选国内外优秀的综述文章,开辟“综述专栏”,敬请关注。
今天给大家介绍MIT的Rafeal Gomez-Bombarelli教授发表在arXiv上的综述文章。文章对分子生成模型进行了分类,并介绍了各类模型的发展和性能。最后,作者总结了生成模型作为分子设计前沿工具的前景和挑战。
这项工作提出一种新的“基于编辑”的方法,即属性组编辑(Attribute Group Editing,AGE),用于少样本图像生成。思路是任何图像都是属性的集合,并且特定属性的编辑方向在所有类别中共享。AGE 检查在 GAN 中学习的内部表示并识别语义上有意义的方向。
今天给大家解读一篇NIPS2021中GNN与对比学习结合的论文,后面会持续更新NIPS2021中关于对比学习(Contrastive Learning)论文的解读,欢迎大家关注。
领取专属 10元无门槛券
手把手带您无忧上云