近年来,自监督学习逐渐成为了备受人们关注的应对标注缺乏问题的热门解决方案,科研人员在基于对比学习的自监督方法方面进行了大量研究。本文是 PyTorch Lightning 创始人 William Falcon 的对比学习综述,对自监督学习、对比学习等基础概念进行了简要的回顾,介绍了 CPC、AMDIM、BYOL、SimCLR、Swav等最近较为著名的对比学习方法,并提出了一种名为 YADIM 的新型对比学习算法。
在之前的文章中,我们介绍过CPC和CNCI这两款软件,可以用于预测lncRNA序列。其中CPC基于序列比对的方式,对于注释信息相对全面的物种分类效果较好,但是运行速度相对较慢,CNCI基于序列的三联体碱基组成来区分编码和非编码转录本,对于注释信息缺乏的物种,效果也不错,但是当序列中存在插入缺失时,其分类效果就变得很差。
对比自监督学习(CLS)是从无标签数据中选择和对比Anchor,Positive,Negative(APN)三种特征,学习到有用表征的方法。
CPC是由北京大学开发的一款lncRNA预测工具,只需要输入fasta格式的转录本序列,该软件就可以判断每条转录本的蛋白编码潜能并进行打分,根据得分将转录本划分为coding和non-coding两类,网址如下
DeepMind 近期的一项研究利用对比预测编码(Contrastive Predictive Coding,CPC)来解决这一难题,该方法是一种从静止图像中抽取稳定结构的无监督方法。得到的结果是一种表征,使用该表征和简单的线性分类器在 ImageNet 上可实现优于其他方法的分类准确率,性能超越全监督 AlexNet 模型。即使给出少量标注图像(每个类别 13 张标注图像),该表征也能保持强大的分类性能,Top-5 准确率超出当前最优的半监督方法 10%,超出当前最优监督方法 20%。
lncRNA 的全称是long noncoding RNA。即又长又表达且还不能编码翻译成蛋白质的一类RNA。
参考资料里用到的是草莓的数据,我这里换成拟南芥的转录组测序数据 对应论文的数据实验组和对照组分别三个生物学重复,为了减小数据量和缩短计算时间,我这里只下载两个
【新智元导读】DeepMind的最新研究提出一种新的表示学习方法——对比预测编码。研究人员在多个领域进行实验:音频、图像、自然语言和强化学习,证明了相同的机制能够在所有这些领域中学习到有意义的高级信息,并且优于其他方法。
随着高通量测序在lncRNA研究领域的应用, 越来越多的lncRNA被发现。对于转录组测序的数据而言,组装得到转录本之后,首先要做的就是区分蛋白编码和非蛋白编码的RNA。
自监督方法将取代深度学习中占主导地位的直接监督范式的预言已经存在了相当一段时间。Alyosha Efros打了一个著名的赌,赌在2015年秋季之前,一种无监督的方法将会在检测Pascal VOC方面胜过有监督的R-CNN。但四年之后,他的预言现在已经实现了。目前,自监督方法(MoCo, He et al., 2019)在Pascal VOC上的检测性能已经超越了监督方法,并在许多其他任务上取得了良好的效果。
CPC是一款使用率非常高的lncRNA预测软件,但是它也存在一些问题。利用二代测序得到的转录组数据,我们组装得到的转录本往往是不完整的,基于非全长的转录本去预测lncRNA,如果这个lncRNA和蛋白编码基因存在overlap,那么很容易造成误判;其次对于没有物种注释的物种,其效果也很差。
一、CPAT和CPC2软件用于评估编码蛋白能力,一般在lncRNA分析中常用,生信技能树已经介绍过不再赘述。
在这篇文章,我们将解读一下我们发表在CVPR 2021的工作CPS: Semi-Supervised Semantic Segmentation with Cross Pseudo Supervision. 我们提出的半监督语义分割算法,在Cityscapes数据集中,使用额外3000张无标注的图像,可以在val set达到82.4% mIoU (单尺度测试)。
每天给你送来NLP技术干货! ---- 本文转载自 | 知乎 作者 | 光某人 地址 | https://zhuanlan.zhihu.com/p/346686467 A 『引入』 深度学习的成功往往依赖于海量数据的支持,其中对于数据的标记与否,可以分为监督学习和无监督学习。 1. 监督学习:技术相对成熟,但是对海量的数据进行标记需要花费大量的时间和资源。 2. 无监督学习:自主发现数据中潜在的结构,节省时间以及硬件资源。 2.1 主要思路:自主地从大量数据中学习同类数据的相同特性,并将其编码为
对比学习在计算机视觉的发展历程大概分为四个阶段(1)百花齐放:有InstDisc(Instance Discrimination)、CPC、CMC代表工作。在这个阶段方法模型都还没有统一,目标函数也没有统一,代理任务也没有统一,所以是一个百花齐放的时代。(2)CV双雄:这个阶段的代表工作就是MoCo v1、SimCLR v1、MoCo v2、SimCLR v2以及还有CPC CMC它们的延伸工作,还有SwAV。(3)不用负样本:这个阶段主要就是BYOL这个方法以及它后续的一些改进,最后SimSiam出现,把所有方法归纳总结了一下,都融入到了SImSiam这个框架之中,算是卷积神经网络做对比学习的一个总结性的工作。(4)Transformer:这里会提到MoCo v3和Dino。
摘要: 监督学习在很多应用方面有了巨大的进步,但是非监督学习却没有如此广的应用,非监督学习是人工智能方面非常重要也非常具有挑战性的领域。这篇论文提出了 constrative predictive coding,一个非监督的通用的算法用于在高维度数据中提取有用的表示信息。算法的核心是通过强大的自回归(autoregressive)模型来学习未来的(预测的)隐变量表示。论文使用对比损失概率(probabilistic contrastive loss)来引入最大化预测样本的信息的隐变量。大多数其他研究的工作都集中在使用一个特殊的修正(公式)评估表示,论文(CPC)所使用的方法在学习有用信息表示的时候表现非常优异。
CPC2为CPC 的升级版,发布于2017 年,是目前最新的lncRNA 鉴定工具,也代表着lncRNA 鉴定的最新研究进展。在经过大量的特征选择后,CPC2 最终的特征主要包括四条:最长ORF 长度,ORF 的完整性,Fickett 分数以及等电点 (isoelectric point, pI)[39,40]。其中等电点特征主要是通过将最长ORF 翻译为氨基酸序列,而后根据氨基酸等电点这一理化性质计算而得。与大多lncRNA 鉴定工具相同,CPC2 也使用了支持向量机来构建分类器。
作者:Aaron van den Oord、Yazhe Li、Oriol Vinyals
自监督学习主要是利用辅助任务(pretext)从大规模的无监督数据中挖掘自身的监督信息,通过这种构造的监督信息对网络进行训练,从而可以学习到对下游任务有价值的表征。(也就是说自监督学习的监督信息不是人工标注的,而是算法在大规模无监督数据中自动构造监督信息,来进行监督学习或训练。因此,大多数时候,我们称之为无监督预训练方法或无监督学习方法,严格上讲,他应该叫自监督学习)。
而品牌广告则是为了通过提升品牌知名度美誉度从而间接带来该品牌产品用户和销售收入的增长。
(Cost Per Mille,或者Cost Per Thousand;Cost Per Impressions) 每千人成本,按展示次数收费
前两期周更我们通过一篇文章的复现整理了mRNA和lncRNA分析基本流程,但并没有涉及新lncRNA的鉴定,本周的推文本质上是我个人学习鉴定lncRNA的全套流程笔记,整合了我们公众号往期的资源,对代码进行了勘误更新,内容非常详实。
今天在生产中发现一条sql语句消耗了大量的cpu资源。使用top -c来查看。 PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND 17895 oratestdb 25 0 12.4g 217m 38m R 99.9 0.1 1232:
Hello,大家好,之前给大家分享了大约一百多个关于FPGA的开源项目,涉及PCIe、网络、RISC-V、视频编码等等,这次给大家带来的是不枯燥的娱乐项目,主要偏向老的游戏内核使用FPGA进行硬解,涉及的内核数不胜数,主要目标是高的可实现性及复现性。
研究人员近日发现了一个 Golang 开发恶意软件,并将其命名为 GoBruteforcer。该恶意软件主要针对 Web 服务,特别是 phpMyAdmin、MySQL、FTP 和 Postgres 服务。 简介 Golang 现在越来越来受到攻击者的欢迎,被用于开发个各种各样的恶意软件,包括勒索软件、窃密木马与远控木马等。 GoBruteforcer 就是一种用 Golang 编写的新型僵尸网络,主要针对 Web 服务,特别是 phpMyAdmin、MySQL、FTP 和 Postgres 服务。 Go
导读:360展示广告平台始终关注广告投放效果,围绕广告后续优化问题先后开发了多款产品。随着产品规模的不断扩张,有关效果优化的新需求新问题不断产生。本文主要介绍了效果优化系统随业务发展的演进过程,聚焦如何使用算法解决客户痛点,实现广告投放智能化。使大家了解到展示广告算法团队如何分析业务,如何选择算法,如何优化系统的过程。
https://github.com/topics/mutual-information
【1】 Sissy That Walk: Transportation to Work by Sexual Orientation 标题:Sissy That Walk:性取向带来的上班交通工具
最近开始研究计算广告相关的东西了,那么首先我们要弄懂计算广告中一些常见的概念,本文就让我们一起来整理下吧。
序列比对和序列特征分析总目录 阅读框Open Reading Frame,ORF ORF指的是DNA上的序列,从5'端翻译起始密码子ATG到终止密码子(TAA,TAG,TGA)的蛋白质编码序列。 对于任意给定的一段DNA,有两个问题需要考虑, 一是DNA双链中的哪条是编码链 二是编码区究竟从第一个碱基开始进行编码 所以每条链都有潜在的3种ORF,而对于双链DNA来说就有6种可能的ORF。也就是说先从给定的DNA单链为模版,分别从5'-3'方向第123个碱基开始翻译,再以互补链为模版,分别从3'-5
淘宝作为世界上最大的电商平台,每天为上百万的广告主提供十亿多在线广告曝光的机会。从商业目的上说,广告主为特定的场景和目标人群进行竞标以竞争商业流量。平台方在十毫秒内选择合适的广告进行展现曝光。常见的出价方法有cpm和cpc。
很多深度学习方法实现了不错的抠图效果,但它们无法很好地处理高分辨率图像。而现实世界中需要使用抠图技术的图像通常是分辨率为 5000 × 5000 甚至更高的高分辨率图像。如何突破硬件限制,将抠图方法应用于高分辨率图像?来自 UIUC、Adobe 研究院和俄勒冈大学的研究者提出了一种新方法。
抠图是图像和视频编辑与合成的关键技术。通常,深度学习方法会以整个输入图像和相关的 trimap 作为输入,使用卷积神经网络来推断前景蒙版(alpha matte)。这种方法在图像抠图领域实现了 SOTA 结果。但是,由于硬件限制,这些方法在实际的抠图应用中可能会失败,因为现实世界中需要抠图的输入图像大多具备很高的分辨率。
Contrastive Learning (对比学习) 是这两年深度学习非常热的话题,可以说是刷新了很多人对无监督学习对认知。最初谷歌写的Representation Learning with Contrastive Predictive Coding (CPC) 公式十分抽象,不好理解。我在做完了一个CPC的项目以后,决定做一张超直观的图帮助大家摆脱公式理解。
如果人工智能比作一块蛋糕,那么蛋糕的大部分是自监督学习,蛋糕上的糖衣是监督学习,蛋糕上的樱桃是强化学习。
Paper:Optimized Cost per Click in Taobao Display Advertising
对于预测到的lncRNA序列,通过Repeatmasker软件分析其中的重复元件。所有预测的lncRNA, 又分为以下两类
code: https://github.com/createamind/keras-cpcgan
想必大家都知道,现在的移动端的流量多、曝光率强、用户数量大。那么如果你想做移动端广告的话,肯定需要了解一些关于移动广告的投放形式、以及计费方式的知识。
在得到了一个物种的基因组序列之后,就可以开始对其序列进行分析了。序列分析主要包括结构基因组分析,功能基因组分析以及比较基因组分析几部分。通过对序列进行全面地分析,在基因组水平上了解一个物种的特点。序列分析主要包括基因预测,基因功能注释,ncRNA,重复序列,特殊功能序列,比较基因组等方面。
这是对一个PPT的内容的整理,PPT的主要内容是刘铁岩的《Online Advertising》。主要介绍了一些付费搜索相关的一些技术。这篇文章主要是对这方面的知识做一个整理。在搜索广告中,有很多的知识点是值得借鉴的。
生产环境有一条sql语句执行比较频繁,占用了大量的cpu资源。原本执行需要花费11秒。在一次排查中引起了我的注意,决定看看cpu消耗到底在哪儿? sql语句是比较简单的,通过查询SUBSCRIBER_FA_V是一个视图。在视图中关联了几个和业务核心表。 SELECT TO_CHAR(SUBSCRIBER_NO) SUBSCRIBER_ID, SUB_STATUS, SUB_STS_RSN_CD, TO_CHAR(SUB_STATUS_DATE, 'yyyyMMdd'
这是对一个PPT的内容的整理,PPT的主要内容是刘铁岩的《Online Advertising》。主要介绍了一些付费搜索相关的一些技术。这篇文章主要是对这方面的知识做一个整理。在搜索广告中,有很多的知识点是值得借鉴的。 一、广告 1.1、定义: Advertising is a form of communication intended to persuade an audience (viewers, readers, or listeners) to purchase or take action u
百度官方的解释是:oCPC是一种AI智能投放模式,同时支持凤巢和原生投放,系统基于对广告主转化数据的对接和深度理解,智能实时预估每次点击的转化率并基于竞争环境智能出价,强化高转化率流量的获取,弱化低转化率流量的展现,以帮广告主控制转化成本,提升转化数量并提升投放效率。
今天这一篇我们来介绍几种常见的广告形式,分为合约广告、搜索广告、广告网络、广告交易市场和原生广告。
领取专属 10元无门槛券
手把手带您无忧上云