不论是在科研中还是在工业领域,机器学习都是个热门话题,新的机器学习方法也层出不穷。机器学习发展迅速又很复杂。对初学者而言,紧跟其发展无疑十分困难,即便是对专家们来说也非易事。
蛋白质是存在于所有生物中的必需分子。 它们在我们身体的结构和功能中发挥着核心作用,并且它们还出现在我们每天遇到的许多产品中,从药物到洗衣粉等家居用品。 每个蛋白质都是一串氨基酸构建块,就像图像可能包含多个对象一样,例如狗和猫,蛋白质也可能具有多个组成部分,这些组成部分称为蛋白质结构域。 了解蛋白质的氨基酸序列(例如其结构域)与其结构或功能之间的关系是具有深远科学意义的长期挑战。
今天为大家介绍的是来自Xiaojun Yao团队的一篇预测miRNA和药物关系的论文。研究表明许多药物的作用机制与miRNA有关。对miRNA与药物之间关系的深入研究可以为药物靶标发现、药物再定位和生物标志物研究等领域提供理论基础和实际方法。传统的用于测试miRNA药物敏感性的生物实验成本高且耗时。因此,在这一领域,基于序列或拓扑的深度学习方法以其高效和准确性而受到认可。然而,这些方法在处理稀疏拓扑和miRNA(药物)特征的高阶信息方面存在局限性。作者提出了一种基于图协同过滤的多视角对比学习模型GCFMCL,这是第一个将对比学习策略引入图协同过滤框架以预测miRNA与药物之间的敏感性关系的尝试。作者所提出的多视角对比学习有效地减轻了图协同过滤中异质节点噪声和图数据稀疏性的影响,显著提升了模型的性能。
“哈佛商业评论”(Harvard Business Review)的文章将“数据科学家”称为“21世纪最性感的工作”,对ML算法的研究获得了极大的吸引力。因此,对于那些从ML领域开始的人,我们决定重新启动我们非常受欢迎的黄金博客10个算法机器学习工程师需要知道 - 虽然这篇文章是针对初学者的。
在本文中,作者重新审视了迁移学习的简单范式:首先在一个大规模标记数据集(例如JFT-300M和ImageNet-21k数据集)上进行预训练,然后对目标任务上的每个训练权重进行精调任务,减少目标任务所需的数据量和优化时间。作者们拟议的迁移学习框架是BiT(大转移),由许多组件组成,包含了大量构建有效模型的必需组件,使其能够借助于大规模数据集学习到通用的、可迁移的特征表达。
作者 | 陈彩娴编辑 | 岑峰要说“AI for Science”的扛大旗者,大家也许都会首先想到 DeepMind:2018年,DeepMind 推出蛋白质折叠结构预测模型 AlphaFold,从氨基酸序列计算预测蛋白质结构,不仅为 Alpha 系列锦上添花,奠定了其在 AI 创新上的领头羊地位,还彰显了深度学习攻破其他领域难题的潜力,生物学首当其冲。AlphaFold 出世后,“AI for biology”(将人工智能用于生物学研究)成为人工智能领域的研究潮流,吸引了世界各地的优秀研究者投身其中。谷歌
YOLOv3非常快速和准确。 在mAP值为0.5 IOU时,YOLOv3与Focal Loss相当,但速度约快4倍。 此外,您只需更改模型的大小即可轻松在速度和精度之间进行权衡,而无需重新训练!
常见的目标检测算法都针对特定的数据集进行训练,学习固定数量的类别,用于特定的场景。而论文则讨论一个更现实的场景,开放世界目标检测(Open World Object Detection)。在这个场景中,算法需要解决非目标误识别问题以及具备增量学习的能力。
Name Disambiguation in AMiner: Clustering, Maintenance, and Human in the Loop
今天给大家介绍由美国宾夕法尼亚大学佩雷尔曼医学院生物统计学,流行病学和信息学系Jian Hu等人在《Nature Machine Intelligence》上发表了一篇名为“Iterative transfer learning with neural network for clustering and cell type classification in single-cell RNA-seq analysis”的文章。文中提出了一种迁移学习算法ItClust,这是一种监督的机器学习方法,该方法借鉴了现有的受监督细胞类型分类算法的思想,利用了从源数据中学到的特定细胞类型的基因表达信息,来帮助对新生成的目标数据进行聚类和细胞类型分类。通过使用不同的scRNA-seq数据进行全面的评估,发现ItClust能够显著的提高聚类和细胞类型分类的准确性。随着scRNA-seq在生物医学研究中的日益普及,未来希望ItClust将更好地利用大量现有的经过良好注释的scRNA-seq数据集,并使研究人员能够准确地对研究中的细胞进行聚类和注释。
今天给大家介绍一篇刚被Nature Communications接收的文章,“Estimating Heritability and Genetic Correlations from Large Health Datasets in the Absence of Genetic Data”,本研究的主要目的是在不引入新的遗传数据的情况下,利用现有的电子病历和遗传参数,通过机器学习的方法为500多种的疾病来估计其遗传率和遗传相关性。
本篇是人工智能专辑文章的第二篇,为大家归类总结人工智能的三类工作方式、九大算法及五大应用系统。
一、什么是数据挖掘 数据挖掘(Data Mining),也叫数据开采、数据采掘等,是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,自动提取隐含在其中的、人们事先不知道的,
虽然新闻天天提到机器学习、深度学习和人工智能,但这些领域已经存在了几十年。然而,如果你越过自动驾驶汽车和数字助理,你会发现,今天应用的大多数都是传统的。
今天给大家介绍哈佛大学威斯生物工程研究所,Google Research和Dyno Therapeutics的研究人员联合发表在Nature Biotechnology上的一篇文章。这项工作运用深度学习技术来设计高度多样化的腺相关病毒(AAV)衣壳蛋白变异体作为有效的DNA载体以扩大基因疗法的适用范围。另外该方法可以在产生改良病毒载体和蛋白质治疗剂方面发挥潜在作用。
准备好开始AI了吗?可能你已经开始了在机器学习领域的实践学习,但是依然想要扩展你的知识并进一步了解那些你听过却没有时间了解的话题。 这些机器学习的专业术语能够简要地介绍最重要的机器学习概念—包括
2.其次,看数据特征的数据类型,然后做一些初步的数据统计,比如是否数据均衡,大致的数据分布是怎样的(不同类别的分布)
我们向初学者介绍十大机器学习(ML)算法,并附上数字和示例,方便理解。 简介 “哈佛商业评论”的一篇文章(https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century)将“数据科学家”评为“21世纪最性感的工作”,对机器学习算法的研究取得了巨大的关注。因此,对于那些机器学习领域的初学者,我们决定重新撰写2016年的一篇金牌博客——机器学习工程师必须要知道的十大算法(https://www.kdnuggets.com
原文来源:KDnuggets 作者:Reena Shaw 「雷克世界」编译:BaymaxZ 📷 我们向初学者介绍十大机器学习(ML)算法,并附上数字和示例,方便理解。 简介 “哈佛商业评论”的一篇文章(https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century)将“数据科学家”评为“21世纪最性感的工作”,对机器学习算法的研究取得了巨大的关注。因此,对于那些机器学习领域的初学者,我们决定重新撰写2016年的一篇金牌博客
翻译 | AI科技大本营 参与 | 林椿眄 准备好开始AI了吗?可能你已经开始了在机器学习领域的实践学习,但是依然想要扩展你的知识并进一步了解那些你听过却没有时间了解的话题。 这些机器学习的专业术语能够简要地介绍最重要的机器学习概念—包括商业界和科技界都感兴趣的话题。在你遇到一位AI指导者之前,这是一份不详尽,但清楚易懂又方便在工作、面试前快速浏览的内容。 概览: 自然语言处理 数据库 计算机视觉 监督学习 无监督学习 强化学习 神经网络 过拟合 1 自然语言处理 自然语言处理对于许多机器学习方法来说是
翻译 | AI科技大本营 参与 |林椿眄 准备好开始AI了吗?可能你已经开始了在机器学习领域的实践学习,但是依然想要扩展你的知识并进一步了解那些你听过却没有时间了解的话题。 这些机器学习的专业术语能够简要地介绍最重要的机器学习概念—包括商业界和科技界都感兴趣的话题。在你遇到一位AI指导者之前,这是一份不详尽,但清楚易懂又方便在工作、面试前快速浏览的内容。 概览: 自然语言处理 数据库 计算机视觉 监督学习 无监督学习 强化学习 神经网络 过拟合 1 自然语言处理 自然语言处理对于许多机器学习方法来说是一
现在,机器学习已经应用在各行各业中,开发工程师队伍越发壮大,其中有一类工程师的工作内容在外行人眼里似乎更”丰富多彩“,那就是鉴黄师。现在我们看到的视频都是经过他们本人或他们研发的技术处理而来。就在大家致力从音、言、画等全方位鉴黄时,有一个逆风而上的团队,正在利用机器学习研究着一项非同一般的任务。
---- 新智元报道 编辑:Joey David 【新智元导读】近日,谷歌团队推出了一项新Transformer,可用于优化全景分割方案,还登上了CVPR 2022。 最近,谷歌AI团队受Transformer和DETR的启发提出了一种使用Mask Transformer进行全景分割的端到端解决方案。 全称是end-to-end solution for panoptic segmentation with mask transformers,主要用于生成分割MaskTransformer架构的扩
大家好,今天和大家分享的是2020年8月发表在CANCERS(IF=6.126)上的一篇文章:“A Distinctive microRNA (miRNA) Signature in the Blood of Colorectal Cancer (CRC) Patients at Surgery”。作者的研究基于近几年发展较快的液体活检技术,依托其测定的结果,作者分析了患者血液中的miRNA异常并筛选出了几个有希望作为早期结直肠癌筛查标志的miRNA。
机器学习(ML)是人工智能(AI)和计算机科学的一个子领域,主要是利用数据和算法来模仿人的学习方式,逐步提高其准确性。使用这个树状图作为指南,以确定使用哪种ML算法来解决你的AI问题。
一、基本概念 1 特征(feature) 数据的特征。 *举例:书的内容* 2 标签(label) 数据的标签。 *举例:书属于的类别,例如“计算机”“图形学”“英文书”“教材”等。* 3 学习(learning) 将很多数据丢给计算机分析,以此来训练该计算机,培养计算机给数据分类的能力。换句话说,学习指的就是找到特征与标签的映射(mapping)关系。这样当有特征而无标签的未知数据输入时,我们就可以通过已有的关系得到未知数据标签。 *举例:把很多书交给一个学生,培养他给书本分类的能力。* 4 分类(c
3 学习(learning) 将很多数据丢给计算机分析,以此来训练该计算机,培养计算机给数据分类的能力。换句话说,学习指的就是找到特征与标签的映射(mapping)关系。这样当有特征而无标签的未知数据输入时,我们就可以通过已有的关系得到未知数据标签。
本文整理了一下机器学习领域常用的15个术语,希望可以帮助大家更好的理解这门涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多个领域的庞杂学科。
如今机器学习和深度学习如此火热,相信很多像我一样的普通程序猿或者还在大学校园中的同学,一定也想参与其中。不管是出于好奇,还是自身充电,跟上潮流,我觉得都值得试一试。对于自己,经历了一段时间的系统学习,现在计划重新阅读《机器学习》[周志华]和《深度学习》[Goodfellow et al]这两本书,并在阅读的过程中进行记录和总结。这两本是机器学习和深度学习的入门经典。笔记中除了会对书中核心及重点内容进行记录,同时,也会增加自己的理解,包括过程中的疑问,并尽量的和实际的工程应用和现实场景进行结合,使得知识不只是停留在理论层面,而是能够更好的指导实践。记录笔记,一方面,是对自己先前学习过程的总结和补充。 另一方面,相信这个系列学习过程的记录,也能为像我一样入门机器学习和深度学习同学作为学习参考。
来源:机器人圈 作者:多啦A亮 本文长度为4600字,建议阅读6分钟 本文全面概述了无人驾驶现阶段使用的机器学习技术。 [导读]无人驾驶被认为是未来人工智能技术应用的最大市场规模和影响力的落脚点。近年来,为了使汽车能够安全可靠地“自主”上路,研究人员可没少花心思。本文编译自kdnuggets,该文全面概述了无人驾驶现阶段使用的机器学习技术。我们一起来看看,哪些技术将影响未来下一代出行? 今天,机器学习算法被广泛应用,以解决制造无人驾驶汽车行业中出现的各种挑战。随着传感器数据处理在汽车ECU(电子控制
Hetero-ConvLSTM: A Deep Learning Approach to Traffic
机器学习算法可以分为三大类:监督学习、无监督学习和强化学习。监督学习可用于一个特定的数据集(训练集)具有某一属性(标签),但是其他数据没有标签或者需要预测标签的情况。无监督学习可用于给定的没有标签的数据集(数据不是预分配好的),目的就是要找出数据间的潜在关系。强化学习位于这两者之间,每次预测都有一定形式的反馈,但是没有精确的标签或者错误信息。下面我们就把机器学习中常用的十几种算法给大家罗列一下,也是我们后续学习的课程目录的主要内容:
随着生物与信息融合(BT与IT融合)发展,越来越多的IT技术已实际应用于BT问题,例如今天小编介绍的这三个利用神经网络进行空间转录组分析的方法...
概述 机器学习里面的聚类是无监督的学习问题,它的目标是为了感知样本间的相似度进行类别归纳。它可以用于潜在类别的预测以及数据压缩上去。潜在类别预测,比如说可以基于通过某些常听的音乐而将用户进行不同的分类。数据压缩则是指将样本进行归类后,就可以用比较少的的One-hot向量来代替原来的特别长的向量。
原文:一只鸟的天空(http://blog.csdn.net/heyongluoyao8) 在进行数据挖掘时,首先要进行商业理解,即我们需要达到什么目的,解决什么问题;其次需要进行数据理解,我们需要哪些数据以及需要什么样的数据;接着需要进行数据准备,即进行相关数据采集与读取,并进行数据预处理;继而建立相关模型,即使用什么算法与模型去解决这个问题;进而进行模型评估,即采用一些指标评价模型的好坏程度;然后,进行模型发布,即当模型的效果达到设定值之后,我们将模型进行上线发布;最后,进行模型更新
选自kdnuggets 作者:Savaram Ravindra等 参与:Lj Linjing、蒋思源 机器学习算法可以融合来自车体内外不同传感器的数据,从而评估驾驶员状况或者对驾驶场景进行分类。本文将粗略讲解一下各类用于自动驾驶技术的算法。 如今,机器学习算法正大规模地用于解决自动驾驶汽车产业日益增多的问题。结合 ECU (电子控制单元)传感器数据,我们须加强对机器学习方法的利用以迎接新的挑战。潜在的应用包括利用分布在车体内外的传感器,比如激光探测、雷达、摄像头或者物联网(IoT),融合各类数据进行驾驶员状
如今,机器学习算法正大规模地用于解决自动驾驶汽车产业日益增多的问题。结合 ECU (电子控制单元)传感器数据,我们须加强对机器学习方法的利用以迎接新的挑战。潜在的应用包括利用分布在车体内外的传感器,比如激光探测、雷达、摄像头或者物联网(IoT),融合各类数据进行驾驶员状况评估或者驾驶场景分类。
目前单细胞转录组领域用的比较多的细胞聚类方法大多是直接从基因表达矩阵推断,但是对于多样本合并分析,很多情况下会出现难以解决的批次效应,例如:
由点与点之间的关系反推出函数表达式的过程就是回归,回归在机器学习中解决的问题就是值预测问题;确定一条最好的直线来拟合所有的点,假设直线是y=W0+W1X,确定直线就是确定W0和W1的值;
本文介绍了聚类算法的基本概念、常用聚类算法、以及其在数据挖掘和机器学习中的应用。主要包括K-means算法、DBSCAN算法、层次聚类算法、凝聚层次聚类算法、Chameleon算法等。
多目标跟踪(Multiple Object Tracking,MOT)是计算机视觉领域中一个关键领域,有广泛应用。当前研究主要集中在跟踪算法的开发和后处理技术的改进上。然而,对跟踪数据本身的特性缺乏深入的研究。
FAIR 的研究者提出了一种为卷积网络进行大规模端到端训练的聚类方法。他们证明了用聚类框架获得有用的通用视觉特征是可实现的。
机器学习是一门人工智能的科学,能通过经验自动改进的计算机算法的研究。 机器学习是一个多学科交叉的领域,会涉及到计算机、信息学、数学、统计学、神经科学等。 机器学习是大数据的核心技术
预训练的卷积神经网络,或称卷积网络,已经成为大多数计算机视觉应用的基础构建模块 [1,2,3,4]。它们能提取极好的通用特征,用来提高在有限数据上学习的模型的泛化能力 [5]。大型全监督数据集 ImageNet[6] 的建立促进了卷积网络的预训练的进展。然而,Stock 和 Cisse [7] 最近提出的经验证据表明,在 ImageNet 上表现最优的分类器的性能在很大程度上被低估了,而且几乎没有遗留错误问题。这在一定程度上解释了为什么尽管近年来出现了大量新架构,但性能仍然饱和 [2,8,9]。事实上,按照今天的标准,ImageNet 是相对较小的;它「仅仅」包含了一百万张涵盖各个领域的分类图片。所以建立一个更大更多样化,甚至包含数十亿图片的数据集是顺理成章的。而这也将需要大量的手工标注,尽管社区多年来积累了丰富的众包专家知识 [10],但通过原始的元数据代替标签会导致视觉表征的偏差,从而产生无法预测的后果 [11]。这就需要在无监督的情况下对互联网级别的数据集进行训练的方法。
他们不想被传统做法困住,开发了新方法:利用语音识别,把语言学线索和声学线索搭配食用,帮助区分。
📷 本文旨在为人们提供一些机器学习算法,这些算法的目标是获取关于重要机器学习概念的知识,同时使用免费提供的材料和资源。当然选择有很多,但哪一个是最好的?哪两个互相补充?什么是使用选定资源的最佳顺序?
Hierarchical Aggregation for 3D Instance Segmentation (ICCV 2021)
领取专属 10元无门槛券
手把手带您无忧上云