在技术行业里,人才的唯一衡量标准就是技术能力,而技术能力,就代表着你的薪资、职位、话语权。很多人都经历过,跟自己同时入行甚至入行还晚的人,成长速度却远超自己,短短两三年就拉开了差距。
作者:HelloGitHub-小鱼干 摘要:说到学习之道,方法很重要,好的学习方法能让你比他人更快地入门到精通,比如本周被 3k 多人 pick 的 learngo 项目,它收录了多个例子和练习,新手 Go 开发可快速习得 Go 编程之法。本周 TheAlgorithms 开源的 C-Plus-Plus、Python、Java 等也明示另外一条学习之路,虽然不如标准快效率高,但是算法绝对是学习一门语言的不二之选。当然,前人言传身教的最佳实践也是不一个不可放过的耗资源,比如 Jetpack MVVM 最佳实践
机器之心专栏 清华大学、DeepMind等 以 GPT-3 为代表的预训练语言模型的发展,引发对小样本自然语言理解任务的极大关注。各种方法不断发展并展现出日渐强大的小样本自然语言理解性能。然而,来自清华大学、DeepMind 等团队的研究者近期的一项研究指出:相同基准再评估结果表明,现有小样本学习方法并不足够稳定有效,小样本自然语言理解发展尚面临巨大挑战! 评价准则的差异极大阻碍了已有小样本学习方法基于统一的标准公平比较,也无法客观评价该领域的真实进展。近期,来自清华大学、DeepMind 等团队研究者在论
来源:机器之心本文约2200字,建议阅读5分钟本文介绍了清华大学、DeepMind等团队在小样本学习方法的最新进展。 以 GPT-3 为代表的预训练语言模型的发展,引发对小样本自然语言理解任务的极大关注。各种方法不断发展并展现出日渐强大的小样本自然语言理解性能。然而,来自清华大学、DeepMind 等团队的研究者近期的一项研究指出:相同基准再评估结果表明,现有小样本学习方法并不足够稳定有效,小样本自然语言理解发展尚面临巨大挑战! 评价准则的差异极大阻碍了已有小样本学习方法基于统一的标准公平比较,也无法客观评
分子性质预测的核心原则之一是相似性原则,但是分子对之间存在活性悬崖的情况(即分子结构相似但是活性却相差巨大的情况)。
在过去的十年里,利用人工智能来促进心音的自动分析和监测已经吸引了大量的关注。然而,在首次发布PhysioNet CinC挑战数据集之前,缺乏标准的公开数据库,使得难以维持可持续和可比较的研究。并且,数据收集、标注、划分等方面的标准不统一,仍然制约着不同分析模型之间公平、高效的比较。
近年来随着机器学习以及深度学习方面技术的进步以及在其它领域内被成功应用的先例,ML for DB这个课题变得越来越火,但是大多数方法尚局限于学术圈的探索阶段。
本文主要讲述了如何快速学习C语言以及学习路线。作者强调了C语言的重要性,并给出了学习C语言的路线图。通过思考、记录总结和灵感、整理笔记等方法,可以更好地学习C语言。
学习任何编程知识都是循序渐进的过程,只靠单方面的练习很难系统的掌握,学习编程是一个体系工程,剑走偏锋的做法不一定是最佳的,自学编程的人一般能坚持完前三个月后边就有机会了,回到题目中有关linux的学习方法,只是会使用命令行只是一种非常简单的操作方式,距离真正掌握linux还有非常遥远的距离。学习编程首先做好一定的心理准备,要做好长期作战的准备,一般用两种人适合学编程,一种是对编程特别感兴趣;一种是需要编程这份工作,所以在遇到问题的时候也能咬紧牙关挺过去。
机器之心知识站与国际顶尖实验室及研究团队合作,将陆续推出系统展现实验室成果的系列技术直播,作为深入国际顶尖团队及其前沿工作的又一个入口。赶紧点击「阅读原文」关注起来吧! 视觉表征学习是人工智能领域的一个重要分支,它也是大部分计算机视觉与多媒体任务的基石。近几年受自然语言处理领域 Transformer 结构的启发,视觉表征学习的网络架构也从传统卷积神经网络(CNN)演变到 Vision Transformer 的设计范式。此外,得益于无监督、自监督机器学习的技术发展,视觉表征学习的训练模式逐渐摆脱了对大量人
2017 NIPS大会可以算得上全球声量最大、出席人数最多的AI学术会议了。大会刚刚落下帷幕,不少媒体和社区都总结了本次会议相关数据,比如,大会发文数: 图:最有声望、出席人数最多的AI学术会议-NI
作者:Xiyu Zhang Jiaqi Yang* Shikun Zhang Yanning Zhang
最近10年,深度学习的崛起带来的AI新一波的浪潮,语音识别、计算机视觉、机器翻译等领域均取得巨大的技术突破。 同时,也因为过度炒作,使得一些人对深度学习之外的机器学习方法知之甚少。 但不得不说的是,集成学习方法,一直是整个机器学习领域的「常青树」,受到学界与业界的广泛关注。 近日,南京大学周志华教授的专著《集成学习:基础与算法》中文版上市,让我们能够有机会系统的学习这一经典的机器学习方法。 为了更好的帮助广大读者们学习、了解集成学习,博文视点学院联合机器之心,特邀《集成学习:基础与算法》一书译者李楠
【新智元导读】机器学习应用统计学习技术,自动识别数据集内的模式。这些技术可以用来作出准确性很高的预测。决策树是机器学习作预测的常见方法之一,本文以一个房屋资料数据集为示例,用可视化图阐释了如何建一个能够区分房屋地理位置的决策树模型。虽然原文发布已有一段时间,然而每次看来仍然震撼,强烈推荐:http://www.r2d3.us/visual-intro-to-machine-learning-part-1/ 机器学习中,计算机常应用统计学习技术自动识别数据集内的模式。这些技术可以用来作出高度准确的预测。本文以
『学习之道』 是一本比较特别的书。它的作者是 乔希·维茨金,他 13 岁就获得了国际象棋大师称号,后来又在太极拳推手赢得了世界冠军。
光流是计算机视觉的一个基本任务,它描述了视频中的运动信息,相关技术广泛应用于视频理解和处理、物体跟踪、三维重建、自动驾驶等场景。近日,来自香港中文大学和腾讯AI实验室团队的一篇论文入选了CVPR2019。
2022年3月29日,赛诺菲的NikhilPillai等人在Drug Discov Today杂志发表文章,分析和反思了机器学习在临床前小分子药物发现中的多种应用,并简要介绍了机器学习任务中的分子表征方法。
移动互联网取代PC互联网领跑在互联网时代的最前沿,Android和iOS一度成为移动互联网应用平台的两大霸主,成为移动开发者首选的两门技术,HTML5以其跨平台的优势在移动互联网应用平台占据重要位置,可以说是后来者居上。 由于技术的限制难以催生出更多的新应用,互联网+的产品日渐饱和,移动互联网从巅峰时代逐渐趋于平缓发展,下一个时代谁是主场?下一门应用技术谁来掌门?
今天给大家介绍的是俄亥俄州立马勤教授在nature reviews molecular cell biology发表的文章《Deep learning shapes single-cell data analysis》。作者在此篇综述文章中主要提到了深度学习模型对于单细胞测序领域具有巨大的潜力。目前已经在单细胞领域中应用了大量深度学习模型来进行数据分析,但仍有许多挑战和可能的新发展有待探索。在这篇评论中,作者考虑了采用深度学习方法来分析单细胞数据的进展、局限性、最佳实践和前景。
在这魔幻且艰难的一年里, 有人见尘埃,也有人见星辰。 无论是意料之中的成长或失败, 还是意料之外的惊喜或惊吓, 一切都将画上句号! 一定有很多人和博文菌一样, 在阅读中度过了这不平凡的一年。 这一年,我们坚守初心,为大家带来了众多业内佳作, 这其中不乏一些领域内优秀的开山之作, 它们的存在,为推动行业发展带来了积极影响! 踩在2020年的尾巴尖, 博文菌与你来一同回顾2020年出版的这些 “大咖之作”~ No.1 程序员修炼之道 《程序员修炼之道:通向务实的最高境界(第2版)》 【美】David Thom
强化学习领域近期取得的很多成就都是通过无模型强化学习算法 [1,2,3] 实现的。无模型(MF)算法倾向于实现最佳性能,通常可应用且易于实现。
今日,ACM 公布最佳博士论文奖,来自 UC 伯克利的博士生 Chelsea Finn 凭借论文《Learning to Learn with Gradients》摘得桂冠。这篇论文介绍了一种基于梯度的新型元学习算法,帮助深度网络基于小型数据集解决新任务,该算法可用于计算机视觉、强化学习和机器人学等领域。
近年来,深度学习已成为大多数AI问题的首选技术,使得经典机器学习相形见绌。原因很明显,深度学习在语音、自然语言、视觉和游戏等许多任务上都表现出卓越的性能。然而,尽管深度学习具有如此好的性能,经典机器学习方法仍有一些优势,而且在一些特定情况下最好使用经典机器学习方法,例如线性回归或决策树,而不是使用一个大型深度网络。 本文将对比深度学习和经典机器学习,分别介绍这两种技术的优缺点以及它们在哪些问题/如何得到最佳使用。 深度学习优于经典机器学习 一流的性能:在许多领域,深度网络已经取得了远远超过经典ML方
近年正是国内网络安全相关产业飞速发展的阶段,网络安全问题已经成为社会“热点中的热点”,对Kali Linux的研究也越来越热门。过去,几乎是高手才会涉及的Kali Linux,也成为了网信爱好者们争相学习的工具,从而受到了广大网络安全从业人员的喜爱。
正好在最近,看到了一篇不错的资料,其中对于Linux入门学习的描述极其详尽,因此特别摘抄其中段落,制作成思维导图分享给大家。
本文是旷视发表在 CVPR 2020上的 Oral论文。它揭示了再平衡方法解决长尾问题的本质及不足:虽然增强了分类器性能,却在一定程度上损害了模型的表征能力。针对其不足,本文提出了一种针对长尾问题的新型网络框架——双边分支网络(BBN),以兼顾表征学习和分类器学习。通过该方法,旷视研究院在细粒度识别领域权威赛事 FGVC 2019 中,获得 iNaturalist Challenge 赛道的世界冠军。该网络框架的代码已开源。
作者 | Yash Patel,Lluis Gomez,Raul Gomez,Marcal Rusinol,Dimosthenis Karatzas, C.V. Jawahar
摘要:在各种 NLP 任务中,大规模预训练和针对特定任务的微调取得了巨大成功。由于对大型预训练模型的所有参数进行微调会带来巨大的计算和内存挑战,人们开发出了几种高效的微调方法。其中,低秩适应(Low-rank adaptation,LoRA)在冻结的预训练权重基础上对低秩增量更新矩阵进行微调,已被证明特别有效。然而,LoRA 在所有层中统一分配秩,并依赖穷举搜索来找到最佳秩,这导致了高计算成本和次优的微调性能。为了解决这些局限性,我们引入了 AutoLoRA,这是一种基于元学习的框架,用于自动识别每个 LoRA 层的最佳等级。AutoLoRA 将低秩更新矩阵中的每个秩-1 矩阵与一个选择变量相关联,该选择变量决定是否应丢弃秩-1 矩阵。我们开发了一种基于元学习的方法来学习这些选择变量。通过对这些变量的值进行阈值化处理,确定最佳秩。我们在自然语言理解、生成和序列标注方面的综合实验证明了 AutoLoRA 的有效性。
如果你按照我上一篇文章所展示的学习方法去学习一门新技能的话,不管是区块链,还是一门新编程语言,一周时间足以让你上手。我学习区块链从不会到学会就是用了一个星期左右,每天上下班路上学一个小时左右,晚上学两个小时左右,周末每天也是差不多三个小时,总共就是用了差不多21个小时,从0到1入门了区块链领域,之后就是不断精进了。而且我是从全局视角去学习区块链的,比一些片面地学了区块链开发半年的人更具有前瞻性。
作者:Maruan Al-Shedivat, Trapit Bansal, Yura Burda等
專 欄 ❈LucasX,Python中文社区专栏作者。 ❈ 前阵子在设计一个智能黄反识别的方案,查阅了已有Paper,结合自己的一点想法,现对不良图像的识别进行以下梳理: 方案1:皮肤区域检测法 与
选自arXiv 机器之心编译 作者:Chenxi Liu等 参与:Panda 李飞飞最近宣布谷歌在中国正式设立了人工智能研究中心,参阅《刚刚,李飞飞在谷歌开发者大会宣布谷歌 AI 中国中心正式成立》;同时她自己参与的人工智能研究也仍在继续出炉发布。在本月初发布在 arXiv 上的一项研究中,来自谷歌多个部门的研究者提出了一种渐进式神经架构搜索方法,可用于高效地搜索 CNN 结构。该论文的第一作者为来自约翰·霍普金斯大学的谷歌实习生 Chenxi Liu,另外还有李佳、李飞飞以及《Machine Learni
这是初学者常问到的问题。作为一个初学者,你经常会去寻找这个问题的答案,比如你希望别人为你解答,x%的准确性或者x的误差分数是否有效。这篇文章将告诉你如何自己来回答这个问题,以及确定你的模型技能是否良好。
精神疾病是复杂的,涉及不同的症状学和神经生物学,很少涉及单一的、孤立的大脑结构的破坏。为了更好地描述和理解精神疾病的复杂性,研究人员越来越多地将多元模式分类方法应用于神经成像数据,特别是监督机器学习方法。然而,监督机器学习方法也有独特的挑战和权衡,需要额外的研究设计和解释考虑。本综述的目的是提供一套评估机器学习应用于精神障碍的最佳实践。我们将讨论如何评估两种共同的努力:1)作出可能有助于诊断、预后和治疗的预测;2)询问精神病理学背后复杂的神经生理机制。我们在这里重点讨论机器学习应用于功能连接与磁共振成像,作为一个基础讨论的例子。我们认为,为了使机器学习分类对个体水平的预测具有转化效用,研究人员必须确保分类具有临床信息性,独立于混杂变量,并对性能和泛化性进行适当评估。我们认为,要想揭示精神疾病的复杂机制,需要考虑机器学习方法识别的神经成像特征(如区域、网络、连接)的独特效用、可解释性和可靠性。最后,我们讨论了大型、多站点、公开可用的数据集的兴起如何有助于机器学习方法在精神病学中的应用。
自七十年代以来,人脸识别已经成为了计算机视觉和生物识别领域被研究最多的主题之一。基于人工设计的特征和传统机器学习技术的传统方法近来已被使用非常大型的数据集训练的深度神经网络取代。在这篇论文中,我们对流行的人脸识别方法进行了全面且最新的文献总结,其中既包括传统方法(基于几何的方法、整体方法、基于特征的方法和混合方法),也有深度学习方法。
本文介绍由兰州大学黎育权和腾讯量子实验室谢昌谕博士等人发表在Nature Machine Intelligence期刊上的研究成果,论文通讯作者为姚小军教授。文章中报道了一种自动图学习方法,能够在人工不参与的情况下,在多种不同任务上取得先进的预测性能,超越过去的主流模型。作者还提出一种新的分子鲁棒性实验方法,并发现模型集成能够大幅提升鲁棒性。
中国科学院自动化研究所研究员张家俊以ChatGPT中的提示与指令学习为题,从ChatGPT简要技术回顾、迈向通用性的提示学习、从提示学习到指令学习、相关探索与学习等角度和在场听众展开技术分享。大模型主要有两个方向,一个是“预训练+参数微调”,就是大模型有了之后针对下游任务进行微调,然后得到一个面向下游任务的大的模型,二是“预训练+提示学习”,预训练之后不变,用提示学习激发大模型来完成特定的任务。相关实践证明,学习提示对于模型性能提升非常有效,怎样学到或者找到提示语非常关键。下面是分享的详细内容。
卫星遥感在测绘地表水的位置和范围方面发挥着重要作用。绘制地表水地图有多种方法,但深度学习方法并不常见,因为它们 "数据饥渴",需要大量计算资源。不过,随着各种卫星传感器的出现和云计算的快速发展,遥感科学界正在采用现代深度学习方法。基于云计算的谷歌人工智能平台和谷歌地球引擎的新整合使用户能够大规模部署计算。在本文中,我们研究了两种自动数据标注方法:1. 联合研究中心(JRC)地表水地图;2. Edge-Otsu 动态阈值方法。我们部署了一个 U-Net 卷积神经网络来绘制哨兵-1 合成孔径雷达 (SAR) 数据中的地表水图,并使用不同的超参数调整组合测试了模型性能,以确定最佳学习率和损失函数。然后使用独立的验证数据集对性能进行评估。我们共测试了 12 个模型,发现使用 JRC 数据标签的模型性能更好,训练测试和验证工作的 F1 分数从 0.972 到 0.986 不等。此外,我们还使用了一个独立采样的高分辨率数据集来进一步评估模型性能。通过这一独立验证工作,我们发现利用 JRC 数据标签的模型产生了 0.9130.922 的 F1 分数。通过不同的输入数据、学习率和损失函数成分对模型进行配对比较,发现 JRC 调整二元交叉熵骰模型与其他 66 个模型组合在统计上有所不同,并显示出最高的相对评估指标,包括准确率、精确度得分、科恩卡帕系数和 F1 分数。这些结果与许多传统方法处于同一范围。我们注意到,谷歌人工智能平台与谷歌地球引擎的集成可以成为大规模部署深度学习算法的有力工具,自动数据标注可以成为开发深度学习模型的有效策略,但是独立数据验证仍然是模型评估的重要步骤。
机器学习分为:监督学习,无监督学习,半监督学习(也可以用hinton所说的强化学习)等。
GBDT是机器学习面试中的常客,但是,要准确地说出它的原理却并不容易,除了掌握DT基本知识外,还要掌握加法模型、前向分步算法、梯度提升思想,本文是对这些知识点的一个简单总结,请各路大神指正。
基于一些已知样本,根据其变量(是否出现胸痛、是否有良好的血液循环、是否有闭锁的动脉、体重指标),预测其是否患有心脏病(左侧)。接着,出现一个新来的患者,我们可以测量或询问这些变量,然后基于这些变量预测其是否患有心脏病(右侧)。
此存储库包含构建 NLP 系统的示例和最佳实践,在 jupyter notebook 和实用程序函数中提供。知识库的重点是最先进的方法和常见的场景,这些方法和场景在研究文本和语言问题的研究人员和实践者中很流行。
GBDT是机器学习面试中的常客,但是,要准确地说出它的原理却并不容易,除了掌握DT基本知识外,还要掌握加法模型、前向分步算法、梯度提升思想,本文是对这些知识点的一个简单总结,请各路大神指正。 为了提高写作效率,文中公式都是手写,美观不足,但清晰准确是没问题的。 01 从加法模型说开去 首先,我们需要具备一些基本的机器学习知识,这里简单列出,以作为下面讨论的基础: 1、机器学习的大致流程就是确定模型集H、定义经验损失函数(一般是基于单个样本点进行定义)、利用给定的数据集{(x_i,y_i)},从模型集中寻找最
来源:机器之心本文约2600字,建议阅读9分钟在时间序列预测任务上,你不妨试试简单的机器学习方法。 在深度学习方法应用广泛的今天,所有领域是不是非它不可呢?其实未必,在时间序列预测任务上,简单的机器学习方法能够媲美甚至超越很多 DNN 模型。 过去几年,时间序列领域的经典参数方法(自回归)已经在很大程度上被复杂的深度学习框架(如 DeepGIO 或 LSTNet 等)更新替代。这是因为传统方法可能无法捕获长期和短期序列混合传递的信息,而深度学习方法的思路是掌握数据中的跨时非线性依赖。从结果来看,这些深度学习
随着深度卷积神经网络(CNN)研究的推进,图像分类的性能表现已经取得了惊人的进步,这一成功与高质量的大规模可用数据集密不可分,比如 ImageNet ILSVRC 2012、MS COCO 和 Places 数据集。这些视觉识别数据集的类别标签分布是大致均匀的,相对而言,真实世界的数据集却总是存在偏重情况,呈现出长尾分布模式,即少量类别(头部类别)具有大量数据,而大部分类别(尾部类别)仅有少量样本,如图 1 所示。
耶鲁大学Krishnaswamy Lab 致力于计算机科学、应用数学、计算生物学和信号处理的交叉应用,开发能够从大型生物医学数据集中进行探索性分析、科学推理和预测的表征学习和深度学习方法。已经在各种生物、细胞和疾病系统的单细胞RNA测序、fMRI和电子健康记录生成的数据集上验证了他们的方法。我们的技术通常将来自图谱理论、manifold learning、信号处理和拓扑的数学先验融入到机器学习和深度学习框架中,以便忠实地对底层系统进行去噪和建模,以获得预测性的洞察力。目前,我们的方法被广泛应用于数据去噪、可视化、建模、动力学等领域。
注:本页面主要针对想快速上手机器学习而又不想深入研究的同学,对于专门的researcher,建议直接啃PRML,ESL,MLAPP以及你相应方向的书(比如Numerical Optimization,Graphic Model等),另外就是Follow牛会牛paper,如果谁有兴趣也可以一起来整理个专业的汇总页。本页面将持续更新,敬请关注,如有推荐的文章请留言,谢谢! 000 开源工具 机器学习的开源工具 Python机器学习库 C++矩阵运算库推荐 001 公开课 Machine Learning |
时间序列异常检测是一项重要的任务,其目标是从时间序列的正常样本分布中识别异常样本。这一任务的最基本挑战在于学习一个能有效识别异常的表示映射。
领取专属 10元无门槛券
手把手带您无忧上云