来源:专知本文约1600字,建议阅读5分钟这本书是为任何想要利用ML来解决现实问题的人准备的。 许多教程向您展示了如何从构思到部署模型开发ML系统。但是随着工具的不断变化,这些系统很快就会过时。如果没有一个有意的设计来将组件组合在一起,这些系统将成为技术上的负担,容易出错并很快崩溃。 在这本书中,Chip Huyen为设计真实世界的ML系统提供了一个框架,可以快速部署、可靠、可伸缩和迭代。这些系统有能力从新的数据中学习,改进过去的错误,并适应不断变化的需求和环境。您将学习从项目范围、数据管理、模型开发、部
📷 本文旨在为人们提供一些机器学习算法,这些算法的目标是获取关于重要机器学习概念的知识,同时使用免费提供的材料和资源。当然选择有很多,但哪一个是最好的?哪两个互相补充?什么是使用选定资源的最佳顺序?
编辑 | 萝卜皮 不知不觉,人工智能已经渐渐延伸到了各个领域,医药领域也不例外。 来自印度 B V Raju 理工学院的研究人员发表综述,讨论了药物发现中的机器学习,归纳总结了应用于制药领域的各类机器学习技术,并指出当前该领域发展的难点,以及未来发展方向。 该综述以「Machine Learning in Drug Discovery: A Review」为题,于 2021 年 8 月 11 日发布在《Artificial Intelligence Review》杂志。 人工智能概念与许多领域密切相关,如
在本文中,我们将回顾特性选择技术并回答为什么它很重要以及如何使用python实现它。
量化投资与机器学习微信公众号,是业内垂直于量化投资、对冲基金、Fintech、人工智能、大数据等领域的主流自媒体。公众号拥有来自公募、私募、券商、期货、银行、保险、高校等行业30W+关注者,荣获2021年度AMMA优秀品牌力、优秀洞察力大奖,连续2年被腾讯云+社区评选为“年度最佳作者”。 量化投资与机器学习公众号 独家解读 量化投资与机器学公众号 QIML Insight——深度研读系列 是公众号全力打造的一档深度、前沿、高水准栏目。 公众号遴选了各大期刊前沿论文,按照理解和提炼的方式为读者呈
顾翔老师开发的bugreport2script开源了,希望大家多提建议。文件在https://github.com/xianggu625/bug2testscript,
数据是机器学习 (ML) 的一个基本方面,可以影响 ML 系统的性能、公平性、稳健性和可扩展性。矛盾的是,虽然构建 ML 模型的优先级通常很高,但与数据本身相关的工作通常是优先级最低的方面。并且这项数据工作可能需要多个角色(例如数据收集者、标注人员和 ML 开发人员),并且通常涉及多个团队(例如数据库、法律或许可团队)来支持数据基础架构,这会增加任何与数据相关的项目的复杂性.因此,人机交互 (HCI) 领域专注于使技术对人们有用和可用,可以帮助识别潜在问题并评估与数据相关的工作不优先时对模型的影响。
在上一篇文章中,我大致介绍了推荐系统,但卡在了矩阵系统的性能这一块。所以本文将继续上一篇,一个个找出每个没有执行的变量,并尝试修复它们。
演讲者在进行介绍基于机器学习的带宽预测和拥塞控制方法之前,先介绍了当前 webRTC 中应用的基于 Google 拥塞控制机制的带宽预测方法(GCC)。
AI 科技评论按:此白皮书为谷歌总结的机器学习(ML)最优实践方法,浓缩了其多年技术积累与经验,尤其是 YouTube、Google Play 和 Google+ 等平台背后的 ML 算法开发、维护经历。谷歌于白皮书中总结了四十三条 ML 黄金法则,旨在帮助已经掌握了基础知识的开发者少走弯路。本文上接 AI 科技评论谷歌机器学习白皮书全解析 43条黄金法则(三)" 4.0 机器学习第三阶 4.1 减慢的增速,精细优化和复杂模型 第二阶段将要结束的时候,一定会有些信号。首先,你每月的收益开始降低。你开始要
近年来,机器学习 (ML) 对现实世界的影响越来越大。这在很大程度上是由于深度学习模型的出现,使得从业者可以在基准数据集上获得 state-of-the-art 的分数,而无需任何手工特征设计。考虑到诸如 TensorFlow 和 PyTorch 等多种开源 ML 框架的可用性,以及大量可用的最先进的模型,可以说,高质量的 ML 模型现在几乎成为一种商品化资源了。然而,有一个隐藏的问题:这些模型依赖于大量手工标记的训练数据。
2020年8月17日发表在nature communications上的一篇关于"Machine learning for chemical discovery"评论的文章,通讯作者是卢森堡大学物理和材料科学系的Alexandre Tkatchenko教授。发现具有所需属性的化学物质是一个漫长而艰辛的过程。包含数百万个分子的可靠量子力学特性的精选数据集变得越来越可用。从这些数据集中获取化学知识的新型机器学习工具的开发具有革新化学发现过程的潜力。作者对这个新兴领域的最新突破发表评论,并讨论未来几年的挑战。
准确预测小分子的配分和疏水性在药物发现过程中至关重要。细胞和整个人体内有许多异质的化学环境。例如,药物必须能够穿过疏水性的细胞膜才能到达细胞内的靶点,而疏水性是药物与蛋白质结合的重要驱动力。原子分子动力学(Molecular Dynamics,MD)模拟常用于计算小分子与蛋白质结合、穿过脂质膜和溶解的自由能,但计算成本很高。机器学习(Machine Learning, ML)和经验方法也被用于整个药物发现,但依赖于实验数据,限制了适用性的领域。研究人员提出了原子MD模拟计算15,000个小分子从水转移到环己烷的自由能。数据集被用来训练预测迁移自由能的ML模型。结果表明,空间图神经网络模型达到了最高的精度,紧随其后的是三维卷积神经网络,而基于化学指纹的浅层学习的精度明显较低。
paper:Optimality of short-term synaptic plasticity in modelling certain dynamic environments
强化学习是机器学习中的一个子领域,其目标是为「代理」(agent)找到一个最优的行为策略以获得最大的奖励。「策略梯度」(policy gradient)是一类解决强化学习问题的方法,其特点在于「直接」对策略进行建模并优化。本文将对策略梯度方法的工作原理以及近年来的一些新的策略梯度类算法进行介绍。文章的主要内容参考自 Lilian Weng 的博客[1]及其中文翻译[2]。
注:看本文之前最好能构理解前馈圣经网络以及BP(后向传播)算法,可以看之前发的相关文章或者看知乎、简书、博客园等相关博客。 卷积神经网络(Convolutional Neural Networks,CNN)是一种前馈神经网络。卷积神经网络是受生物学上感受野(Receptive Field)的机制而提出的。感受野主要是指听觉系统、本体感觉系统和视觉系统中神经元的一些性质。比如在视觉神经系统中,一个神经元的感受野是指视网膜上的特定区域,只有这个区域内的刺激才能够激活该神经元[Hubel and Wiesel,
大多数最先进的 ML 模型都具有黑匣子特性。在ML 模型的预测性能和解释能力之间通常需要权衡。
通过改善美学、舒适度和人体工程学可以帮助纺织品科学技术融入我们的日常生活中。材料和柔性电子技术的进步使得传感和显示技术能够融入到外套、衣服和毯子等软质材料中。现在织物覆盖的智能扬声器和编织耳机线已经实现了这个设想。
Transformers是机器学习(ML)中一个令人兴奋的(相对)新的部分,但是在理解它们之前,有很多概念需要分解。这里我们关注的是基本的Self-Attention机制是如何工作的,这是Transformers模型的第一层。本质上,对于每个输入向量,Self-Attention产生一个向量,该向量在其邻近向量上加权求和,其中权重由单词之间的关系或连通性决定。
2020年及以后,安全和风险专业人士将发现,网络安全决策会具备前所未有的社会影响力。我们生活、学习和社交都越来越依赖于技术,而这种依赖性也使技术成为攻击目标。
2023年11月29日,谷歌DeepMind团队在Nature杂志上发表文章Scaling deep learning for materials discovery,介绍了其在材料科学领域取得的重要突破。Nature同期文章Google AI and robots join forces to build new materials对此进行了评述。
机器学习研究,已经在多个方面都取得了进步,包括模型结构和优化方法等。而使此类研究自动化的工作(称为AutoML)也有重大进展。这一进展主要集中在神经网络的体系结构,神经网络目前主要是依赖于专家设计复杂的层来构建块(或类似的限制性搜索空间)。
机器之心专栏 机器之心编辑部 实例分割(Instance Segmentation)任务有着广阔的应用和发展前景。来自腾讯 PCG 应用研究中心 (ARC)和华中科技大学的研究者们通过充分挖掘并利用Query在端到端实例分割任务中与实例存在一一对应的特性,提出基于Query的实例分割新方法,在速度和精度上均超过现有算法。 在今年的计算机视觉顶级会议 ICCV 2021 上,腾讯 PCG 应用研究中心(ARC)与华中科技大学电信学院人工智能研究所联合提出业内领先的端到端实例分割算法 QueryInst。实
近年来,机器学习技术和大数据工具在金融和投资界得到了广泛的应用。在这一成功之后,许多机器学习研究人员决定成立自己的资产管理公司,希望能从中分一杯羹。
量化投资与机器学习微信公众号,是业内垂直于量化投资、对冲基金、Fintech、人工智能、大数据等领域的主流自媒体。公众号拥有来自公募、私募、券商、期货、银行、保险、高校等行业30W+关注者,连续2年被腾讯云+社区评选为“年度最佳作者”。 作者:Laurens Swinkels,PhD 今天公众号为大家分享一篇Rebeco的最新文章。关于大数据和机器学习的重大发展正在推动量化投资的前沿。计算能力的增强促进了机器学习模型的部署和使用。与基于规则的模型相比,这些模型采用完全数据驱动的方法,能够对复杂的非线性关系建
我曾经的文章中,写到了XGBoost、LightGBM和Catboost的对比研究。通过分析,我们可以得出结论,catboost在速度和准确度方面都优于其他两家公司。在今天这个部分中,我们将深入研究catboost,探索catboost为高效建模和理解超参数提供的新特性。
由于意外的机器学习模型退化导致了几个机器学习项目的失败,我想分享一下我在机器学习模型退化方面的经验。实际上,有很多关于模型创建和开发阶段的宣传,而不是模型维护。
在上一章中我们介绍了马尔可夫决策过程,其中最优贝尔曼公式给出了最优值函数的求解方法:
DeepMind将这个问题定义为“智能体对齐问题”(agent alignment problem),并提出依赖于奖励建模,正面解决agent alignment问题的研究方向。
2021年8月16日,Nature Chemistry杂志发表了一篇南安普顿大学物理化学教授、AI3SD Network+首席研究员Jeremy Frey的专访文章。在这篇文章中,Jeremy Frey谈论了机器学习数据质量不确定性的危险以及人工智能与其他技术的协同作用。
随着可观测性领域中对AI/ML的热炒,公司比以往任何时候都更有可能从将数据存储在一个系统中进行查看,并在另一个系统中训练ML模型中获得利益。
社会和健康科学中使用的机器学习(ML)方法需要符合描述、预测或因果推理等预期研究目的。本文通过结合这些学科的统计分析的必要要求,为社会和健康科学中的研究问题与适当的ML方法进行了全面、系统的元映射。作者将已建立的分类映射到描述、预测、反事实预测和因果结构学习,以实现共同的研究目标,如估计不良社会或健康结果的流行率、预测事件的风险、识别不良结果的风险因素或原因,并解释通用的ML性能指标。这种映射可能有助于充分利用ML的好处,同时考虑与社会和健康科学相关的特定领域方面,并希望有助于加速ML应用的普及,以推进基础和应用社会和健康科学研究。
机器学习(ML)和人工智能(AI)经常被认为是通向未来世界的大门,在这个世界里机器人像人一样互动,它们可以在各个方面都比人类聪明。如今,机器学习已经被应用在世界各地数以万计的应用程序中,而且它以一种看不见的方式,开始重塑我们的生活和工作方式。尽管这些技术堪称具有破坏性,被认为是引起人类恐慌的罪魁祸首,但它们在人类社会的各个领域都发挥着巨大作用。
作者 | Sanjit A. Seshia, Dorsa Sadigh, S. Shankar Sastry 编译 | 李梅、黄楠 编辑 | 陈彩娴 人工智能试图模仿人类智能的计算系统,包括人类一些与智能具有直观联系的功能,例如学习、解决问题以及理性地思考和行动。在广义地解释上,AI 一词涵盖了许多密切相关的领域如机器学习。那些大量使用 AI 的系统在医疗保健、交通运输、金融、社交网络、电子商务和教育等领域都产生了重大的社会影响。 这种日益增长的社会影响,也带来了一系列风险和担忧,包括人工智能软件中的错误、
大数据文摘转载自AI科技评论 作者:Sanjit A. Seshia, Dorsa Sadigh, S. Shankar Sastry 编译:李梅、黄楠 人工智能试图模仿人类智能的计算系统,包括人类一些与智能具有直观联系的功能,例如学习、解决问题以及理性地思考和行动。在广义地解释上,AI 一词涵盖了许多密切相关的领域如机器学习。那些大量使用 AI 的系统在医疗保健、交通运输、金融、社交网络、电子商务和教育等领域都产生了重大的社会影响。 这种日益增长的社会影响,也带来了一系列风险和担忧,包括人工智能软件中的
来源:AI科技评论本文约10500字,建议阅读20分钟本文回顾了形式化方法传统的应用方式,指明了形式化方法在 AI 系统中的五个独特挑战。 人工智能试图模仿人类智能的计算系统,包括人类一些与智能具有直观联系的功能,例如学习、解决问题以及理性地思考和行动。在广义地解释上,AI 一词涵盖了许多密切相关的领域如机器学习。那些大量使用 AI 的系统在医疗保健、交通运输、金融、社交网络、电子商务和教育等领域都产生了重大的社会影响。 这种日益增长的社会影响,也带来了一系列风险和担忧,包括人工智能软件中的错误、网络攻击
随着机器学习的复杂度和影响力不断提升,许多人希望找到一些解释的方法,用于阐释学得模型的重要属性 [1, 2]。对模型的解释可能有助于模型满足法规要求 [3],帮助从业人员对模型进行调试 [4],也许还能揭示模型学到的偏好或其他预期之外的影响 [5, 6]。显著性方法(Saliency method)是一种越来越流行的工具,旨在突出输入(通常是图像)中的相关特征。尽管最近有一些令人振奋的重大研究进展 [7-20],但是解释机器学习模型的重要努力面临着方法论上的挑战:难以评估模型解释的范围和质量。当要在众多相互竞争的方法中做出选择时,往往缺乏原则性的指导方针,这会让从业者感到困惑。
在当今的数字时代,分布式系统已成为处理大规模数据和高并发请求的标准架构。在这样的系统中,生成全局唯一的标识符(ID)对于追踪和区分每一个数据项至关重要。传统的自增ID生成方式在分布式环境中面临着诸多挑战,例如性能瓶颈、水平扩展限制等问题。
2022年4月21日,Nat Rev Chem杂志发表了来自劳伦斯伯克利国家实验室Francesca M. Toma等人的文章,文章介绍了数据科学改变实验化学的案例,并就如何进一步整合数据科学和实验化学给出了若干建议。
关键词:机器学习,算法 正文: 本文旨在为那些获取关于重要机器学习概念知识的人们提供一些机器学习算法,同时免费提供相关的材料和资源。并且附上相关算法的程序实现。 通用的机器学习算法包括: 1.决策树
今天分享一篇谷歌在CIKM'18上发表的排序学习listwise损失函数优化的论文「LambdaLoss」[1],可以认为是沿袭着微软早期代表性工作[2]的路线,即:
ML Ops 的发展弥补了机器学习与传统软件工程之间的差距,而数据质量是 ML Ops 工作流的关键,可以加速数据团队,并维护对数据的信任。
在这篇文章中,我们将研究深度学习和机器学习的对比。我们也将分别学习它们。我们还将讨论他们在不同问题上的分歧。在进行深度学习和机器学习比较的同时,我们也会研究它们的未来趋势。
2021年6月,来自AI药物发现公司BenevolentAI的Joshua Meyers等人在Drug Discovery Today发表文章,对分子从头设计和生成模型方面的进展、挑战以及未来的机会进行了综述。
框架是非常好的,可以帮助我们快速的开发,但是前期的学习成本往往很高,特别是如果想要深入理解框架,需要花费大量的经历。
卷积神经网络 当处理图像时,全连接的前馈神经网络会存在以下两个问题: 图像不能太大。比如,输入图像大小为 100 × 100 ×3(即图像高度为 100, 宽度为 100,3 个颜色通道 RGB)。在全连接前馈神经网络中,第一个隐藏 层的每个神经元到输入层都有 100 ∗ 100 ∗ 3 = 30, 000 个相互独立的连接, 每个连接都对应一个权重参数。随着隐藏层神经元数量的增多,参数的规 模也会极具增加。这会导致整个神经网络的训练效率会非常低,也很容易出现过拟合。 难以处理图像不变性。自然图像中的物
领取专属 10元无门槛券
手把手带您无忧上云