首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

机器学习工业复现的 12 个要素!

过去二十年来,我们对软件开发的理解有了大幅提升。其中一大部分原因是 DevOps 概念的出现及其在软件开发行业的广泛应用。 领先的软件公司都遵循着同样的模式:首先是在软件开发过程中快速迭代,然后进行持续集成、持续交付、持续部署。每个特性都要经过测试,看其提供价值的能力如何,而且软件始终要处于就绪的状态,并且通过自动化方法进行部署。 机器学习这个领域虽不同于传统的软件开发,但我们也能从软件开发行业汲取很多实用的经验教训。过去几年里,我们一直在开发生产型机器学习项目。我们的目标并不只是概念验证,而是与软件开发一样的可复现能力(reproducibility)。因此,我们构建了一套流程协调器、强大的自动化能力并建立了一套用于实现该目标的工作流程。 为什么不直接使用 Jupyter Notebook?从头开始构建一组包含所有处理步骤的笔记需要多长时间?为团队纳入新成员的难易程度如何?你现在可以复现两个月前的结果吗?能以多快的速度复现?你能将今天的结果和历史结果进行对比吗?你能在训练过程中关注到数据的出处吗?如果你的模型过时了又会发生什么? 我们遇到过所有这些问题。现在,我们将这些经验进行了归纳总结,得到了成功构建生产型机器学习的 12 个要素(类似于软件开发中的十二要素应用/12 factor app)。

01
您找到你想要的搜索结果了吗?
是的
没有找到

Nat. Biotechnol. | 基于大规模数据标注和深度学习对组织图像进行具有人类水平性能的全细胞分割

今天给大家介绍的是由美国加州理工学院生物与生物工程系的David Van Valen、斯坦福大学病理学系的Michael Angelo等研究人员在《Nature Biotechnology》上发表的研究成果。组织成像数据的分析中一个主要挑战是细胞分割,即识别图像中每个细胞的精确边界的任务。在这篇文章中,为了解决这个问题,作者首先构建了一个用于训练分割模型的数据集TissueNet,这其中包括了一百多万个手动标记的细胞。然后作者用TisseNet训练了一种基于深度学习的分割算法Mesmer。通过实验表明,Mesmer比以往的方法更加准确,它能够概括TissueNet中组织类型和成像平台的全部多样性,并且达到了人类水平的表现。Mesmer还能够自动提取关键的细胞特征,如蛋白质信号的亚细胞定位。作者之后对Mesmer进行调整从而使其能够在高度复用的数据集中利用细胞谱系信息,并且还利用这个增强的版本量化了人类妊娠期间细胞形态的变化。

02

Autodesk AutoCAD 2021 for Mac 简体中文版免费下载安装教程

Autodesk AutoCAD 2021 Mac知识兔官方版本知识兔现已发布,并且本机支持中文语言。AutoCAD是知识兔知识兔世界知名的用于二维绘图、细知识兔节绘制、设计文档和基本三维设计的专知识兔业计算机辅助设计软件,广泛应用知识兔于机械设计、工业制图、知识兔工程制图、土木建筑、装饰装潢、服装加工等行业。借知识兔助于 AutodeskAutoCAD知识兔绘图软件,您可以与客户精确地分享设知识兔计知识兔数据,您可以感受到本地 DWG格式的强大优势。DWG是知知识兔识兔知识兔行业中使用最广泛的知识兔设计数据格式之一,通过它,您可以使所有人都知道您最新的设计决策。AutoCAD支持图知识兔形演示、绘制工具和强大的绘图和三维打知识兔印功能,知识兔使您的设计更加出色。

00

印尼医疗龙头企业Halodoc的数据平台转型之路:基于Apache Hudi的数据平台V2.0

数据平台已经彻底改变了公司存储、分析和使用数据的方式——但为了更有效地使用它们,它们需要可靠、高性能和透明。数据在制定业务决策和评估产品或 Halodoc 功能的性能方面发挥着重要作用。作为印度尼西亚最大的在线医疗保健公司的数据工程师,我们面临的主要挑战之一是在整个组织内实现数据民主化。Halodoc 的数据工程 (DE) 团队自成立以来一直使用现有的工具和服务来维护和处理大量且多样的数据,但随着业务的增长,我们的数据量也呈指数级增长,需要更多的处理资源。由于现代数据平台从不同的、多样化的系统中收集数据,很容易出现重复记录、错过更新等数据收集问题。为了解决这些问题,我们对数据平台进行了重新评估,并意识到架构债务随着时间的推移积累会导致大多数数据问题。我们数据平台的所有主要功能——提取、转换和存储都存在问题,导致整个数据平台存在质量问题。 现有数据平台 印尼医疗龙头企业Halodoc的数据平台转型之路:数据平台V1.0 在过去几年中为我们提供了很好的服务,但它的扩展性满足不了不断增长的业务需求。

02
领券