这就是Pachyderm 等工具的用处,Pachyderm 是一个具有内置版本控制和数据沿袭功能的数据科学和处理平台,它的核心是数据版本控制,以支持数据驱动的管道。...如果将 ImageNet 组织为 Pachyderm 中的数据集,则隐私感知版本可能会覆盖原始数据集。...像 Pachyderm 这样将数据放在首位并考虑变化的工具对于将数据隐私引入 AI 来说至关重要,没有它们,我们会发现自己迷失在不断变化的数据和代码的复杂性中。...Pachyderm 一直是我们管理不断变化的数据的首选工具,它极大地提高了在我的机器学习系统上迭代的可靠性和效率,这些类型的工具对于为 AI 的安全和可靠的未来铺平道路至关重要。
这个项目地址在此: http://docs.pachyderm.io/en/latest/examples/tensor_flow/readme.html
Amazon Redshift 特征存储:(保存机器学习的特征) FEAST:基于谷歌云,目前已开源; Michelangelo:Uber 的开源平台; 版本控制 DVC:开源的机器学习版本控制工具; Pachyderm
例如,数据工程团队从基于Hadoop的系统,转移到类似Pachyderm的系统中并不少见,他们使用Airflow将数据管道移动到Kubernetes中,以降低基础设施的成本,并创建可重复的、有弹性的和可扩展的数据管道
Armorway,利用深度学习实现网络安全; · Leyvx,将Flash和Spark结合起来; · Jask,利用AI进行网络安全分析; · Alluvium,致力于缩小“机器与人”的差距; · Pachyderm
OpenAI与Hugging Face工具** - **OpenAI的新危险GPT-2语言模型** - **OpenAI、强化学习、机器人、安全** - **使用MemSQL操作MLAI** - **Pachyderm
Pachyderm 和 DVC 可用于数据版本控制。 4. 测试 软件测试包括单元测试、集成测试和回归测试。DataOps 需要进行严格的数据测试,包括模式变更、数据漂移、特征工程后的数据验证等。
类似地,Kubernetes上的ML平台Pachyderm也提供了使用类似git语义的数据版本控制平台。但是,这些类似git的方法只跟踪不可变的文件,而不存储文件之间的差异。
你也可以使用其他开源工具来解决这些问题:Pachyderm使用容器来执行pipeline的不同步骤,通过跟踪数据提交并基于此优化流水线的执行,来解决数据版本控制和数据源问题。
领取专属 10元无门槛券
手把手带您无忧上云