首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

2015 Bossie评选:最佳的10款开源大数据工具

早期版本仅仅支持R语言,3.0版本开始支持Python和Java语言,同时它也可以作为Spark在后端的执行引擎。...使用H2O的最佳方式是把它作为R环境的一个大内存扩展,R环境并不直接作用于大的数据集,而是通过扩展通讯协议例如REST API与H2O集群通讯,H2O来处理大量的数据工作。...几个有用的R扩展包,如ddply已经被打包,允许你处理大规模数据集时,打破本地机器上内存容量的限制。你可以EC2上运行H2O,或者Hadoop集群/YARN集群,或者Docker容器。...用苏打水(Spark+ H2O)你可以访问集群上并行的访问Spark RDDS,在数据帧Spark处理后。再传递给一个H2O的机器学习算法。 4. Apex ?...,用户代码通常不需要知道他一个流媒体处理集群运行

1.3K100

机器学习框架简述

H2O H2O,现在已经发展到第三版,可以提供通过普通开发环境(Python, Java, Scala, R)、大数据系统(Hadoop, Spark)以及数据源(HDFS, S3, SQL, NoSQL...H2O可以作为原生Python库,或者是通过Jupyter Notebook, 或者是 R StudioR 语言来工作。...这个平台也包含一个开源的、基于web的、H2O称为Flow的环境,它支持训练过程与数据集进行交互,而不只是训练前或者训练后。...亚马逊提供机器学习即服务-亚马逊机器学习方面也是如此。该服务可以连接到存储亚马逊 S3、Redshift或RDS上的数据,并且在这些数据上运行二进制分类、多级分类或者回归以构建一个模型。...Mahout框架长期以来一直与Hadoop绑定,但它的许多算法也可以Hadoop之外运行。这对于那些最终迁移到Hadoop的独立应用或者是从Hadoop剥离出来成为单独的应用都很有用。

68120
您找到你想要的搜索结果了吗?
是的
没有找到

HTTP2 最新漏洞,直指 Kubernetes!

HTTP/2引入了一个与HTTP/1.1的数据传输有显著差异的功能:通过单个TCP连接多路复用多个数据交换。该功能为HTTP/2带来了显著的性能优势,但它本身需要一些额外的流控制逻辑。...简而言之,HTTP/2,单个TCP连接可以携带多个流,这些流由包含帧序列的多个消息组成。 ?...看似就这么简单:我们只需要通过发送HTTP/2的引导帧来启动连接。下面是Wireshark截获的连接引导帧: ? 接下来,我们只需要一个空SETTINGS帧的结构: ?...收集到所需的二进制消息帧的示例之后,我们就可以编写攻击循环了(仅用于研究目的)。...4、修复 大多数受影响的服务商都针对这些问题发布了补丁,他们采用了与H2O和GoLang类似的方法:限制发送队列控制帧的数量。

73130

15款开源人工智能软件挨个数,哪一款是你的菜?

虽然微软主要用它进行语音识别的研究,但它可以进行机器翻译、图像识别、图像抓取、文本处理、语言识别与语言建模等工作。 3. Deeplearning4j ?...它能在分布式环境运行,并整合Hadoop与Apache Spark。而这使得它可以配置深度神经网络,还可运行Java、Scala等其他JVM语言。...H2O有两个开源版本:标准版H2O和Sparkling Water版H2O,两个版本都整合在Apache Spark,Oxdata将为付费企业提供技术支持。 6. Mahout ?...它可以利用机器学习来部署相关网络服务,通过对页面动态请求实时回应帮助用户建立一个预测引擎。 13. SystemML ? SystemML最初由IBM开发,后ASF收购,成为其大数据项目。...SystemML是一个可高度扩展的平台,可进行高级数学运算,执行R或类Python语句。

2.9K50

使用Kafka在生产环境构建和部署可扩展的机器学习

例如,一位数据科学家可以创建一个Python程序,创建一个精度很高的模型。 但是这并不能解决问题,因为您无法将其部署到生产环境,因为它无法根据需要进行扩展或执行。...H2O.ai用于分析Hadoop的历史数据以构建神经网络。数据科学家可以使用它的首选接口-RPython,Scala,Web UI Notebook等。...数据科学家可以使用他或她最喜欢的编程语言,如RPython或Scala。 最大的好处是H2O引擎的输出:Java代码。 生成的代码通常表现非常好,可以使用Kafka Streams轻松缩放。...用H2OR库建立分析模型 他的输出是一个分析模型,生成为Java代码。 这可以关键任务生产环境无需重新开发的情况下使用。...你可以找到正在运行的例子。 只需复制该项目,运行Maven构建,并查看Kafka Streams应用程序如何使用H2O模型。

1.3K70

有助于你掌握机器学习的十三个框架

H2O H2O,现在已经发展到第三版,可以提供通过普通开发环境(Python, Java, Scala, R)、大数据系统(Hadoop, Spark)以及数据源(HDFS, S3, SQL, NoSQL...H2O 可以作为原生 Python 库,或者是通过 Jupyter Notebook,或者是 R StudioR 语言来工作。...这个平台也包含一个开源的、基于 web 的、 H2O 称为Flow 的环境,它支持训练过程与数据集进行交互,而不只是训练前或者训练后。...亚马逊提供机器学习即服务-亚马逊机器学习方面也是如此。该服务可以连接到存储亚马逊 S3、Redshift 或 RDS 上的数据,并且在这些数据上运行二进制分类、多级分类或者回归以构建一个模型。...并且支持 CPU 和 GPU 运行。 Mahout 框架长期以来一直与 Hadoop 绑定,但它的许多算法也可以 Hadoop 之外运行

70240

2015 Bossie评选:最佳开源大数据工具

早期版本仅仅支持R语言,3.0版本开始支持Python和Java语言,同时它也可以作为Spark在后端的执行引擎。...使用H2O的最佳方式是把它作为R环境的一个大内存扩展,R环境并不直接作用于大的数据集,而是通过扩展通讯协议例如REST API与H2O集群通讯,H2O来处理大量的数据工作。...几个有用的R扩展包,如ddply已经被打包,允许你处理大规模数据集时,打破本地机器上内存容量的限制。你可以EC2上运行H2O,或者Hadoop集群/YARN集群,或者Docker容器。...用苏打水(Spark+ H2O)你可以访问集群上并行的访问Spark RDDS,在数据帧Spark处理后。再传递给一个H2O的机器学习算法。 4....,用户代码通常不需要知道他一个流媒体处理集群运行

1.5K90

干货分享:五大最适合学习AI开发的编程语言

以下列举的五种编程语言,认为是最适合用来学习AI。大家可以参考一下。 1. PYTHON 第一名毫无疑问是 Python。...Python 可用库的数量是其他语言所无法企及的。NumPy 已经变得如此普遍,以至于几乎成为了张量运算的标准 API,Pandas 将 R 的强大而灵活的数据帧带入 Python。...C/C++ 开发 AI 应用时,C / C ++ 不太可能成为您的首选,但如果您在嵌入式环境工作,并且无法承受 Java 虚拟机或 Python 解释器的开销,那么 C / C ++ 就是最好的解决方案...后者还允许您导入数据科学家用 Python 写的模型,然后以 C / C ++ 级别的速度在生产环境运行它们。 未来一年,请密切留意 Rust AI 领域的一些动作。...如果您有一组专门的 R 开发者,那么将 R 与 TensorFlow、Keras 或 H2O 搭配使用,进行研究、原型设计和实验是有意义的。但基于性能和操作方面的考虑,我不愿意推荐将 R 用于生产。

1.4K130

Spark与深度学习框架——H2O、deeplearning4j、SparkNet

很可能你使用它们的过程遇到一些bug或者缺少一些操作工具,但是报告问题(issue)及发送补丁将会使它更加成熟。 H2O H2O是用h2o.ai开发的具有可扩展性的机器学习框架,它不限于深度学习。...H2O支持许多API(例如,RPython、Scala和Java)。当然它是开源软件,所以要研究它的代码及算法也很容易。H2O框架支持所有常见的数据库及文件类型,可以轻松将模型导出为各种类型的存储。...不幸的是,有些例子Spark 1.5.2版本上无法正常运行。深度学习的demo也有相同的问题。你得等待这些问题解决,或者自己写几个能在Spark运行的补丁。...○ nd4j (https://github.com/deeplearning4j/nd4j)有点像是一个numpy,Python的SciPy工具。...这个参数决定了每一层中使用哪种类型的层。例如,卷积神经网络的案例,ConvolutionLayer用于从输入的图像中提取出特征。这个层能学习一个给定的图片有哪种类型的特征。

1.6K30

碎片︱R语言与深度学习

笔者:受alphago影响,想看看深度学习,但是其R语言中的应用包可谓少之又少,更多的是matlab和python或者是调用。...文章的结论如下: 当前版本的deepnet可能代表着可用架构方面的最不同的包。然而根据其实现,它可能不是最快的和最容易使用的一个选择。...H2O可能更适合集群环境,数据科学家们可以一个简单的条件下用它来做数据挖掘和探索。当更关注灵活性和原型设计的时候,MXNetR可能是最佳的选择。...此外,通过利用多核CPU/GPU,MXNetR个人电脑上运行时得到了很好的优化。...’ 下列对象屏蔽了from ‘package:base’: max, min, sum Warning messages: 1: 程辑包‘h2o’是用R版本3.0.3 来建造的

1.6K51

18个面向开发人员的机器学习平台

使用像Filestack这样的合适工具ML环境工作可以使开发人员更容易创建一个能够充分发挥其功能的高效算法。...以下机器学习平台和工具 - 无法按特定顺序列出 - 现在可用作将ML的功能无缝集成到日常任务的资源。 1. H2O H2O是由H2O.ai为PythonR和Java编程语言设计的。...H2O可在Mac,Windows和Linux操作系统上使用,为开发人员提供分析Apache Hadoop文件系统的数据集以及云中的数据集所需的工具。 2....大量的在线资源,文档和教程的帮助下,TensorFlow提供了一个包含数值计算形式的数据流图的库。这种方法的目的是允许开发人员包括移动设备,平板电脑和台式机在内的多种设备上启动深度学习框架。...Caffe世界上一些最大的品牌使用,包括Pinterest和Facebook。

1.5K00

AutoML:机器学习的下一波浪潮

这是因为 ML 如今广泛的应用取得了成功。然而,即使有这种明确的迹象表明机器学习可以为某些企业提供支持,但很多公司仍在为部署 ML 模型而艰难地努力着。 ...机器学习各种应用的成功,导致了对机器学习系统不断增长的需求,这些系统可以由非专家使用¹。AutoML 倾向于尽可能多地自动化 ML 管道步骤,只需最少人力的情况下仍保持模型的性能。   ...Auto-sklearn 中小型数据集上表现良好,但它无法大型数据集上产生性能最先进的现代深度学习系统。   安装  Auto-sklearn 目前仅适用于 Linux 系统的机器。 ...TPOT 自动化的机器学习过程  TPOT 无法自动处理自然语言输入。此外,它还无法处理分类字符串,作为数据传入之前,这些字符串必须进行整数编码。   ...H20 同时支持 RPython,支持最广泛使用的统计和机器学习算法,包括梯度提升(Gradient Boosting)机器、广义线性模型、深度学习模型等。

1.1K00

AI开发人员可以使用18个机器学习平台

ML环境工作,如果使用正确的工具(如Filestack),可以使开发人员更容易创建一个利用其功能的高效算法。...下面列出的机器学习平台和工具(顺序随机),现在可以无缝地将ML的功能集成到日常开发工作。 1、H2O ? H2O是由H2O.ai为PythonR和Java编程语言设计的。...以深度学习为核心,该工具针对那些需要在业务环境构建深度神经网络的开发人员,这些开发人员分布式cpu和gpu上工作。...大量的在线资源、文档和教程的帮助下,TensorFlow提供了一个包含数据流图的库,其形式是数值计算。这种方法的目的是使开发人员能够跨多种设备(包括移动设备、平板电脑和桌面电脑)启动深度学习框架。...云环境,Neon支持开发人员开发、构建和培训深度学习技术。 13. Apache Spark MLlib ?

83830

自动化建模 | H2O开源工具介绍

引 言 相信大家日常的建模工作中都会或多或少地思考一个问题:建模可不可以自动化?今天将围绕这个问题向大家介绍一个开源的自动建模工具H2O。...“托拉拽”式的模型开发 支持模型的快速部署(用户可以训练后下载基于Java的POJO和MOJO文件) 支持自动化建模和自动化参数调优 H2O实战练习 大家可以使用在PythonR引入H2O包的形式进行该工具的使用...可以看到模型结果H2O自动帮用户计算了大部分评价指标,在这个二分类任务重点看AUC,可以发现在cross-validation数据集上的AUC为0.824,效果还不错,同时结果默认给出了能够是F1...highlight=pojo#h2o.download_pojo 二、可视化建模UI工具 除了Python或者R通过代码实现建模以外,H2O还提供了一个很用户友好的UI界面来实现“托拉拽式建模”,下图为这个工具的...这个工具相当于一个图形界面,底层依然是刚刚上面介绍的那些代码,它的好处是可以帮助企业对于Python或者R语言不太熟悉的业务人员进行快速模型的建立。

5.4K41

资源 | 企业应该怎样选择数据科学机器学习平台?

它能帮助团队 PB 级尺度上对模型进行集中化、再利用和产品化。本文作者为 Algorithmia 的 Ahmad AlNaimi。 你开发了一个 R/Python/Java 模型。它运行得很好。...企业环境,这种低效率更是显眼,因为数据科学家们的每一个工作步骤都需要和 IT 部门协作,导致连续部署流程的混乱(如果不是无法进行的话),可重用性也很低,并且这个痛点还会随着公司不同角落开始「谷歌化(...但如果你是一个有很多内部客户的中心化团队,你很有可能面临着下面几种症状的困扰: 症状#1 你分裂代码库 你的数据科学家构建出一个模型(比方说是基于 RPython 的),想把它嵌入产品,用在一个网络或移动应用里...下面是一些可比较的数据点: 支持的语言 R 语言和 Python 对绝大部分数据科学和机器学习项目都是标配。...而一个可交替的数据源则只需要作者安装一个通用的数据连接器,它可以作为多种数据源的适配器,同时也是一种让不会过时的模型与以后出现的任何数据源都能兼容的方式。

99750

0716-1.6.0-CDSW1.6的新功能

例如,你可以使用cdswctl客户端在你本地电脑上启动一个SSH端点,然后将一个本地的IDE,比如PyCharm连接到CDSW。...当一个用户分配为一个项目的Operator角色,他就可以启动和停止已有的作业,并且可以访问项目代码,数据和结果,但只有查看权限。...这些pod每个用户的Kubernetes名称空间中启动。由于这些用户有能力启动任意的pod,这些设置主要是为了限制这些pod可以做什么。...14.Spark UI 现在,使用Spark的运行会话,Spark UI是其中一个选项卡,你可以直接点击查看Spark UI。...1.1 引擎升级 CDSW1.6开始打包的基础engine镜像包括的RPython的版本为(version 8): R - 3.5.1 Python - 2.7.11, 3.6.1 Engine 8预安装的软件包

1K10

H2OAutoML入门

H2OAutoML的安装和配置开始使用H2OAutoML之前,我们需要先安装H2O并进行一些配置。以下是安装和配置H2OAutoML的步骤:安装Python和pip。...终端执行以下命令安装H2O:plaintextCopy codepip install h2o代码中导入H2O并初始化H2O集群:pythonCopy codeimport h2oh2o.init...对于复杂的问题,可能需要手动调整和优化模型,而H2OAutoML可能无法提供足够的灵活性。...类似的工具:TPOT:TPOT是Python另一个流行的自动化机器学习工具。它使用遗传算法来搜索和优化模型。与H2OAutoML类似,TPOT可以自动执行特征工程、模型选择和调参等任务。...总结: 尽管H2OAutoML是一个强大的自动化机器学习工具,但它也有一些缺点。选择适合自己的自动化机器学习工具时,需要考虑任务需求、可解释性要求、计算资源等因素,并与类似的工具进行比较和评估。

39120

15 个顶级的人工智能开源工具

运行在分布式环境并且集成 Hadoop 和 Apache Spark 。这使它可以配置深度神经网络,并且它与 Java、Scala 和 其他 JVM 语言兼容。...它有两种开源版本:标准版 H2O 和 Sparking Water 版,它被集成 Apache Spark 。也有付费的企业用户支持。 6. Mahout ?...它集成了 Hadoop 并可以与 NumPy 和 R 进行交互操作。...它提供了一个高度可伸缩的平台,可以实现高等数学运算,并且它的算法用 R 或一种类似 python 的语法写成。企业已经使用它来跟踪汽车维修客户服务、规划机场交通和连接社会媒体数据与银行客户。...它可以运行在多种不同的有着单或多 CPU 和 GPU 的系统,甚至可以移动设备上运行。它拥有深厚的灵活性、真正的可移植性、自动微分功能,并且支持 Python 和 c++。

1.2K20

超越Spark,大数据集群计算的生产实践

针对开发人员,Spark还提供了一个友好的API,可以用数据科学家们喜爱的PythonR来访问它。这个功能存在很长一段时间了。...一些MLlib及ML无法满足的情况下,可以选择这些外部库。 外部的框架 Spark社区提供了大量的框架和库。其规模及数量都还在不断增加。...通常,用于机器学习的训练数据量非常庞大,仅仅单台节点机器在内存无法保存所有数据的,甚至磁盘上也无法保存全部的数据。这是一种SIMD(单指令多数据流)处理类型。...H2OH2O是用h2o.ai开发的具有可扩展性的机器学习框架,它不限于深度学习。H2O支持许多API(例如,RPython、Scala和Java)。...在其他方法,什么操作都会有副作用。例如,printlnmap函数上就没有效果。这为调试带来了困难。 无法StreamContext创建新的RDD——DStream是RDD的连续序列。

2.1K60
领券