在R中是否有一个函数可以找到用于构建h2o模型的大量观测值？_是否有一个R函数用于将未处理的观测值加载到主成分中？_是否有一个R函数可以在共享另一列的值的行中查找列中的最高值？ - 腾讯云开发者社区

您找到你想要的搜索结果了吗？

是的

没有找到

【机器学习】机器学习的11个开源项目

AutoML：机器学习的下一波浪潮

AI 前线导读：人工智能和机器学习仍然是一个进入门槛较高的领域，需要专业的知识和资源，很少有公司可以自己承担。—— 李飞飞自动机器学习（AutoML）是将机器学习应用于现实问题的端到端流程自动化的过程。AutoML 使真正意义上的机器学习成为可能，即使对于没有该领域专业知识的人也是如此。本文介绍了一些流行的 AutoML 框架，这些框架的趋势是自动化部分或整个机器学习的管道。更多优质内容请关注微信公众号“AI 前线”（ID：ai-front）

R语言︱H2o深度学习的一些R语言实践——H2o包

连接、搭建H2o环境（heo.init()）——数据转换成h2o格式（as.h2o）——模型拟合（h2o.deeplearning）——预测（h2o.predict）——数据呈现（h2o.performance）。

AI开发人员可以使用18个机器学习平台

随着近几年AI的火热，机器学习平台（Machine learning platforms）也开始引领技术潮流。开发人员需要知道怎么样利用这些平台的能力。在ML环境中工作，如果使用正确的工具(如Filestack)，可以使开发人员更容易创建一个利用其功能的高效算法。下面列出的机器学习平台和工具（顺序随机），现在可以无缝地将ML的功能集成到日常开发工作中。

h2oGPT——具备文档和图像问答功能且100%私密且可商用的大模型

这里直接选用h2oGPT的论文摘要部分：建立在大型语言模型 (LLM) 之上的应用程序，如 GPT-4，由于其在自然语言处理方面的人类水平的能力，代表着人工智能的一场革命。然而，它们也带来了许多重大风险，例如存在有偏见的、私人的或有害的文本，以及未经授权包含受版权保护的材料。我们介绍了 h2oGPT，这是一套开放源代码的代码库，用于基于生成性预训练transformer (GPT) 创建和使用 LLM。该项目的目标是创建世界上最好的、真正的开源方法，以替代封闭源代码方法。作为令人难以置信和不可阻挡的开源社区的一部分，我们与令人难以置信的和不可阻挡的开源社区合作，开源了几个经过微调的 h2oGPT 模型，参数从 70 亿到 400 亿，准备在完全许可的 Apache2.0 许可证下用于商业使用。我们的版本中包括使用自然语言的 100 XMATHX PC 私人文档搜索。开源语言模型有助于推动人工智能的发展，使其更容易获得和值得信任。它们降低了进入门槛，允许个人和团体根据自己的需求定制这些模式。这种公开性增加了创新、透明度和公平性。需要一个开源战略来公平地分享人工智能的好处，而 H.O.ai 将继续使人工智能和 LLMS 民主化。

Kafka +深度学习+ MQTT搭建可扩展的物联网平台【附源码】

物联网+大数据+机器学习将会是以后的趋势，这里介绍一篇这方面的文章包含源码。混合机器学习基础架构构建了一个场景，利用Apache Kafka作为可扩展的中枢神经系统。公共云用于极大规模地训练分析模型（例如，通过Google ML Engine在Google Cloud Platform（GCP）上使用TensorFlow和TPU，预测（即模型推断）在本地Kafka基础设施的执行（例如，利用Kafka Streams或KSQL进行流分析）。本文重点介绍内部部署。创建了一个带有KSQL UDF的Github项目，用于传感器分析。它利用KSQL的新API功能，使用Java轻松构建UDF / UDAF函数，对传入事件进行连续流处理。使用案例：Connected Cars - 使用深度学习的实时流分析从连接设备（本例中的汽车传感器）连续处理数百万个事件：

autoML 前瞻与实践 ---- H2O Sparkling Water简介

Sparkling Water allows users to combine the fast, scalable machine learning algorithms of H2O with the capabilities of Spark. With Sparkling Water, users can drive computation from Scala/R/Python and utilize the H2O Flow UI, providing an ideal machine learning platform for application developers.

18个面向开发人员的机器学习平台

机器学习平台不是未来的潮流。它现在正在发生。开发人员需要知道如何以及何时利用他们的力量。使用像Filestack这样的合适工具在ML环境中工作可以使开发人员更容易创建一个能够充分发挥其功能的高效算法。以下机器学习平台和工具 - 无法按特定顺序列出 - 现在可用作将ML的功能无缝集成到日常任务中的资源。

自动化的机器学习：5个常用AutoML 框架介绍

AutoML 可以为预测建模问题自动找到数据准备、模型和模型超参数的最佳组合，本文整理了5个最常见且被熟知的开源AutoML 框架。

15款开源人工智能软件挨个数，哪一款是你的菜？

有助于你掌握机器学习的十三个框架

作者 | Serdar Yegulalp 编译 | 夜风轻扬在过去的一年里，机器学习炙手可热。机器学习的“突然”降临，并不单纯因为廉价的云环境和更强有力的GPU硬件。也因为开放源码框架的爆炸式增长，这些框架将机器学习中最难的部分抽象出来，并将这项技术提供给更广大范围的开发者。这里有新鲜出炉的机器学习框架，既有初次露面的，也有重新修改过的。这些工具被大众所注意，或是因为其出处，或是因为以新颖的简单方法处理问题，或是解决了机器学习中的某个特定难题，或者是上述的所有原因。 Apache Spark MLl

H2O简单深度/机器学习框架介绍(一)

今天看到cell report上面的一篇ML/DL的文章竟然是用的H2O的框架，没有用更常见的tensorflow/pytorch, 去查了一下，发现这也是个新框架（2014年），而且用的人也不少，而且最重要的是，比较简单，不过感觉缺乏一定的灵活性。

机器学习框架简述

总之，一个机器学习框架包括如何处理数据，分析方法，分析计算，结果评估和结果利用。一个好的机器学习框架需要处理大规模数据提取和数据预处理，还需要处理快速计算、大规模和高速的交互式评估，以及简单易懂的结果解释和部署。

H2OAutoML入门

机器学习是人工智能领域的一个重要分支，它通过建立数学模型，使计算机能够从数据中自动学习并进行预测和决策。H2OAutoML是一个开源的自动机器学习工具库，它旨在简化机器学习的使用和部署过程。本文将介绍H2OAutoML的基本概念和使用方法。

R︱mlr包挑选最适机器学习模型+变量评估与选择（案例详解）

盘点丨开发者必备：基于 Linux 生态的十大 AI 开源框架

前不久，AI 科技评论曾盘点了一系列机器学习相关的开源平台，包括谷歌的TensorFlow、微软的CNTK以及百度的PaddlePaddle等等。这些平台各具特点，其中某些已经在业内得到了广泛认可和应

15 个顶级的人工智能开源工具

它是由贾扬清在加州大学伯克利分校的读博时创造的，Caffe 是一个基于表达体系结构和可扩展代码的深度学习框架。使它声名鹊起的是它的速度，这让它受到研究人员和企业用户的欢迎。根据其网站所言，它可以在一天之内只用一个 NVIDIA K40 GPU 处理 6000 万多个图像。它是由伯克利视野和学习中心（BVLC）管理的，并且由 NVIDIA 和亚马逊等公司资助来支持它的发展。

2015 Bossie评选：最佳的10款开源大数据工具

Bossie奖是知名英文IT网站InfoWorld针对开源软件颁发的年度奖项，根据这些软件对开源界的贡献，以及在业界的影响力评判获奖对象。本次InfoWorld评选出了22款最佳的开源大数据工具，像S

010

一文总结数据科学家常用的Python库（下）

我们已经到达了本文最受期待的部分 - 构建模型！这就是我们大多数人首先进入数据科学领域的原因，不是吗？

Spark与深度学习框架——H2O、deeplearning4j、SparkNet

深度学习因其高准确率及通用性，成为机器学习中最受关注的领域。这种算法在2011—2012年期间出现，并超过了很多竞争对手。最开始，深度学习在音频及图像识别方面取得了成功。此外，像机器翻译之类的自然语言处理或者画图也能使用深度学习算法来完成。深度学习是自1980年以来就开始被使用的一种神经网络。神经网络被看作能进行普适近似（universal approximation）的一种机器。换句话说，这种网络能模仿任何其他函数。例如，深度学习算法能创建一个识别动物图片的函数：给一张动物的图片，它能分辨出图片上的动物是一只猫还是一只狗。深度学习可以看作是组合了许多神经网络的一种深度结构。

吐血整理！绝不能错过的24个顶级Python库

事实上，由于Python库种类很多，要跟上其发展速度非常困难。因此，本文介绍了24种涵盖端到端数据科学生命周期的Python库。

前沿技术 | 自动机器学习综述

来源：小金博士公众号本文约5000字，建议阅读10分钟本文将探索目前可用于自动化过程的框架，以帮助读者了解在自动化机器学习方面可能出现的情况。自动机器学习综述自从计算机时代开始，科学家和工程师们就一直想知道如何像人类一样，给计算机注入学习的能力。艾伦·图灵是第一批提出智能理论的科学家之一，该理论设想有一天计算机能够达到与人类同等的智能水平。从那时起，机器学习领域发生了一系列巨大的飞跃。我们已经看到机器学习在许多情况下击败或至少匹配特定的人类认知能力，例如在ResNet（一种深度残留的网络架构）的情况

前沿技术|自动机器学习综述

自从计算机时代开始，科学家和工程师们就一直想知道如何像人类一样，给计算机注入学习的能力。艾伦·图灵是第一批提出智能理论的科学家之一，该理论设想有一天计算机能够达到与人类同等的智能水平。从那时起，机器学习领域发生了一系列巨大的飞跃。我们已经看到机器学习在许多情况下击败或至少匹配特定的人类认知能力，例如在ResNet(一种深度残留的网络架构)的情况下超越了人类在图像识别方面的表现，或者微软的语音转录系统几乎达到人类水平的表现。

自动机器学习工具全景图：精选22种框架，解放炼丹师

收集原始数据、合并数据源、清洗数据、特征工程、模型构建、超参数调优、模型验证和设备部署。

【盘点】15个开源的顶级人工智能工具

1. Caffe、2. CNTK、3. Deeplearning4、j4. 分布式机器学习工具包、5. H2O、6. Mahout、7. MLlib、8. NuPIC、9. OpenNN、10. OpenCyc、11. Oryx 2、12. PredictionIO、13. SystemM、L14. TensorFlow、15. Torch 全文较长，建议阅读时间7分钟。往期回顾：【盘点】数据挖掘师，这十大思维原理你具备吗？人工智能是技术研究领域最炙手可热的领域之一。IBM、谷歌、微软、Facebo

[学习}28 款 GitHub 最流行的开源机器学习项目

一文看懂预测性维护

当前，新一轮科技革命和产业变革孕育兴起，大数据的集聚、理论算法的革新、计算能力的提升及网络设施的演进，驱动人工智能发展进入新阶段，人工智能正加快在工业领域的渗透融合，带动工业企业进步，推动产业升级，而预测性维护是工业大数据和人工智能的一个重要应用场景。它针对设备、设施的故障和失效，由事后维护到定期检修（人工巡检）再到主动预防最终到事先预测和综合规划管理的演进中，不断提升、发展着。那么究竟什么是预测性维护，它与事后维护、预防性维护有什么区别？让我们一文看懂预测性维护。

一文总结数据科学家常用的Python库（下）

【磐创AI导读】：本系列文章为大家总结了24个热门的python库，查看上篇。想要获取更多的机器学习、深度学习资源，欢迎大家点击上方蓝字关注我们的公众号：磐创AI。一文总结数据科学家常用的Python库（上）

2015 Bossie评选：最佳开源大数据工具

InfoWorld在分布式数据处理、流式数据分析、机器学习以及大规模数据分析领域精选出了2015年的开源工具获奖者，下面我们来简单介绍下这些获奖的技术工具。 1. Spark 在Apache的大数据项目中，Spark是最火的一个，特别是像IBM这样的重量级贡献者的深入参与，使得Spark的发展和进步速度飞快。与Spark产生最甜蜜的火花点仍然是在机器学习领域。去年以来DataFrames API取代SchemaRDD API，类似于R和Pandas的发现，使数据访问比原始RDD接口更简单。 Spark

用于构建模型、语音图像处理的Python库

就像用于数据操作的Pandas和用于可视化的matplotlib一样，scikit-learn是Python构建模型中的佼佼者，建立在NumPy，SciPy和matplotlib之上。

2020 年最具潜力 44 个顶级开源项目，涵盖 11 类 AI 学习框架、平台（值得收藏）

就在最近，一个基于 javascript 的可视化库 D3js（treemap 可视化）对 json 文件生成的技术图，给开发者提供了详细的各领域工具清单，内容涵盖了 11 种极具潜力的 AI 工具类型，我们将其整理如下，强烈建议大家收藏~

2020 年最具潜力 44 个顶级开源项目，涵盖 11 类 AI 学习框架、平台（值得收藏）

工欲善其事必先利其器，这也是大部分开发者在日常工作中最重要开发原则。选择与开发内容相匹配的工具，常常会使我们事半功倍。但面对人工智能的多个领域，如：机器学习、深度学习、NLP等等，多样的工具有时也让我们也无从选择。

2020 年最具潜力 44 个顶级开源项目，涵盖 11 类 AI 学习框架、平台（值得收藏）

H2O-ac theme for Jekyll

正如大家所知，Jekyll 是一款高可定制的、非常流行的静态博客生成工具。围绕着 Jekyll 也衍生出了很多优秀的 Jekyll 主题，由廖柯宇开发的 H2O 主题就是其中之一。极简主义、风格扁平化、卡片式布局、Medium 及知乎专栏的视觉风格等等特点，为我们带来了或许是迄今为止最漂亮的 Jekyll 主题。

利用MOKIT从ORCA向其他量化程序传轨道

（1）在ORCA中进行了RIJK或RIJCOSX加速的大体系HF/DFT计算，想传轨道给其他程序进行后续计算，或想产生fch文件方便可视化。

python入门教程绝不能错过的24个顶级Python库

• 易用性和灵活性 • 全行业高接受度：Python无疑是业界最流行的数据科学语言 • 用于数据科学的Python库的数量优势数据科学文中提及了用于数据清理、数据操作、可视化、构建模型甚至模型部署(以及其他用途)的库。这是一个相当全面的列表，有助于你使用Python开启数据科学之旅。用于不同数据科学任务的Python库用于数据收集的Python库：

《量子化学软件基础》习题（5）——BDF和ORCA中的CASSCF计算

题目：对配合物[Fe(H2O)6]2+在CASSCF(6,5)/def2-SVP水平计算能量最低的单态、三态、五重态能量。要求使用态平均的(state averaged) CASSCF，活性空间需要包含Fe的3d电子和3d轨道。 [Fe(H2O)6]2+结构选自文献J. Chem. Theory Comput.,16, 2224. (2020)，见附录。

北大&北航团队揭示电子转移规律，深度学习定量预测96种元素在任意压力下的电负性

---- 将 ScienceAI 设为星标第一时间掌握新鲜的 AI for Science 资讯 ---- 编辑 | 紫罗电子转移是自然界中最基本的过程，在能量转换、元素循环和生命活动中发挥着重要作用。但现有的电子转移规律很少适用于高压情况，例如在地球深部。近日，来自北京大学地球与空间科学学院鲁安怀教授/李艳副教授课题组和北京航空航天大学宇航学院白相志教授课题组，提出一个深度学习模型来获得 96 种（H 到 Cm）元素在任意压力下的电负性，以及一个回归统一公式来量化电负性与压力和电子构型的关系。

OpenLandMap Soil pH 土壤PH数据集分辨率250m

该数据集为在6个土壤标准深度下（0、10、30、60、100和200cm）预测的土壤pH 值。数据空间分辨率为250米。前言 – 人工智能教程

观点|大数据工具在数据科学家眼中是怎样的存在？

但随着大数据工具数量的增长和计算能力的飞跃，数据科学家越来越多地发现，如果他们想从自己的模型中获得最佳性能，那就必须考虑所使用的数据管道。数据科学工具的功能通常围绕着预测建模，机器学习和数据可视化。

学习R语言，一篇文章让你从懵圈到入门

在实际工作中，每个数据科学项目各不相同，但基本都遵循一定的通用流程。具体如下：数据科学工作流程： 1.数据导入 2.数据整理 3.反复理解数据数据可视化数据转换统计建模 4.作出推断（比如

学习R语言，一篇文章让你从懵圈到入门

PivotalR：用于读取Pivitol（Greenplum）和HAWQ数据库中的数据

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐