新版 Apache MADlib 的新增功能包括HITS实施。MADlib使得从SQL进行大数据机器学习成为可能。
MADlib 是用于可扩展数据库内分析的开源库。它可以采用数据并行实施的方法实施结构化和非结构化数据的数学、统计和机器学习方法。目前,它支持PostgreSQL、Greenplum Database和Apache HAWQ。MADlib最初是由加州大学伯克利分校的一个团队与Pivotal开发人员合作打造的,该项目于2015年作为孵化项目添加到 Apache 中。
MADlib 使用大规模并行处理 (MPP) 架构的完整计算能力来处理特大型数据集,而其他产品则因一个节点的内存中能够载入的数据量而受到限制。它的运行方式是在Greenplum Database (GPDB) 和 HAWQ上 完全并行实施大型数据集,这意味它可以提供比 R 或 Python 库更好的性能。
由于能够添加更多节点,可以随着数据扩展而实现更高的性能,因此它具有可扩展性。Greenplum Database 是一款高级、功能完善的开源数据平台,专为分析数量达PB级的数据而设计。HAWQ 是面向企业的 Apache Hadoop 原生 SQL 高级分析 MPP 数据库,并且目前是Apache孵化项目。
MADlib 在2017年8月成为顶级项目,当时,加州大学伯克利分校计算机科学系的教授、Trifacta 联合创始人兼首席战略官以及 MADlib 的原创作者之一 Joe Hellerstein 表示:
“
“MADlib从一开始就被设想为一款汇集各种开源工具的平台,供软件开发人员、计算研究人员和数据科学家用于协作开发可扩展的数据库内机器学习和统计方法。”
”
新发布的 MADlib 1.13 采用新的基于超链接分析的主题搜索(HITS)链接分析算法。HITS提供了一种通过分析链接来对网页评分的方法。
新版本的另一项改进是能够更好地处理k最近邻分类(k-NN)。MADlib 中的 k-NN 现在拥有更多的距离指标,并且能够在输出表中显示邻居列表。
多层感知器(MLP)增加了分组支持,并且还通过仅忽略NULL值而不是包含NULL的整个行,改善了相关分析结果的质量。
领取专属 10元无门槛券
私享最新 技术干货