最知名的5个机器学习框架,知道一个说明你入门了

AI 研习社消息:业内知名数据科学网站 KDnuggests,昨日评选出了四月份“你不可忽视的五个机器学习项目”。

你可能没听过它们,但今天或许会考虑上手。至于那些不同生态、不同编程语言的工具——对于高手而言,即便没有使用需求,借鉴它们的代码执行也能为自己的产品开发带来许多灵感。

AI 研习社提醒:顺序与重要性无关。

Scikit-plot

一帮缺乏艺术细胞的数据科学家,在某年某月某天突然心怀恐惧地意识到:可视化是数据科学最关键的东西之一,而不仅仅是一个加分项。

这就导致了 Scikit-plot 的诞生。

KDnuggests 副主编 Matthew Mayo 表示:

“我注意到 Scikit-plot,是因为在 Reddit 上看到了它的作者的发帖,随后几乎立刻便上了手。”

该项目旨在为Scikit-learn用户提供一系列标准、实用的图表。这包括:

  • Elbow plots
  • Feature importance graphs
  • PCA projection plots
  • ROC curves
  • Silhouette plots

Scikit-plot 库有两个 API,其中一个与 Scikit-learn 紧密整合,以控制对其 API 的调用(Factory API)。另一个更传统(the Functions API)。但无论哪个都应当足够你使用。

它的快速上手指南在这里。

Scikit-feature

Scikit-feature 是 Python 的开源特征选取资源库,由亚利桑那州立大学的数据挖掘&机器学习实验室开发。它基于 scikit-learn、Numpy 以及 Scipy。Scikit-feature 内置约 40 个常见特征选取算法,包含传统算法以及一些结构式、流式的特征选取算法。

所有的特征选取方案,都有一个共同目标:找出多余、不相关的特征。这是一个相当热门的研究领域,对此有无数算法。

Scikit-feature 既适用于实用特征选取工程,也适合做算法研究。查看它支持的算法列表请点击这里

一名为 Rubens Zimbres 的数据科学家曾如是说:

“在积累了经验,尝试了堆叠神经网络、并行神经网络、asymmetric configs、简单的神经网络、多层、dropout、激活函数等各种东西之后,我得出了一个结论:论效果,什么都比不上好的特征选取。”

Smile

Smile (Statistical Machine Intelligence and Learning Engine) 是一个快速、全面的机器学习系统。受益于先进的数据结构与算法,Smile 有最一流的性能。

Smile 覆盖了机器学习的方方面面,包括分类、回归、聚类、关联规则挖掘、特征选取、流形学习(manifold learning,)、多维尺度分析(MDS)、遗传算法、missing value imputation、最邻近搜索等等。

对于使用 Java 和 Scala 的开发者,目前来看,Smile 是最合适的机器学习库。你可以把它看作是一个 JVM Scikit-learn。该项目有非常全面的官方教程,地址: http://haifengl.github.io/smile/。该教程不仅覆盖了 Smile 使用技巧,还是很高质量的机器学习算法入门资料。

如果你用 JVM 开发机器学习,Smile 绝对值得一试。事实上,如果你身在这个生态系统却没听过 Smile,才是一桩奇闻。

Gensim

Gensim 是一个针对话题建模、文件索引、在大语料库中进行相似性检索的 Python 算法库。目标受众是自然语言处理和信息检索社区。

Gensim 是个以完整性为目标的多面手。其开发团队称,它为“常见算法提供了高效的多核执行,比如 Latent Semantic Analysis (LSA/LSI/SVD), Latent Dirichlet Allocation (LDA), Random Projections (RP), Hierarchical Dirichlet Process (HDP) 或 word2vec 深度学习。”

Gensim 的文件在这里。KDnuggets 以前发过一篇教新手用 Gensim 搞话题建模的教程,请戳这里。

Sonnet

本月初,DeepMind 在官方博客宣布了开源 Sonnet 的消息。雷锋网第一时间进行了报道:DeepMind发布Sonnet 帮你用TensorFlow快速搭建神经网络。

DeepMind 在博客中表示:

“对于 TensorFlow 而言,自从其在 2015 年末开源,一个由众多高级算法库组成的多样生态系统,便已围绕着它迅速发展起来。这些高级工具,允许常用任务以更简便、更快的方式完成,极大节省了开发者的时间精力。 作为该生态的新成员,Sonnet 也是如此。它与现有的神经网络算法库有许多共同点,但部分功能专为 DeepMind 的研究需要而设计。”

Sonnet 是基于 TensorFlow 的高级算法库。DeepMind 承认了它与一些现有产品比较类似,但整合了 DeepMind 研究所必须的功能与特性,比如允许特定模块在随机聚集的 Tensor 群组上运行:

“RNN 的状态,最适合于以异构 Tensor 集合来表示,用扁平列表来表示它们很容易会导致错误。Sonnet 提供了处理这些随机等级结构的功能,所以改变你的试验,使用另一种 RNN,并不需要繁冗地修改代码。DeepMind 已经对核心 TensorFlow 做了修改,以更好地支持这一使用情况。”

最后,希望本文能够对你产生帮助。让你知道一些此前没听说过的算法库,或者你并没有意识到自己其实需要的功能。

原文发布于微信公众号 - AI研习社(okweiwu)

原文发表时间:2017-04-14

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏新智元

AI摩尔定律继续超速?2028年,1美元能买200GFLOPS计算力!

【新智元导读】摩尔定律不断给人这种感觉:就是在此时此刻,我们正处于人工智能行业独一无二的大变革时期。然而,只要计算力的增长继续遵循指数级的价格-性能曲线,那么未...

1123
来自专栏ATYUN订阅号

Berkeley共享自主研究:人-机组合应用model-free RL,优化无人机实时辅助控制

想象这样一个场景,无人机驾驶员远程操控一架四旋翼飞行器,用机载摄像头进行导航和着陆。不熟练的飞行动态、陌生的地形和网络延迟都会影响这个系统,使得人很难对其进行控...

1095
来自专栏ATYUN订阅号

OpenAI:人工智能程序在Dota2的5V5比赛在中击败人类玩家

国外人工智能团队OpenAI在一篇博客文章中透露,为Dota 2设计的最新版本AI击败了五支业余选手团队,其中包括一个由Valve员工组成的团队。上一代 Ope...

1154
来自专栏专知

西湖大学张岳:自然语言处理中的多任务联合学习(384页PPT)

【导读】西湖大学张岳博士在EMNLP2018 上做了《Joint Models for NLP 》的Tutorial。

4223
来自专栏AI科技评论

视频 | 进化策略让AI开挂,玩游戏不断给自己续命

针对部分具有挑战性的深度强化学习问题,比如雅达利游戏,已经有研究表明,进化策略(Evolution Strategies)是强化学习的可行替代方案。

1012
来自专栏AI科技评论

英特尔IDF PPT揭秘: 高性能计算和深度学习发展的趋势

进行深度学习的训练向来不被认为是CPU的强项,但是以CPU研发见长的英特尔并不甘心屈服于这个定位,在过去的几年里,英特尔及其合作伙伴一直在探索用CPU来进行快速...

3634
来自专栏目标检测和深度学习

牛人教你高效读论文

1472
来自专栏量子位

国内首个深度学习开发SDK发布:深鉴科技对标英伟达TensorRT

安妮 发自 清华同方科技广场 量子位 出品 | 公众号 QbitAI AI芯片厂商开始意识到,AI芯片的计算性能再好,失去完备的软件包工具链的支持,也将丧失优势...

4397
来自专栏AI科技评论

业界 | 谷歌 Smart Compose:神经网络可以帮你写 Gmail 邮件了

AI 科技评论按:在 Google I/O 2018 上,除了 Google 助手给餐馆打电话的场景赢得现场观众的喝彩外,在用户写邮件时可预测下一句的 Smar...

1193
来自专栏大数据文摘

研究上千张数据图表后 我学到12条可视化的秘密准则 | 附资源

3074

扫码关注云+社区

领取腾讯云代金券