前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >俄罗斯最大搜索引擎Yandex开源梯度上升机器学习库,背后雄心满满

俄罗斯最大搜索引擎Yandex开源梯度上升机器学习库,背后雄心满满

作者头像
量子位
发布2018-03-28 15:25:45
1.4K0
发布2018-03-28 15:25:45
举报
文章被收录于专栏:量子位量子位
安妮 编译自 Tech Crunch 量子位出品 | 公众号 QbitAI

昨天,俄罗斯搜索巨头Yandex开源了Gradient boosting机器学习库CatBoost,它能够在数据稀疏的情况下教机器学习。即使没有像视频、文本、图像这类的感官型数据,CatBoost也能根据事务型数据或历史数据进行操作。

开源CatBoost只是Yandex新战略的一个开头。

Yandex是目前世界第五大搜索引擎

两次亮相

Yandex昨天的登台方式可不只一种。

首先,Yandex宣布,将用自研的新服务框架CatBoost替代原来的机器学习算法MartriNet。自2009年被研发出后,MartriNet一直被Yandex应用在多种任务处理上,比如排名、天气预报、出租车服务以及推荐任务上。现在,这些工作将逐渐被CatBoost取代,于未来几个月持续进行。

之后,Yandex宣布将免费提供CatBoost,任何想应用这项技术的人均可在Apache许可证下应用。“CatBoost是Yandex多年研究的尖端成果,”Yandex机器智能研究的主管Misha Bilenko在接受采访时表示,“我们曾用过很多开源的机器学习工具,是时候向社会作出回馈了。”

成为“中心”

Bilenko补充说,还没有计划要将CatBoost商业化,或以其他任何专利的方式将其关闭。“这和竞争对手无关,”他说,“我们会很高兴看到竞争对手使用它。”

近几年,随着Yandex实力增强,它一直在寻找提升它在俄语世界外的国际影响力。开源这项行为,不仅强调了Yandex对开源社区的承诺,还展示了Yandex想成为世界“中心”的雄心,无论作为大型科技公司还是更大的开发者社区。

CatBoost的三重奏

Bilenko说Yandex开源CatBoost是受到了两方面启示——一是谷歌在2015年开源TensorFlow,二是Linux的建立与成长。正如谷歌持续发展并升级TensorFlow一样,CatBoost的第一版将继续更新并将持续迭代。目前,这一版本主要有三种特性:

减少过拟合:它可以帮你在训练项目中得到更好结果。这是“基于一种专有算法来构造不同于标准Gradient boosting方案的模型”。

支持类别特征:将改进你的训练结果,同时允许使用非数字的因素,“而不是必须预先处理数据,或者花费时间和精力将数据转换为数字。”

用户友好的API界面:它还使用了一个API接口,允许从指令行或通过API让Python或R语言使用CatBoost,包括公式分析和培训可视化工具。

调适量少

虽然有大量其他数据库帮助增加梯度或用其他解决方案帮助训练机器学习系统,但Bilenko认为CatBoost相较其他框架的最大优点是测试精准度高。

“很多恶劣的机器学习代码需要大量调试,”Bilenko说,“CatBoost只需少量调试,并且性能良好。这是最重要的一个区别。”

最后,附CatBoost开源代码区地址:

https://catboost.yandex/

祝你玩得愉快~

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2017-07-19,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 量子位 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 两次亮相
  • 成为“中心”
  • CatBoost的三重奏
  • 调适量少
相关产品与服务
TI-ONE 训练平台
TI-ONE 训练平台(以下简称TI-ONE)是为 AI 工程师打造的一站式机器学习平台,为用户提供从数据接入、模型训练、模型管理到模型服务的全流程开发支持。TI-ONE 支持多种训练方式和算法框架,满足不同 AI 应用场景的需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档