[访谈]数据大师Olivier Grisel给志向高远的数据科学家的指引

Olivier Grisel(OG)本人在InriaParietal工作,主要研发scikit-learn,使用Python语言编写的最流行的机器学习库之一。OG是机器学习、文本挖掘和自然语言处理领域的专家。大概在几周前,我们的Florian Douetteau (FD)对OG进行了一次访谈,很幸运,我得到这个机会去旁听。

在上一篇博文里(CSDN译文:[访谈] Olivier Grisel谈scikit-learn和机器学习技术的未来),我记录了谈话的内容,他们主要探讨了scikit-learn和MLlib,同时OG还对大数据的走向给出了一个自己的观点。访谈中,Olivier讨论了scikit-learn的发展方向,探讨了要如何发展才能足以抗衡新的机器学习库,如原本就设计在分布式数据框中工作的MLlib。期间,他沉醉于比较两个库的优势以及scikit-learn是如何发展到能够对不能在单一服务器上进行处理的数据执行计算。

今天,Olivier深入到技术层面进行探讨,他回答了数据科学初学者提出的所有问题。

不要等待,数据科学从现在开始!

明智地选择大规模

FD:这个问题来自某个机器学习初学者,他不知道该使用哪个框架和算法可以获得更强的扩展能力,你有什么建议呢?

OG:一个很好的规则就是根据你最终必需处理的数据量来抉择,当然还要把未来数据的增量考虑进去。最近,一台配置很好的机器可以有上百G的RAM。当然,原始数据集可能比这更大。一旦你提取了特征并将其转为数值表,你就可以得到更小的数据集,那样你就可以在内存中处理数据并使用scikit-learn运行预测模型。实际上,想要你的系统具有可扩展性,并不意味着你就必须使用MLlib。

大数据基础设施的挑战

FD:人们开始考虑如何管理大量的数据,对于如何得到一个很好的衡量标准,你的建议是什么呢?

OG:在你开始做机器学习之前,从一个基本模型开始很重要。比如,你可以对这些基本模型计算平均值。当你在Spark中做这些基本计算时,你可以看看管道和处理时间,确保在你的模型变得复杂之前,你没有设置一些多余的东西。

我建议他们选择自己数据中的一个子样本,在内存中能装得下,这样就可以使用所有可用的算法来做比较机器学习的分析结果,甚至是那些永远不能部署到整个集群的算法。你要记住,MLlib是通过限制它的算法面板来达到可扩展性功能。这表示它们如今的库并不像R或Python包那样多。子样本总归还是好的,回到小数据世界能确保你遵循正确的方法。

事实上,你也应该这样做,这样你就可以确保当你向你的样本添加更多的数据时,实际上你是在提高你的模型性能。这有利于检查。

将工作分析流程从一种语言(如Python)复制到另一种(如R或Scale),也是个不错的想法。像Data Science Studio这种工具,它使得在同一个数据上使用不同的编程语言设计两个管道变得更加容易。有些操作可能在另一些框架上表现的更自然或者更加高效,而且做这种管道转变训练是建立实践直觉的快速方式。一旦你的两个管道产生了一致的输出,那么你可以去请教经验丰富的同事或者专家朋友来帮你快速地检查下代码。他(她)应该知道如何使你的代码更加高效或更加精简并且避免语法错误。

FD:你可以给出一些你或者你的团队使用scikit-learn运行大数据集的例子么?

OG:这真的取决于我们正在研究和试验中的模型。当样本上升到数以万计的时候,一些模型就会失效。我们团队研究的数据集大概有百万兆字节,但是他们做了大量的预处理和降维操作。

对于缺乏经验的用户,这一点真的必须考虑。如果他们研究的数据集真的足够大,他们可能自然而然地选择使用Spark。但这种方法最终可能会以效率较低而失败告终。如果他们多给予一点思考,原本使用Spark需要消耗CPU几个小时来计算的任务,在笔记本上使用scikit-learn可能5分钟就完成了。实际上每种新的技术都是一把双刃剑。

Python VS R

FD:对于数据科学初学者而言,应该如何选择学习哪种语言和框架呢,你有好的建议么?

OG:个人认为,你必须根据你的喜好来选择,如果你身边有这方面的专家,你还可以依据他的情况而定。在数据科学中,交流可以让你学到更多的知识。如果你去参加聚会或者与其他人报名参加Kaggle比赛,那么你一定要抓住与专家互动交流的机会,这真的很重要。与他们相互交流学习的技巧和诀窍是学习数据科学很好的方式。

之后,将分析思路用另一个框架来表达就更加容易了。如果你掌握了一种语言,这种学习语言的方法是一样的。这一点最重要。这对于像Data Science Studio这种工具也是很有用的。你可以用它在一个环境下尝试不同的语言和技术。当你能轻松的比较结果时,将分析思路从一种语言翻译成另一种语言其实很简单,比如Python和R。

Olivier Grisel

最后,让我们再次感谢Olivier!

原文发布于微信公众号 - 人工智能头条(AI_Thinker)

原文发表时间:2015-10-16

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏达观数据

达观数据中国电信分享实录:推荐技术介绍

导读:3月下旬,中国电信大数据技术团队邀请达观数据技术团队前去进行技术交流和互相学习。达观数据联合创始人文辉就“视频推荐技术”进行了详细的讲解,主要从达观推荐系...

4359
来自专栏FreeBuf

走近科学:隐藏在图像数据库中的安全问题

本文原刊登于IEEE IT Professional杂志。 由于系统改造的代价之高,使用适于系统设计的网络安全措施则是最好的选择。而新科技和应用则带来更多安全与...

21810
来自专栏数据科学与人工智能

【数据科学家】数据大师Olivier Grisel给志向高远的数据科学家的指引

Olivier Grisel(OG)本人在InriaParietal工作,主要研发scikit-learn,使用Python语言编写的最流行的机器学习库之一。O...

2518
来自专栏深度学习与数据挖掘实战

干货|程序员到机器学习工程师飞跃的实战经验

“我是一名软件开发工程师,阅读过一些关于机器学习方面的书籍和博客文章,也学习过一些在线的关于机器学习的公开课。但是,我仍然不知道怎么应用到工程实践中……”

891
来自专栏CDA数据分析师

数据挖掘:微博用户画像之用户标签

摘要: 用户画像(User Profile),作为大数据的根基,它完美地抽象出一个用户的信息全貌,为进一步精准、快速地分析用户行为习惯、消费习惯等重要信息,提供...

2.7K8
来自专栏PPV课数据科学社区

2017年最全的数据科学学习计划(完结篇)

注: 在PPV课微信公众号回复“数据科学计划”获取PDF全文,内附学习资料网址推荐,让学习直达源头,不用找度娘更省心! 本文为2017年最全的数据科学学习计划(...

40611
来自专栏AI科技评论

开发 | Twitter客户支持数据集公布:来自大企业的超百万条推文与回复

AI科技评论消息,近日,Kaggle平台上公布了Twitter客户支持数据集,这个数据集包括来自大企业的超百万条推文与回复,大家可以利用这个数据集做很多有意思的...

4185
来自专栏熊二哥

项目管理快速入门02--“多快好省”

项目管理最重要的四个要素就是jd的口号,“多快好省”,当然这是不可能的,哈哈。 多:项目范围管理 快:项目时间管理 好:项目质量管理 省:项目成本管理 这部分内...

25610
来自专栏PPV课数据科学社区

【学习】干货收藏:如何进行大数据分析及处理?

众所周知,大数据已经不简简单单是数据大的事实了,而最重要的现实是对大数据进行分析,只有通过分析才能获取很多智能的,深入的,有价值的信息。 那么越来越多的应用涉及...

8096
来自专栏木东居士的专栏

闲谈大数据和算法

1942

扫码关注云+社区

领取腾讯云代金券