加米谷大数据：Python和Scala语言利弊

文章来源：企鹅号 - 加米谷大数据

1.性能对比

由于Scala是基于JVM的数据分析和处理，Scala比Python快10倍。当编写Python代码用且调用Spark库时，性能是平庸的，但如果程序涉及到比Python编码还要多的处理时，则要比Scala等效代码慢得多。Python解释器PyPy内置一个JIT（及时）编译器，它很快，但它不提供各种Python C扩展支持。在这样的情况下，对库的C扩展CPython解释器优于PyPy解释器。

使用Python在Spark的性能开销超过Scala，但其重要性取决于您在做什么。当内核数量较少时，Scala比Python快。随着核数的增加，Scala的性能优势开始缩小。

当大量的处理其工作时，性能不是选择编程语言的主要驱动因素。然而，当有重要的处理逻辑时，性能是一个主要因素，Scala绝对比Python提供更好的性能，用于针对Spark程序。

2.学习曲线

在用Scala语言编写Spark程序时有几个语法糖，所以大数据专业人员在学习Spark时需要非常小心。程序员可能会发现Scala语法有时会让人发疯。Scala中的一些库很难定义随机的符号运算符，而这些代码可以由没有经验的程序员理解。在使用Scala时，开发人员需要关注代码的可读性。与Scala相比，Java或Python是一个灵活的语法复杂的语言。对Scala开发人员的需求越来越大，因为大数据公司重视能在Spark中掌握数据分析和处理的高效而健壮的开发人员。

Python是为Java程序员学习相对容易的因为它的语法和标准库。然而，Python是不是一个高度并行和可扩展的像SoundCloud或推特系统的理想选择。

学习Scala丰富了程序员对类型系统中各种新抽象的认识，新的函数编程特性和不可变数据

3.并发性

大数据系统的复杂多样的基础结构需要一种编程语言，它有能力集成多个数据库和服务。在大数据的生态系统中，Scala胜在Play框架提供了许多异步库和容易集成的各种并发原语，比如Akka。Scala使开发人员编写高效的、可读性和可维护性的服务而不是。相反，Python不支持的重量级进程并行在用uWSGI时，但它不支持真正的多线程。

当使用Python写Spark程序时，不管进程有多少线程，每次只有一个CPU在Python进程中处于活动状态。这有助于每个CPU核心只处理一个进程，但糟糕的是，每当部署新代码时，需要重新启动更多的进程，还需要额外的内存开销。Scala在这些方面更高效，更容易共事。

加米谷大数据www.dtinone.com

发表于: 2019-01-152019-01-15 10:58:54
原文链接：https://kuaibao.qq.com/s/20190115A0D53A00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

加米谷大数据：Python和Scala语言利弊

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐