Python在数据处理方面的优缺点

文章来源：企鹅号 - 太阳软件站长经验分享

Python是数据科学家十分喜爱的编程语言，其内置了很多由C语言编写的库，操作起来更加方便，Python在网络爬虫的传统应用领域，在大数据的抓取方面具有先天优势，目前，最流行的爬虫框架Scrapy、HTTP工具包urlib2、HTML解析工具、XML解析器lxml等，都是能够独当一面的Python类库。

Python十分适合数据抓取工作，对于大数据的处理，Python在大数据处理方面的优势有：

1、异常快捷的开发速度，代码量少；

2、丰富的数据处理包，使用方便；

3、内部类型使用成本低；

4、百万级别数据可以采用Python处理。

但是Python在处理数据时也存在一些劣势，比如Python线程有GIL，首先要明确一点，GIL并不是Python的特性，它是在实现Python解析器（CPython）时所引入的一个概念，就好比C++是一套语言标准，但是可以用不同的编译器来编译成可执行代码。由于戴上了GIL这样一把“大锁”，Python处理数据在多线程时只能在一个核上跑，浪费了多核服务器，另外对于亿级别以上的数据，Python的效率不高。

Python适合大数据的抓取、载入和分发，相比于其他语言更简单高效，求一些常用的统计量和一些基本算法结果，Python也有现成的高效的库。针对大数据的处理，Python确实存在一定的局限性，但是用Python做整个流程的框架是非常好的，至于核心CPU密集操作可以采用C语言等编程语言。

发表于: 2018-09-012018-09-01 10:24:26
原文链接：https://kuaibao.qq.com/s/20180901A0GDQR00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

Python在数据处理方面的优缺点

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐