使用python或hadoop进行数据分析?

内容来源于 Stack Overflow,并遵循CC BY-SA 3.0许可协议进行翻译与使用

  • 回答 (3)
  • 关注 (0)
  • 查看 (509)

哪种技术可以有效地分析数据hadoop或python?哪种技术速度介于上述两者之间?

提问于
用户回答回答于

所谓大数据分析,其实是大数据处理当中非常关键的一个环节,而企业搭建大数据系统平台,负责大数据计算的框架不少,从Hadoop的原生MapReduce到Spark,Storm,Flink,这些年一直在不断更新迭代,各自更能适应的场景也并不相同。

Hadoop是当前大数据管理标准之一,运用在当前很多商业应用系统。可以轻松地集成结构化、半结构化甚至非结构化数据集。

Spark采用了内存计算。从多迭代批处理出发,允许将数据载入内存作反复查询,此外还融合数据仓库,流处理和图形计算等多种计算范式。

Storm用于处理高速、大型数据流的分布式实时计算系统。为Hadoop生态添加了可靠的实时数据处理功能。

而新兴的Flink,主打有状态的数据流计算,在计算性能上有极大的优势,目前也越来越受到市场的欢迎。

用户回答回答于

所以Hadoop主要使用spark。如果您用来分析或处理数据的底层框架包含spark,那么您最好使用Scala,PySpark或者R.使用单独的python不会为您带来Spark的好处,这会使数据分析更快,并且还可以进行各种转换大数据。无论你使用哪个,它都是关于使用spark。

Scala或PySpark:两者都包含几乎所有这些功能。

用户回答回答于

无论何时分析数据并将速度视为标准,两个关键组件都会确定速度:您拥有的数据量以及数据的位置。

如果您有大数据,请考虑使用Hadoop或Spark进行分析。这将使它更快,您将不依赖于加载时间。如果你有几千兆字节的数据,最好使用python,但它仍然可能会降低你的机器速度。

现在要解决数据的位置,如果你有自己的数据,那么python是最好的方法。如果您的数据位于云服务器中,那么AzureGCP甚至AWS都有大数据工具可用于简化数据探索。所有三个云系统都有大数据工具可供使用。

所以在速度方面,它实际上取决于两个约束。如果您拥有大数据,并且您的数据位于云系统中。考虑使用Hadoop来分析您的数据。如果您只有几千兆字节的数据和内部部署,请使用python来分析您的数据。

扫码关注云+社区

领取腾讯云代金券