哪种技术可以有效地分析数据hadoop或python?速度介于上述两者之间的是哪种技术?
发布于 2018-07-31 04:42:23
所以Hadoop主要使用spark。如果你用来分析或处理数据的底层框架包含spark,你可以使用Scala,PySpark或者R。单独使用python不会给你带来Spark的好处,Spark可以让数据分析更快,也可以对大数据进行各种转换。所以无论你使用哪一个,都是关于使用spark的。
Scala或PySpark :两者都包含几乎所有这些特性。
发布于 2018-07-31 04:34:00
每当分析数据并将速度作为标准时,有两个关键组件决定速度:您拥有的数据量和数据所在的位置。
如果你有Big Data,考虑使用Hadoop或Spark来分析它。这将使它变得更快,并且您将不依赖于加载时间。如果你有几个千兆字节的数据,最好使用python,但它仍然可能减慢你的机器。
现在,为了解决数据所在的位置,如果您的数据在本地,那么python是最好的方法。如果您的数据位于云服务器中,那么Azure、GCP甚至AWS都可以使用大数据工具来简化这种数据探索。这三个云系统都有可用的大数据工具。
因此,就速度而言,它实际上取决于这两个限制。如果您有大数据,并且数据位于云系统中。考虑使用Hadoop来分析数据。如果您只有几to的数据和内部部署,可以使用python来分析您的数据。
https://stackoverflow.com/questions/51587062
复制相似问题