spark大数据处理机器_Spark大数据处理_大数据处理spark - 腾讯云开发者社区

hadoop、apache-spark

随着see在市场上的增长，我可以看到spark在Hadoop上的主要用例如下：而且处理得很快。火花会在未来几天取代Hadoop吗？

浏览 0提问于2015-07-08得票数 3

回答已采纳

1回答

有人能解释一下吗："Spark支持与Hive不同的用例。“

hadoop、hive、apache-spark、shark-sql

我指的是以下链接： Hive是使用星火优化器还是构建自己的优化器？

浏览 4提问于2014-08-27得票数 1

回答已采纳

1回答

错误火花-装配-1.4.1-hadoop2.6.0.jar不存在

apache-spark

我正在尝试提交一个星火应用程序从本地机器终端到我的集群。我在用我也需要在集群上运行驱动程序，而不是在我提交应用程序的机器上，即我的本地机器上。我在用--class com.my.application.XApp Spark 1.4.1.2.3 Apache

浏览 3提问于2015-12-21得票数 0

2回答

SparkSQL到底是什么？

apache-spark、mapreduce、apache-spark-sql、bigdata

或者是某种技术允许您连接到SQL数据库并使用Spark查询它？在这种情况下，这里的火花有什么意义--为什么不直接使用SQL？还是您可以将结构化SQL数据与平面数据结合使用？

浏览 0提问于2016-01-18得票数 3

回答已采纳

1回答

将火花数据转换为R数据

r、apache-spark、apache-spark-sql、apache-zeppelin、sparkr

我在工作中使用齐柏林飞艇上的R来开发机器学习模型。我使用%sparkr, sql(Constring, 'select * from table')从Hive表中提取数据，默认情况下，它生成一个包含9,400万条记录的spark数据帧。但是，我不能在这个Spark上执行所有的R数据处理任务，所以我尝试使用Collect(), as.data.frame()将其转换为R数据帧，但是我遇到了内存节点/超时问题。我想知道堆栈溢出社区是否知道通过避免超时问题将Spark转换为R的其他

浏览 0提问于2018-08-09得票数 0

2回答

如何在Cloud Dataproc上安装Apache Spark的自定义版本

apache-spark、google-cloud-platform、google-cloud-dataproc

如何在安装自定义版本的Spark的同时保持与Cloud Dataproc工具的兼容性？

浏览 3提问于2018-04-12得票数 3

2回答

YARN没有使用Google Dataproc实例中的所有可用内存

out-of-memory、google-cloud-platform、hadoop-yarn、google-cloud-dataproc

我正在使用h1-highmem-16机器运行数据处理作业，每台机器都有104 GB的内存。为什么YARN没有使用全部104 GB的内存？

浏览 21提问于2017-01-19得票数 3

回答已采纳

1回答

如何使用python对数千行数据执行ETL？

python、etl、data-processing、data-management、python-datamodel

我有一个pgAdmin数据库，它在geojson format.Using中包含数百万行，这个表是我创建的Tableau仪表板。由于行包含geojson格式的数据，所以我必须这样查询：jsondata -> 'properties' ->> 'qq',,jsondata -> 'properties' -&g

浏览 4提问于2020-04-10得票数 0

1回答

如何在Apache Spark中实现递归算法？

apache-spark、bigdata、apache-flink、data-pipeline

我有一个问题，我想在Spark中实现一个递归算法，并希望了解是否有任何建议可以在Spark中构建它，或者探索其他可能更适合的数据分析框架。构建一个在单个节点上运行的解决方案是很简单的(例如，spark master)，但假设目录结构非常大，具有O(十亿)个叶节点。对于使用Spark或其他框架/数据处理技术构建递归/迭代类型的数据管道，有什么建议吗？

浏览 37提问于2021-06-24得票数 0

2回答

Apache Spark处理能力和资格

json、mongodb、python-3.x、apache-spark

我是Apache Spark的新手，不知道它是否适合我的特定场景。在我的例子中，我正在抓取小的数据集(作为MongoDB的JSON文件)。我正在尝试的是对这些数据文件运行机器学习(分类/回归)算法，并从中获取信息。当你考虑这种情况时，你认为Spark有资格在集群环境中通过并行处理来加速吗？或者你认为我应该收敛到一些其他的选择？

浏览 5提问于2017-06-11得票数 0

1回答