spark大数据处理技术 - 腾讯云开发者社区

、、、

我有一个问题，我想在Spark中实现一个递归算法，并希望了解是否有任何建议可以在Spark中构建它，或者探索其他可能更适合的数据分析框架。构建一个在单个节点上运行的解决方案是很简单的(例如，spark master)，但假设目录结构非常大，具有O(十亿)个叶节点。对于使用Spark或其他框架/数据处理技术构建递归/迭代类型的数据管道，有什么建议吗？

浏览 37提问于2021-06-24得票数 0

1回答

Spark vs Hadoop

、、、、

我有一个使用Hadoop或Spark编写大数据处理应用程序的要求。我知道Hadoop对于批处理应用来说是最好的技术，而Spark对于分析应用来说是最好的技术。应用程序将获得一个输入文件和几个配置文件。现在，利益相关者建议使用Spark，因为他们认为Spark比MapReduce更快。但是我认为Spark不适合这个场景，因为它适用于分析应用，而不是批处理。此外，我只能在Spark中看到类似聚合函数的API，无法找到任何内置的API来按记

浏览 0提问于2015-01-06得票数 1

1回答

“部分数据负载”术语

、、、

在我的例子中，我有一个非常大的文件，即“环境A”。为了改进我的数据处理(并阻止我的PC崩溃)，我只一次加载这个环境的一小部分。我不会将数据分割成不同的文件。是否有一个术语更简洁地描述了这种数据处理技术，而不是“部分负载”？

浏览 0提问于2022-10-18得票数 0

2回答

如何在Cloud Dataproc上安装Apache Spark的自定义版本

、、

如何在安装自定义版本的Spark的同时保持与Cloud Dataproc工具的兼容性？

浏览 3提问于2018-04-12得票数 3

1回答

在不同数据库上使用SparkSQL处理查询

、

我希望将Spark (安装在机器1上)与连接器一起用于不同的数据存储，如HBase、Hive、Cassandra和MySQL (安装在机器2上以执行Min/Max、averaging等简单的分析)。我的问题是:这些查询是在Machine1或Spark上处理的，只是作为一个接口来执行不同的分析，而是在数据存储端(即。机器2)？

浏览 1提问于2021-08-25得票数 1

回答已采纳

1回答

WCF与Spark的集成

、、、、

对于一些时间和资源密集型任务，我们正在尝试将WCF服务与Apache Spark集成。WCF服务应该调用Apache Spark来执行任务。Apache Spark支持java而不是C#。我们需要一些方法来从WCF服务调用Spark来进行数据处理。我们正在尝试以插入式山墙方式添加spark。如果在不久的将来出现任何新技术，那么我们可以很容易地用它来取代spark。一种方法是使用消息队列，其中WCF将任务放在队列中，spark从队列中获

浏览 0提问于2015-12-23得票数 2

1回答

如何使用python对数千行数据执行ETL？

、、、、

我有一个pgAdmin数据库，它在geojson format.Using中包含数百万行，这个表是我创建的Tableau仪表板。由于行包含geojson格式的数据，所以我必须这样查询：jsondata -> 'properties' ->> 'qq',,jsondata -> 'properties' -&g

浏览 4提问于2020-04-10得票数 0

2回答

单通计算与多通计算的区别

、

我正在读一篇关于Apache Spark的文章，我发现了以下几句话： Hadoop作为一种大型数据处理技术已经存在了10年，并已被证明是处理大数据集的首选解决方案。但是，我不太确定答案是否也适用于数据处理。有人能解释一下什么是单通计算和多通计算吗?为什么后者更好，因而在火花中使用？

浏览 5提问于2019-10-16得票数 1

回答已采纳

1回答

将Spark处理的中间数据复制到目标S3时出现的AWS性能问题

目前我正在使用AWS电子病历进行数据处理。S3被用作着陆区域和最终处理的数据。来自S3的最终处理数据将被加载到Redshift中，以便客户运行Analytics。Spark创建了一个用于数据处理的中间文件夹，我们从该文件夹将最终处理的数据压缩到另一个S3 Bucket。spark.conf.set('spark.sql.sources.partitionOverwriteMode', 'dynamic

浏览 2提问于2020-10-04得票数 0

1回答

Pyspark能否使用JDBC传递Alter Table

、、、

我知道我可以使用spark.read.jdbc传递查询，但在本例中，我想在数据加载后添加一个唯一约束。其目的是通过减少创建唯一索引的时间来加速到db中的数据加载过程。

浏览 22提问于2020-06-02得票数 0

回答已采纳

1回答

弗林克还是火花？当流不重要时

、

非常流行，并广泛部署在非常大的生产系统。顺便说一下，我读过。这不能给我一个好的答案。

浏览 5提问于2017-05-19得票数 3

回答已采纳

1回答

PC上的大量数据？

、、

我能用spark来做这个吗？有什么建议可以在我的电脑上处理吗？谢谢

浏览 11提问于2019-10-23得票数 0

1回答

：它是为了激发sql还是火花流？

、、、

星星之火的概念是否进入了spark或Spark。传统上，数据访问似乎属于Spark。但是，纠正我的错误，数据处理似乎也能够处理实时数据，所以我进入了这个问题。

浏览 2提问于2017-06-29得票数 0

回答已采纳

2回答

pyspark和spark之间的记忆差异？

、、

我一直在尝试使用一个PySpark作业来创建包含一堆二进制文件的RDD，然后我使用flatMap操作将二进制数据处理成一堆行。所以我打开了spark-shell和PySpark，并使用默认设置运行了REPL/shell中的命令，唯一的附加参数是--master yarn. spark-shell版本可以工作，而PySpark版本显示了相同的运行PySpark有那么大的开销吗？或者这是binaryFiles是新的问题吗？我使用的是Spark版本2.2.0.2.6.4.0-91。

浏览 1提问于2018-08-11得票数 0

1回答

DC/OS上的Mesos主配置

、、

我正在为运行Kafka->Spark->Cassandra工作负载在AWS上创建DC/OS集群。我可能会使用m3.size或r3大型实例。

浏览 3提问于2016-05-17得票数 2

回答已采纳

1回答

读取Avro文件，一次一行。Python

、

上下文:我想把Avro文件读入Spark作为RDD。我想知道，如果我可以访问Avro数据模式，是否可以一次解析一行Avro文件。我正在使用pyspark来编写我的spark作业。

浏览 1提问于2015-12-12得票数 1

1回答

Spark streaming每小时00:00运行处理

我正在尝试使用Spark每小时执行一次流数据处理，但我希望它开始时接近xx:00:00 (xx是小时id)。这是可能的，还是违背了Spark的意识形态？

浏览 1提问于2018-08-09得票数 0

1回答

Akka在SMACK架构中的作用

、、

当我们已经有Spark的时候，Akka在SMACK架构中的作用是什么？SMACK是由Spark提供的关于数据处理的，那么我们为什么需要Akka呢？

浏览 0提问于2016-11-04得票数 0

1回答

Apache Spark与MapReduce

、、

我一直在查找Spark和MapReduce之间的区别，我真正发现的是Spark在内存和磁盘上运行，这使得它的速度大大加快。但想必，使用Spark，您无论如何都会在内存和磁盘之间移动数据，因此如果内存空间不足，您可以将一些数据移回磁盘，然后引入新数据进行处理。基本上，还有没有真正的理由继续使用MapReduce？

浏览 0提问于2018-05-02得票数 0

1回答

如何在spark2-submits之间保持Spark集群的活力？

、

我需要在输入数据文件到达时通过执行spark2-submit来处理它们，以通过pyspark脚本处理输入文件。我观察到的是，对于每个spark2--submit，spark在进行最新输入文件的数据处理之前都会进行大量的初始化。这会导致延迟。如何在spark2提交之间保持Spark集群的活动状态？单独但相关的问题:除了spark2-submit之外，还有什么机制可以用来向spark提交有效负载？提前感谢你的见解。

浏览 2提问于2017-12-06得票数 2

点击加载更多