如何使用Spark向记录添加新内容

文章/答案/技术大牛

发布

0回答

、

我有一个文本文件，其中包含以下几条记录： bbbbb我想添加一个字符串(例如" record :")放在每条记录的前面，所以每条记录都像这样： record:ccccc val aRdd = sc.textFile("/tmp/myFile") 如何使用Spark将字符串<

浏览 2提问于2017-01-01得票数 0

回答已采纳

1回答

GraphX Pregel接口:添加顶点和边

、

我使用的是Spark和GraphX 2.0.2。我读到我们可以在vertex程序中向图中添加顶点和边(计算()方法)。我想知道如何使用vprog添加新的边和顶点谢谢

浏览 4提问于2017-03-23得票数 1

1回答

向RDD添加新成员

、

我正在做一个研究项目，我正在修改Spark的某些方面，以满足我的最终目标。我正在尝试向RDD.scala类添加新的成员变量，然后在从工作节点(执行器)访问rdd时访问这些变量。在 answer中，其中一位spark贡献者提到，在executors中只能调用RDD的某些方法。所以，我想知道如何向RDD.scala添加新的成员字段，以便可以在executor中访问它？

浏览 1提问于2015-04-27得票数 2

2回答

如何向调用日志(呼叫历史)数据库添加新字段和记录？

我正在尝试制作一个VoIP应用程序，我想知道是否可以使用调用日志内容提供者执行以下操作-如果有人能给我举个例子，那就太好了。

浏览 3提问于2010-04-29得票数 7

回答已采纳

2回答

我使用的火花2.0，我想知道，它有可能列出所有的文件为特定的蜂巢表？如果是这样的话，我可以直接使用spark sc.textFile("file.orc")增量地更新这些文件。如何向hive表中添加新的分区？有什么api的蜂巢亚稳态，我可以使用火花？有没有办法获得映射dataframe row => partition_path的内部单元函数？现在我发现的唯一方法是FULL OUTER JOIN SQL +SaveMode.

浏览 2提问于2016-10-26得票数 6

回答已采纳

3回答

向现有数据库添加Envers

、

在这个应用程序中，我需要向两个实体(两个表)添加审计，我决定使用Envers。对于每次INSERT、UPDATE或DELETE，Envers都会向实体的审计表中添加一条新记录。Envers文档非常简单，并且没有提到任何关于向现有应用程序添加Envers的内容。如果我简单地添加Envers支持并创建相应的审计表，它们将从空开始，因此当我更新现有实体时，Envers将向审计表中添加<

浏览 0提问于2013-03-21得票数 8

1回答

如何处理spark scala中withcolumn和continue剩余记录异常

、、

我正在尝试使用scala中的withColumn向spark数据帧中添加一列，我正在尝试用try-catch编写这段代码，这样我就可以捕获异常并记录这些错误记录，然后继续剩余的记录。在spark-scala中有没有一种方法来处理withColumn中发生的异常？请提个建议。

浏览 2提问于2020-03-04得票数 0

1回答

apache spark独立变更执行器用户名

、、、

我在Ubuntu下以独立模式使用Apache Sparkspark worker是在一个用户下启动的，该用户拥有我尝试保存到的文件夹的权限。创建了一个文件夹，然后它就不能在其中创建任何新内容。我该如何解决这个问题呢？

浏览 17提问于2017-08-06得票数 0

回答已采纳

1回答

如何在同一spark上下文中运行多个按需作业

、

我想在相同的spark上下文中按需运行不同的作业，但我不知道如何才能做到这一点。我在Amazon EMR上运行代码，使用yarn作为资源管理器。=true \

浏览 2提问于2017-02-06得票数 1

4回答

对象流不是包org.apache.spark的成员。

、

我正在尝试编译一个简单的scala程序，我正在使用StreamingContext，下面是我的代码片段：import org.apache.spark.SparkContextimport org.apache.spark.scheduler.SparkListener import org.apache.spark.scheduler.SparkListenerStageCompletedimport org.apache.s

浏览 11提问于2016-04-05得票数 5

回答已采纳

2回答

Spark-shell -i路径/to/文件名替代

、

我们有：要运行scala脚本，是否可以向spark-defaults.conf文件添加类似这样的内容，以便它始终在spark-shell启动时加载scala脚本，从而不必将其添加到命令行。我想用它来存储我经常使用的import _，凭证和用户定义的函数，这样我就不必在每次启动spark-shell时都输入命令。谢谢，沙恩

浏览 15提问于2019-10-29得票数 0

回答已采纳

2回答

如果RDD变得更大，Spark将如何反应？

我们有运行在Apache Spark中的代码。对代码进行详细检查后，我确定我们的映射器之一正在修改RDD中的对象，而不是为输出创建该对象的副本。也就是说，我们有一个字典的RDD，而map函数将向字典中添加内容，而不是返回新的字典。 RDDs应该是不可变的。我们的基因正在发生变异。我们也有内存错误。问:如果RDD的大小突然增加，Spark会不会感到困惑？

浏览 14提问于2019-03-11得票数 2

2回答

如何在使用spark-submit时查看更多的实时日志？

、、、

我正在使用带有配置文件和包选项的'spark-submit‘，它运行起来花费了很长时间。如何‘打开’更多的日志记录(实时)，这样就可以看到瓶颈在哪里(例如，可能正在向我没有访问权限的特定服务器发出请求，等等)。理想情况下，我希望查看所有内容-从哪个库加载到哪个请求，以及向哪个服务器发出请求。谢谢。

浏览 6提问于2018-04-19得票数 1

1回答

当您每天收到包含所有数据(新旧)的XML或CSV文件时，如何只处理新数据

、、、、

例如，如果Yesterday.xml包含3条记录，则Today.xml包含4条记录(3条旧记录和1条新记录)。我只关心最后一行(新行)，因为我只想处理新数据，旧数据每天都在处理。使用火花和卡夫卡实现这一目标的最佳方法是什么？我需要将新的(和更新的)数据写入数据库(作为接收器)。的目的是向同一专业的人推荐新的记录。，在那里可以重新使用并查看它。如果除了处理XML之

浏览 1提问于2020-05-11得票数 0

2回答

在迭代星火数据集记录时添加多个列

)ds.printSchema() root 我需要迭代ds中的所有记录，对于每个记录</em

浏览 3提问于2017-07-27得票数 0

回答已采纳

1回答

Vora Spark* shell语法*

、

在Scala Spark语法上，用于Vora的Spark shell中是否存在编程上的差异。我需要确保我可以使用广泛可用的Spark示例。谢谢。

浏览 0提问于2015-11-17得票数 0

3回答

如何在apache spark中执行词干分析？

、、、

我正在做一个简单的项目，在apache spark中使用K-Means聚类，我做了一些预处理步骤，如标记化，停止单词删除，和hashingTF。这些是由spark own Tokenization()、StopWordRemover()和HasingTF()执行的。但我想在应用k均值聚类之前执行词干分析。但我不知道如何在spark DataFrame中实现它。有人能教我怎么做吗？

浏览 2提问于2017-05-08得票数 1

2回答

在Spark中对可变集合建模

、

如果不是，则根据消息中的数据将新实体添加到缓存中。(同时，新实体被持久化到数据库中)。我的第一个想法是从数据库加载到Spark RDD中。查找现有条目显然很简单。但是，因为RDD是不可变的，所以向缓存添加新条目需要进行转换。然而，既然Spark与RDD一起工作，那么我们如何

浏览 2提问于2016-01-25得票数 2

1回答

如何在Spark* Java中将带有值的列添加到新数据集中？*

、、、、

因此，我从java Spark API创建了一些数据集。这些数据集是使用spark.sql()方法从hive表填充的。因此，在执行了一些sql操作(比如joins)之后，我就有了一个最终的数据集。我想要做的是向最终数据集中添加一个新列，该数据集中的所有行的值都为"1“。因此，您可能会将其视为向数据集添加约束。Dataset<Row> final = otherDataset.select(otherDataset.col(&qu

浏览 1提问于2017-07-07得票数 8

回答已采纳

1回答

pyspark线程池执行器日志管理

、、、

我正在使用PYSPARK提取文件，并进行基本转换并将数据加载到配置单元。使用for循环查找提取文件并将其加载到Hive。我们大约有60张桌子。循环每个文件和加载都需要时间。所以使用ThreadpoolExecutor来并行运行线程。以下是示例代码原型。我正在将spark-submit日志重定向到一个文件。但是在使用threadpoolexecutor时，日志很笨拙，不能调试任何东西。基于线程对日志进行分组的更好方法。在这里，线程表示每个表。

浏览 4提问于2021-10-27得票数 0

点击加载更多