Spark数据集显示:无法多次捕获输出_无法使用Spark脚本将Spark数据集写入HBase_Hadoop: spark作业无法处理小型数据集 - 腾讯云开发者社区

、、、

我需要一个方法来将我的数据集显示给我的log4j记录器。我使用的是：void org.apache.spark.sql.Dataset.show(int numRows, boolean truncate)，它只是简单地登录到stdOut。为了捕获stdOut，我做了以下操作(灵感可以在stackoverflow上的其他地方找到)： void myMethod(Dataset<Row> data){ // Save the oldoriginalPrintStrea

浏览 11提问于2021-01-26得票数 1

2回答

Spark流实时处理

、

假设worker 1正在处理job 1，它将生成其他works所依赖的数据输出。此外，这个过程应该重复多次，这意味着每当worker 1生成新的数据集时，其他worker都应该开始输入该数据集并完成自己的工作。spark能做到吗？到目前为止，我已经看到了spark流实时处理，但流通信似乎没有发生在工人之间？任何方向或建议都将不胜感激。

浏览 1提问于2015-07-06得票数 0

1回答

与多个源和操作相结合的火花缓存

、

我读了很多文章、博客和堆叠溢出的文章，但我仍然无法理解save如何在我的特定用例中缓存数据集，其中涉及大量的转换，但只有很少人读取和保存操作。阻止spark多次从表加载数据，也是因为这些操作将替换表内容，因此在执行操作时会导致意外行为(5)由于性能原因阻止spark多次执行某些转换(例如intermediateDs2和intermediateDs3首先，我认为最好缓存多次使用的数据集，并在不再需要<

浏览 4提问于2022-04-21得票数 0

2回答

Spark:缓存RDD/DF以便跨多个程序使用

、

我有一个从多个程序读取的数据集。与其每天多次将该数据集读入内存中，是否有一种方法可以让spark有效地缓存数据集，允许任何程序调用它？

浏览 4提问于2016-10-12得票数 4

回答已采纳

1回答

HadoopPartition的位置

、、

我在一个csv文件中有一个数据集，它在HDFS中占用两个数据块，并在两个节点A和B上进行复制。每个节点都有该数据集的副本。当Spark开始处理数据时，我已经看到了Spark如何将数据集加载为输入的两种方式。它要么将整个数据集加载到一个节点上的内存中并在其上执行大多数任务，要么将数据集加载到两个节点中并将任务分散到这两个节点上(基于我在历史服务器上

浏览 1提问于2015-07-04得票数 0

1回答

Spark:你能在输出文件中包含分区列吗？

、

我使用Spark将数据写到分区中。给定一个包含两列(foo, bar)的数据集，如果我执行df.write.mode("overwrite").format("csv").partitionBy("foo").save("/tmp/output")，则会得到以下输出/tmp/output/

浏览 10提问于2018-01-10得票数 9

回答已采纳

2回答

spark历史服务器不显示RDD，即使它是持久化的

、

我在spark版本2.0.2中运行spark shell。var myrdd = sc.parallelize(Array.range(1, 10))myrdd.cache但是我仍然无法在spark history服务器的"storage“选项卡中看到任何RDD信息。

浏览 20提问于2017-02-23得票数 1

回答已采纳

1回答

spark java.io.IOException:磁盘空间不足

、、

我在一个8节点的spark集群上运行逻辑回归算法，每个节点有8个核心和56 GB的Ram (每个节点都运行windows系统)。并且spark安装驱动程序具有1.9 TB的容量。我在are上训练的数据集有大约4000万条记录和大约6600个特征。at org.apache.spark.storage.DiskStore.putIterator(DiskStore.scala:78) at org.apache.spark.storage.BlockManager.doPu

浏览 2提问于2015-03-14得票数 1

1回答

model.freqItemsets FPGROWTH算法是spark 2.4没有显示完整数据集的任何结果

、、、

model.freqItemsets FPGROWTH algorithm is spark 2.4没有显示16 1Gb完整数据集的任何结果，但相同的模型或代码适用于1 1Gb样本数据集，这些样本数据集是16 1Gb数据集中的子集或样本数据集import org.apache.spark._ import org.apache.spark.SparkC

浏览 5提问于2018-11-28得票数 0

1回答

数据集是如何在编译时运行的？

、、

如果Spark有延迟评估，那么在运行时运行action命令之前，它如何获得数据的架构。如果我的上述理解是错误的，请告诉我。

浏览 6提问于2022-02-21得票数 0

回答已采纳

1回答

如何在Spark中找出哪个转换要花很长时间？

那么，如何在Spark中找出哪个转换需要很长时间呢？

浏览 1提问于2022-07-01得票数 -1

1回答

在JSON情况下，当模式推理留给Spark时，Spark为什么输出nullable = true？

、、、

当没有指定模式并将其推断留给Spark时，Spark为什么会显示nullable = true？// shows nullable = true for fields which are present in all JSON records. spark.read.json("s3://s3path但我无法理解背后的原因。PS:我的目标是为一个大型JSON数据集(< 100 in )推断模式，并想看看Sp

浏览 0提问于2020-04-25得票数 2

回答已采纳

1回答

为什么我的Spark运行得比纯Python慢？性能比较

、、、、

我试图用Spark在我的数据框上做一些pandas操作，令人惊讶的是，它比纯Python慢(即在Python中使用pandas包)。下面是我所做的：train_df.filter(train_df.gender == '-unknown-').count()sqlContext.sql("SELECT gender, count(*) FROM train GROUP BY gender").show() 同样的

浏览 1提问于2016-01-06得票数 12

回答已采纳

2回答

尝试在PySpark中使用partitionBy写入csv时出错

、

我有一个数据帧，我希望根据现有的日期列按年、月和日进行分区。最后，我想把分区的csv写到某个目录中。但是在写入目录时，当我调用partionBy()函数时，它会抛出下一个异常。.withColumn('day' ,func.dayofmonth(flights["date"]))\ at org.apache.spark.sql.execution.datasour

浏览 32提问于2019-03-02得票数 1

回答已采纳

1回答

当一个数据集涉及聚合时如何连接两个流数据集

、、、、

我在下面的代码片段中出现了错误-.add("org",StringType).add("booked_at",TimestampType) 创建流源数据<

浏览 3提问于2020-02-18得票数 0

1回答

无法使用星火驱动程序从多个数据库加载

我正在开发spark模块，需要从多个源(数据库)加载集合，但无法从第二个db获得集合。数据库 L_coll1 L_coll2String mst ="local[*]"; String host= "localhost";.config("spark.mongodb.input.uri", "mongodb://"+host+":"+

浏览 0提问于2019-04-16得票数 1

回答已采纳

4回答

火花提交输出结果

、、、

我是火花和scala编程的初学者，我试着在本地模式下运行spark submit示例，它运行完整，没有任何错误或其他消息，但我看不到任何输出结果在领事或星火历史网络用户界面.Where，我如何才能看到我的程序的结果在火花这是我运行的命令 spark-submit --master local[*] --conf spark.history.fs.logDirectory=/tmp /spark-events --confspark.eventLog.enabled=

浏览 0提问于2018-04-26得票数 1

回答已采纳

1回答

运行示例时出错

、、、

SparkSession spark = SparkSession .appName("Java Spark Hive Example")我将程序集复制到Hadoop scp -P 2222 ./usr/hdp/current/spark2-client/bin/

浏览 2提问于2017-12-18得票数 1

回答已采纳

1回答

如何使用中的hadoop office库将数据集写入excel文件

、、、

目前，我使用com.crealytics.spark.excel读取Excel文件，但使用此库，无法将数据集写入Excel文件。这个说，使用hadoop库(org.zuinnote.spark.office.excel)，我们可以读写Excel文件请帮助我在spark .中将数据集对象写入excel文件。

浏览 5提问于2017-06-28得票数 4

回答已采纳

1回答

如何使用Apache Spark建立B-tree索引？

、、

，我想用Apache Spark为它们构建一个b-tree index。格式是每行每条记录(用‘/n’分隔)。而且我也不知道输出文件的格式，我只想找一个推荐的构建b-tree索引的常规方法在中显示，但我现在希望在Apache Spark中有一个分布式并行版本。此外，B-tree的维基介绍了一种构建B-树的方法来表示大量现有的数据。(请参阅)似乎我应该提前对其进行排序，我认为对于大型数据集，排序非常耗时，甚至由于内存有限无法完成。

浏览 7提问于2015-03-07得票数 2

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云