使用Scala Spark限制行_使用scala在Spark DataFrame中添加新行_使用Scala过滤Spark中未激活的行 - 腾讯云开发者社区

、

我可以看到所有行的顺序正确，如下所示： df1.orderBy($"count".desc)df1.show() 我还是得到了所有的行。[https://spark.apache.org/docs/latest/api/scala/org/apache&#x

浏览 10提问于2020-10-09得票数 0

回答已采纳

3回答

在静默模式下通过火花-shell执行scala脚本。

、、

需要以静默模式通过火花壳执行scala脚本。当我使用spark-shell -i "file.scala"时，在执行之后，我将进入scala交互模式。我不想进去。我试着执行星空-i "file.scala“。但我不知道如何在静默模式下执行脚本。spark-shell -i "file.scala"scala>

浏览 0提问于2019-08-28得票数 4

3回答

sparklyr失败，返回java.lang.OutOfMemoryError:超出GC开销限制

、、

我在使用spark_apply的Spark中遇到了GC开销超过限制错误。以下是我的规格：closure get_dates一次从Cassandra拉取一行数据。总共大约有200k行。这个过程运行了大约一个半小时，然后出现了这个内存错误。有什么想法吗？(SQLE

浏览 3提问于2018-03-10得票数 1

1回答

在SparkSQL中对数据集使用限制后应用筛选器时的奇怪结果

、

我使用的火花2.2.1，但我的问题似乎也发生在2.4。我正在尝试使用limit函数，其定义如下所示。 +---++---+| 1|| 3|+---+ scala>spark.range(10).limit(5).where(

浏览 0提问于2019-07-04得票数 1

回答已采纳

3回答

在使用mllib RandomForest训练数据时，我得到了一个错误。因为我的数据集很大，并且默认分区相对较小。(DiskStore.scala:123) at org.apache.spark.storage.DiskStore.getBytes(DiskStore.scala:132) at org.apache.spark.storage.BlockManager.doGetLocal(BlockManager.scala:517) at org.apache.spark

浏览 5提问于2015-04-17得票数 16

回答已采纳

1回答

如何在Spark* cosmosdb连接器中传递"WriteThroughputBudget“配置*

、

我正在使用spark cosmosdb连接器将数据批量写入cosmosdb容器。因为这是批量上载/写入，并且有读取操作在同一时间发生。我想通过spark连接器限制写操作使用的RU。根据连接器的wiki，我发现配置WriteThroughputBudget可以用来限制写RU的消耗。我尝试在write dataframe中使用option设置此配置，如下所示 inputDataset.write.mode(SaveMode.Overwrite).format(&q

浏览 1提问于2020-12-03得票数 0

1回答

未解析依赖关系火花库

、、

警告===public:尝试过的警告未解决的依赖路径:org.apache.sight:火花-核心:2.1.1 下面是我的build.sbt= "1.0" scalaVersion := "2.12.2"libraryDependencies ++= Seq("org.apache.spark" % "spark-cor

浏览 3提问于2017-05-29得票数 1

回答已采纳

2回答

星星之火:写入数据时“请求的数组大小超过VM限制”

、、、、

在运行我的Scala作业时，我遇到了一个"OutOfMemoryError: Requested数组大小超过VM限制“的错误。EMR集群上运行此作业，其组成如下：核心:1 r3.4×32 vCore，122个GiB内存 --conf spark.rpc.message.maxSize=2000 --conf spark.dynamicAllocation.enabl

浏览 0提问于2018-03-30得票数 0

1回答

在普通的Scala中有等效的爆炸函数吗？

我试图寻找爆炸功能或它的等价物在普通的scala，而不是火花。使用Spark中的below函数，我能够将一个具有多个元素的行平平成多个行，如下所示。scala> import org.apache.spark.sql.functions.explode scala> val test = spark.read.j

浏览 2提问于2020-02-24得票数 1

回答已采纳

1回答

在运行数据库连接时调用collectToPython时的StackOverflowError

、、

我使用DataBricks连接在远程群集上运行PySpark应用程序。当我试图检索一个列的最小值时，当另一个列有一个特定值时，我会遇到一个问题。:233) at scala.collection.TraversableLike.map$(TraversableLike.scala:231) at scala.collection.i

浏览 18提问于2021-11-26得票数 0

1回答

火花广播失败了

这个CSV文件是1.7GB，有100 m行。每一行都有一个独特的10个字符长的id。我的计划是将这些is从这个CSV文件中提取到内存集中，然后广播这个集合并使用它过滤另一个RDD。(KryoSerializer.scala:241) at org.apa

浏览 0提问于2018-09-11得票数 2

1回答

当使用火花中的大量列操作时，StackOverflowError

、、、、

我有一个宽的dataframe (130000行x8700列)，当我试图对所有列进行求和时，我会得到以下错误：线程"main“中的异常( scala.collection.generic.Growable:49) at org.apache.spark.sql.catalyst.expressions.BinaryExpression.children(Expression.scala:400) atorg.apache.spark.sql.catalyst.trees.TreeNode.c

浏览 1提问于2018-04-06得票数 6

回答已采纳

1回答

我可以用SQL语句指定并行度吗？

、

我很喜欢使用Spark，但就在此之前我遇到了一个问题。由于RDD的每个分区的大小限制，Spark会产生以下错误消息；(INT_MAX)。$$anonfun$getBytes$2.apply(DiskStore.scala:125) at org.apache.spark

浏览 5提问于2016-03-03得票数 1

回答已采纳

1回答

火花执行器由于GC开销限制而丢失，即使使用20个执行器每个使用25 GC。

、

这个GC开销限制错误让我发疯了。我有20个执行者使用25 GB，我完全不明白它怎么能抛出GC开销，我也不是那个大数据集。rows.scala:120) at org.apache.spark.rdd.RDD.computeO

浏览 0提问于2015-08-18得票数 1

回答已采纳

2回答

使用雪花火花连接器获得零指针异常

、、、

并尝试使用雪花火花连接器和jdbc驱动程序访问雪花。文件"/apps/shared/spark/python/lib/pyspark.zip/pyspark/sql/dataframe.py"，第378行 20/04/26 09:54:55 INFO DAGSchedulershow "/apps/shared/spark/python/

浏览 4提问于2020-04-26得票数 2

1回答

ML流水线上的火花驱动程序内存问题

、、

我正在运行逻辑回归管道，在这一行上：在RDDLossFunction阶段，我反复得到以下错误：文件"/usr/spark-2.3.0/python/lib/pyspark.zip/pyspark/ml/base.py"，第132行，fit文件"/usr/spark-2.3.0/python/lib

浏览 0提问于2018-06-07得票数 0

2回答

PySpark HiveContext误差

、、、

我试图使用以下命令使用PySpark刷新表分区。我可以发出任何其他SQL命令，但是MSCK REPAIR TABLE给我带来了问题。/python/pyspark/sql/context.py"，行488，在sql返回DataFrame(self."，行538中，在"/usr/hdp/2.3.0.0-2557/spark/python/lib/py4j-0.8.2.1

浏览 3提问于2015-10-08得票数 2

1回答

如何在AWS Glue Python中导入RateLimiter

、、、、

我想为从python脚本胶水作业到DDB的调用添加一个速率限制器，并减少它的调用量峰值。(ApplicationMaster.scala:778) at org.apache.spark.deploy.yarn.ApplicationMaster.run(ApplicationMaster.scala:244) at org.apache.spark.deploy.yarn.ApplicationMaster$.main(ApplicationMaster.scala:803) at o

浏览 0提问于2021-02-10得票数 1

回答已采纳

1回答

Mlflow.spark保存的模型可以加载为Spark/Scala* Pipeline吗？*

、、

我们的算法工程师正在使用pyspark和mlflow开发机器学习模型。他尝试使用mlflow.spark API保存模型&模型格式是原生spark MLlib格式。模型可以从Spark Scala代码加载吗？似乎mlflow在跨语言使用方面受到了很大的限制。

浏览 91提问于2020-06-19得票数 1

3回答

使用Scala2.12和Spark2.x

、、、

在Spark2.1 上，有人提到虽然Scala 2.11和2.12主要是源代码兼容的，以便于交叉构建，但它们并不是二进制兼容的。这使我们能够不断改进Scala</em

浏览 11提问于2017-03-19得票数 28

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云