我们如何使用JUnit进行Spark Dataframe测试？_使用动态测试次数进行JUnit测试_使用Spring Security进行JUnit测试 - 腾讯云开发者社区

apache-spark、apache-spark-sql

我有一个包含一些数据的json文件，我可以从中创建DataFrame，我感兴趣的特定部分的模式如下所示： val json: DataFrame = sqlc.load("entities_with_address2.json", "json") root |-- attributes: struct (nullable = true) | |-- Address2: array (nullable = true) | | |-- value: struct (nullable = true) | | | |-- Zi

浏览 1提问于2015-05-28得票数 23

回答已采纳

1回答

如何在不使用Spark的情况下对Spark中的数据进行排序？

java、sorting、apache-spark-sql

我现在正在使用Spark，但是我发现在Spark中使用对DataFrame进行排序非常缓慢。那么，如何在没有Spark的情况下对DataFrame进行排序呢？

浏览 4提问于2015-04-20得票数 2

回答已采纳

1回答

Junit在星火壳中的应用

scala、shell、apache-spark、junit

我在努力让junit在我的火花壳里工作。当试图从junit导入断言时，我将收到以下错误消息： scala> import org.junit.Assert._ <console>:23: error: object junit is not a member of package org import org.junit.Assert._ 有办法解决这个问题吗？我对如何从scala下载org.junit有什么想法吗？编辑：在遵循zsxwing的推荐之后，我使用了火花外壳程序包junit:junit:4.12，输出如下： C:\spark>spark-s

浏览 1提问于2017-02-06得票数 0

回答已采纳

1回答

在对SnappyData运行JUnit时找不到Jetty的GzipHandler类

apache-spark、junit4、snappydata

SnappyData v.0-5 我的目标是运行一个snappydata驱动程序来连接到远程服务器中的SnappyData。为此，我编写了一个Junit。然而，当我运行它时，我得到了一个错误，SparkContext是实例化的： **java.lang.NoClassDefFoundError: org/eclipse/jetty/server/handler/GzipHandler** at org.apache.spark.ui.JettyUtils$$anonfun$4.apply(JettyUtils.scala:235) at org.apache.spark.ui.

浏览 6提问于2016-08-06得票数 1

5回答

Scala :无法导入sqlContext.implicits._

scala、maven、apache-spark、apache-spark-sql

我尝试了下面的代码，无法导入sqlContext.implicits._ -它引发了一个错误(在Scala中)，无法构建代码：的值不是org.apache.spark.sql.SQLContext的成员我需要在pom.xml中添加依赖项吗？火花版本1.5.2 package com.Spark.ConnectToHadoop import org.apache.spark.SparkConf import org.apache.spark.SparkConf import org.apache.spark._ import org.apache.spark.sql._ impo

浏览 5提问于2016-01-18得票数 9

回答已采纳

2回答

SharedSparkSession在Spark MemoryStream scala测试中不起作用

spark-structured-streaming

我曾尝试编写Spark MemoryStream单元测试用例，但我的测试用例程序中没有导入SharedSparkSession。 **import org.apache.spark.sql.test.SharedSparkSession class MemoryStreamTest extends AnyFunSuite with SharedSparkSession { .... }** 我的build.sbt文件配置如下 **scalaVersion := "2.12.0" val sparkVersion = "3.0.0" libraryDepe

浏览 0提问于2021-04-08得票数 0

1回答

Spark To Cassandra:将没有空值的稀疏行写到Cassandra

scala、apache-spark、cassandra、apache-spark-sql、spark-cassandra-connector

问:如何高效地将Spark DataFrame中包含值的列写入Cassanrda？(在最小的Scala代码行中高效，而不是在Cassandra中创建一堆tombstones，让它快速运行，等等) 我有一个包含两个键列和300个潜在描述符值的Cassandra表。 create table sample { key1 text, key2 text, 0 text, ............ 299 text, PRIMARY KEY (key1, key2) } 我有一个与底层表匹配的Spark数据帧，但数据帧中的每一行都

浏览 0提问于2018-11-06得票数 2

1回答

使用创建火花DataFrames的最佳方法是什么？

scala、unit-testing、apache-spark、spark-dataframe

我正在为一个星火方法编写单元测试，它以多个数据帧作为输入参数，并返回一个数据帧。火花方法的代码如下所示： class processor { def process(df1: DataFrame, df2: DataFrame): DataFrame = { // process and return resulting data frame } } 相应单元测试的现有代码如下： import com.holdenkarau.spark.testing.DataFrameSuiteBase import org.apache.spark.sql.DataFrame

浏览 5提问于2017-12-19得票数 0

回答已采纳

1回答

在使用ScalaMock时尝试模拟DataFrameReader对象时出错

scala、mocking、scalamock

我想测试我们拥有的一个方法，它的格式类似于： def extractTable( spark: SparkSession, /* unrelated other parameters */ ): DataFrame = { // Code before that I want to test val df = spark.read .format("jdbc") .option("url", "URL") .option("driver", "<Driver>")

浏览 46提问于2020-04-20得票数 0

1回答

在同一个JVM - Java Spark中检测到多个正在运行的SparkContexts

java、mongodb、scala、apache-spark

我正在尝试使用JavaSparkContext从MongoDB集合中读取数据。因此，我有以下实用程序： public class SparkUtil { private String host; private Integer port; private String database; public final static Logger log = Logger.getLogger( SparkUtil.class ); private static final String SPARK_MONGO_INPUT_URI = "spa

浏览 0提问于2016-11-21得票数 0

2回答

项目在本地构建，但在travis-ci容器中失败。

java、travis-ci、spark-java

首先，对不起英语不好..。我创建了项目，以提供一种简单的方法将spring上下文放置到spark框架中。我创建一个测试来检查服务器是否启动并返回一个值。在我的个人电脑上运行，所有的测试都运行正常，但是在travis-ci连接测试失败。当地产出： Running com.github.rascorp.spark.spring.ConsoleAppInitializerTest abr 14, 2016 12:46:01 PM org.springframework.context.support.ClassPathXmlApplicationContext prepareRefresh I

浏览 4提问于2016-04-14得票数 2

回答已采纳

4回答

如何对PySpark程序进行单元测试？

python、unit-testing、apache-spark、pyspark

我目前的Java/Spark单元测试方法(详细的)是通过使用“本地”实例化SparkContext并使用JUnit运行单元测试来实现的。必须组织代码，以便在一个函数中执行I/O，然后使用多个RDD调用另一个函数。这很好用。我有一个用Java + Spark编写的经过高度测试的数据转换。我能用Python做同样的事情吗？如何使用Python运行Spark单元测试？

浏览 85提问于2015-11-20得票数 47

1回答

运行火花-使用Gradle从Intellij中移出红移

apache-spark、apache-spark-sql

我试图使用星火红移库，并且无法操作由sqlContext.read()命令创建的数据(从redshift读取)。这是我的代码： Class.forName("com.amazon.redshift.jdbc41.Driver") val conf = new SparkConf().setAppName("Spark Application").setMaster("local[2]") val sc = new SparkContext(conf) import org.apache.spark.sql._ val sqlContext

浏览 4提问于2015-11-04得票数 1

回答已采纳

3回答

pyspark to hive中的Pandas数据帧

python-2.7、pandas、hive、pyspark

如何将熊猫数据帧发送到hive表？我知道如果我有一个spark数据帧，我可以将它注册到一个临时表中，使用 df.registerTempTable("table_name") sqlContext.sql("create table table_name2 as select * from table_name") 但是当我尝试对registerTempTable使用pandas dataFrame时，我得到了以下错误： AttributeError: 'DataFrame' object has no attribute 'regis

浏览 0提问于2016-04-28得票数 9

回答已采纳

1回答

我们如何使用JUnit进行Spark Dataframe测试？

scala、apache-spark、junit、integration-testing、qa

我们正在尝试使用JUnit构建一个集成测试套件。我们的流水线(使用Scala构建在Spark中)将DataFrames作为输出，我们计划将它们与使用一些配置/ JSON输入传递的ExpectedOutput进行比较。我们有一些与JUnit集成的内部工具，用于覆盖和CI/CD，因此我们需要一种方法来将JUnit与我们的数据帧比较集成，但我们找不到任何这样的示例。有没有人看到过这样的实现，我们可以参考一下？

浏览 25提问于2019-10-18得票数 0

7回答

使用哪种查询来获得更好的性能，是在SQL中联接还是使用Dataset API？

apache-spark、apache-spark-sql、hbase

在使用spark、*Spark sql join*和*spark dataframe join*从HBASE获取和操作数据时，哪个更快？

浏览 2提问于2016-06-01得票数 2

1回答

连接器不映射数据

apache-spark、mongodb-hadoop

我试图在星火应用程序中映射来自mongodb连接器的数据。在此之前，我没有其他错误，所以我假设到mongodb的连接是成功的。我使用以下代码来映射： JavaRDD<AppLog> logs = documents.map( new Function<Tuple2<Object, BSONObject>, AppLog>() { public AppLog call(final Tuple2<Object, BSONObject> tuple) { AppLog log = new AppLog();

浏览 5提问于2016-10-13得票数 1

回答已采纳

2回答

PYSPARK :读取csv文件时将字符串转换为浮点型

python、apache-spark、pyspark

我正在将csv文件读取到dataframe datafram = spark.read.csv(fileName, header=True) 但是数据帧中的数据类型是字符串，我想将数据类型更改为浮点型。有什么方法可以有效地做到这一点吗？

浏览 0提问于2016-10-08得票数 6

2回答

使用最新spark版本时如何设置spark.sql.shuffle.partitions

shuffle、pyspark-sql

我想在pyspark代码中重置spark.sql.shuffle.partitions配置，因为我需要连接两个大表。但以下代码在最新的spark版本中不起作用，错误显示"no method "setConf“in xxx” #!/usr/bin/python # -*- coding: utf-8 -*- import sys import pyspark from pyspark.context import SparkContext from pyspark.sql.session import SparkSession sc = SparkContext('loc

浏览 6提问于2017-10-01得票数 4

回答已采纳

1回答

找不到CassandraSQLContext密钥

java、cassandra、apache-spark-sql

有人能帮我解决这个错误吗？这是我在卡桑德拉的桌子 CREATE TABLE zz("timestamp" timestamp, "sessionId" text, "userId" text, PRIMARY KEY ("userId", "sessionId", "timestamp")); 有一些数据 INSERT INTO rr ("userId", "sessionId", "timestamp") VALUES ('1',

浏览 1提问于2015-06-26得票数 2

回答已采纳

3回答

如何在maven的scalatest中运行单个测试

scala、maven、scalatest

我还没有找到任何关于如何做到这一点的文档。对于JUnit，等效项为： mvn -Dtest=org.apache.spark.streaming.InputStreamSuite test

浏览 0提问于2014-07-21得票数 21

回答已采纳

1回答

火花例外: org.apache.spark.streaming.api.java.JavaStreamingContext :java.io.NotSerializableException

java、spring、apache-spark、cassandra、spark-cassandra-connector

我试图运行一个相当简单的例子，其中涉及到连接星火与卡桑德拉和聚合数据。实现使用的是spring连接器、java、spring，实际上没有太多其他的. 这是我正在通过Spring连接的文件 @Configuration @ComponentScan("test.spark.service") @Import({CassandraConfig.class}) public class SparkConfig { @Autowired private String cassandraUrl; @Bean public SparkConf spark

浏览 8提问于2016-09-25得票数 2

1回答

无法在Scala应用程序中创建Spark SQLContext

scala、apache-spark、sbt

我无法创建SQLContext。我的代码： val sc = new SparkContext("local[*]", "myApp") val sqlContext = new SQLContext(sc) 我的sbt import AssemblyKeys._ assemblySettings name := "Ideas" version := "1.0" scalaVersion := "2.10.5" libraryDependencies ++= Seq( "org.scalates

浏览 16提问于2016-08-17得票数 0

3回答

使用单个开发/测试机器并发地处理Spark进程分区

scala、apache-spark

我天真地在本地模式下测试并发性，使用以下spark上下文 SparkSession .builder .appName("local-mode-spark") .master("local[*]") .config("spark.executor.instances", 4) .config("spark.executor.cores", 2) .config("spark.network.timeout", "10000001"

浏览 0提问于2019-08-25得票数 4

1回答

如何在pyspark中将DenseMatrix转换为spark DataFrame？

python、apache-spark、apache-spark-sql

除了下面使用Scala的示例之外，我没有找到任何用于将矩阵转换为spark dataframe的pyspark代码。有人知道如何使用python吗？ How to convert a mllib matrix to a spark dataframe?

浏览 61提问于2019-01-09得票数 1

回答已采纳

1回答

Apache的.Net UDF必须从笔记本中调用

azure、apache-spark、databricks、azure-databricks

我有一个.Net控制台应用程序，它对给定的输入执行一些操作并提供输出。在此基础上编写了星火包装器，并在本地运行良好。面对安装此.NET的问题，将包和依赖项发布到Azure集群中(随附此笔记本)。 using Microsoft.Spark.Sql; using System; namespace MySparkApp { class Program { static void Main(string[] args) { // Create a Spark session SparkSessio

浏览 2提问于2022-10-18得票数 0

回答已采纳

3回答

如何使用scala模拟星火DataFrameReader？

scala、unit-testing、apache-spark、mocking

我想要使用DataFrame从关系数据库中读取sparkSession.read.jdbc(...)的单元测试代码。但是，我没有找到一种方法来模拟DataFrameReader来返回虚拟DataFrame进行测试。代码示例： object ConfigurationLoader { def readTable(tableName: String)(implicit spark: SparkSession): DataFrame = { spark.read .format("jdbc") .option("url", s

浏览 1提问于2019-04-03得票数 5

回答已采纳

2回答

无效使用参数匹配器0匹配预期。3项记录

scala、unit-testing、mockito、aws-glue

我正在使用用scala编写单元测试。我正在使用org.mockito.Mockito.when和org.mockito.Matchers.anyString。正在测试的方法如下所示。 def getDataSourceToDataFrame(database: scala.Predef.String, tableName: scala.Predef.String): DataFrame = { glueContext.getCatalogSource( database = database, tableName = tableName, transformationContext

浏览 0提问于2018-11-09得票数 1

回答已采纳

3回答

我怎样才能用Scala来“拉皮条我的库”呢？

scala、implicit、implicits、scala-implicits

我使用Scala隐式类来扩展我经常使用的对象。作为一个例子，我有一个类似于在星火DataFrame上定义的方法 implicit class DataFrameExtensions(df: DataFrame) { def deduplicate: Boolean = df.groupBy(df.columns.map(col): _*).count } 但是，如果类已经定义了相同的方法，则不会调用隐式防御。如果我稍后升级到定义DataFrame#deduplicate方法的Spark的新版本，会发生什么？客户端代码将悄悄切换到新的实现，这可能会导致微妙的错误(或明显的错误，这是

浏览 1提问于2018-05-14得票数 11

1回答

使用ScalaMock使用隐式类测试类

scala、unit-testing、apache-spark、mocking、scalamock

假设我有一个将读取操作封装在Try块中的特性： import scala.util.Try trait ReadingProvider[T] { def readTable(tableName: String):Try[T] } 也是一个类，它提供了用spark读取的方法和用于从失败中恢复的方法的隐式类。 import org.apache.spark.sql._ import org.apache.spark.sql.types.StructType import scala.util.{Try, Success, Failure} class SparkReadingProvide

浏览 2提问于2020-03-06得票数 0

1回答

在Scala中调用静态模拟时的NotAMockException

scala、unit-testing、mockito、static-methods、powermockito

我试图在Scala中使用PowerMockito来绕过对scala.io.Source.fromURL的调用，这是Source类中的一个静态方法。我已经非常接近让它工作了，但我一直在使用NotAMockException。 import com.sun.xml.internal.messaging.saaj.util.ByteInputStream import org.junit.Test import org.junit.runner.RunWith import org.mockito.Mockito import org.powermock.api.mockito.PowerMocki

浏览 4提问于2019-04-20得票数 0

1回答

如何对org.apache.spark.sql.DataFrame绘制条形图？

scala、apache-spark-sql

我刚开始使用Scala和Spark，我正在尝试用org.apache.spark.sql.DataFrame做一个条形图。我发现我可以用scalaFX做条形图。问题是，我的任务必须用jupyter记事本完成，当我试图导入scalafx.application.JFXapp时，我会得到"error not : value scalafx“。我用的是尼龙核。这是我的数据： var numberOfAppsInCategory=df.select("Category").groupBy("Category").count().orderBy("cou

浏览 0提问于2019-07-16得票数 0

回答已采纳

1回答

无法创建Spark Phoenix DataFrames

apache-spark、dataframe、hbase、phoenix

我正在尝试将数据从Apache Phoenix加载到Spark DataFrame中。我已经能够使用以下代码成功创建RDD： val sc = new SparkContext("local", "phoenix-test") val sqlContext = new org.apache.spark.sql.SQLContext(sc) val foo: RDD[Map[String, AnyRef]] = sc.phoenixTableAsRDD( table = "FOO", columns = Seq("

浏览 0提问于2016-07-12得票数 2

1回答

如何在相同的spark上下文中并行运行多个spark作业？

apache-spark、spark-streaming、apache-spark-sql、vert.x

有没有办法在不同的线程中使用相同的spark上下文并行运行多个spark作业？我尝试使用Vertx 3，但看起来每个作业都在排队并按顺序启动。如何让它在相同的spark上下文中同时运行？下面是我的示例代码： vertx.executeBlocking(future -> { DataFrame dataframe = sqlContext.sql(sql); Row[] result = dataframe.collect(); System.out.println("Query result for " + sq

浏览 0提问于2015-08-27得票数 3

2回答

这是火花流或内存泄漏的错误吗？

memory、apache-spark、memory-leaks、apache-spark-sql

我将我的代码提交给一个星星之火的独立集群。提交命令如下所示： nohup ./bin/spark-submit \ --master spark://ES01:7077 \ --executor-memory 4G \ --num-executors 1 \ --total-executor-cores 1 \ --conf "spark.storage.memoryFraction=0.2" \ ./myCode.py 1>a.log 2>b.log & 我在上面的命令中指定执行器使用4G内存。但是使用top命令来监视executor进程，我注意到

浏览 3提问于2016-05-11得票数 9

1回答

写入Parquet/Kafka:线程"dag-scheduler-event-loop“java.lang.OutOfMemoryError异常

scala、out-of-memory、spark-dataframe、apache-spark-mllib、cloudera-cdh

我正在尝试修复在我的spark设置中看到的一个外存问题，在这一点上，我无法得出一个具体的分析，为什么我会看到这个。在将数据帧写到parquet或kafka时，我总是会遇到这个问题。我的数据帧有5000行。它的模式是 root |-- A: string (nullable = true) |-- B: string (nullable = true) |-- C: string (nullable = true) |-- D: array (nullable = true) | |-- element: string (contains

浏览 0提问于2017-09-14得票数 0

1回答

利用IntelliJ在本地集群上进行应用程序开发

intellij-idea、apache-spark、hive、cloudera

为了在本地集群上执行应用程序，我尝试了很多方法。然而，它并没有起作用。我使用的是CDH 5.7，spark版本是1.6。我正在尝试从CDH 5.7上的配置单元创建数据帧。如果我使用spark-shell，所有的代码都能很好地工作。但是，我不知道如何设置我的intellJ配置以获得高效的开发环境。这是我的代码； import org.apache.spark.{SparkConf, SparkContext} object DataFrame { def main(args: Array[String]): Unit = { println("Hello DataFr

浏览 0提问于2016-05-29得票数 1

1回答

如何编写从json文件读取spark应用的单元测试

scala、unit-testing、apache-spark、mocking

我在scala中有一个简单的Spark应用程序。现在，我希望我的spark应用程序只创建一个sparkSession并将Json文件读取到DataFrame中。 object SparkAppExample { def main(args: Array[String]): Unit = { val sparkSession = SparkSession.builder() .appName("Spark Scala Example") .getOrCreate() val records: DataFrame = sparkSession.read

浏览 15提问于2020-04-10得票数 0

1回答

类在集成Spark流和Apache时未找到错误

apache-spark、integration、ignite

我正在尝试将Apache集成到用Java编写的现有Spark流项目中，该项目对文本文件中的单词进行计数。但是，当我添加点燃火花的依赖项时，我得到了一个未找到的类错误： java.lang.ClassNotFoundException: org.spark_project.protobuf.GeneratedMessage at java.net.URLClassLoader$1.run(URLClassLoader.java:366) at java.net.URLClassLoader$1.run(URLClassLoader.java:355) at java.security

浏览 2提问于2015-12-16得票数 0

回答已采纳

2回答

爪哇星火DataFrameReader java.lang.NegativeArraySizeException

java、apache-spark、spark-dataframe

学习Spark并尝试使用.csv作为DataFrame读取DataFrameReader文件，甚至无法获得一个超级简单的.csv文件，因为我一直在获取异常java.lang.NegativeArraySizeException。以下是我正在做的事情： public void test() { DataFrameReader dataFrameReader = new DataFrameReader(getSparkSession()); StructType parentSchema = new StructType(new StructField[] {

浏览 6提问于2017-06-22得票数 4

回答已采纳

1回答

使用jdbc触发执行

oracle、scala、performance、dataframe、apache-spark

在Spark dataframe中，假设我从oracle获取数据，如下所示。查询会完全在oracle中发生吗？假设查询很大。那么，这对oracle来说是一种开销吗？更好的方法是读取单独的dataframe中的每个过滤表数据，并使用Spark SQL或dataframe连接它，以便在spark中进行完整的连接？你能帮个忙吗？ df = sqlContext.read.format('jdbc').options( url="jdbc:mysql://foo.com:1111", dbtable="(SELECT * FROM abc,bcd....

浏览 8提问于2020-09-17得票数 0

5回答

如何从Scala的迭代列表中创建DataFrame？

scala、apache-spark、apache-spark-sql、spark-dataframe

我有以下Scala值： val values: List[Iterable[Any]] = Traces().evaluate(features).toList 我想把它转换成DataFrame。当我尝试以下操作时： sqlContext.createDataFrame(values) 我得到了这个错误： error: overloaded method value createDataFrame with alternatives: [A <: Product](data: Seq[A])(implicit evidence$2: reflect.runtime.universe

浏览 159提问于2016-06-28得票数 38

回答已采纳

2回答

将星火数据分割成分区，并并行地将这些分区写入磁盘。

apache-spark、apache-spark-sql、parallel-processing、orc

问题概要:假设我在AWS中的EMR集群上使用spark处理了300+ GB的数据。该数据有三个属性，用于在Hive中对文件系统进行分区:日期、时间和(比方说) anotherAttr。我想把这些数据写到fs中，这样才能减少写入的文件数量。我现在要做的是得到日期、小时、anotherAttr的不同组合，并计算出组合的行数。我将它们收集到驱动程序上的一个列表中，并对列表进行迭代，为每个组合构建一个新的DataFrame，使用行数来对DataFrame进行重新分区以估计文件大小，并使用DataFrameWriter将文件写入磁盘，然后用.orc完成它。我们使用Parquet并不是因为组织上的原因

浏览 0提问于2020-05-09得票数 0

回答已采纳

1回答

如何在自定义的PySpark ML流水线_transform()方法中创建一个Spark DataFrame？

apache-spark、pyspark、apache-spark-ml

在Spark的中，转换器的transform()方法接受Spark DataFrame并返回DataFrame。我的自定义_transform()方法使用传入的DataFrame在处理之前创建一个RDD。这意味着在从_transform()返回之前，我的算法结果必须转换回DataFrame。那么我应该如何从_transform()中的RDD创建DataFrame呢？通常我会使用。但这意味着以某种方式将一个SparkSession实例spark传递到我的自定义Transformer (或SqlContext对象)中。这反过来可以创建，例如当尝试将转换器用作ML Pipeline中的阶段时。

浏览 4提问于2018-02-06得票数 0

回答已采纳

1回答

SparkException:不可序列化的任务- Java

java、apache-spark、junit5

我正在将测试从JUnit4迁移到JUnit5。代码在JUnit4中运行良好，但在JUnit 5中，它会引发org.apache.spark.SparkException: Task not serializable异常。我试过多种方法，但现在起作用了。在testAlternativeVegetableIdWithDifferentReadCount行中，assertTrue测试失败。当我试图显示Dataset值时，它也会抛出一个错误。我做错什么了？ @ExtendWith(MockitoExtension.class) public class ExportLogicTest implemen

浏览 5提问于2022-07-11得票数 0

1回答

缓存查询性能火花

apache-spark、apache-spark-sql

如果我试图缓存一个巨大的DataFrame (例如:100 to表)，当我对缓存的DataFrame执行查询时，它会执行完整的表扫描吗？星星之火将如何索引数据。星火文件说： Spark可以通过调用spark.catalog.cacheTable("tableName")或dataFrame.cache()来使用内存中的列格式来缓存表。然后，Spark将只扫描所需的列，并将自动调整压缩，以尽量减少内存使用和GC压力。您可以调用spark.catalog.uncacheTable("tableName")从内存中删除表。我没有完全理解上面的语句，如果有人

浏览 8提问于2017-08-14得票数 2

1回答

通过HTTP将Spark数据作为JSON主体发送的最佳方法

apache-spark、solr、apache-spark-sql、http-post

我有一个Spark dataframe，需要作为HTTP POST请求体发送。存储系统为Apache Solr。我们正在通过读取Spark dataframe集合来创建Solr。我可以使用Jackson库创建JSON并通过HTTP POST发送它。此外，dataframe可能有数百万条记录，所以首选的方式是通过batches通过HTTP发送它们。下面是我能想到的两种方法。我们可以使用foreach/foreachPartition操作的Spark dataframe和调用HTTP POST，这意味着HTTP调用将发生在每个执行器(如果我没有错)。这个方法对吗？而且，这意味着如果我有3个

浏览 2提问于2019-05-24得票数 1

1回答

如何在sparklyr中通过名称引用Spark DataFrame并将其赋值给变量？

r、apache-spark、dplyr、sparklyr

假设我运行了下面的代码，我忘记了将Spark dataframe iris赋值给R中的一个变量，并且我不能使用.Last.value来赋值，因为我在将数据复制到Spark之后立即运行了一些其他代码。 library(sparklyr) library(dplyr) sc <- spark_connect(master = "local") copy_to(sc, iris) 2+2 # ran some other code so can't use .Last.value 如何将Spark dataframe "iris“赋给R中名为iris_tbl的变

浏览 18提问于2018-08-16得票数 1

4回答

皮斯卡尔和主成分分析:如何提取该PCA的特征向量？我怎样才能计算出他们解释了多少差异？

apache-spark、apache-spark-sql、pyspark、pca、apache-spark-ml

我正在降低Spark DataFrame的维数(使用spark ml库)，并使用PCA模型(使用ml库)如下： pca = PCA(k=3, inputCol="features", outputCol="pca_features") model = pca.fit(data) 其中data是一个Spark DataFrame，其中有一个标有features的列，它是一个三维的DenseVector： data.take(1) Row(features=DenseVector([0.4536,-0.43218, 0.9876]), label=u'cla

浏览 0提问于2015-10-30得票数 25

回答已采纳

1回答

在星火数据中遍历列并计算最小最大值。

scala、apache-spark、apache-spark-sql、spark-streaming、spark-dataframe

我想在我的星火程序中遍历dataframe列，并计算min和max值。我对Spark和scala很陌生，一旦我在dataframe中获取它，我就无法遍历这些列。我尝试过运行以下代码，但它需要将列号传递给它，问题是如何从dataframe中获取它并动态传递它，并将结果存储在一个集合中。 val parquetRDD = spark.read.parquet("filename.parquet") parquetRDD.collect.foreach ({ i => parquetRDD_subset.agg(max(parquetRDD(parquetRDD.colum

浏览 3提问于2017-07-18得票数 0

回答已采纳