使用Spark/Scala，有没有一种方法可以连接复杂的数据结构？_有没有一种方法可以连接数组，但使用编号？_有没有一种方法可以在使用IntelliJ + Bazel + Scala的同时浏览库源代码？ - 腾讯云开发者社区

scala、apache-spark、join

我有一个结构复杂的数据框架。在该结构中，我需要根据来自另一个数据框的映射将一个值替换为另一个值。目前，我们通过分解数据帧，连接，然后使用聚合进行分组来实现这一点。分组的成本非常高。我从已经按我想要的方式分组的数据开始。有没有什么方法可以在不进行分解和分组的情况下实现这一点？以下是Zeppelin笔记本中的一些示例代码，用于说明我们当前的方

浏览 19提问于2020-04-17得票数 0

回答已采纳

1回答

原生scala与JNI

scala、java-native-interface

我正在将一个本机API提升到Scala。似乎有两种途径:使用JNI或使用Scala Native。 JNI用法在Java中创建您想要的方法，然后将它们映射到C中，您可以在C中编写C代码来访问API。优点:您可以直接使用原生API的数据结构。缺点:您的Scala代码现在还必须提供自己的本机包装器库，这增加了可移植性复杂性的

浏览 19提问于2018-03-02得票数 4

1回答

火花KUDU复杂更新语句直接或通过Impala JDBC驱动程序？

apache-spark、impala、apache-kudu

如果我查看Imapala Shell或Hue，我可以为KUDU编写足够复杂的IMPALA更新语句。例如，使用子选择更新和不更新的内容。很好。看看过去的JDBC连接方法，比如通过SPARK / SCALA进行mySQL，通过这种连接进行复杂的更新的可能性不大，这是可以理解的。不过，有了古都，我想情况会发

浏览 2提问于2017-11-08得票数 1

回答已采纳

1回答

有没有办法在远程环境下用Intellij运行scala工作表？

scala、apache-spark、intellij-idea

我正在寻找一种在集群上的spark shell中运行一些scala代码的方法。有没有办法做到这一点？或者甚至在一个简单的scala shell中，我可以实例化我自己的spark上下文。我试图在Intellij中寻找scala工作表的某种远程设置，但我无法找到任何有用的东西。到目前为止，连接到远程环境的

浏览 0提问于2018-11-08得票数 0

1回答

有没有人可以建议一种方法来传递一个listofJoinColumns和一个条件来加入pyspark。例如，我需要从列表中动态获取要连接的列，并希望在连接时传递另一个条件。下面解释了在scala中完成的类似操作：generating join condition dynamically in spark/scala 我正在寻找一个类似的解决方案在pyspark。我知道我可以</em

浏览 16提问于2020-11-10得票数 1

1回答

火花矢量和scala不变向量的区别？

scala、hadoop、apache-spark、apache-spark-mllib

我正在用Scala为Spark1.4编写一个项目，目前正在将我的初始输入数据转换为spark.mllib.linalg.Vectors和scala.immutable.Vector，我以后想在算法中使用它们有人能简单地解释一下两者之间的区别吗?在哪种情况下，一个比另一个更有用？谢谢。

浏览 5提问于2015-07-06得票数 1

回答已采纳

1回答

更新DenseVector类中的元素Spark

java、apache-spark、apache-spark-mllib

如何使用类的对象中的索引i更新某些元素

浏览 0提问于2015-08-12得票数 3

1回答

在spark程序中使用java集合

apache-spark

我对在spark程序中使用java集合有疑问？我从spark编程指南中了解到以下内容。设计您的数据结构以首选对象数组和原始类型，而不是标准的Java或Scala集合类(例如HashMap)。fastutil库为

浏览 0提问于2016-06-02得票数 2

6回答

Spark Sql JDBC支持

apache-spark

1)我们有来自不同来源( MySQL、甲骨文、卡桑德拉、蒙戈)的数据。我们想知道如何将这些数据放入Spark SQL中？有没有我们可以使用的实用程序？此实用程序是否支持连续刷新数据(将数据存储上的新添加/更新/删除同步到Spark SQL？ 2)在Spark SQL中创建多个数据库是一种方法吗？3)对于报告UI，我们使用Jasper，我们希望从Jasper<em

浏览 0提问于2014-07-08得票数 7

1回答

无法理解scala操作是如何在Apache spark中运行的

scala、apache-spark、time、rdd、operation

我所了解到的是，火花作业在有任务要在RDDS上操作的阶段上工作，在这些阶段中，它们是通过从spark控制台开始的惰性转换创建的。(如果我错了，请纠正我) ，那么这些函数和应用在RDDs上的任务之间有什么关系呢?Scala的编码有RDD上的操作，据我所知，RDD是逻辑

浏览 0提问于2019-07-07得票数 0

1回答

如何在不运行Apache作业的情况下获得DAG？

scala、apache-spark

我有一些Scala代码，我可以使用星火提交运行。据我所知，Spark创建DAG是为了调度操作。是否有一种方法可以在不执行繁重操作的情况下检索此DAG，例如，仅通过分析代码？我想要一个有用的表示，比如数据结构，或者至少是书面表示，而不是DAG可视化。

浏览 2提问于2017-09-16得票数 7

回答已采纳

1回答

通过C#的Apache查询

c#、.net、apache-spark、.net-spark、spark-dotnet

我想知道是否有一种方法可以使用C#来编写在Apache spark上运行的查询。我知道spark SQL查询可以用java/scala/python编写。有没有c#的接口？

浏览 6提问于2015-04-29得票数 6

1回答

整型、长整型或双精度型作为Spark* UDF的函数参数*

scala、apache-spark、spark-dataframe、user-defined-functions

我有一个简单的调用Scala函数的spark UDF。Scala函数目前使用'Long‘类型，如下所示 } 由于spark不支持Any类型，有没有一种方法可以传递一个泛型类

浏览 2提问于2017-08-24得票数 0

3回答

不使用Spark从Scala读取拼图文件

scala

有没有可能在不使用Apache Spark的情况下从Scala中读取拼图文件？我发现了一个项目，它允许我们使用普通的scala读写avro文件。然而，我找不到一种方法来读写拼图文件使用普通的scala程序而不使用Spark？

浏览 0提问于2016-02-06得票数 22

回答已采纳

1回答

使用jdbc从Spark* 2.3.1 Scala 2.11.8连接到Vertica*

scala、apache-spark、jdbc、apache-spark-sql、vertica

我正在尝试使用JDBC使用Sparkv2.3.1Scala2.11.8连接到Vertica dB。在Vertica网站上：当我点击链接时，它会带我到登录页面，在我传递日志后，在顶部弹出一个黄色的框，并说我没有查看下载的权限。我尝试了另一种方式，这次是从Vertica的下载页面下载。在中，我加载了3个jar文件(vertica-javadoc、vertica-jdbc、verti

浏览 1提问于2018-09-22得票数 0

回答已采纳

3回答

如何从多个列表创建pyspark dataframe

python、pyspark、apache-spark-sql

我想将两个列表转换为pyspark数据帧，其中列表是各自的列。| a| b| _3| _4|| 1| 2| 3| 4|+---+---+---+---++---+---+| 2| 3|| 4| 5|有没有一种方便的方法来创建这个结果

浏览 0提问于2018-10-13得票数 3

回答已采纳

1回答

如何在Spark* cosmosdb连接器中传递"WriteThroughputBudget“配置*

apache-spark、azure-cosmosdb

我正在使用spark cosmosdb连接器将数据批量写入cosmosdb容器。因为这是批量上载/写入，并且有读取操作在同一时间发生。我想通过spark连接器限制写操作使用的RU。根据连接器的wiki，我发现配置WriteThroughputBudget可以用来限制写RU的消耗。根据维基，WriteThroughputBudget是一个整数值，定义了某个Spark作业中<

浏览 1提问于2020-12-03得票数 0

1回答

使用Scala* api触发数据帧到EdgeRDD (GraphX)*

scala、apache-spark、spark-graphx

有没有一种从Spark DataFrame到EdgeRDD的好方法，而不需要在Scala代码中硬编码类型？我见过的用例类定义了EdgeRDD的类型。让我们假设我们的Spark DataFrame有StructField、("dstID", LongType, false)和("srcID", LongType, false)，以及0到22个额外的StructF

浏览 1提问于2015-06-30得票数 0

1回答

如果spark作业运行超过x分钟，有没有办法终止它？

scala、apache-spark

我使用bash在多个数据集上运行相同的spark(scala)函数。其中一些数据集将花费非常长的时间，我想跳过它们，这样我就可以在有限的时间内完成尽可能多的数据集。在scala函数中，有没有一种方法可以用来在作业运行超过x分钟时终止它？对于dataFolder/*中的文件名，我使用bash : for filename

浏览 0提问于2018-04-13得票数 0

1回答

简单esRDD引发异常(在Spark中使用了elasticsearch-hadoop连接器)

scala、elasticsearch、apache-spark

我正在使用elasticsearch中加载的一些测试数据，在本地主机上测试ElasticSearch和Spark的集成(使用elasticsearch-hadoop连接器)。scala> import org.elasticsearch.spark._ my_rdd: org.apache.

浏览 0提问于2017-02-03得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云