如何使用scala创建包含随机内容的大型spark数据帧？

文章/答案/技术大牛

发布

1回答

scala、apache-spark、apache-spark-sql

我需要创建与1000+列，10M+行，1000个随机数据的随机数据大火花数据帧。我知道我需要创建一个大型的rdd并使用spark.sqlContext.createDataFrame(rdd, schema)在其上应用模式，到目前为止，我已经使用val schema = StructType((0 to 1000).map(n => Str

浏览 10提问于2019-03-05得票数 3

1回答

如何使用hive外部hive表创建空的数据帧？

scala、apache-spark

我正在使用下面的内容创建一个使用hive外部表的dataframe (spark scala)。但数据帧也在其中加载了数据。我需要一个使用配置单元外部表的模式创建的空DF。我使用spark scala来解决这个问题。 val table1 = sqlContext.table("db

浏览 20提问于2019-10-16得票数 1

3回答

字符串列包含通过spark scala进行精确匹配的单词

scala、apache-spark、apache-spark-sql

我有两个数据帧，第一个数据帧包含实际数据(从CSV文件读取)，第二个数据帧包含一个具有多个关键字的列。即下面的Dataframe-1外观相似(我们必须搜索的地方)：数据帧-2：我想要的输出：我在这里使用spark scala。我想要一个与dataframe-

浏览 1提问于2021-02-12得票数 0

1回答

如何解决pyspark Databricks中的GC开销

java、apache-spark、pyspark、garbage-collection、azure-databricks

我正尝试在spark dataframe中加载一个100 gb的json文件，并在其上创建一个临时视图。然后我用query查询这个视图中的数据。以下是我的集群详细信息：Databricks runtime Version : 6.1(Apache Spark 2.4.4) Worker Typespark.conf.set("spark.executor.memory&quo

浏览 0提问于2020-03-31得票数 1

2回答

使用dataframe scala创建文件名为时间戳的csv文件

scala、dataframe、csv、apache-spark

我有一个数据帧，数据如下。|1.0 ||football |2.0 |我想将上面的数据帧写入一个csv文件，其中的文件名将使用当前时间戳创建。给出了以下错误有没有更好的方式来使用

浏览 29提问于2021-03-02得票数 2

回答已采纳

1回答

包含空格的列的saveAsTable失败

pyspark、apache-spark-sql、spark-dataframe、emr、amazon-emr

我有一段pyspark代码，用于将数据帧转换为物理表：如果数据帧df包含名称中包含空格的列$.checkConversionRequirement(ParquetSchemaConverter.scala:581) at org.apache.spark.sql.executio

浏览 4提问于2018-03-08得票数 1

1回答

如何在spark中使用pandas split-apply-combine风格策略和scala* api？*

pandas、scala、apache-spark、split-apply-combine

我有一个scala函数，它接受一个spark dataframe并返回一个单值，也就是说两个值。这个函数很复杂，使用在DataFrame类中定义的聚合，调用其他java库，并且不能用SQL表达。它需要整个数据帧的内容来进行计算，它不能一次添加一行并建立一个结果。我有一个大的dataframe，其中包含一个列，我想用它将dataframe分成小块，并对每个小块执行上述计算。然后，我想返回一个新的<e

浏览 28提问于2020-04-22得票数 0

1回答

有没有一个与Scala的Seq.fill()等同的高效的PySpark/Python？

apache-spark、pyspark、functional-programming

我正在尝试使用PySpark创建随机生成的大型数据。下面的Scala代码基本上就是我想要的，但是我找不到一种在PySpark中复制seq.fill()的有效方法。def randomStringGen(length: Int) = scala.util.Random.alphanumeric.take(length).mkString val df = sparkContext.parallelizerandomS

浏览 0提问于2021-08-06得票数 1

2回答

使用scala统计spark数据帧中列组合的实例

scala、apache-spark、dataframe

我在scala中有一个名为df的spark数据帧，它有两列，即a和b，a列包含字母，b列包含数字，如下所示。a b g 0 g 0我可以使用以下命令获取不同的行它提供了以下内容：------

浏览 2提问于2015-10-28得票数 9

回答已采纳

1回答

如何在Scala中将Spark* DataFrames逐个添加到Seq()中*

apache-spark

我使用以下命令创建了一个空的Seq() scala> var x = Seq[DataFrame]()<console>:59: error: type mismatch; found : org.apache.spark.sql.DataFrame(which ex

浏览 57提问于2019-07-02得票数 0

回答已采纳

2回答

将火花DataFrame分割成两半，没有重叠的数据

dataframe、apache-spark

我有一个关于38313行数的Dataframe，对于一些AB测试用例，我需要将这个DataFrame分成一半并分别存储。出于这个目的，我使用的是org.apache.spark.sql.randomSplit，这个函数在一个小数据集上似乎很好，但是当您有一个大的DataFrame时，它就会引起一些问题。我注意到，每次我把DataFrame分成两半，我就会得到一个重叠的结果。//可能底层的dataframe不保证每次出现拆分时其&#x

浏览 0提问于2019-08-29得票数 1

回答已采纳

3回答

如何使用createDataFrame创建pyspark数据帧？

pyspark

我知道这可能是一个愚蠢的问题。

浏览 1提问于2018-03-12得票数 2

回答已采纳

1回答

如何在Spark中创建一组ngram？

scala、apache-spark

我使用Scala从Spark 2.2 dataframe列中提取Ngrams，因此(本例中为trigram)：如何创建包含所有1到5克的输出列？所以它可能是这样的： val ngram = new NGram().setN(1:5).setInputCol(&q

浏览 14提问于2018-01-26得票数 3

回答已采纳

3回答

删除spark数据帧中重复的所有记录

scala、apache-spark、duplicates、apache-spark-sql、spark-dataframe

我有一个包含多个列的spark数据帧。我想找出并删除列中有重复值的行(其他列可以是不同的)。我尝试使用dropDuplicates(col_name)，但它只删除重复的条目，但仍然在数据帧中保留一条记录。我需要的是删除所有最初包含重复条目的条目。我使用的是Spark 1.6和Scala 2.1

浏览 4提问于2018-04-10得票数 5

回答已采纳

3回答

如何比较SQL语句中两种数据的模式？

scala、apache-spark、apache-spark-sql

在spark (如 )中，有许多方法来验证两个数据帧的架构。但是我只想在SQL中验证两个数据帧的模式，我指的是SparkSQL。中没有数据库(模式)的概念，但是我读到了包含模式信息等的亚稳态。我们可以在SparkSQL中编写像上面这样的SQL查询吗？我只是在检查为什么显示create没有使用spark，是因为它是一个临时表吗？s

浏览 6提问于2018-09-04得票数 1

2回答

如何在Apache Spark中根据分隔符将单字符串列转换为多列

apache-spark、pyspark、apache-spark-sql

我有一个包含字符串列的数据框，我想在其中创建多个列。我想从它创建多个列。字符串的格式是相同的- col1:value1 col2:value2 col3:value3 ... colN:valueN。在输出中，我需要多个列- col1 to colN，值作为每列的行。以下是输出-我如何在spark</

浏览 23提问于2021-06-02得票数 0

回答已采纳

3回答

创建使用BigInteger的数据帧会抛出scala.MatchError: java.math.BigInteger类(属于java.lang.Class类)

scala、apache-spark、apache-spark-sql

Spark版本: 1.3 at org.apache

浏览 3提问于2015-11-19得票数 1

2回答

通过内部数组的索引高效地连接数组的数组RDD

scala、apache-spark、rdd

我正在使用Databricks运行一个使用Scala (v2.12)的Spark集群(v3.0.1)。我将Scala文件编译为JAR，并使用Databricks UI中的spark-submit运行作业。该程序的逻辑首先创建一个随机种子列表，并使用下面的代码行将其并行化： val myListRdd = sc.parallelize(myList, partiti

浏览 23提问于2021-02-12得票数 1

回答已采纳

1回答

无法写入和应用groupBy spark* DataFrame*

apache-spark、apache-spark-sql

我用下面的代码得到了我的spark数据帧scala> import sqlContext.implicits> val df = data.toDF()scala> df.write.parquet("df.parquet") 或使用聚合<

浏览 1提问于2015-10-15得票数 0

1回答

如何使用SHA-2和随机盐加密spark* sql数据帧列*

scala、encryption、apache-spark-sql、salt、sha2

我使用的是Scala编程语言。我想使用SHA-2算法和随机盐加密整个列的spark sql数据帧到目前为止，我得到的是这个，它工作得很好。

浏览 26提问于2020-02-21得票数 0

回答已采纳

点击加载更多