在spark数据帧中连续应用更改_如何在spark中连续获取相同的数据帧_Sparklyr -更改Spark数据帧中的列名 - 腾讯云开发者社区

r、sparkr

如何有效地将大型本地数据帧转换为SparkR数据帧？在我的本地开发机器上，当我尝试将~ 650MB的本地数据帧转换为SparkR数据帧时，它很快就会超出可用的内存，而我的开发机器上有40 of的Ram。 library(reshape2) years <- sample(1:10, 100, replace = T) storms <- sample(1:10, 100, replace = T) wind_speeds <- matrix(ncol = 316387, nrow = 100, data = sample(0:25

浏览 0提问于2016-09-08得票数 3

2回答

优化PySpark与pandas DataFrames之间的转换

pandas、pyspark、apache-spark-sql、azure-databricks、pyarrow

我有一个13M行的pyspark数据帧，我想把它转换成pandas数据帧。然后，将根据其他参数以不同的频率(例如1秒、1分钟、10分钟)对数据帧进行重新采样以进行进一步分析。从文献[，]中，我发现使用以下任何一行都可以加快pyspark到pandas数据帧之间的转换： spark.conf.set("spark.sql.execution.arrow.pyspark.enabled", "true") spark.conf.set("spark.sql.execution.arrow.enabled", "true") 但是，

浏览 11提问于2021-11-19得票数 0

1回答

使用从现有数据帧中选择的某些行集形成新的spark数据帧

python、hadoop、pyspark、spark-dataframe、apache-zeppelin

我有一个具有10^8行数的spark数据帧df。我已经在该数据帧上添加了一列，作为rowId，我希望将其用作主键。我使用下面的命令做了同样的事情 df.withColumn("rowId"，monotonically_increasing_id()) 现在，我想从该数据帧中选择一个新的数据帧，其中包含一些选定的行数，我已经知道这些行的索引是以列表的形式存在的。如果有人能帮助我用列表中选定的行数形成一个新的数据框，那将对我很有帮助。

浏览 0提问于2017-10-28得票数 0

1回答

星火流填充的Cassandra表上的星火SQL

apache-spark、cassandra、apache-spark-sql、spark-streaming

我有一个星火流的过程，是在实时填充卡桑德拉表。我想对Cassandra表进行查询，以访问底层数据。 CQL在语法上非常有限(条件有限，没有组)，所以我想在上面使用Spark。但是，一旦加载了数据帧，它就不会看到底层数据中的任何变化。如何不断刷新数据帧，使其始终看到数据的变化？斯尔詹

浏览 1提问于2016-02-24得票数 3

回答已采纳

1回答

将贴图列表保存到csv pyspark

python、python-3.x、apache-spark、pyspark

我有一个类似于下面的数据帧 new_df = spark.createDataFrame([ ([{'product_code': '12', 'color': 'red'}, {'product_code': '212', 'color': 'white'}], 7), ([{'product_code': '1112', 'color': 'black'}], 8), ([{'product_

浏览 1提问于2018-01-29得票数 3

回答已采纳

1回答

Spark 1.6和Spark 2.2中的不同rlike行为

scala、apache-spark、apache-spark-sql

我在Spark 1.6和Spark 2.2中对数据帧应用了一些过滤器，我得到了完全不同的行为。我正在执行的代码是： val df = Seq( (1, 2), (3, 4), (5, 6), (7, 8) ).toDF("col1", "col2") val filter = "col1 rlike '[\\x00-\\x1F\\x7F]'" df.filter(filter).count // This gives me 0 in Spark 1.6 and 4 in Spark 2.2 val filte

浏览 12提问于2019-04-29得票数 0

回答已采纳

2回答

无法使用火花连续流处理数据

apache-spark、pyspark、apache-kafka、spark-structured-streaming

我正在开发一个实时流应用程序，该应用程序可以从Kafka broker中轮询数据，并且我正在调整以前默认使用Spark结构化流的代码(带有微批处理)。但是，我不知道如何使用连续流而不是微批量流来获得类似的行为。这是一段可以工作的代码： query = df.writeStream \ .foreachBatch(foreach_batch_func) \ .start() 这就是我到目前为止对连续流的尝试： query = df \ .writeStream \ .foreach(example_func) \ .

浏览 1提问于2020-09-29得票数 5

1回答

为什么foreachRDD不使用DataFrame填充新的内容？

scala、apache-spark、apache-spark-sql、spark-streaming、apache-spark-mllib

我的问题是，当我将代码转换为流模式并将数据帧放入foreach循环时，数据帧会显示空表！我不填！我也不能将它放入assembler.transform()中。错误是： Error:(38, 40) not enough arguments for method map: (mapFunc: String => U)(implicit evidence$2: scala.reflect.ClassTag[U])org.apache.spark.streaming.dstream.DStream[U]. Unspecified value parameter mapFunc. v

浏览 3提问于2017-05-25得票数 0

回答已采纳

1回答

基于列值高效地从宽Spark数据帧中删除列

scala、apache-spark、apache-spark-sql

如果我有一个只包含IP地址的宽数据帧(200m cols)，并且我想删除包含空值或格式不佳的IP地址的列，那么在Spark中执行此操作的最有效方法是什么？我的理解是Spark并行地执行基于行的处理，而不是基于列的处理。因此，如果我尝试在列上应用转换，将会有大量的混洗。首先转置数据帧，然后应用筛选器删除行，然后重新转置是利用spark并行性的好方法吗？

浏览 11提问于2019-10-31得票数 1

3回答

如何处理spark sql中缺少的列

scala、apache-spark、apache-spark-sql

我们正在处理无模式的JSON数据，有时spark作业会失败，因为我们在spark SQL中引用的一些列在一天中的某些时间内不可用。在这些小时内，spark作业失败，因为所引用的列在数据帧中不可用。如何处理这种情况？我尝试过UDF，但是我们缺少太多的列，所以不能真正地检查每一列的可用性。我还尝试在更大的数据集上推断模式，并将其应用于数据帧，期望缺少的列将用null填充，但模式应用程序失败并出现奇怪的错误。请给出建议

浏览 5提问于2018-08-10得票数 2

1回答

Spark-SQL :如何将TSV或CSV文件读入dataframe并应用自定义模式？

scala、apache-spark、apache-spark-sql、spark-dataframe

我在使用制表符分隔值(TSV)和逗号分隔值(CSV)文件时使用Spark 2.0。我希望将数据加载到Spark-SQL数据帧中，在读取文件时，我希望完全控制模式。我不希望Spark从文件中的数据中猜测模式。如何将TSV或CSV文件加载到Spark SQL Dataframe中，并对其应用模式？

浏览 2提问于2017-04-20得票数 6

1回答

在spark数据帧上实现pythonic统计函数

pandas、apache-spark、pyspark、statistical-test

我在spark数据帧中有非常大的数据集，它们分布在节点上。我可以使用spark库pyspark.sql.functions进行简单的统计，如mean、stdev、skewness、kurtosis等。如果我想使用像Jarque-Bera (JB)或Shapiro Wilk(SW)等高级统计测试，我会使用像scipy这样的python库，因为标准的apache pyspark库没有它们。但为了做到这一点，我必须将spark数据帧转换为pandas，这意味着将数据强制到主节点中，如下所示： import scipy.stats as stats pandas_df=spark_df.toPan

浏览 30提问于2020-09-13得票数 0

1回答

火花批次内的顺序处理

apache-spark、apache-spark-sql、scheduled-tasks

我有一个关于星火批内顺序处理的问题。这里是一个程式化的版本的问题，我试图得到的答案，以保持简单。 import org.apache.spark.sql.SparkSession val spark = SparkSession .builder() .appName("Simple Dataframe Processing") .config("spark.some.config.option", "some-value") .getOrCreate() // For implicit conversions like co

浏览 1提问于2018-10-29得票数 2

2回答

异常:只能在流式数据集/DataFrame上调用“writeStream”

scala、apache-spark、spark-streaming

正在尝试创建spark数据流writeStream函数的测试，如下所示： SparkSession spark = SparkSession.builder().master("local").appName("spark session").getOrCreate() val lakeDF = spark.createDF(List(("hi")), List(("word", StringType, true))) lakeDF.writeStream .trigger(Trigger.Once) .format

浏览 0提问于2018-07-19得票数 8

3回答

取消持久化(py)spark中的所有数据帧

python、caching、apache-spark、pyspark、apache-spark-sql

我是一个spark应用程序，有几个点我想要持久化当前状态。这通常是在一个大的步骤之后，或者缓存一个我想要多次使用的状态之后。似乎当我第二次对我的数据帧调用cache时，一个新的副本被缓存到内存中。在我的应用程序中，这会导致在扩展时出现内存问题。尽管在我当前的测试中，给定的数据帧最大大约为100MB，但中间结果的累积大小超出了executor上分配的内存。请参见下面的小示例，该示例演示了此行为。 cache_test.py： from pyspark import SparkContext, HiveContext spark_context = SparkContext(appName=&#

浏览 9提问于2016-04-28得票数 39

回答已采纳

1回答

在sparklyr中断开连接后，spark数据帧会自动删除吗？如果没有，我们该怎么做呢？

r、apache-spark、hadoop、dataframe、sparklyr

在关闭连接时，以以下方式复制到spark的数据帧会发生什么情况？ library(sparklyr) library(dplyr) sc <- spark_connect(master = "local") iris_tbl <- copy_to(sc, iris) spark_disconnect(sc) 如果它们不是自动删除的，除了通过下面的方法删除每个数据帧之外，有什么简单的方法可以删除在会话期间创建的所有数据帧吗？ sc %>% spark_session() %>% invoke("catalog") %>% invoke

浏览 5提问于2018-08-24得票数 0

回答已采纳

1回答

Python -使用side_effect模拟一个在类的初始化内部调用的函数

python、mocking

我有这样一个类，Foo，它的函数使用我在其构造函数中初始化的数据帧。我想在我的测试类FooTest中测试它的功能。 from src.shared.utils import get_spark_dataframe class Foo(object): def __init__(self, x, y): self.a = get_spark_dataframe(x, y.some_db, "table_a") self.b = get_spark_dataframe(x, y.some_db, "table_b")

浏览 0提问于2019-02-25得票数 1

5回答

如何在pyspark中获取dataframe列的名称？

pyspark、pyspark-sql

在熊猫中，这可以通过column.name来完成。但是，当它的spark数据帧列时如何做同样的事情呢？例如，调用程序有一个spark数据帧: spark_df >>> spark_df.columns ['admit', 'gre', 'gpa', 'rank'] 此程序调用我的函数: my_function(spark_df 'rank‘)在my_function中，我需要列的名称，即’rank‘ 如果是pandas数据帧，我们可以在my_function内部使用 >>> pand

浏览 1提问于2016-09-28得票数 55

6回答

如何在spark中将rdd对象转换为dataframe

scala、apache-spark、apache-spark-sql、rdd

如何将RDD (org.apache.spark.rdd.RDD[org.apache.spark.sql.Row])转换为数据帧org.apache.spark.sql.DataFrame。我使用.rdd将数据帧转换为rdd。在处理之后，我想把它放回数据帧中。我该怎么做呢？

浏览 56提问于2015-04-01得票数 150

回答已采纳

1回答

SQLServer到Azure数据库的转换

sql-server、pyspark、apache-spark-sql、databricks、azure-databricks

我正在从事SQL Server到Databricks的迁移工作。我有一些TSQL程序，最少有100行代码。我想把这些程序转换成Spark代码。对于POC (在1个TSQL proc上工作)，所有的源文件都被导入并创建为GlobalTempView的，并将TSQL转换为Spark SQL。并使用作为文件导出的最终globalTempView。现在，我在这里有一个问题，创建GlobalTempView并将TSQL proc转换为Spark SQL是最好的方法吗?或者将所有文件加载到数据帧中并将TSQL proc重写为Spark数据帧逻辑是最好的方法。请告诉我TSQL procs转换成

浏览 10提问于2021-10-29得票数 1

1回答

使用Spark ML时的VectorUDT问题

scala、apache-spark、spark-dataframe、apache-spark-ml

我正在编写一个要应用于向量(spark.ml.linalg.Vector)类型的Spark数据帧列的UDAF。我依赖于spark.ml.linalg包，因此我不必在数据帧和RDD之间来回切换。在UDAF中，我必须为输入、缓冲区和输出模式指定数据类型： def inputSchema = new StructType().add("features", new VectorUDT()) def bufferSchema: StructType = StructType(StructField("list_of_similarities", ArrayTy

浏览 1提问于2016-08-17得票数 8

回答已采纳

3回答

不将Spark Dataframe转换为Pandas的方法

python、pandas、pyspark、databricks

有没有办法在不将数据帧转换为pandas的情况下绘制Spark dataframe中的信息？我在网上做了一些调查，但似乎找不到方法。我需要自动将这些图另存为.pdf，因此使用databricks的内置可视化工具将不起作用。现在，这就是我正在做的(作为示例)： # df = some Spark data frame df = df.toPandas() df.plot() display(plt.show()) 我想要生成折线图、直方图、条形图和散点图，而不将我的数据帧转换为pandas数据帧。谢谢!

浏览 17提问于2019-07-30得票数 8

1回答

高效地将Spark中的数据帧发送到其他应用程序

apache-spark、apache-spark-sql、spark-dataframe

我想将Spark上下文中的数据帧发送到我的客户端应用程序。目前，我只是将数据帧转换为内存中的列表，并通过ZMQ将该列表发送给客户端。但是调用Dataframe.collectAsList()需要花费很多时间。有什么方法可以提高这个过程的速度吗？或者我应该尝试其他方式将数据从Spark传递到其他应用程序？提前谢谢。

浏览 7提问于2016-09-13得票数 2

回答已采纳

4回答

在Apache Spark/PySpark中有没有实现带余弦距离的Kmeans？

apache-spark、distance、k-means、trigonometry

在Apache Spark中，有没有将余弦距离的KMeans应用于Tf-IDF处理的数据帧的工作实现？ Spark，当然在ml库中有欧几里得距离实现，但对于任何其他距离度量都不是这样。

浏览 0提问于2017-06-26得票数 1

2回答

Spark DataGrid备用行颜色更改

apache-flex、flex4.5、flex-spark

如何在Flex4.5 MobileApplication中为Spark数据网格设置交替行颜色。SparkDataGrid在移动应用中的主要问题是不允许添加皮肤。

浏览 1提问于2011-11-19得票数 0

2回答

AWS EMR上的pyspark with pandas和pyarrow错误：'JavaPackage‘对象不可调用

pandas、apache-spark、pyspark、amazon-emr、pyarrow

我尝试将Pandas数据帧转换为Pyspark数据帧，并得到以下与pyarrow相关的错误： import pandas as pd import numpy as np data = np.random.rand(1000000, 10) pdf = pd.DataFrame(data, columns=list("abcdefghij")) df = spark.createDataFrame(pdf) /usr/lib/spark/python/lib/pyspark.zip/pyspark/sql/session.py:714: UserWarning: creat

浏览 30提问于2020-06-29得票数 2

2回答

在spark 1.5.1中对regex列使用rlike

scala、apache-spark、apache-spark-sql

我希望通过将其中一列中的regex值应用于另一列来过滤数据帧。 Example: Id Column1 RegexColumm 1 Abc A.* 2 Def B.* 3 Ghi G.* 使用RegexColumm过滤数据帧的结果应该是id为1和3的行。在spark 1.5.1中有没有办法做到这一点？我不想使用UDF，因为这可能会导致可伸缩性问题，寻找spark原生api。

浏览 2提问于2020-03-18得票数 0

1回答

使用Spark进行json的多个表

apache-spark、pyspark、apache-spark-sql

你们能向我解释一下使用Apache Spark从各种Oracle和SQL Server模式中以json格式导出表的最佳方式是什么吗？Spark可以在同一应用程序中处理多个数据帧吗？谢谢!

浏览 0提问于2020-11-25得票数 0

2回答

如何将数据帧中的数据存储在变量中，以用作cassandra中select的参数？

apache-spark、cassandra、apache-spark-sql、spark-structured-streaming、spark-cassandra-connector

我有一个Spark结构的流媒体应用程序。应用程序从kafka接收数据，并且应该使用这些值作为参数来处理来自cassandra数据库的数据。我的问题是，我如何使用输入数据帧(kafka)中的数据，作为cassandra中的"where“参数"select”，而不会出现以下错误： Exception in thread "main" org.apache.spark.sql.AnalysisException: Queries with streaming sources must be executed with writeStream.start(); 这是

浏览 25提问于2021-05-24得票数 0

回答已采纳

1回答

Spark Dataframe正在丢失分区

hadoop、apache-spark、apache-spark-sql、spark-dataframe、bigdata

我在读取spark数据帧时发现了这个奇怪的问题。我将数据帧重新划分为50k个分区。但是，当我读取数据帧并对其执行计数操作时，我发现当我使用spark 2.0时，底层rdd只有2143个分区。因此，我转到保存重新分区的数据的路径，发现 hfs -ls /repartitionedData/ | wc -l 50476 因此，它在保存数据的同时创建了50k个paritions。然而，在spark 2.0中， val d = spark.read.parquet("repartitionedData") d.rdd.getNumPartitions res4: Int = 214

浏览 11提问于2017-08-11得票数 4

回答已采纳

1回答

spark.read。从零件文件读取数据时，将空字符串读取为null

dataframe、csv、apache-spark

让我们考虑包含以下数据的csv文件 Id、职务、年份 1，,2000 CSV读卡器代码： var inputDFRdd = spark.emptyDataFrame.rdd inputDFRdd = spark.read.format("com.databricks.spark.csv") .option("mode", "FAILFAST") .option("delimiter", ",") .option("header", "fals

浏览 49提问于2021-09-16得票数 0

1回答

枚举排序的PySpark数据帧中的序列

pyspark

我有一个Spark DF，我正在尝试对其应用额外的分组。它是表单的排序数据帧 -------------------------------------- | id | timestamp | head_indices | -------------------------------------- | 1 | 23 | 1 | | 1 | 24 | 0 | | 1 | 25 | 0 | | 1 | 55 | 1

浏览 10提问于2020-02-26得票数 0

2回答

在不停止进程的情况下刷新Spark实时流中的数据帧

apache-spark、amazon-s3、spark-streaming、spark-dataframe、snappydata

在我的应用程序中，我从Kafka队列中获得了一个帐户流(使用Spark streaming和kafka) 我需要从S3获取与这些帐户相关的属性，因此我计划缓存S3结果数据帧，因为S3数据目前至少一天不会更新，它可能很快会更改为1小时或10分钟.So问题是如何在不停止进程的情况下定期刷新缓存的数据帧。 **更新:每当S3中有更新时，我计划将事件发布到kafka中，使用SNS和AWS lambda，我的流媒体应用程序将订阅该事件，并基于该事件刷新缓存的数据帧(基本上取消持久化()缓存并从S3重新加载)这是一个好方法吗？

浏览 18提问于2017-07-24得票数 3

1回答

Apache Spark多个聚合

scala、apache-spark、apache-spark-sql

例如，我在Scala中使用Apache spark对数据帧中的多个列运行聚合 select column1, sum(1) as count from df group by column1 select column2, sum(1) as count from df group by column2 实际的聚合比sum(1)复杂得多，但它超出了要点。上面的例子这样的查询字符串是为我想要聚合的每个变量编译的，我通过Spark sql上下文执行每个字符串，以创建代表相关聚合的相应数据帧我的问题的本质是，我将不得不对数千个变量执行此操作。我的理解是，Spark每次执行聚合时都必须“读取”主数

浏览 1提问于2015-10-30得票数 0

1回答

将多个numpy数组加载到spark rdd中的最快方法？

numpy、pandas、apache-spark、pyspark、spark-dataframe

我是Spark新手。在我的应用程序中，我希望从许多numpy数组创建一个RDD。每个numpy数组是(10,000，5,000)。目前，我正在尝试以下操作： rdd_list = [] for np_array in np_arrays: pandas_df = pd.DataFrame(np_array) spark_df = sqlContext.createDataFrame(pandas_df) ##SLOW STEP rdd_list.append(spark_df.rdd) big_rdd = sc.union(rdd_list) 所有的步骤都很快，除了将

浏览 0提问于2016-06-28得票数 0

2回答

Spark read csv文件提交自--files

apache-spark

我正在向yarn上的远程Spark集群提交一个spark作业，并在spark-submit --file中包含一个文件，我希望将提交的文件作为数据帧读取。但我对如何在不将文件放入HDFS中的情况下进行此操作感到困惑： spark-submit \ --class com.Employee \ --master yarn \ --files /User/employee.csv \ --jars SomeJar.jar spark: SparkSession = // create the Spark Session val df = spark.read.csv("/User/emp

浏览 0提问于2018-11-28得票数 1

1回答

使用Spark流的红移

apache-spark、cassandra、spark-streaming、amazon-redshift

我有一个Kafka - Spark流应用程序，可以每分钟摄取和处理60K个事件。我需要一个数据库来存储我转换后的数据帧，以供可视化层访问。Redshift可以与Spark Streaming一起使用吗?还是应该使用Cassandra？我将在每30秒的spark窗口中处理和存储数据帧。另外，我需要从每个窗口的数据存储中读取数据。我猜Redhsift主要是一个数据仓库数据库，而不是用于OLTP类型的处理。有什么想法吗？

浏览 0提问于2017-09-28得票数 0

1回答

在spark sql中连接表时，有没有办法限制读取的数据？

apache-spark、apache-spark-sql

我想通过连接两个非常大的表来读取spark sql中的数据。但我只需要从结果数据帧中获得一个固定数字(假设是500)。例如： SELECT id, name, employee.deptno, deptname FROM employee INNER JOIN department ON employee.deptno = department.deptno 在这里，我可以在结果数据帧上使用head(500)或limit(500)函数来限制结果数据帧中的行，但它仍然会首先从这两个表中读取全部数据，然后在结果数据帧上应用限制。有没有一种方法可以避免在应用限制之前读取完整数据？

浏览 19提问于2020-09-17得票数 0

回答已采纳

1回答

从多个文件读取Spark数据帧

python、apache-spark、pyspark

假设您有两个s3存储桶，您想要从中读取spark数据帧。对于在spark数据帧中读取的一个文件，将如下所示： file_1 = ("s3://loc1/") df = spark.read.option("MergeSchema","True").load(file_1) 如果我们有两个文件： file_1 = ("s3://loc1/") file_2 = ("s3://loc2/") 我们如何读取spark数据帧？有没有办法合并这两个文件位置？

浏览 9提问于2021-10-18得票数 0

回答已采纳

3回答

Pyspark:序列化任务超过了允许的最大值。考虑增加spark.rpc.message.maxSize或对较大的值使用广播变量

dataframe、pyspark、message、rpc、max-size

我正在集群上进行计算，最后，当我使用df.describe().show()请求Spark数据帧的汇总统计数据时，我得到了一个错误：序列化任务15:0为137500581字节，超过了最大允许值: spark.rpc.message.maxSize (134217728字节)。考虑增加spark.rpc.message.maxSize或对较大的值使用广播变量在我的Spark配置中，我已经尝试增加了前面提到的参数： spark = (SparkSession .builder .appName("TV segmentation - dataprep

浏览 7提问于2019-01-31得票数 14

2回答

用于计算Spark中频率(值的等级)的UDF

scala、apache-spark、apache-spark-sql、spark-streaming

我想要计算数据帧Spark中列值的频率，即计算出现频率最高的values.How的等级。我们在Spark中为此定义数据帧UDF了吗？

浏览 7提问于2017-07-31得票数 0

1回答

如何将dataFrame转换为列表列表？

r、dataframe、sparklyr

我正在尝试使用spark_apply将R函数应用于Spark DataFrame。在我最初的问题中，我有一个列表列表，我已经将其转换为R数据帧，我将能够将其转换为Spark DataFrame。但是在我的R函数中，我需要使用一个列表列表，而我不知道如何从数据帧中取回我的初始列表列表。我已经找到了如何将dataFrame转换为列表的方法： lapply(seq(along = rownames(testP)), function(i) as.list(testP[i, ])) 我终于有了24个列表的列表，但我正在寻找8个列表的3个列表。感谢您的帮助！

浏览 10提问于2019-07-05得票数 2

回答已采纳

1回答

如何在pyspark中保存数据帧转换过程的部分结果？

python、apache-spark、pyspark

我在apache-spark中工作，用python在一个单独的数据帧上进行多个转换。我已经编写了一些函数，以使不同的转换更容易。假设我们有如下函数： clearAccents(df,columns) #lines that remove accents from dataframe with spark functions or #udf return df 我使用这些函数来“覆盖”dataframe变量，以保存每次每个函数返回时转换的新dataframe。我知道这不是一个好的做法，现在我看到了后果。我注意到，每次添加如下所示的行，运行时间都会更长： # Step transfo

浏览 2提问于2016-05-11得票数 5

1回答

如何设置分区数量不超过可用核数？

apache-spark、apache-spark-sql、sparkcore

我正在寻找一种方法来根据可用内核的大小对应用程序中的所有数据帧进行分区。如果我的可用核心数(执行器的数量*每个执行器的核心数)是20，那么我希望将所有数据帧重新分区为20。我看到的重新划分数据帧的唯一方法是df.repartition(20)，但我希望将其应用于我的应用程序中存在的所有数据帧，而不必为每个数据帧编写df.repartition(20)。更改spark.default.parallelism配置不起作用，因为它只在RDD(低级api)而不是dataframe时应用。对此有什么建议吗？

浏览 13提问于2019-10-29得票数 1

回答已采纳

1回答

Spark- Dataframe上的SQL窗口函数-查找组中的第一个时间戳

sql、apache-spark、dataframe、apache-spark-sql、window-functions

我有下面的数据框架(比如UserData)。 uid region timestamp a 1 1 a 1 2 a 1 3 a 1 4 a 2 5 a 2 6 a 2 7 a 3 8 a 4 9 a 4 10 a 4 11 a 4 12 a 1 13 a 1 14 a 3 15 a 3 16 a 5 17 a 5 18 a 5 19 a 5 20 这些数据只是用户(uid)在不同时间(时间戳)跨不同区域(region)传输的数据。目前

浏览 1提问于2016-02-10得票数 1

2回答

Azure Synapse -如何从同一集合中包含多个类型的Azure Cosmos DB容器中读取数据？

azure-cosmosdb、azure-synapse

我在Azure Cosmos DB中有一个容器，在同一个容器中有多个文档类型。因此，根据类型，密钥对会发生变化。我正在尝试使用以下代码从Synapse的这个容器中读取数据： cfg = { "spark.cosmos.accountEndpoint": Endpoint, "spark.cosmos.accountKey": accountKey, "spark.cosmos.database": databaseName, "spark.cosmos.container": containerName, } df = spa

浏览 58提问于2021-10-28得票数 0

回答已采纳

1回答

是什么决定了spark应用程序中的作业数量

apache-spark、pyspark

以前我的理解是，一个动作会在spark应用程序中创建一个职位。但是让我们看看下面的场景，其中我只是使用.range()方法创建一个数据帧 df=spark.range(10) 因为我的spark.default.parallelism是10，所以结果数据帧是10个分区。现在我只是在数据帧上执行.show()和.count()操作 df.show() df.count() 现在，当我检查了spark历史记录时，我可以看到.show()的3个作业和.count()的1个作业。为什么.show()方法有3个任务？我读过一些文章，其中.show()最终将在内部调用.take()，它将遍历

浏览 1提问于2021-03-24得票数 0

2回答

函数将R类型转换为星点类型。

r、apache-spark、dplyr、sparklyr、livy

我有一个R数据框架，我想把它转换成远程集群上的星火数据帧。我已经决定将我的数据框架写到一个中间的csv文件中，然后使用sparklyr::spark_read_csv()读取该文件。我这样做是因为数据帧太大，不能直接使用sparklyr::sdf_copy_to()发送(我认为这是由于Livy中的限制)。我想通过编写一个函数来编程地将数据帧中使用的R列类型传递到新的spark数据框架，该函数返回一个命名向量，我可以在spark_read_csv()中的spark_read_csv()参数中使用该向量。

浏览 0提问于2019-03-28得票数 0

回答已采纳

2回答

使用定义的StructType转换Spark数据帧的值

scala、apache-spark、dataframe、apache-spark-sql

有没有一种方法可以使用StructType转换数据帧的所有值？让我用一个例子来解释我的问题：假设我们从文件读取后获得了一个数据帧(我提供了一个生成此数据帧的代码，但在我的真实项目中，我是在从文件读取后获得此数据帧的)： import org.apache.spark.sql.{Row, SparkSession} import org.apache.spark.sql.types._ import org.apache.spark.sql.functions._ import spark.implicits._ val rows1 = Seq(

浏览 7提问于2018-07-28得票数 4

回答已采纳

1回答