在spark数据帧中组合日期范围_在pandas数据帧中组合基于日期的行_组合不同列数的Spark数据帧 - 腾讯云开发者社区

python、apache-spark、pyspark

Combine Date Ranges in Pandas Dataframe 然而，我正在处理一个巨大的数据集。我想看看我能不能用pyspark代替熊猫做同样的事情。下面是pandas的解决方案。这可以在pyspark中完成吗？

浏览 13提问于2019-02-01得票数 3

回答已采纳

1回答

从日期范围中删除几个日期

pandas、apache-spark、pyspark、apache-spark-sql、pyspark-dataframes

date(2016, 1, 11) print(dt.strftime("%Y-%m-%d")) 我有如上所述的日期范围，但我有几个日期范围内的日期可以忽略。这些日期在数据帧中。如何从这个日期范围中取出这些日期？任何人都可以推荐一下。具有不同日期</

浏览 3提问于2019-12-14得票数 1

2回答

在sparklyr中完成数据帧

r、apache-spark、dplyr、tidyr、sparklyr

我正在尝试在sparklyr中复制tidyr:complete函数。我有一个包含一些缺失值的dataframe，我必须填充这些行。在dplyr/tidyr中，我可以： data <- tibble( "dates" = c("2020-01-01", "2020-01-03", "2020-03 45

浏览 18提问于2020-10-17得票数 3

2回答

Pyspark:通过ID和最近日期向后加入2个数据帧

python、sql、join、pyspark

在pyspark (和一般的python )中执行两个数据帧的滚动连接时，我遇到了很多问题。我希望将两个pyspark数据帧通过它们的ID和最近日期反向连接在一起(这意味着第二个数据帧中的日期不能晚于第一个数据帧中的日期) Table_2：期望的结果：从本质上讲，我知道SQL查询可

浏览 1提问于2020-08-08得票数 2

1回答

Pandas多个数据帧加入内存错误

python、pandas、join、dataframe

我有20个数据帧，在最后阶段，我想通过以下代码片段将它们全部合并：for df in allDf[1:]:每个dataframe有20个数字列，每个列的范围从2015-01-01到当前日期，具有唯一/不同的日期时间。

浏览 3提问于2016-12-19得票数 0

1回答

为什么"groupBy agg count alias“不创建新列？

apache-spark、hadoop、apache-spark-sql

我有以下代码：df.filter(df("srch_adults_cnt") > 0) .filter(df("is_booking") === 0) .agg(count(

浏览 2提问于2018-11-08得票数 0

2回答

如何通过输入多个起止日期，计算时间序列内指定日期/时间范围内的汇总统计数据？

r、time、dataframe

我有一个包含时间序列数据的(虚拟)数据帧：data <- rnorm(25, 10, 5)我还有一个单独的数据帧，开始时间和结束时间分别为两列： startas.POSIXct(c('201

浏览 0提问于2015-04-22得票数 0

2回答

我如何在spark* scala中创建日期范围的存储箱？*

scala、apache-spark

我是一名Python开发人员，正在尝试学习Spark Scala。我的任务是创建日期范围框，并计算每个框(直方图)中出现的频率。我的输入数据帧如下所示我的bin边是这样的(在Python中)：我要查找的输出dataframe是(每个bin的原始dataframe中有多少个值的计数)：有

浏览 2提问于2020-09-02得票数 0

3回答

筛选具有大于和小于日期列表的spark数据帧

scala、apache-spark、dataframe、apache-spark-sql

我有一个带有字段from_date和to_date的dataframe (2017-01-10 2017-01-14)2017-01-12,2017-01-15 其思想是从表中检索该日期列表在from_date和to_date之间的所有行。预期输出：相同的数据帧，但只有其(from_date和to_date)在日期列表的值的

浏览 68提问于2019-06-05得票数 0

1回答

Spark JDBC关系数据库取数优化

apache-spark、apache-spark-sql

a)与传统的java JDBC调用相比，Spark有没有一种方法可以优化从关系数据库获取数据。b)如何在运行Spark查询时减少数据库的负载，因为我们将为所有查询直接命中生产数据库。假设Spark报告案例的生产中有3000万条订单记录和1.5亿条订单行记录。

浏览 2提问于2015-08-18得票数 2

6回答

如何在Pyspark中定义一个空的dataframe并将其附加到相应的dataframe？

pyspark、pyspark-sql

所以我想从一个目录中读取csv文件，作为pyspark dataframe，然后将它们附加到单个dataframe中。而不是像我们在熊猫身上做的那样，在pyspark中得到替代方案。例如，在熊猫中，我们这样做： dff=pd.read_csv(f,delimiter=',') df

浏览 5提问于2017-04-10得票数 11

1回答

在ADL Gen2 (DataBricks)中插入当前日期

pyspark、databricks、azure-databricks、azure-data-lake-gen2

我是数据库新手，我有一个需求，在银层中，在转换发生后，我必须从我的数据集中获取最大值(Load_date)，并在存储帐户(临时文件夹)中更新该值。在临时文件夹中已经有一个.csv文件，每当我的笔记本运行时，我都必须覆盖最大值(Load_date)值。现在，我正在创建一个空的Dataframe，然后分配最大日期，然后将其加载到文件中，但它似乎不是这样工作的。有什么办法能有效地做到这一点吗？

浏览 7提问于2022-10-11得票数 0

3回答

Pandas中的1=1连接

sql、pandas

我在一个数据框(df1)中有两个分类列。我创建了CatA和CatB的每一个组合，使其具有日期范围(df2)的长度。我想将df1和df2连接到一个数据帧中，以便每个CatA和CatB组合都可以使用日期范围。我怎么才能在熊猫中做到这一点呢？在SQL中，我会在1=1上加入。

浏览 0提问于2020-09-23得票数 0

1回答

Spark Structured中流数据帧与批处理数据帧的结合

apache-spark、spark-structured-streaming

如何在Spark Structured streaming中将流式数据帧和批量数据帧组合在一起？

浏览 0提问于2017-09-21得票数 1

2回答

在PySpark中合并来自两个数据帧的两列

python、apache-spark

假设我们有两个数据帧 Row(a=107831, f="test1"),])df2 = spark.createDataFrame([ Row(a=125231, f="test2"),如何将这两个数据帧组合在一起，并使用下面的df获得一个

浏览 0提问于2020-05-13得票数 0

2回答

Apache Ignite到亚马逊S3的连接

ignite

我想知道如何将数据从亚马逊S3加载到Apache Ignite集群？是否需要单节点或多节点群集？

浏览 5提问于2017-05-02得票数 1

7回答

是否通过从列表中选择列名来绑定行？

r、list、dplyr

我有一个日期范围的列表：y <- data.frame= rep(c("Barber","Doctor"),25))l

浏览 0提问于2019-02-28得票数 1

1回答

pyspark查找数据帧中超出范围的值

python、pyspark

我在pyspark里有两个数据帧。我正在尝试将一个数据帧与另一个数据帧进行比较，以查看值是否在范围内。 Dataframe dfcompare：我正在寻找的输出：我目前拥有的代码如下： compare= df.compare.fillna(0)

浏览 0提问于2021-03-28得票数 1

1回答

从PySpark运行大量配置单元查询

apache-spark、hive、pyspark、livy

我想要执行大量的配置单元查询，并将结果存储在数据帧中。我有一个非常大的数据集，结构如下：| visid_highvisit_num']) result_set.append(result) 对于100行，这是预期的，但会导致livy在负载较高时超时我理解和，<

浏览 5提问于2018-07-23得票数 0

2回答

如何在spark* dataframe中组合分布在多行中的描述数据？*

python、dataframe、apache-spark、pyspark

我想在下面的spark数据帧中组合行：| date | description| amount || 04/10 | first | 15 |以便为具有跨越多行的描述的行组合描述字段| first | 15 |

浏览 1提问于2021-09-02得票数 2

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云