在scala spark数据帧中提取时间间隔

文章/答案/技术大牛

发布

1回答

、、、

浏览 24提问于2019-03-09得票数 1

回答已采纳

2回答

在设定频率后刷新缓存的Spark数据帧

、、

我正在开发一个SparkStreaming解决方案，在这个解决方案中，一个配置单元表被缓存为一个数据帧，然后流事件将与缓存的数据帧结合起来，以产生结果。有没有任何方法，比如说TTL或任何其他围绕缓存数据帧的机制，其中数据以特定的时间间隔自动刷新更新的Hive表记录。

浏览 0提问于2018-07-04得票数 0

1回答

spark-cassandra-connector -从Dataframe创建表格- StructType？

、、

我正试着从Spark数据帧中写给Cassandra。当我有一个简单的数据帧模式时，如示例中所示，它可以工作： |-- id: string (nullable = true)但是，当我尝试编写包含StructTypes的数据帧时，其模式如下： |-- crawl: struct (nullable = true) | |-- id: string (

浏览 4提问于2016-06-27得票数 1

1回答

spark vs pandas dataframe (具有大列) jupyter笔记本中的head(n)

、、、、

几天后，数据带来了大量的功能。为了获得简短的数据摘要，人们将数据加载到数据框中，并使用head()方法显示数据。使用Jupyter Notebook( Toree for scala)进行实验是很常见的。Spark (scala)很适合处理大量数据，但是它的head()方法不能在水平滚动的notebook中显示列标题。熊猫数据帧头 Spark

浏览 3提问于2018-06-13得票数 2

3回答

如何比较SQL语句中两种数据的模式？

、、

在spark (如 )中，有许多方法来验证两个数据帧的架构。但是我只想在SQL中验证两个数据帧的模式，我指的是SparkSQL。中没有数据库(模式)的概念，但是我读到了包含模式信息等的亚稳态。我们可以在SparkSQL中编写像上面这样的SQL查询吗？我只是在检查为什么显示create没有使用spark，是因为它是一个临时表吗？s

浏览 6提问于2018-09-04得票数 1

1回答

reduceByKeyAndWindow在Spark* streaming中是如何工作的？*

、、

我正在学习spark streaming，并从一些生产日志中找出一些散列标签。在一些示例中，我发现了以下代码： val words = statuses.flatMap(line => line.split(" ")) val tags = words.filter(w =>为什么我们要递减第二个参数中的值呢？

浏览 29提问于2019-03-17得票数 0

1回答

如何在pyspark中使用azure-sqldb-spark连接器

、、、

我想每天写大约10 GB的数据到Azure SQL server DB，使用PySpark.Currently，使用JDBC driver，这需要花费数小时逐个制作insert语句。我计划使用azure-sqldb-spark连接器，它声称可以使用批量插入来加速写入。import com.microsoft.azure.sqldb.spark.config.Config import com.microsoft.azure.

浏览 2提问于2018-10-27得票数 7

3回答

字符串列包含通过spark* scala进行精确匹配的单词*

、、

我有两个数据帧，第一个数据帧包含实际数据(从CSV文件读取)，第二个数据帧包含一个具有多个关键字的列。即下面的Dataframe-1外观相似(我们必须搜索的地方)：数据帧-2：我想要的输出：我在这里使用spark scala。我想要一个与dataframe-1中的dataframe-2完全匹配的单词。我使用了like、rlike、contains

浏览 1提问于2021-02-12得票数 0

1回答

java.lang.UnsupportedOperationException：‘不允许写入非空的Cassandra表

、、、、

我有这样的场景，我将接收由我的spark流程序处理的流数据，并且每个间隔的输出被附加到我现有的cassandra表中。目前，我的spark流程序将生成一个数据帧，我需要将其保存在我的cassandra表中。我目前面临的问题是，当我使用下面的命令时，我无法将数据/行附加到现有的cassandra表中 dff.write.format("org.apache.spark.sql.ca

浏览 0提问于2016-02-11得票数 5

1回答

df.select()和df.agg()有什么区别？

、、、

我有一个数据帧，我想从其中提取最大值、最小值并计算其中的记录数。数据帧是：df: org.apache.spark.sql.Dataset[Long] = [id: bigint]scala> df.select(min("id"), max("id"

浏览 3提问于2017-06-19得票数 1

回答已采纳

2回答

向流式数据帧添加ROW_NUMBER列

、、、、

我是Spark和SQL的新手。我正在尝试向我的df中添加一列(然后将其保存到Delta表中)，该列为每条记录/行提供唯一的id，并在每次更新特定记录时递增该列。

浏览 1提问于2020-08-19得票数 3

1回答

数据帧的scala* joinWithCassandraTable结果*

、、

我正在使用Datastax spark- Cassandra -connector来访问Cassandra中的一些数据。我的需求是将RDD与Cassandra表连接起来，获取结果并将其存储在hive表中。我正在使用joinWithCassandraTable加入cassadra表。] = CassandraJoinRDD[17] at RDD at CassandraRDD.scala:19 我尝试了以下步骤来转换为数据帧，但所有方法都不起作用。t

浏览 20提问于2020-07-17得票数 0

2回答

通过向Dataframe应用函数向Tinkerpop图(gremlin)添加顶点

、、、、

正如问题所表明的那样，我已经尝试了相当一段时间来编写一些可以读取数据帧的代码，并将顶点添加到gremlin图中，并从dataframe提取属性。:304) at org.apac

浏览 0提问于2018-02-14得票数 1

1回答

无法将CSV文件加载为spark中的数据

、

我试图在数据帧中加载一个CSV文件，我的目标是将第一行显示为CSV文件的列名。但是在使用下面的代码时，我得到了错误 at scala.collection.TraversableLike='true') // .map(line

浏览 0提问于2018-12-31得票数 2

回答已采纳

2回答

如何在dsx中使用Scala2.11 with Spark* 2.0笔记本的"display“功能*

、、

在dsx中，有一种方法可以在Scala2.11和Spark 2.0笔记本中使用"display“(我知道可以在python笔记本中使用pixiedust)。例如： WHEREstate = 'CA' GROUP BY city ORDER BY

浏览 3提问于2017-01-28得票数 3

1回答

使用ffmpeg pyspark和hadoop逐帧处理视频

、、、

我想使用spark和hadoop并行处理mp4视频帧。我不想在处理之前提取所有帧。我正在寻找的是一种顺序读取帧数据w.r.t的方法。视频时间，然后在帧到达使用yarn的hadoop集群上的spark executors时馈送帧。mp4视频文件可以在本地文件系统上，也可以在HDFS上。我可以使用ffmpeg创建一个管道，然后读取原始帧字节(例如，image =np.

浏览 11提问于2019-07-13得票数 2

2回答

使用dataframe scala创建文件名为时间戳的csv文件

、、、

我有一个数据帧，数据如下。|1.0 ||football |2.0 |我想将上面的数据帧写入一个csv文件，其中的文件名将使用当前时间戳创建。给出了以下错误有没有更好的方式来使用scala和spark来实现这一点？而且，即

浏览 29提问于2021-03-02得票数 2

回答已采纳

2回答

Spark SQL过滤多个相似字段

、

有没有更好的方法在spark数据帧上编写多个条件的过滤器，这些条件在本质上是相似的。假设df是具有时间戳列t1、t2、t3、t4的spark数据帧。因为我是scala的新手，所以我还不知道用scala编写代码的最佳实践。感谢任何人的帮助。

浏览 43提问于2019-01-19得票数 0

1回答

如何在Spark* Dataframe中将一个时区转换为另一个时区*

、、

我正在从PostgreSQL读取Spark Dataframe，并在PostgreSQL中有日期列，如下所示： last_upd_date"2021-04-21 22:33:06.308639-05" 但在spark dataframe中，它添加了小时间隔。但我希望输出为2021-04-21 22:33:06.308639 有人能帮我解决这个spark数据帧吗？

浏览 28提问于2021-06-24得票数 2

1回答

如何删除星火(SCALA)中的整个数据帧？

有一些函数可以删除Spark(SCALA)中的列和行，但是却找不到任何函数来删除整个数据frame.Is，有一种方法可以删除Spark(SCALA)中的数据帧吗？

浏览 0提问于2016-10-15得票数 3

点击加载更多