在Spark SQL中连接时间戳上的两个表_在Databricks上修改Spark表中的注释_在pyspark sql中查找两个时间戳之间的差异 - 腾讯云开发者社区

sql、apache-spark、pyspark、apache-spark-sql

我正在尝试使用以下查询连接两个表： results = sqlContext.sql('SELECT * \ ON a.ORIGIN = w.CALL_SIGN').cache() 我遇到了一个问题，即我不能在内部联接中引用airlines表。我尝试添加LATERAL关键字，希望Spark SQL<

浏览 13提问于2020-07-09得票数 1

0回答

SQL连接，其中第二个表中的值是第一个较低的值w.r.t第一个表

sql、apache-spark-sql

假设我有两个表，并且这两个表都有一个包含各种事件的timestamp的列。这两个表中的时间戳值不同，因为它们针对不同的事件。我希望连接这两个表，以便在table2上使用第一个较低的时间戳连接table1中的每条记录。 Join

浏览 8提问于2017-06-14得票数 0

回答已采纳

1回答

如何在postgresql中连接不同行中的时间戳？

postgresql

我正在寻找一种在两个不同行中连接时间戳的方法，例如，我有这个表：我希望它按工作日分组，并将min(start_hour)和max(start_hour)连接起来，得到如下所示的结果

浏览 0提问于2017-11-16得票数 0

2回答

Apache不使用来自Hive分区外部表的分区信息

apache-spark、hive、apache-spark-sql

我有一个简单的Hive外部表，它是在S3之上创建的(文件是CSV格式的)。当我运行hive查询时，它会显示所有记录和分区。但是，当我在Spark中使用相同的表时( Spark在分区列上有一个where条件)，它不会显示应用了分区筛选器。然而，对于Hive托管表，Spark可以使用分区信息并应用分区筛选器。是否有任何标志或设置可以帮助我使用星火中的

浏览 0提问于2019-08-24得票数 3

2回答

SQL:将时间戳与纯时间参数匹配为组，并在多天内计数唯一的时间。

sql、datetime、pyspark、group-by、timestamp

使用SQL或Pyspark，我希望在两个月的时间范围内计算时间戳中的唯一次数。我希望看到记录到表的行的频率的分布情况。这是因为我知道有很大比例的时间戳的时间是00:00:00，但我想知道与其他时间相比，时间戳的比例有多大。这个查询组和计数最常见的日期时间，但我需要排除日期，并且只有时间。co

浏览 5提问于2021-05-17得票数 0

回答已采纳

1回答

无法使用Spark获取Delta Lake表的元数据信息

scala、apache-spark、delta-lake

我正在尝试获取使用DataFrame创建的Delta Lake表的元数据信息。有关版本、时间戳的信息。已尝试：spark.sql("describe deltaSample").show(10,false) -这不提供与版本和时间戳相关的信息：+-------+|_c1 |string |null

浏览 21提问于2019-07-23得票数 0

2回答

ORACLE连接表对单个字段和帐户的细微差异(提供了特定示例)

sql、oracle

我试图在一个字段(FILE_NAME)上连接两个表；但是，其中一个表中只有几条记录，其中时间戳附加在文件名的末尾和文件扩展名之前。我不知道该如何解释这些。我的示例表如下：FILE_NAME | FILE_IDTSM_INSAT.xml | 14FILE_NAME

浏览 0提问于2017-08-12得票数 0

回答已采纳

2回答

为什么Spark* dataframe中的时间戳列在写入Hive表时发生了变化？*

scala、apache-spark、hive

我试图使用JDBC读取Oracle表并将数据插入Hive表，但所有时间戳列的值都已更改(-6小时)。为什么会改变时间戳？* .builder .config("

浏览 3提问于2019-11-08得票数 1

1回答

在物理计划中执行交换和排序步骤的配置单元存储桶表

apache-spark、hive、pyspark、apache-spark-sql

我有两个表，它们都聚集在相同的列上，但是在连接聚集列上的两个表时，执行计划同时显示了交换和排序步骤。我希望在</

浏览 1提问于2019-06-12得票数 1

1回答

组合列Scala后获得错误的时间戳

scala、apache-spark

当我试图将它转换为时间戳时，我得到的是错误的时间戳。这是我试过的密码。我试图转换的一个示例日期是: 1/1/2000 12:53上午

浏览 1提问于2021-12-08得票数 0

回答已采纳

1回答

Spark DataFrameWriter使用时间戳而不是日期时间

python、mysql、apache-spark、pyspark、mariadb

我正在将数据库从SQL Server迁移到MariaDB，但是遇到了MariaDB的时间戳范围限制的问题。我有一个填充数据库的PySpark项目，在覆盖模式下使用DataFrameWriter.jdbc()创建表。WHen与SQL Server一起工作时，Spark将自己的时间戳数据类型转换为SQL Server的DATETIME2数据类型，这种数据类型工作得很好

浏览 11提问于2019-02-21得票数 0

2回答

对同一表的时间戳在hive-cli和presto-cli中有所不同。

hadoop、hive、presto

我得到了不同的时间戳为同一张桌子在蜂巢-cli和前-cli。'='2.4.0.7.1.4.0-203', || 'spark.sql.sources.schema.numParts 在mer_from_dttm中，存在时间差，但对于

浏览 7提问于2021-07-07得票数 2

4回答

parquet上的配置单元外部表未获取数据

apache-spark、hive、apache-spark-sql、hiveql、parquet

我正在尝试创建一个datapipeline，其中的收入数据被存储到拼图中，并且我创建了一个外部的hive表，用户可以查询hive表并检索数据，.I能够保存拼图数据并直接检索它，但是当我查询hive表时/emp’ 现在在一些数据上创建了dataframe并保存到parquet。("/test/emp")val sqlcontex

浏览 47提问于2018-12-14得票数 1

回答已采纳

2回答

当表已经存在时，使用spark* dataframe覆盖表失败*

python、postgresql、apache-spark、pyspark

我正在尝试使用spark dataframe完全覆盖postgres表。为什么我的代码不能像预期的那样覆盖数据库中的数据？我已经使用客户端检查了该表，并且它确实存在(这应该无关紧要)。而且里面也有数据。怎么了？这会不会是内存问题？at org.apache.spark.sql.execution.SparkPlan$$anonfun$execute$1.apply(SparkPlan.scala:127) at org.apa

浏览 2提问于2019-12-13得票数 1

1回答

针对缓存表的Spark* SQL分区修剪*

caching、apache-spark、partition、pruning、hivecontext

在apache spark中是否为缓存的TempTables启用分区修剪？如果是，我该如何配置它？val parquet = hc.read.parquet("/path_to_table/tablename&

浏览 21提问于2017-02-10得票数 0

1回答

df.rdd.collect()将时间戳列(UTC)转换为pyspark中的本地时区(IST

apache-spark、datetime、pyspark

spark从MySQL读取一个表，该表有一个存储UTC时区值的时间戳列。在本地(IST)中配置Spark。MySQL存储以下时间戳值。df.show(100,False)在使用上面的conf之后，我

浏览 3提问于2021-10-27得票数 1

1回答

返回的avro时间戳字段上的hive外部表

hive、apache-spark-sql、spark-avro、avro-tools

我有avro数据，它有一个列时间戳列，现在我试图在avro文件的基础上创建外部单元表，.Data保存在avro中，我希望avro逻辑类型在查询hive表时处理回时间戳的转换。我怎样才能像预期的那样工作呢？PS :我使用的是spark 2.3和databricks com.databrosight-avro_2.11

浏览 2提问于2020-05-29得票数 3

回答已采纳

1回答

如何在从SQL* Server读取数据时更改: spark.read.jdbc使用的默认时区*

scala、jdbc、databricks

我使用的是Databricks Runtime 4.2 (包括Apache Spark 2.3.1、Scala 2.11)val data_frame =val(，，) 我的源表上的所有SQL Server日期时间列都映射到数据框中的时间戳列，默认时区为+0000。有

浏览 1提问于2018-07-18得票数 3

2回答

星星之火SQL到蜂巢表-日期-时间域小时错误

python、apache-spark、hive、pyspark

我面临这样的问题:当我输入一个带有spark.sql数据的Hive时间戳字段时，时间被奇怪地更改为21:00:00！我有一个用spark.sql读取的csv文件。我读取该文件，将其转换为dataframe并将其存储在一个Hive表中。此文件中的一个字段是日期，格式为"3/10/2017“。我想输入的

浏览 1提问于2017-11-22得票数 1

回答已采纳

2回答

Databricks SQL错误:无法在内联表定义中计算表达式外部

python、sql、apache-spark-sql、azure-databricks、databricks-sql

我加入了两个表，并试图获得两个时间戳字段的最大时间戳值。这是我的SQL语句： rts.DataLakeModified_DateTime, ( AND rtt.STORE = rts.STORE但它有一个错误：

浏览 17提问于2022-06-24得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云