腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
从
PySpark
查询
日期
之间
的
竖排
apache-spark
、
pyspark
、
pyspark-sql
、
vertica
我有Spark1.6运行在Python3.4上,
从
我
的
Vertica数据库中检索数据来处理下面的
查询
,Spark支持使用JDBC源
的
谓词下推,但术语谓词在严格
的
DataFrames含义中使用。此外,它看起来仅限于逻辑连接(恐怕没有IN和OR )和简单
的
谓词,它显示以下错误: java.lang.RuntimeException: Option 'dbtable‘未指定 DB包含大约1000亿
的
海量数据DATE(time_stamp) between '
浏览 5
提问于2019-02-15
得票数 0
回答已采纳
1
回答
从
给定
的
结束
日期
到使用一年
的
数据范围
的
Python减法1年
python
、
date
、
pyspark
我想做
的
是获得一年
的
数据。
从
列
日期
计算最新
日期
,作为我
的
结束
日期
。然后使用结束
日期
-1年来获得开始
日期
。之后,我可以在开始
日期
和结束
日期
之间
过滤数据。我确实设法得到了结束
日期
,但找不到我怎么能得到开始
日期
。 下面是我迄今为止使用
的
代码。-一年是需要解决
的
问题。如果你知道如何过滤火花放电也是受欢迎
的</e
浏览 7
提问于2022-05-20
得票数 0
2
回答
在Spark /
PySpark
中使用文件名连接数据
python
、
amazon-s3
、
apache-spark
、
pyspark
我正在从
PySpark
中
的
许多
PySpark
文件中读取数据。S3键包含创建文件
的
日历
日期
,我希望在数据和该
日期
之间
进行连接。是否有任何方法在文件和文件名中
的
数据行
之间
进行连接?
浏览 2
提问于2015-10-16
得票数 0
回答已采纳
2
回答
Pyspark
:通过ID和最近
日期
向后加入2个数据帧
python
、
sql
、
join
、
pyspark
在
pyspark
(和一般
的
python )中执行两个数据帧
的
滚动连接时,我遇到了很多问题。我希望将两个
pyspark
数据帧通过它们
的
ID和最近
日期
反向连接在一起(这意味着第二个数据帧中
的
日期
不能晚于第一个数据帧中
的
日期
) Table_2:期望
的
结果:
从
本质上讲,我知道SQL
查询
可以做spark.sql(“
查
浏览 1
提问于2020-08-08
得票数 2
1
回答
如何使用窗口函数计算
pyspark
中
的
日期
差异?
python
、
apache-spark
、
pyspark
尝试计算自用户第一次开始使用应用程序以来所经过
的
天数和df行表示
的
事件。下面的代码(via)创建了一个列,将该行与前一行进行比较,但我需要将它与分区
的
第一行进行比较。我想让daysPassed列做什么
的
示例: Row(userId='59', page='NextSong', datetime='2018-10-01', daysPassed=0), Row(userId
浏览 34
提问于2019-12-10
得票数 1
1
回答
创建带有时间戳字段
的
数据
apache-spark
、
pyspark
、
apache-spark-sql
、
timestamp
、
azure-databricks
在Databricks上,下面的代码片段from
pyspark
.sql import functions as F schema = StructType([StructField("current_timestamp", TimestampType(), True)]) df = spark.createDataFra
浏览 1
提问于2022-07-11
得票数 0
回答已采纳
1
回答
Spark Sum和count
的
性能问题
apache-spark
、
hadoop
、
dataframe
、
apache-spark-sql
、
spark-dataframe
对于这种情况,您能建议最好
的
方法吗?
浏览 0
提问于2018-03-28
得票数 0
1
回答
计算
日期
之间
的
天数,忽略周末使用火星雨。
python
、
pyspark
如何使用
pyspark
计算两个
日期
之间
的
天数(忽略周末)import numpy as npfrom
pyspark
.sql.types import IntegerType在使用此udf时,我会收到一条错误消息: ModuleNotFoundError:没有名为“numpy”
的
模块
浏览 3
提问于2020-09-28
得票数 4
回答已采纳
1
回答
蜂房火花果
日期
比较
hadoop
、
hive
、
pyspark
我正在尝试将一个hiveQL
查询
转换为
pyspark
。我正在过滤
日期
和得到不同
的
结果,我想知道如何在
pySpark
中
的
行为,以匹配蜂巢。蜂箱
查询
是:在
pySpark
中,我正在输入解释器: import
pyspark
.sql.functionsdt.datetime.strptime(
浏览 1
提问于2016-11-16
得票数 1
回答已采纳
1
回答
找出两个
日期
之间
的
相对周数
pyspark
我有一个显示
日期
的
两列
的
星星之火(date1和date2)。我想知道这两个
日期
(+ 1周)
之间
的
相对周数。为了做到这一点,我找出每一个
日期
的
周,并减去这两个
日期
。date2总是一个较早
的
约会。两个
日期
之间
最大
的
差异是最多1年,所以如果date2来自前一年,我需要在解决方案中添加52。 我想出了怎么做,但我
的
解决方案似乎很麻烦。这是我
的</
浏览 1
提问于2018-05-21
得票数 2
回答已采纳
1
回答
使用两个
日期
列作为范围匹配
日期
pyspark
我正在尝试使用
pyspark
在databricks中创建一个列。我需要检查是否在其他两个
日期
列
之间
找到了
日期
列,如果它是1,则不是0。我想把这个称为基本事实,因为它会告诉我在
日期
上它是在两个
日期
列
之间
找到
的
。这就是我到目前为止所知道
的
: df = (df .withColumn("Ground_truth_IE",when(col("ReadingDateTime").between(col(&
浏览 14
提问于2020-10-22
得票数 0
回答已采纳
1
回答
Pyspark
最昂贵
的
产品
apache-spark
、
pyspark
、
apache-spark-sql
我正在试着用
PySpark
买到最贵
的
产品。基本上,我必须将这个
查询
从
SQL转换为
pyspark
:FROM lotstempLIMIT 1 有没有人能帮我用
PySpark
写这个
查询
?
浏览 0
提问于2020-05-06
得票数 0
1
回答
从
具有时间戳值
的
其他列在Spark Dataframe中创建时间戳列
apache-spark
、
pyspark
、
unix-timestamp
我想要获取column.Then
的
前一天
的
日期
将时间(3,59,59)添加到该
日期
。当前列Ex- value in current (X1):2018-07-11 21:40:00上一天
日期
: 2018-07-10将time(3,59,59)与前一天
日期
相加后,应该是: 2018-07-10 03:59:59 (x2)我想在数据框中添加一列,所有记录中
的
x2值都与x1值对应。我想要多一列,其值等于精确双精度值中(x1-x2).totalDays
的
差值
浏览 152
提问于2018-07-30
得票数 -1
1
回答
如何使用
pyspark
填充to date行
之间
的
值?
apache-spark
、
pyspark
我有一个包含id列、事件
日期
列和in_event布尔值
的
数据集。事件
日期
中可能包含
日期
值。[[1,None],[2,'01-01-2018'],[3,None],[4,'01-02-2018']]1, None, False3, None, True 4, 01-02-2018, True
浏览 0
提问于2019-09-15
得票数 1
1
回答
使用
pyspark
查找两个
日期
列(例如: 5/15/21)
之间
的
差异
apache-spark
、
pyspark
我有两个
日期
列(格式例如: 5/12/21),需要使用
pyspark
在天中找到它们
之间
的
差异。我尝试过使用Withcolumn获取error.Need。
浏览 18
提问于2021-08-23
得票数 0
1
回答
Pyspark
-SQL Sum Integer to Date (带sql)
apache-spark-sql
我想在给定
的
日期
上添加任意天数,例如,我想在今天
的
日期
上添加一天。我有一个这样
的
数据帧: ------------------------------------ 我想得到这样
的
数据帧: ------------| date ||2020-10-02| ------------ 真正
的
代码被包裹在一个复杂
的
sql
查询
中,然后只有SQL语句才能得
浏览 9
提问于2020-10-20
得票数 0
回答已采纳
1
回答
用毫秒“YYYY-MM-DD hh:mm:ss.SSS”作为来自蜂巢
的
火花数据
的
日期
datetime
、
hive
、
apache-spark-sql
、
pyspark-dataframes
、
milliseconds
我将
日期
字段作为字符串存储在单元表中,格式如下:例如:但是,我们看到了以下行为:
查询
、提取作为字符串存储
的
日期
的</e
浏览 4
提问于2020-06-12
得票数 1
1
回答
使用
PySpark
从
Azure帐户存储中列出按年/月/日分区
的
json文件
python
、
azure
、
pyspark
、
azure-blob-storage
、
azure-databricks
我
的
azure帐户存储有json文件,按年/月/日/小时进行分区。我需要列出两个
日期
之间
的
所有json,例如。20200505到20201220,所以我有url/dir
的
列表。我不需要加载任何内容,只需列出这两个
日期
之间
的
所有文件。 我需要使用它
的
天蓝色数据库与
pyspark
。可以只使用像这样
的
东西吗: .load(from "<Path>
浏览 15
提问于2020-12-23
得票数 0
1
回答
如何将带有时区
的
奇怪
日期
时间字符串转换为时间戳(
PySpark
)
apache-spark
、
pyspark
、
apache-spark-sql
、
pyspark-sql
我有一个名为datetime
的
列,它是一个表单字符串。Month Name DD YYYY H:MM:SS,nnn AM/PM TZ Mar 18 2019 9:48:08,623 AM MDT纳秒精度是非常重要
的
,因为日志是如此接近
的
时间。TZ是可选
的
,因为它们都在同一个时区,但理想情况下
浏览 1
提问于2019-03-19
得票数 0
回答已采纳
2
回答
查询
获取
日期
、月份和年份
之间
的
数据
sql
、
sql-server
我
的
设计有两个文本框和一个日历。我想要编写一个
查询
来选择
日期
范围,例如从19/03/2014到03/05/2014。我
的
日期
是
从
日历中选择
的
,它将同时填写txtsearch.Text和txtsearch2.Text。我知道获取两个
日期
之间
的
日期
的
查询
,但是我如何继续
查询
,以获得不同
日期
、月
浏览 1
提问于2014-05-20
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
如何在CDH集群上部署Python3运行环境及运行Python作业
一文读懂PySpark数据框
PySaprk之DataFrame
一文读懂 PySpark 数据框
pyspark 安装
热门
标签
更多标签
云服务器
即时通信 IM
ICP备案
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券