腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(8060)
视频
沙龙
2
回答
如果
行
与
另一个
DataFrame
中
的
ID
匹配
并且
时间
戳
低于
其他
帧
的
时间
戳
,
如何
过滤
Scala
Spark
DataFrame
、
、
我想根据消息事件
的
编辑
时间
过滤
掉
DataFrame
中
的
条目。我有一个包含message events
的
DataFrame
,以及
另一个
表示它们何时/是否被编辑
的
DataFrame
。
如果
消息表
中
的
行在已编辑
的
表
中
具有
匹配
的
索引,
并且
消息表
中</
浏览 26
提问于2020-06-27
得票数 0
回答已采纳
1
回答
我需要根据我
的
列本身
的
值更新Hbase
中
的
时间
戳
,而不是默认
的
时间
戳
、
、
、
默认情况下,Hbase
的
每一
行
都有
时间
戳
值。我们
如何
通过
spark
scala
代码在HBase
中
更新我自己
的
时间
戳
值,同时保存(插入)来自
spark
Dataframe
的
记录?b, timestamp=1288380738440, value=value2 row3 column=cf:c, timestamp=1288380747365, v
浏览 3
提问于2017-05-05
得票数 0
3
回答
如何
将星火数据
中
任意数量
的
列从
时间
戳
转换为Longs?
、
、
、
我正在用
Scala
编写这篇文章,
并且
使用
Spark
1.6,
并且
没有选择切换到一个更新
的
版本。我正在尝试合并两个数据文件,一个是从Hadoop集群上
的
Avro文件中提取
的
,
另一个
是从Teradata中提取
的
。我可以很好地阅读它们,
并且
保证它们
的
列名顺序相同,但是当我试图将它们合并时我遇到了一个错误,因为Avro将
时间
戳
浏览 3
提问于2017-08-18
得票数 0
回答已采纳
2
回答
Python
中
的
SQL查询-在SQL查询
中
插入来自Python
的
值
、
、
我在python中有一个根据
时间
戳
过滤
的
SQL查询,但是
时间
戳
会根据数据
帧
中
的
值进行更改。query = """(SELECT [
ID
],[Timestamp],[Value] FROM [table] Where [Timestamp] >= '2021-10-13') alias"""big_df =
spark</em
浏览 13
提问于2021-10-19
得票数 0
2
回答
多只熊猫
的
时间
订购DataFrames?
、
、
给定具有标识符和
时间
戳
列
的
DataFrame
: X 2019-01-07T01:23:45.678以及具有类似属性
的
单独
DataFrame
: X 2019-01-01T05:23:45.678Y 2019-01-08T06:44:54.
浏览 7
提问于2019-10-15
得票数 1
回答已采纳
1
回答
时间
戳
StructField
中
的
空值
、
如何
处理
时间
戳
列
中
的
空值?在最后一列
中
,空值
与
时间
戳
混合。val
dataFrame
=
spark
.createDataFrame(rdd, StructType(fields)) 导致: java.lang.RuntimeException:
scala
.runtime.BoxedUnit不是
时间
戳
模式
的
有效
浏览 0
提问于2018-06-21
得票数 0
回答已采纳
3
回答
为什么在使用架构查询时所有字段都为空?
、
、
、
我使用在case类和编码器
的
帮助下指定模式
的
结构化流来获取流数据。val sampleLogSchema = Encoders.product[SampleLogEntry].schema .readStream当我将此模式
中
的
每个字段更改为10.29.2.6||unk
浏览 3
提问于2019-11-23
得票数 3
回答已采纳
1
回答
我们是否可以对多个数据框进行排序,比较列
中
每个元素
的
值
、
、
、
我有两个包含一些数据
的
csv文件,我想根据一个公共列来组合和排序数据:这里是data1.csv和data2.csv文件: data3.csv是输出文件,您需要在其中对数据进行组合和排序,如下所示: 我
如何
才能做到这一点?
浏览 0
提问于2020-05-23
得票数 0
2
回答
Spark
Structured Streaming
如何
确定事件是否迟到?
我通读了
spark
structured streaming文档,我想知道
spark
structured是
如何
确定事件已经迟到
的
?它是否将事件
时间
与
处理
时间
进行比较?1)这个处理
时间
是从哪里来
的
?由于它
的
流,它是否假设有人可能正在使用具有处理
时间
戳
的
浏览 0
提问于2018-02-26
得票数 4
1
回答
线程“主”java.lang.IllegalArgumentException
中
的
异常:需求失败
、
、
在这里,我试图将
时间
戳
动态地添加到数据
帧
中
, {“行动”:“事件”、"
id
":1173、"lat":0.0、"lon":0.0、"rollid":55、"event":"type“、"ccd":0、"fone":"ione”、"version":"10.1“、"item":"shack&
浏览 1
提问于2017-01-17
得票数 0
2
回答
用不同
的
TTL向Cassandra写火花
、
、
、
、
在Java
中
,我有一个“bucket_timestamp”列
的
dataframe
,它表示该行所属
的
存储桶
的
时间
。 我想把数据写到卡桑德拉数据库。数据必须用TTL写入数据库。TTL应该依赖于桶
时间
戳
--其中每一
行
的
TTL应该被计算为ROW_TTL = CONST_TTL - (CurrentTime - bucket_timestamp),其中CONST_TTL是我配置
的
常量--对于每一个可能
浏览 1
提问于2018-07-02
得票数 1
回答已采纳
1
回答
基于
时间
戳
的
Cassandra更新或插入
、
、
、
我正在尝试写一个查询,这样
如果
匹配
一
行
,则仅在所提供
的
时间
戳
晚于lastTimestamp列值
的
情况下更新值。这里
的
困难之处(
如果
我错了,请纠正我)是,我不能使用Cassandra内置
的
“使用
时间
戳
”功能,因为在创建新行时,请求提供
的
浏览 1
提问于2017-09-07
得票数 2
1
回答
尝试根据python
中
的
匹配
时间
戳
匹配
行
、
、
、
、
因此,当
时间
戳
不是相同
的
格式时,我试图了解
如何
基于
匹配
时间
戳
来
匹配
两列
的
值。我认为这与将两列都放入同一个日期-
时间
对象有关,但其中一列在多列中有
时间
戳
组件,因此我在这里有点困惑。我在蟒蛇工作。A在一列中有
时间
戳
,而
dataframe
B有三列
的
时间
和日期。我想要做
的
是按<em
浏览 3
提问于2022-01-12
得票数 0
回答已采纳
1
回答
在寻找前进
的
同时合并两个数据文件
、
、
、
我有两个Pandas DataFrames,需要合并才能获得一组员工
的
完整历史记录。 这两个框架都包含employee
ID
和用于数据有效时
的
时间
戳
。但是,一个表
中
的
时间
戳
有时会有点“迟”,这意味着第二个
dataframe
具有
时间
戳
的
时间
戳
是在第一个
dataframe
中
的
<e
浏览 1
提问于2021-09-21
得票数 1
2
回答
如何
检查某个值是否为
Scala
中
的
unix
时间
戳
?
、
、
在
DataFrame
df
中
,我有一个包含
时间
戳
值
的
列datetime。问题是,在某些
行
中
,这些是unix
时间
戳
,而在
其他
行
中
,这些是yyyyMMddHHmm格式。
如何
验证每个给定值都是unix
时间
戳
,
如果
不是要将其转换为
时间
戳
?df.withColumn("tim
浏览 4
提问于2018-10-17
得票数 1
1
回答
熊猫在给定值列表
的
数据
帧
列中找到最近值
的
索引。
、
、
、
、
因此,我试图找到一种向量化
的
方法来做到这一点,比如,我有一个数据框架DF1,其中包含一个
时间
戳
列,并按顺序增加了很多
时间
戳
。我还有一个具有目标
时间
的
列表,我希望使用它在DF1
中
查找该行
的
行
或索引,其中包含
与
目标
时间
最近
的
时间
戳
。我有一个使用迭代行
的
解决方案,但我想知道是否有一种不用迭代
的
方法,
浏览 0
提问于2020-11-19
得票数 1
回答已采纳
1
回答
在
Spark
DataFrame
中
添加一个新列,该列包含一个列
的
所有值
的
总和-
Scala
/
Spark
、
、
、
中
添加一列,该列包含同一
dataframe
中一列
的
所有值
的
总和。例如:在图片中有列- UserID,MovieID,Rating,UserID
时间
戳
。现在我想添加一个名为Sum
的
列,它将包含Rating列
的
所有值
的
总和。2| 880606923|+------+-------+------+-------------+ 仅显示前5
行
我
浏览 25
提问于2019-01-23
得票数 0
回答已采纳
0
回答
Spark
filter数据
帧
返回空结果
、
我在一个项目中使用存储在HDFS
中
的
Scala
和
Spark
processing文件。这些文件每天早上都会下载到HDFS
中
。我有一个作业,每天从HDFS读取该文件,处理它,然后将结果写入HDFS。在我将文件转换为
Dataframe
之后,此作业执行一个筛选器,以仅获取包含
的
时间
戳
高于最后一个文件
中
处理
的
最高
时间
戳
的
行
。这个
浏览 3
提问于2017-12-08
得票数 0
回答已采纳
1
回答
scala
.MatchError在
Spark
2.0.2
DataFrame
联合期间
、
、
我试图使用联合函数合并2个DataFrames,一个
与
旧数据合并,
另一个
与
新数据合并。在我尝试将一个新字段动态添加到旧
的
DataFrame
之前,这通常是可行
的
,因为我
的
模式正在发展。、
时间
戳
新模式字段名:
id
、station_
id
、station_name、station_timezone、station_genre、publisher_
id
、publisher_name、gr
浏览 2
提问于2017-01-18
得票数 1
1
回答
如何
根据
时间
戳
将
dataframe
与
json数据同步或合并
、
、
、
、
有很多关于
如何
合并两个pandas数据
帧
的
例子,但我
的
问题是我有两种数据。data1是一个csv数据,我用pandas读取它并将其转换为
dataframe
,
另一个
data2是json格式
的
。在每一列
中
,都有
与
该特性相对应
的
所有值,
并且
这些值都在这个json
中
。 我
的
目标是基于
时间
戳
合并这两个数据集。这非常困难,因为在json<e
浏览 9
提问于2019-11-11
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
教程:Apache Spark SQL入门及实践指南!
第四范式OpenMLDB: 拓展Spark源码实现高性能Join
大数据有道之spark筛选去重
大数据有道之spark选择去重
肝了3天,整理了90个Pandas案例
热门
标签
更多标签
云服务器
ICP备案
对象存储
云直播
腾讯会议
活动推荐
运营活动
广告
关闭
领券