腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
PySpark
:(
广播
)
在
最近
的
日期
时间
/
unix
连接
两个
数据
集
、
、
、
、
我正在使用
PySpark
,几乎要放弃我
的
问题了。我有
两个
数据
集
:一个非常大
的
(集合A)和一个相当小
的
(集合B)。info a | 2015-01-01 12:00:00 info b | 2015-01-01 12:00:00 A有很多行,每行都有不同
的
时间
戳B每隔几分钟就有一个
时间
戳。这里
的
主要问题是,
在
两个</
浏览 10
提问于2020-10-08
得票数 1
回答已采纳
2
回答
Pyspark
:通过ID和
最近
日期
向后加入2个
数据
帧
、
、
、
在
pyspark
(和一般
的
python )中执行
两个
数据
帧
的
滚动
连接
时,我遇到了很多问题。我希望将
两个
pyspark
数据
帧通过它们
的
ID和
最近
日期
反向
连接
在一起(这意味着第二个
数据
帧中
的
日期
不能晚于第一个
数据
帧中
的
日期
) Table_1:
浏览 1
提问于2020-08-08
得票数 2
2
回答
奇怪
的
日期
号问题
、
、
、
我正在处理一个
数据
集
,其中有一个
日期
字段,其
日期
如下所示: 42437.5460402431 其中数量较大
的
是
最近
的
。我们中
的
一个人认为它与
unix
时代和交替
时间
表示有关。我们现在面临
的
问题是将这些
日期
读成标准
的
MM-DD-YYYY格式。有人对如何将这些替代
日期
表单转换为
浏览 2
提问于2016-03-10
得票数 0
回答已采纳
1
回答
使用某些列和列表从spark dataframe中获取特定行
、
、
、
我有很大
的
spark
数据
帧'df',(超过十亿行)由 meta_info | date | comment 我还有一个变量'lst',它存储了我感兴趣
的
所有in。怎样才能只保留id包含在lst中
的
行? df.where("meta_info".isin(lst)).show() 这就是我所尝试
的
,但它显示'string‘没有isin
浏览 21
提问于2021-07-15
得票数 0
1
回答
星火中笛卡尔加入与BroadcastNestedLoop
连接
的
区别
、
它们都以跨积
的
方式扫描表中
的
每一条记录。他们说,
在
BroadcastNestedLoop中,向所有工作节点
广播
较小
的
表。
在
笛卡尔加入
的
情况下,这种洗牌是如何发生
的
?
浏览 4
提问于2022-02-05
得票数 1
回答已采纳
2
回答
火星雨: isin与join
、
、
通过给定
的
值列表过滤
pyspark
中
的
数据
的
一般最佳实践是什么?具体地说: 其他背景:
浏览 0
提问于2017-08-21
得票数 28
回答已采纳
2
回答
如何在spark中将
时间
戳列拆分为
日期
和
时间
我想把
时间
戳值分成
日期
和
时间
。20/2016 3:20:34 PM需要拆分为2016年1月20日和下午3:20:30split_col =
pyspark
.sql.functions.split
浏览 0
提问于2017-03-20
得票数 5
1
回答
使用
Pyspark
sql将
unix
时间
转换为datetime
的
结果不正确
、
、
我将
unix
time转换为可读
的
日期
/
时间
字符串。我发现,转换结果有时似乎是不正确
的
,特别是
在
2017年12月31日。time_df = spark.createDataFrame(pd.DataFrame({'
unix
_time': [ut1]}))如果我将24小时
的
时
浏览 2
提问于2018-02-22
得票数 2
回答已采纳
1
回答
如何在where子句中引用来自另一个CTE
的
日期
范围而不
连接
到它?
、
、
、
、
我正在尝试为Hive编写一个查询,它使用系统
日期
来确定昨天
的
日期
和30天前
的
日期
。这将为我提供滚动30天,而不需要在每次运行查询时手动将
日期
范围提供给查询。我尝试了各种方法,但每次都会得到一个"ParseE
浏览 0
提问于2019-07-18
得票数 2
1
回答
火花放电中
的
多重转换/动作与懒惰评估
、
、
我正在
PySpark
上进行一个项目,该项目需要处理大型
数据
集
(大小约为2GB
的
多个.csv文件)。C = A.join(B, A.key_1 == B.key_2, "full")C.count()
PySpark
是否
在
每次调用C.count()时都会重新执行对A和B*+* A+B
的
完全
浏览 3
提问于2022-11-14
得票数 0
1
回答
为什么斯派克对这
两个
查询
的
解释不同?
、
、
因此,为了达到相同
的
目标,我有这
两个
问题。使用Spark。layer_scan_index WHERE name = 'Example1');看上去斯派克处理这些问题
的
浏览 1
提问于2017-06-08
得票数 3
回答已采纳
1
回答
多个字符串列上
的
隐蔽
日期
-
PySpark
/ Databricks
、
、
、
我对Databricks非常陌生,Spark/
PySpark
/Python。我已经
在
Stack中找到了一个可行
的
候选人,它已经完成了一个变量<em
浏览 0
提问于2021-06-04
得票数 0
回答已采纳
1
回答
PIG脚本如何
、
、
、
我正在尝试清理这些员工志愿者
数据
。没有办法跟踪员工是否已经注册为志愿者,以便他可以注册为新
的
志愿者,并将获得新
的
VOLUNTEER_ID。我有一个
数据
馈送到我可以将每个VOLUNTEER_ID绑定到其EMP_ID
的
位置。志愿者
数据
需要清理,以便我们可以弄清楚员工是如何从一个volunteer_level迁移到另一个volunteer_level
的
,以及
在
什么时候。业务逻辑是,当有重叠
的
日期
时,我们
在
浏览 0
提问于2015-04-28
得票数 0
3
回答
连接
两个
表,然后按
日期
排序,但将
两个
表组合在一起
、
、
我有两张桌子: - userID- date - userID- date因此,这里
的
目标是
连接
两个
表,其中userID匹配我想要
的
任何内容-然后返回按
日期
排序
的
所有内容(
最近
一次
在
顶部)。但是,由于每个表中都有一个
日期
字段,所以我不确定MySQL将如何处理.会自动按
两个
日期
进行排
浏览 4
提问于2011-03-12
得票数 2
回答已采纳
2
回答
MongoDB和Spark:无法将字符串转换为TimestampType
、
我使用官方
的
MongoDB Spark Connector从MongoDB集合中读取Spark中
的
数据
,代码如下: INFO DAGScheduler: Job 1 failed: countTraversableLike.scala:234) at scala.
浏览 12
提问于2018-11-28
得票数 1
3
回答
利用
PySpark
在
数据
模型上应用sklearn训练模型
、
、
、
我用Python训练了一个随机森林算法,并希望用
PySpark
在
一个大
数据
集
上应用它。我首先加载了经过训练
的
sklearn模型(使用joblib),将包含这些特性
的
数据
加载到Spark
数据
框架中,然后添加了一个带有预测
的
列,该列具有用户定义
的
函数,如下所示:new_dataframe = dataframe.withColumn('predict
浏览 6
提问于2017-05-31
得票数 8
回答已采纳
1
回答
用
最近
的
时间
戳合并2个csv文件
、
我有
两个
CSV格式
的
数据
集
。两者都包含一个
Unix
时间
戳。一个包含与业务相关
的
数据
,另一个包含天气
数据
。 我想做
的
是通过
最近
的
时间
戳导入与业务相关
的
数据
中
的
天气
数据
。由于没有一个
时间
戳完全匹配,我想让每一家公司都有
最近
的
天气记录
的<
浏览 1
提问于2014-05-09
得票数 1
回答已采纳
1
回答
Pyspark
将字符串转换为包含两种不同格式
的
日期
时间
戳列
、
、
我正在处理芝加哥
数据
集
,
日期
列采用字符串格式,由
日期
组成,但具有两种不同
的
格式: Row(Date='01/10/2008 12:00'), Row(Date='02/25/2008 08:20:53PM') 我找到了下面的代码,并尝试了这
两个
(我不确定是正确
的
),但由于它包含两种格式,都在下面的代码收到错误
的
格式是找不到。data_clean = data_clean.w
浏览 14
提问于2021-04-18
得票数 0
回答已采纳
2
回答
在
星火中,
广播
哈希
连接
和
广播
嵌套循环
连接
有什么区别?
在
星火中,
广播
哈希
连接
和
广播
嵌套循环
连接
有什么区别?在哪种情况下火花会选择哪个和哪个更快?
浏览 1
提问于2020-01-01
得票数 4
4
回答
如何解析电火花中
的
twitter
日期
时间
字符串?
、
、
、
我
的
数据
在
pyspark
('
pyspark
.sql.dataframe.DataFrame')中。其中一列以Twitter字符串格式存储
日期
时间
。我为python找到了几个解决方案,但是没有具体
的
解决方案。我试着遵循解决方案,但没有奏效 date_df = df.select('created_at', f
浏览 0
提问于2019-05-03
得票数 1
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
PySpark,大数据处理的Python加速器!
Python开源数据分析工具TOP 3!
手把手教你从零上手Python
数据科学速成课:给Python新手的实操指南
如何从Pandas迁移到Spark?这8个问答解决你所有疑问
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券