腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
在
PySpark
中
操作
复杂
的
数据
帧
python
、
dataframe
、
apache-spark
、
pyspark
、
apache-spark-sql
我正在准备一个使用
PySpark
训练机器学习模型
的
数据
集。我正在处理
的
数据
帧
包含数千条关于不同建筑和城市不同房间内不同日期登记
的
存在
的
记录。,当然,outHour和outMinute表示退出
的
时间。小时数以0-23
的
格式考虑。所有列都只包含整数值。 我缺少
的
是我
的
机器学习模型
的
目标值,即房间、建筑物、城市、日、月和时间间隔
的
组合的人数。我将尝试更
浏览 12
提问于2021-01-10
得票数 1
回答已采纳
1
回答
将列有条件地添加到
数据
帧
中
python
、
apache-spark
、
dataframe
、
pyspark
、
multiple-columns
我
在
PySpark
中有一个
数据
帧
。我想有条件地在
数据
框架
中
添加一列。 如果
数据
帧
没有列,那么添加一个带有null值
的
列。如果列存在,则不执行任何
操作
,并返回与新
数据
帧
相同
的
数据
帧
。如何在
PySpark
中
传递条件语句
浏览 6
提问于2017-01-20
得票数 0
回答已采纳
1
回答
如何将Azure Synapse Dataframe转换为JSON on Databricks?
azure
、
pyspark
、
databricks
、
azure-databricks
、
azure-synapse
因为当我尝试
的
时候,它得到了一个错误。下面是我
的
synapse
的
脚本: @staticmethod .mode(write_mode) ) 这是我选择我
的
表
的
时候= df_dim_store.to
浏览 19
提问于2021-05-31
得票数 0
回答已采纳
1
回答
对于.head(20)这样
的
操作
,如何让Dask变得像
PySpark
一样懒惰?
python
、
dask
在
PySpark
中
,每当我
在
一个非常大
的
数据
帧
df上排列一组
复杂
的
操作
,然后键入:Spark将只执行必要
的
操作
(
在
部分
数据
集上),以便快速返回20条记录以供显示。除非我用.collect()强制它这样做,否则它不会对dataframe df
的
所有行执行
操作
。另一方面,
在</em
浏览 38
提问于2018-06-03
得票数 1
1
回答
Cassandra过滤
pyspark
数据
帧
的
时间戳格式正确
python
、
apache-spark
、
pyspark
、
cassandra
、
spark-cassandra-connector
我
在
Cassandra中将时间戳存储为YYYY-mm-dd HH:MM:SSZ,并且我能够
在
cql shell
中
过滤
数据
以获得特定
的
时间范围,但是当我
在
pyspark
数据
帧
上尝试同样
的
操作
时,我在过滤后
的
数据
帧
中
没有得到任何值有谁能帮我
在
pyspark
中找到合适
的
dateti
浏览 6
提问于2020-03-05
得票数 1
1
回答
在
PySpark
(本地)上编程与
在
Jupyter Notebook上使用Python编程
python
、
apache-spark
、
pyspark
最近我一直
在
使用
pySpark
,所以我已经习惯了它
的
语法、不同
的
API和HiveContext函数。很多时候,当我开始处理一个项目时,我并不完全知道它
的
范围是什么,或者输入
数据
的
大小,所以有时我最终需要分布式计算
的
全部功能,而在另一些情况下,我最终得到了一些
在
我
的
本地计算机上运行良好
的
脚本。我
的
问题是,与常规
的
Python/Pandas相比,将
p
浏览 0
提问于2016-07-27
得票数 1
3
回答
`df.loc`
的
火花源等价?
python
、
pandas
、
apache-spark
、
dataframe
、
pyspark
我正在寻找等同于pandas
数据
帧
的
pyspark
。特别是,我想对
pyspark
dataframe执行以下
操作
# assuming dfdf.loc[index, 'column_B'] * df.loc[index, 'column_C']) / sum(df.loc[index, 'colum
浏览 0
提问于2018-05-13
得票数 8
回答已采纳
2
回答
将
数据
类型从yyyy-MM-dd格式
的
字符串更改为DateType
python
、
apache-spark
、
datetime
、
pyspark
我正在尝试将
数据
帧
中
的
列从yyyy-MM-dd格式
的
字符串类型转换为DateType。我目前正在运行这段代码,但它不会改变类型,但它也不会失败--所以我想我遗漏了一些相当基本
的
东西我从得到了这个格式,但我不确定我错过了什么 谢谢你
的
帮助!
浏览 0
提问于2020-01-18
得票数 0
1
回答
在
PySpark
中
,为什么
数据
帧
聚合在Kerberized源表上比相同
的
查询内聚合工作得更好?
pyspark
、
kerberos
我使用Cloudera发行版Spark 2.1.0
在
多节点集群上
操作
,它
的
配置单元分区是Kerberized
的
。我
的
查询相当
复杂
(三个表,包含两个连续聚合
的
嵌套子查询),
在
写入
PySpark
数据
帧
之前,我
在
SQL
中
运行聚合步骤时遇到了GSSException问题。对dataframe
的
操作
需要30到45分钟,并尝试将datafr
浏览 3
提问于2018-08-23
得票数 0
3
回答
取消持久化(py)spark
中
的
所有
数据
帧
python
、
caching
、
apache-spark
、
pyspark
、
apache-spark-sql
这通常是
在
一个大
的
步骤之后,或者缓存一个我想要多次使用
的
状态之后。似乎当我第二次对我
的
数据
帧
调用cache时,一个新
的
副本被缓存到内存
中
。
在
我
的
应用程序
中
,这会导致
在
扩展时出现内存问题。尽管
在
我当前
的
测试
中
,给定
的
数据
帧
最大大约为100MB,但中间结果
的
累积
浏览 9
提问于2016-04-28
得票数 39
回答已采纳
1
回答
从
PySpark
中
的
复杂
列中提取值
apache-spark
、
pyspark
、
apache-spark-sql
我有一个
PySpark
数据
帧
,它有一个
复杂
的
列,请参考下列值:1 [{"label":"animal","value":"cat"},{"label":null,"value":"George"}] 我想在
PySpark
dataframe
中
添加一个新列,它基本上将它转换为一个字符串列表。因此,对于上面的示
浏览 0
提问于2021-02-09
得票数 0
1
回答
如何使用
Pyspark
/SQL/DataFrames SPARK RDD来插入/删除DB2源表
数据
?
pyspark
、
apache-spark-sql
、
spark-streaming
、
pyspark-sql
我尝试运行upsert/delete命令来插入/删除DB2
数据
库源表
中
的
一些值,这是DB2上
的
一个现有表。是否可以使用
Pyspark
/Spark SQL/Dataframes。
浏览 2
提问于2019-05-10
得票数 0
1
回答
Pyspark
数据
框架
操作
的
单元测试用例
python
、
unit-testing
、
spark-dataframe
、
pyspark-sql
我已经用python写了一些带有sql上下文
的
代码,即
pyspark
,通过将csv转换为
pyspark
dataframe来对csv执行一些
操作
(df
操作
,如预处理、重命名列名、创建新列并将其附加到相同
的
我没有在
数据
帧
上编写单元测试用例
的
想法。有谁能帮我
在
pyspark
的
dataframe上写单元测试用例吗?或者给我一些
数据
帧
上
的</em
浏览 1
提问于2016-04-14
得票数 3
1
回答
Spark SQL更新/删除
apache-spark
、
pyspark
、
apache-spark-sql
、
pyspark-sql
、
pyspark-dataframes
目前,我正在做一个使用
pySpark
的
项目,它读取一些Hive表,将它们存储为
数据
帧
,并且我必须对它们执行一些更新/过滤。我正在不惜一切代价避免使用Spark语法来创建一个框架,该框架只接受参数文件
中
的
SQL,该参数文件将使用我
的
pySpark
框架运行。现在
的
问题是,我必须在我
的
最终
数据
帧
上执行更新/删除查询,是否有任何可能
的
工作来
在<
浏览 7
提问于2019-11-15
得票数 1
0
回答
减去Pandas或
Pyspark
Dataframe
中
的
连续列
python
、
pandas
、
pyspark
、
multiple-columns
、
subtraction
我想在pandas或
pyspark
数据
帧
中
执行以下
操作
,但我仍然没有找到解决方案。我描述
的
操作
可以在下图中看到。 请记住,输出
数据
帧
在
第一列上不会有任何值,因为输入表
中
的
第一列不能被前一列减去,因为它不存在。
浏览 1
提问于2016-07-12
得票数 4
回答已采纳
2
回答
将
PySpark
数据
帧
转换为
PySpark
.pandas
数据
帧
python-3.x
、
apache-spark
、
pyspark
在
链接
中
,用户可以
在
Spark3.2
中
的
PySpark
之上与熊猫合作。是否需要很长时间才能将
PySpark
数据
帧
转换为
PySpark
熊猫
数据
框架?我知道将
PySpark
数据
帧
转换为熊猫
数据
框架需要很长时间。
浏览 9
提问于2022-03-02
得票数 1
回答已采纳
3
回答
我可以将pandas
数据
帧
转换为spark rdd吗?
pyspark
Pbm: a)读取一个本地文件到Panda dataframe
中
,比如PD_DF。b)操纵/海量PD_DF并添加列到dataframe
中
。c)需要使用spark将PD_DF写到HDFS。
浏览 0
提问于2015-04-15
得票数 4
1
回答
PySpark
滑动窗口计算
pyspark
、
window-functions
、
moving-average
我有一个
PySpark
数据
帧
,我想在其上运行滑动窗口计算。下面是我想要运行
的
操作
的
示例代码(显示为pandas dataframe):有人能告诉我如何在
PySpark
中
复制这个
操作
吗?
浏览 0
提问于2018-03-18
得票数 0
2
回答
PySpark
列向绑定
pyspark
在
PySpark
中有什么特定
的
方法可以像我们
在
r
中
那样绑定两个
数据
帧
吗? 我需要在
PySpark
中
同时绑定
数据
帧
和作为一个
数据
帧
。
浏览 1
提问于2017-08-30
得票数 3
2
回答
以每列为关键字将
PySpark
数据
帧
转换为JSON
apache-spark
、
pyspark
、
apache-spark-sql
、
databricks
我正在研究
PySpark
。我有一个
数据
框,我需要将其转储为JSON文件,但JSON文件应具有以下格式,例如- {"Column 1": [9202, 9202, 9202, ....], "Column 2": ["FEMALE因此,每列应该有一个键,相应
的
值应该包含该列
中
的
所有值
的
列表 我尝试将其转换为Pandas
数据
帧
,然后
在
将其作为JSON转储之前转换为字典,并成功地完成了转换,
浏览 14
提问于2019-12-18
得票数 1
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
在Hype中手动添加并操作关键帧
教你在PPT中输入复杂公式的具体操作步骤!
怎样在word中快速输入复杂的公式?
tcp/ip模型中,帧是第几层的数据单元?
OBJ文件在ZBrush中的操作
热门
标签
更多标签
云服务器
即时通信 IM
ICP备案
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券