腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
在
pyspark
中
对
dataframe
进行
循环
、
、
、
我需要这段简单的代码(
Pyspark
)的帮助: def ann(table):for tabletest, db71_test, pek6_test, db00f_test, d23b_test, bw0110_test]: ann(table) 因此,我只尝试将列"stand“添加到列表
中
的所有(已经存在)数据帧
中
。奇怪的是,如果我
在
函数"ann
浏览 154
提问于2021-01-30
得票数 0
回答已采纳
1
回答
基于2个spark数据帧
中
的匹配zip,创建用于距离计算的纬度和经度
对
、
、
、
我有一个
pyspark
dataframe
A,它有3列:-69 40 trp我有另一个
pyspark
dataframe
B,它具有相同的列,但捕获的值将不同:-68 43 trp我希望根据
dataframe
B
中
匹配的邮政编码为A的每个记录创建纬度经度
对
。因此,输出RDD
对
将如下所示: ([-69
浏览 2
提问于2017-11-16
得票数 0
1
回答
如何在
循环
中创建一个
pyspark
DataFrame
?
、
如何在
循环
中创建一个
pyspark
DataFrame
?在这个
循环
中,
在
每次迭代
中
,我输出2个值print(a1,a2)。现在,我想将所有这些值存储
在
一个
pyspark
数据帧
中
。
浏览 26
提问于2021-01-12
得票数 0
1
回答
如何在for
循环
中附加
pyspark
数据帧?
、
、
、
示例:我有一个
pyspark
dataframe
: x_data y_data 3.5 8.5 5.5 20.5 41 23 58 30 y_data 如何将每列计算的结果附加到for<e
浏览 13
提问于2021-02-18
得票数 0
回答已采纳
1
回答
为什么我得到了TypeError:不能在使用_thread.RLock时选择'_thread.RLock‘对象
、
、
、
、
() "/private/var/www/http/hawk-scripts/hawk_etl/scripts/spark_rds_to_parquet.py",第36行
中
,
在
process = spark.sparkContext.parallelize(
dataframe
_mysql,
中
1)文件"/Library/Frameworks/Python.framework/V
浏览 2
提问于2022-05-11
得票数 0
回答已采纳
1
回答
PySpark
: AttributeError:“
DataFrame
”对象没有属性“forEach”
、
、
我试图从hdfs
中
获取数据,并
对
每个数据
进行
迭代,以便
对
列_c1
进行
分析。import findsparkimport
pyspark
sc= SparkContext()sql = SQLContext(s
浏览 3
提问于2022-04-07
得票数 0
回答已采纳
1
回答
可以在给定日期范围的
PySpark
数据帧上迭代日期吗?
、
、
、
到目前为止,我已经手动输入了日期范围:from
pyspark
.sql.functions import col,litimport datetime +----------+--------------
浏览 6
提问于2022-12-01
得票数 0
2
回答
有没有办法
在
pyspark
中
根据索引对数据帧
进行
切片?
、
、
在
python或R
中
,可以使用索引
对
DataFrame
进行
切片。df.iloc[5:10,:]
在
pyspark
中有没有类似的方式来根据行的位置对数据
进行
切片?
浏览 3
提问于2018-10-13
得票数 4
回答已采纳
2
回答
Pyspark
dataframe
到pandas的转换会丢弃数据吗?
、
我有一个相当复杂的过程来创建
pyspark
dataframe
,将其转换为pandas
dataframe
,并将结果输出到平面文件。我不确定错误是在哪一点引入的,所以我将描述整个过程。开始时,我有一个
pyspark
dataframe
,其中包含ids集的成对相似性。我喜欢按ID_A
对
其
进行
分组,按EuclideanDistance
对
每组
进行
排序,并且只获取每组的前N
对
。结果”数据帧
中
。尽管它仍然<e
浏览 1
提问于2018-05-02
得票数 0
2
回答
使用
pySpark
迭代每一行数据帧
、
、
、
、
我需要使用
dataframe
来迭代
pySpark
,就像我们可以使用for
循环
迭代一组值一样。下面是我写的代码。这段代码的问题是 from
pyspark
.sql.functions import * from
pyspark
.s
浏览 2
提问于2017-01-30
得票数 3
1
回答
如何将一列从另一数据
中
添加到另一个数据
中
?
、
、
、
、
我刚在
pyspark
工作,我试图
对
我的数据
进行
一些标记化。我有我的第一个数据:reviewID|text|starstokenizer = Tokenizer(inputCol="text", outputCol.withColumn("howmanywords", countTokens(col("words"))).show(truncate=False) 我得
浏览 5
提问于2019-09-21
得票数 0
回答已采纳
1
回答
如何显示
pyspark
数据帧的历史记录?
、
我使用我的代码
对
pyspark
dataframe
进行
分组和聚集,它看起来像这样: >>> df.groupBy('DAY_OF_WEEK','confirmed').agg(F.count('confirmed| 3| 1|40128|+-----------+---------+-----+ 有没有办法画出这个
pyspark
我只能通过将其转换
浏览 20
提问于2021-09-24
得票数 0
1
回答
PySpark
DataFrame
:标记某些列值发生更改的行
、
、
、
我有一个包含'people‘和'timestamp’列的
PySpark
DataFrame
(加上其他与问题无关的列)。解释是用户在那个时候做了一些事情。我想
对
“人物”的所有行
进行
分组,其中“时间戳”的差异不超过“阈值”值(例如5分钟)。感谢你的想法!
浏览 35
提问于2018-08-30
得票数 0
回答已采纳
1
回答
向
pyspark
dataframe
添加包含文件名的附加列
、
我使用for
循环
遍历文件夹
中
的csv文件,并
对
每个csv执行一些操作(获取每个唯一id的行数,并将所有这些输出存储到一个
pyspark
dataframe
中
)。现在,我的要求是将文件名添加到每次迭代的
dataframe
中
。有没有人能提出一些建议呢?
浏览 43
提问于2021-08-01
得票数 0
1
回答
用笔记本将数据从Azure Synapse数据库加载到
DataFrame
中
、
我试图从Azure Synapse DW中加载数据到一个数据文件
中
,如图像所示。most recent call last):
对
我做错了什么有什么想法吗
浏览 2
提问于2021-08-17
得票数 1
回答已采纳
1
回答
如何使用AWS胶
对
S3 CSV文件
进行
排序
、
、
、
、
我
对
AWS胶水和火花比较陌生。我想按S3
中
的用户ID
对
csv文件
进行
排序。我正在试用下面的脚本,但是它没有
对
file.Can
进行
排序--请有人帮我做这个?sysfrom awsglue.transforms import *from
pyspark
.contextimport current_date import
pyspark
.sq
浏览 3
提问于2022-01-16
得票数 0
1
回答
向类添加功能的最佳方法-
PySpark
、
、
、
、
有一段时间,我
在
寻找如何将多个列一次重命名为一个
PySpark
DF,并遇到了如下情况:def rename_sdf(df, mapper={}, **kwargs_mapper): # return something 我
对
最后一段感兴趣,其中通过赋值语句将方法添加到
pyspar
浏览 6
提问于2020-07-09
得票数 1
1
回答
使用多个窗口过滤
PySpark
数据的行
、
、
、
、
我正在寻找一个有效的方法,过滤掉所有的行,而不是
在
一个时间窗口。-09-01 20:12:00| 2| +-------------------+------+ 一些补充资料:
Py
浏览 1
提问于2018-09-02
得票数 0
回答已采纳
1
回答
For/Loop/While in Databricks (Azure) SQL
、
、
、
、
谁知道我是否可以
在
Databricks的SQL中
进行
迭代构造(如loop,while,for)?
浏览 35
提问于2021-11-11
得票数 0
1
回答
如何在
Pyspark
Dataframe
中
训练和测试拆分的时间序列数据
、
、
、
我想
对
排序后的
Pyspark
数据帧
进行
基于时间的训练测试拆分。假设前300行将在训练集中,下200行将在测试拆分
中
。我可以用以下命令选择前300行: train = df.show(300) 但是如何从
Pyspark
dataframe
中选择最后200行呢?
浏览 14
提问于2019-03-13
得票数 1
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
在Keras中如何对超参数进行调优?
在 Linux 中如何对 CPU 进行压力测试|Linux 中国
PySaprk之DataFrame
Python开源数据分析工具TOP 3!
科普文,python注释,在代码中对代码功能进行解释的标注性文字
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
对象存储
活动推荐
运营活动
广告
关闭
领券