腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
在
pyspark
dataframe
中
查找
连续
数据
pyspark
、
apache-spark-sql
我有一个
数据
帧,看起来像 key | value | time | statusx | 15 | 1 | running x换句话说,我想按key拆分,按time排序,分成具有相同status的窗口,保留第一个和最后一个time,并对该窗口进行计算,即max of value 理想情况下使用
pyspark
。
浏览 25
提问于2019-05-17
得票数 1
回答已采纳
1
回答
使用套接字的火花结构化流,设置模式,
在
控制台中显示
DATAFRAME
apache-spark
、
pyspark
、
apache-spark-sql
、
spark-structured-streaming
如何在
DataFrame
中
为流
PySpark
设置架构。from
pyspark
.sql import SparkSessionfrom
pyspark
.sql.functions\ .getOrCreate() # Create
DataFrame
representi
浏览 3
提问于2016-12-29
得票数 3
回答已采纳
3
回答
为什么
在
352之后添加一个单调增加id中断的id列?
python
、
pyspark
、
spark-dataframe
我使用了以下代码:但是,
在
352行之后,它会像这样分开:有什么办法解决这个问题吗
浏览 0
提问于2017-12-04
得票数 4
回答已采纳
2
回答
pyspark
.pandas和熊猫有什么区别?
pandas
、
pyspark
开始
在
Databricks上使用
PySpark
,我看到我可以
在
pandas的同时导入
pyspark
.pandas。有什么不同吗?我想这不像koalas,对吧?
浏览 13
提问于2022-09-20
得票数 0
2
回答
将
数据
保存到HDFS的格式是什么?
hadoop
、
apache-spark
、
hdfs
、
apache-spark-sql
创建
DataFrame
后,我可以将其保存为avro、csv或拼板格式。
在
dataframe
或rdd
中
是否有其他格式可用于
在
Hadoop中保存
数据
?
浏览 2
提问于2017-12-21
得票数 1
1
回答
pyspark
.pandas API:构造共生矩阵,.dot()不支持
数据
作为输入。
python
、
pandas
、
apache-spark
、
pyspark
我试图使用
pyspark
.pandas API在
数据
库上构造
数据
的共生矩阵。该代码
在
熊猫
中
运行良好,但在使用
pyspark
.pandas时出现了错误。coocc = psdf.T.dot(psdf)我得到了这个错误我查过医生了。
pyspark
.pandas.
DataFrame
.dot() 以串联作为输入。我尝试使用
浏览 8
提问于2022-10-14
得票数 0
回答已采纳
1
回答
字符串
中
的
Pyspark
双字符替换避免未映射到pandas或rdd的特定单词
python
、
pandas
、
apache-spark
、
pyspark
、
apache-spark-sql
我继承了一个修改
pyspark
dataframe
中一些字符串的程序。其中一个步骤涉及从字符串
中
的一些单词
中
删除双/三/等字母,以及一个额外的例外列表,即使它们有重复的字母也会保持不变。目前,这是通过将
dataframe
转换为具有udf的pandas,然后在读回
pyspark
之前对生成的pandas
dataframe
中
的字符串应用自定义函数来完成的。我需要直接在
pyspark
中
执行相同的函数。<
浏览 7
提问于2021-03-15
得票数 0
回答已采纳
1
回答
在
PySpark
(本地)上编程与
在
Jupyter Notebook上使用Python编程
python
、
apache-spark
、
pyspark
最近我一直
在
使用
pySpark
,所以我已经习惯了它的语法、不同的API和HiveContext函数。很多时候,当我开始处理一个项目时,我并不完全知道它的范围是什么,或者输入
数据
的大小,所以有时我最终需要分布式计算的全部功能,而在另一些情况下,我最终得到了一些
在
我的本地计算机上运行良好的脚本。我的问题是,与常规的Python/Pandas相比,将
pySpark
作为我的主要语言进行编码是否存在劣势,即使只是进行一些探索性分析?我这么问主要是因为
在
不同语言之间切换的认知工作,以及如果
浏览 0
提问于2016-07-27
得票数 1
1
回答
使用
pyspark
从每个行的数组
中
获取不同的计数
apache-spark
、
pyspark
、
apache-spark-sql
、
pyspark-dataframes
我正在使用
pyspark
dataframe
从每个行的数组
中
查找
不同的计数:输入: col1 1,1,1 1,2,1,212 output:3 please help me how do i achieve this using python
pyspark
dataframe
.
浏览 10
提问于2020-02-28
得票数 1
回答已采纳
4
回答
如何选择最后一行,以及如何按索引访问
PySpark
数据
?
python
、
apache-spark
、
pyspark
、
apache-spark-sql
来自类似于
PySpark
SQL
数据
文件的abc 20 A如何获得最后一行。(就像df.limit(1)一样,我可以将第一行
数据
last转换为新的
数据
格式)。df.tail(1) # for last rowdf.loc[] or by df.iloc[] 我只是好奇如何以这样的
浏览 7
提问于2016-09-17
得票数 16
回答已采纳
2
回答
在
熊猫(python)
中
,能不能将星星之火(scala)转换成
数据
(Python)
pandas
、
scala
、
dataframe
、
apache-spark
Dataframe
是使用scala创建的。spark.createDataFrame( spark.sparkContext.parallelize(someData), StructType(someSchema) ) 我想把这个转换成Pandas
Dataframe
PySpark
提供了.toPandas()来将火花
数据
转换成熊猫,但是scala(我可以找到)并没有对应的
数据
。
浏览 1
提问于2020-04-05
得票数 0
回答已采纳
1
回答
我必须遵守
pyspark
sql
中
的命令顺序吗?
python
、
pyspark-sql
我正在学习
pyspark
sql,我不确定函数的顺序是否必须是下一个?
在
何处指定此顺序? 我检查了,但它没有提到任何关于尊重命令顺序的内容。
浏览 2
提问于2019-09-18
得票数 0
2
回答
如何在
pyspark
datafarme
中
查找
重复的列值
pyspark
、
duplicates
、
find
我正在尝试从
pyspark
中
的
dataframe
中
查找
重复的列值。例如,我有一个只有一个列'A‘的
dataframe
,值如下:A1245====5
浏览 0
提问于2019-08-27
得票数 4
2
回答
熊猫
数据
转换为
PySpark
的问题?
python
、
python-2.7
、
pandas
、
pyspark
、
pyspark-sql
所以我试着把熊猫的
数据
转换成一个RDD,如下所示:spDF = sqlContext.createDataFrame(df['A'是否知道如何将特定的熊猫
数据
栏转换为
Pyspark
?更新:new_
dataframe
= df_3.loc[:,'A'] new_
dataframe
.he
浏览 4
提问于2016-03-17
得票数 1
回答已采纳
2
回答
如何创建空的考拉df
python
、
spark-koalas
我正在尝试使用以下命令创建空的考拉
DataFrame
但是我得到了以下错误我也尝试了执行命令,但发现了类似的错误 df = ks.
DataFrame
(columns=['col1
浏览 3
提问于2020-08-24
得票数 0
2
回答
在
PySpark
Dataframe
中分组
连续
行
python
、
pyspark
我有下面的示例:星火
DataFrame
:| 1| 20:15:00|20:35:00| 20|我希望根据开始时间和结束时间对
连续
行进行分组00|20:10:00| 10| | 1| 20:0
浏览 0
提问于2018-07-12
得票数 10
回答已采纳
1
回答
pyspark
错误:'
DataFrame
‘对象没有属性'map’
apache-spark
、
spark-dataframe
、
apache-spark-2.0
我正在使用
Pyspark
2.0通过读取csv来创建一个
DataFrame
对象,使用:我使用以下命令找到
数据
的类型type(data)
pyspark
.sql.
dataframe
.
DataFrame
我正在尝试将
数据
中
的一些列转换为LabeledPoint,以便应用分类。from
pyspark
.sql.types
浏览 4
提问于2016-09-08
得票数 6
1
回答
PySpark
PCA:如何将
数据
行从多列转换为单列DenseVector?
apache-spark
、
pyspark
、
apache-spark-mllib
、
pca
、
apache-spark-ml
我想使用
PySpark
(Spark1.6.2)对存在于Hive表
中
的数值
数据
执行主成分分析(PCA)。= hiveContext.sql("SELECT * FROM my_table")<class '
pyspark
.sql.
dataframe
.
DataFrame
有一篇优秀的StackOverflow文章展示了如何在
PySpark
:
中
执
浏览 1
提问于2016-10-06
得票数 4
回答已采纳
6
回答
如何在
PySpark
中找到
DataFrame
的大小或形状?
python
、
dataframe
、
pyspark
我正在尝试
在
PySpark
中
找出
DataFrame
的大小/形状。我看不到有一个函数可以做到这一点。data.shape()
PySpark
中有没有类似的函数?
浏览 482
提问于2016-09-23
得票数 118
1
回答
如何根据行的内容拆分
pyspark
数据
python
、
dataframe
、
apache-spark
、
pyspark
、
apache-spark-sql
原始
数据
有一列,
数据
包括输入样例文件(
Pyspark
):我想要一个
DataFrame
文件名作为
数据
的分割。文件名放在
DataFrame
的column2
中
,文件的内容放置
在
DataFrame
的
浏览 3
提问于2019-10-10
得票数 1
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Excel如何查找一列数据是否在另一列数据中
PySaprk之DataFrame
Python开源数据分析工具TOP 3!
Dataiku DSS Code Recipe 介绍
遇见YI算法之初识Pyspark(二)
热门
标签
更多标签
云服务器
即时通信 IM
ICP备案
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券