腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
无法
在
PySpark
SQLContext
DataFrame
中
显示
列
python
、
dataframe
、
pyspark
如果我输入: df[['avg_wind_speed_9am']].head() 它返回: Row(avg_wind_speed_9am=2.080354199999768) 我不明白,通常它应该打印一
列
。下面是我导入数据帧的方式: from
pyspark
.sql import
SQLContext
df =
sqlContext
.read.load
浏览 15
提问于2020-11-09
得票数 0
2
回答
用java代码和python代码创建的数据
apache-spark
、
pyspark
、
jupyter-notebook
、
py4j
我
在
java中有一个类,它构建了一些复杂的星火
DataFrame
。package companyX; public
DataFrame
build() { }我将这个类添加到
pyspark
/木星类路径
中
,这样它就可以被py4j调用。现在,当我称之为它时,我得到了奇怪的类型:#prints: py4j.java_gateway.J
浏览 0
提问于2018-03-14
得票数 1
回答已采纳
2
回答
熊猫数据转换为
PySpark
的问题?
python
、
python-2.7
、
pandas
、
pyspark
、
pyspark-sql
所以我试着把熊猫的数据转换成一个RDD,如下所示:spDF =
sqlContext
.createDataFrame(df['A'是否知道如何将特定的熊猫数据栏转换为
Pyspark
?更新:new_
dataframe
= df_3.loc[:,'A'] new_
datafram
浏览 4
提问于2016-03-17
得票数 1
回答已采纳
3
回答
我可以将pandas数据帧转换为spark rdd吗?
pyspark
Pbm: a)读取一个本地文件到Panda
dataframe
中
,比如PD_DF。b)操纵/海量PD_DF并添加列到
dataframe
中
。c)需要使用spark将PD_DF写到HDFS。
浏览 0
提问于2015-04-15
得票数 4
1
回答
从火花数据中选择或删除重复列
apache-spark
、
pyspark
、
apache-spark-sql
、
pyspark-sql
( A)对于不能修改上游或源的,如何选择、删除或重命名其中的一个
列
,以便检索
列
值?df.select('A')向我
显示
了一个不明确的
列
错误,filter、drop和withColumnRenamed也是如此。如何选择其中一
列
?
浏览 0
提问于2018-09-06
得票数 2
1
回答
星星之火1.6:如何将从Scala jar生成的RDD转换为吡火花RDD?
java
、
python
、
scala
、
apache-spark
我正在尝试创建一些POC代码,演示如何从
PySpark
调用Scala函数,结果是一个
PySpark
.RDD。sc.parallelize(List.range(1, 10))这就是我
在
PySpark
端访问它所做的事情:>>> jrdd = foo.getTestRDD(sc._jsc.sc()) >>> type(moo
浏览 18
提问于2017-05-05
得票数 0
回答已采纳
1
回答
将向量
列
添加到吡咯
DataFrame
中
apache-spark
、
dataframe
、
pyspark
、
apache-spark-ml
如何将Vectors.dense
列
添加到
pyspark
中
?import pandas as pdfrom
pyspark
.sql import
SQLContext
sdf.withColumn("features", DenseVector(1)) 给出anaconda3/lib/python3.6/si
浏览 1
提问于2018-04-14
得票数 1
回答已采纳
1
回答
(将列表添加到
列
dataframe
pyspark
)
python
、
list
、
dataframe
、
pyspark
如果我已经存在数据帧,且我想要向数据框
中
添加新
列
sqlContext
=
SQLContext
(sc)numbers=[1,2,30,4]row_rdd = rdd1.map(lambda x: Row(x)) test_df =
sqlContext
.createData
浏览 0
提问于2020-10-05
得票数 1
1
回答
如何将
PySpark
RDD转换为具有未知
列
的
Dataframe
?
python
、
dataframe
、
pyspark
、
rdd
我是通过从RDD
中
的文本文件加载数据来创建
PySpark
的。现在,我想将这个RDD转换成一个
dataframe
,但是我不知道RDD中有多少列和
列
。我试图了解如何创建schema,但大多数示例都
显示
了一个硬编码模式创建示例。现在,由于我不知道
列
是什么,所以如何将rdd转换为
dataframe
?到目前为止,我的代码如下:
sqlContext
=
SQ
浏览 9
提问于2017-04-07
得票数 2
1
回答
只有
在
通过单独的脚本导入时才广播未定义的变量
apache-spark
、
pyspark
、
nameerror
、
udf
、
spark-submit
下面是两个最低限度的工作示例脚本,它们都在
pyspark
中
调用一个UDF。UDF依赖于一个广播字典,它用它将一个
列
映射到一个新
列
。, SparkConfimport
pyspark
.sql.functions as F from
pyspark
import SparkContex
浏览 0
提问于2017-03-07
得票数 1
2
回答
SqlContext
导入和并行化火花中的错误
apache-spark
、
dataframe
、
pyspark
、
rdd
line)).collect()TypeError: parallelize() missing 1 required positional argument: 'c'from
pyspark
.sql.types import *
sqlContext
=
SQLCont
浏览 4
提问于2018-03-19
得票数 0
2
回答
从
DataFrame
列
的操作创建新
列
会产生错误“
列
不可迭代”。
python
、
apache-spark
、
pyspark
、
spark-dataframe
我有一个
PySpark
DataFrame
,我尝试过许多示例,演示如何使用现有
列
创建一个基于操作的新
列
,但它们似乎都不起作用。1-为什么这段代码不能工作?from
pyspark
import SparkContext, SparkConfimport
pyspark
.sql.functionsas F
浏览 0
提问于2017-06-08
得票数 0
回答已采纳
3
回答
Pyspark
:将PythonRDD转换为
Dataframe
apache-spark
、
pyspark
有人能引导我把PythonRDD转换成
DataFrame
吗。另外,如果你认为有更好的方法,请提出建议。如果需要更多细节,请回复。 谢谢。
浏览 3
提问于2016-07-12
得票数 0
回答已采纳
1
回答
在
DataFrame
中子类是可能的吗?
python
、
python-2.7
、
oop
、
apache-spark
、
pyspark
Pyspark
的文档
显示
了DataFrames是从
sqlContext
、
sqlContext
.read()和各种其他方法构建的。是否可以将
Dataframe
子类并独立实例化它?我想将方法和功能添加到基类
DataFrame
类
中
。
浏览 3
提问于2017-01-11
得票数 8
回答已采纳
1
回答
_jdf丢弃数据帧
中
的报头,AttributeError:
Pyspark
csv
、
dataframe
、
header
、
pyspark-sql
from
pyspark
.sql import
SQLContext
avg_calcinferSchema=True)no_header = avg_calc.subtract(header)avg_calc包含2
列
,我正在尝试从这两
列
中
删除第1行,但是我
浏览 1
提问于2018-05-12
得票数 0
1
回答
PySpark
: AttributeError:“
DataFrame
”对象没有属性“forEach”
python
、
pyspark
、
apache-spark-sql
我试图从hdfs
中
获取数据,并对每个数据进行迭代,以便对
列
_c1进行分析。import findsparkimport
pyspark
sc= SparkContext()sql =
SQLContext
(sc) df =
浏览 3
提问于2022-04-07
得票数 0
回答已采纳
1
回答
在
dataframe
中
不存在
列
时,星火设置为空。
python
、
apache-spark
、
apache-spark-sql
、
pyspark
我正在加载许多版本的JSON文件,以激发
DataFrame
。有些文件包含A、B
列
和A、B、C或A、C
列
。如果我运行这个命令加载几次后,我可以得到错误“
列
不存在”,我只加载了不保存
列</e
浏览 9
提问于2015-08-23
得票数 4
2
回答
如何在
Pyspark
中使用Scala类
python
、
scala
、
apache-spark
、
pyspark
、
apache-spark-sql
我已经搜索了一段时间了,如果有任何方法
在
Pyspark
中使用一个
Pyspark
类,我还没有找到任何关于这个主题的文档或指南。假设我
在
Scala
中
创建了一个简单的类,它使用了一些apache-spark库,如下所示: def exe():
DataFrame
= { impor
浏览 3
提问于2016-03-15
得票数 29
回答已采纳
2
回答
如何访问由Row创建
Dataframe
的
DataFrame
列
apache-spark
、
pyspark
我对火种很陌生它抛出错误AttributeError:'
DataFrame
‘对象没有属性'product’from
pyspark
.sql import Ro
浏览 2
提问于2020-04-13
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
如何在CDH集群上部署Python3运行环境及运行Python作业
遇见YI算法之初识Pyspark(二)
Spark SQL,DataFrames 以及 Datasets 编程指南
一文读懂PySpark数据框
一文读懂 PySpark 数据框
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
对象存储
活动推荐
运营活动
广告
关闭
领券