腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(6431)
视频
沙龙
1
回答
StringType
:
由于
数据类型
为
字符串
而
不是
Pyspark
,
无法
将
RDD
转
换为
DataFrame
、
、
我在
Pyspark
中做了一些复杂的操作,其中最后一个操作是一个flatMap,它产生一个
pyspark
.
rdd
.PipelinedRDD类型的对象,其内容只是一个
字符串
列表: print(output_data.take转
换为
具有如下一列的
DataFrame
: schema = StructType([StructField("term",
StringType
())]) df = spark.createDataFrame因此,出于某种原因,我有一
浏览 34
提问于2020-10-21
得票数 0
回答已采纳
2
回答
在Spark Streaming Python中将
RDD
转
换为
Dataframe
、
、
、
我正在尝试在星火流中将
RDD
转
换为
DataFrame
。我正在遵循下面的流程。socket_stream = ssc.socketTextStream("localhost", 9999) schema = StructType([StructField("text",
StringType
(), True)]) df =spark.createDataFrame(
rdd
, schema
浏览 22
提问于2018-12-13
得票数 0
回答已采纳
1
回答
在
DataFrame
中将
RDD
转
换为
PySpark
、
、
我
无法
将
RDD
数据转
换为
pyspark
中的
Dataframe
。from
pyspark
.sql.types import StructType, StructField,
StringType
(),True),
浏览 5
提问于2021-04-02
得票数 0
3
回答
将
模式
数据类型
JSON混合到
PySpark
DataFrame
、
、
我需要将JSON的列表转
换为
pySpark
DataFrames。JSON都有相同的架构。问题是JSON中dicts的值条目有不同的
数据类型
。如果我使用df = spark.createDataFrame(json_list)从jsons中创建我的
DataFrame
,因为他
无法
正确地推断模式,所以
pyspark
“删除”了一些数据。
PySpark
决定complex-field的架构应为:StructType("complex", ArrayType(M
浏览 23
提问于2022-03-28
得票数 0
回答已采纳
2
回答
需要创建一个
Dataframe
,其中通过循环遍历另一个
Dataframe
列的值来创建列。我如何在
PySpark
中做到这一点?
、
、
我试图从原始的
Dataframe
"User_df“中获取每个列的列名和
数据类型
,到它们自己的列中,其中列的值分别是列名和
数据类型
。 new_
dataframe
= sqlContext.createDataFrameStructField("ColumnDataTypes", <e
浏览 36
提问于2022-08-16
得票数 0
回答已采纳
3
回答
Pyspark
:
将
PythonRDD转
换为
Dataframe
、
有人能引导我把PythonRDD转换成
DataFrame
吗。
rdd
1 = sparkCxt.textFile(setting.REFRESH_HDFS_DIR + "/Refresh")
rdd
2 = <e
浏览 3
提问于2016-07-12
得票数 0
回答已采纳
1
回答
如何在
PySpark
中将字典转
换为
数据帧?
、
、
我正在尝试
将
字典:data_dict = {'t1': '1', 't2': '2', 't3': '3'}转
换为
数据帧: key | value|t1/sql/session.py", line 748, in createDataFrameTypeError: S
浏览 8
提问于2020-04-21
得票数 5
回答已采纳
1
回答
如何
将
spark
dataframe
中的String类型列转
换为
Pandas
dataframe
中的String类型列
、
、
我有一个从熊猫数据帧创建的样本spark数据帧-from
pyspark
.sql.types import
StringType
spark = SparkSessionfirst and then create pandas
dataframe</
浏览 3
提问于2020-09-09
得票数 0
1
回答
如何在
PySpark
中将列从
字符串
转
换为
数组
、
、
、
、
: 当我运行df.printSchema()时,我意识到用户列是
字符串
,
而
不是
所需的列表。我还试图通过创建一个UDF
将
列中的
字符串
转
换为
数组。("user",df.user.cast(ArrayType(
StringType</em
浏览 1
提问于2022-02-09
得票数 1
回答已采纳
2
回答
Pyspark
-Mongo缺少一些字段
、
、
所以我正在尝试使用mongo-spark连接器
将
集合表单MongoDB读入spark,但是文档中的一些字段丢失了,以前有人遇到过这个问题吗?如果是,解决方案是什么?
浏览 0
提问于2018-03-24
得票数 3
1
回答
来自另一个
rdd
和
dataframe
的
rdd
、
、
、
我有一个类似于以下内容的
rdd
:("P9", "Sweater", "Red", 30, 1000) ], ["Produ
浏览 0
提问于2018-02-16
得票数 0
回答已采纳
6
回答
手动创建
我正在尝试手动创建一个具有特定数据的:
rdd
= sc.parallelize(row_inTrue), ]df_in_test = spark.createDataFrame(
rdd
, schema) 当我试图显示
dataframe
时,这会产生一个错误,所以我不知道如何做到这一点。
浏览 1
提问于2019-09-16
得票数 38
回答已采纳
1
回答
从
RDD
创建
DataFrame
,同时在模式中指定DateType()
、
、
我正在从
RDD
创建一个
DataFrame
,其中一个值是date。我不知道如何在模式中指定DateType()。让我来说明一下眼前的问题-from
pysp
浏览 0
提问于2019-03-07
得票数 8
回答已采纳
6
回答
使用python
将
csv转
换为
拼图文件
、
、
我正在尝试
将
.csv文件转
换为
.parquet文件。csv文件(Temp.csv)的格式如下我正在使用以下python代码将其转
换为
parquetfrom(), True), StructField("col4",
String
浏览 1
提问于2018-05-30
得票数 37
2
回答
如果一行的一个列值
为
空,则将返回整行的空值。
、
、
、
-02-28","nationality":"French","url":"http://en.wikipedia.org/wiki/S%C3%A9bastien_Bourdais"}这是我的密码。这里有什么错误吗?from
pyspark
.sql.types import StructType, StructField, Integ
浏览 3
提问于2021-10-02
得票数 0
回答已采纳
1
回答
将
行列表保存到
pyspark
中的配置单元表
、
、
、
我有一个
pyspark
应用程序。我
将
一个hive表复制到我的hdfs目录中&在python中,我对这个表执行了sqlContext.sql查询。现在这个变量是我称之为rows的数据帧。我需要随机地对rows进行混洗,所以我必须将它们转
换为
一个行列表rows_list = rows.collect()。然后我使用shuffle(rows_list)
将
列表打乱到合适的位置。问题是我不能这样做: all_df = sc.parallelize(allrows2add).toDF()
无法
执行此操作,<em
浏览 1
提问于2016-04-28
得票数 5
回答已采纳
2
回答
ArrayType(
StringType
())不能接受对象‘.’在<class 'str'>类型中
、
、
、
、
这是我的密码:from
pyspark
.sql.types import * ,StructField("title",
StringType
(), True)\,StructField("year",
StringType
浏览 7
提问于2022-10-18
得票数 1
回答已采纳
1
回答
如何基于JSON
字符串
更改数据格式?
、
、
、
、
当我使用
PySpark
打开文件时,它返回一个包含JSON
字符串
的列的
dataframe
:df.show()但它返回了“
由于
数据类型
不匹配的
PySpark
而<
浏览 7
提问于2022-03-23
得票数 1
回答已采纳
5
回答
更新spark中的
dataframe
列
、
、
、
、
查看新的spark API,还不清楚是否有可能修改
DataFrame
列。from
pyspark
.sql import functions as F df = df.withColumn('new_column_name', update_func) 如果您想对某个列执行某些操作并创
浏览 12
提问于2015-03-17
得票数 95
回答已采纳
1
回答
用Spark的from_json解析任意JSON
、
如您所见,每个JSON blob本身的形式
为
{A:B},其中A是一个随机/任意
字符串
,B是一个格式相对良好的JSON对象。,doctor]ix,name,profession2,sarah,scientist因为我不知道A的可能键,所以很难
将
JSONblob解析
为
StructType (我
无法
枚举所有可能的键)或MapType (from_json不支持): >>>
rdd
.wi
浏览 2
提问于2018-05-14
得票数 4
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
我用Rust徒手重写了一个Spark,并把它开源了
Spark SQL,DataFrames 以及 Datasets 编程指南
Spark之SparkSQL
简化TensorFlow和Spark互操作性的问题:LinkedIn开源Spark-TFRecord
一文读懂PySpark数据框
热门
标签
更多标签
云服务器
ICP备案
对象存储
实时音视频
即时通信 IM
活动推荐
运营活动
广告
关闭
领券