腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
在
pySpark
中
更改
数据
帧
的
架构
json
、
dataframe
、
pyspark
我必须通过调用JSON文件
中
的
模式来
更改
dataframe
的
模式。-++---+---+ a: string (nullable - true) b: long (nullable - true) json文件
中
的
新模式如下: { "schema": ["a StringType() False", "b IntegerType() False"] } 现在,我调用json
浏览 24
提问于2020-01-18
得票数 0
1
回答
如何使用
pyspark
和自定义python函数处理均匀
的
to流
apache-spark
、
pyspark
、
azure-eventhub
我当前
的
设置是:我使用作为如何读取
数据
的
示例,但是: 不能使用writeStream.start()"接收器,因为它在python
中
没有实现。当我尝试调用.rdd、.map或.flatMap时,我得到了一个异常:“必须使用foreach执行对流来源
的<
浏览 52
提问于2018-03-19
得票数 3
1
回答
PySpark
-大
数据
帧
上
的
空指针异常
python
、
dataframe
、
apache-spark
、
pyspark
当我试图用
数据
帧
做一些事情时,我总是会得到一个java.lang.NullPointerException错误。导致它
的
行是这个df_3 = df_2.groupBy("id").pivot("key").agg(collect_list("value"))。 我知道
数据
框架
中
没有空值,并对此进行了验证。这个问题似乎与
数据
框架
的
大小有关吗?例如,如果我在上面的一行之前添加了这一行,那么它可以很好地工作:df_2
浏览 2
提问于2020-07-06
得票数 2
1
回答
pySpark
jdbc写入错误:调用o43.jdbc时出错。:scala.MatchError:空
pyspark
、
db2
、
spark-dataframe
、
spark-jdbc
我正在尝试使用
pySpark
将简单
的
spark
数据
帧
写入db2
数据
库。Dataframe只有一个
数据
类型为double
的
列。这是只有一行和一列
的
数据
帧
: 这是
数据
帧
架构
: 当我尝试使用以下语法将此
数据
帧
写入db2表时: dataframe.write.mode('overwrite').jdbc(
浏览 0
提问于2018-03-21
得票数 1
3
回答
如何在
pyspark
数据
框中将字符串类型
的
列转换为int形式?
python
、
dataframe
、
pyspark
我
在
pyspark
有
数据
帧
。它
的
一些数字列包含'nan‘,所以当我读取
数据
并检查dataframe
的
模式时,这些列将具有'string’类型。如何将它们
更改
为int类型。我将'nan‘值替换为0,并再次检查了
架构
,但同时也显示了这些列
的
字符串类型。=True, inferSchema="true")data_df = da
浏览 2
提问于2017-10-26
得票数 64
2
回答
在
Bigquery中使用
pyspark
将
数据
编码为ISO_8859_1
apache-spark
、
pyspark
、
google-cloud-dataproc
我
的
pyspark
数据
帧
中有多语言字符。
在
将
数据
写入bigquery之后,它向我显示了奇怪
的
字符,因为它
的
默认编码方案(utf-8)。如何使用
pyspark
/ dataproc将Bigquery
中
的
编码
更改
为ISO_8859_1?
浏览 0
提问于2020-05-06
得票数 1
6
回答
如何在
Pyspark
中
定义一个空
的
dataframe并将其附加到相应
的
dataframe?
pyspark
、
pyspark-sql
所以我想从一个目录
中
读取csv文件,作为
pyspark
dataframe,然后将它们附加到单个dataframe
中
。而不是像我们
在
熊猫身上做
的
那样,
在
pyspark
中
得到替代方案。例如,
在
熊猫
中
,我们这样做: dff=pd.read_csv(f,deli
浏览 5
提问于2017-04-10
得票数 11
2
回答
将
PySpark
数据
帧
转换为
PySpark
.pandas
数据
帧
python-3.x
、
apache-spark
、
pyspark
在
链接
中
,用户可以
在
Spark3.2
中
的
PySpark
之上与熊猫合作。是否需要很长时间才能将
PySpark
数据
帧
转换为
PySpark
熊猫
数据
框架?我知道将
PySpark
数据
帧
转换为熊猫
数据
框架需要很长时间。
浏览 9
提问于2022-03-02
得票数 1
回答已采纳
2
回答
PySpark
列向绑定
pyspark
在
PySpark
中有什么特定
的
方法可以像我们
在
r
中
那样绑定两个
数据
帧
吗? 我需要在
PySpark
中
同时绑定
数据
帧
和作为一个
数据
帧
。
浏览 1
提问于2017-08-30
得票数 3
1
回答
如何将Azure Synapse Dataframe转换为JSON on Databricks?
azure
、
pyspark
、
databricks
、
azure-databricks
、
azure-synapse
因为当我尝试
的
时候,它得到了一个错误。下面是我
的
synapse
的
脚本: @staticmethod .mode(write_mode) ) 这是我选择我
的
表
的
时候= df_dim_store.to
浏览 19
提问于2021-05-31
得票数 0
回答已采纳
1
回答
AWS胶水:
在
结构中使用火花重命名字段名
amazon-web-services
、
pyspark
、
aws-glue
在
使用AWS Glue
中
的
Unnest转换之后,这里提到
的
模式是我原始模式
的
一部分。("profile.details.indices.index.val.indexname“和"profile.details.indices.index.val.indexname")中将两个字段
的
名称分别
更改
为、索引名、和索引符号,分别使用
pyspark
。Glue
中
的
RenameField转换不适用于
浏览 1
提问于2020-02-03
得票数 1
1
回答
如何在spark上使用双定界符从文件
中
读取
数据
apache-spark
、
pyspark
、
delimiter
PySpark
代码: from
pyspark
.sql import SparkSession, types spark = SparkSession.builder.master("local").
浏览 15
提问于2020-10-27
得票数 0
0
回答
用于
在
PySpark
中
定义JSON Schema结构
的
配置文件
python
、
apache-spark
、
pyspark
、
apache-spark-sql
我已经创建了一个
PySpark
应用程序,它通过定义
的
模式读取
数据
帧
中
的
JSON文件。True), df= sqlContext.read.json(file, schema) 我需要一种方法来找到如何在一种配置或ini文件等
中
定义此模式,并在主
PySpark
应用程序
中
读取它。这将帮助我
在
将来有任何需要时修改模式以适应
更改
的</em
浏览 3
提问于2016-07-09
得票数 9
2
回答
使用python将两个spark
数据
帧
合并到一个模式
中
python
、
apache-spark
、
pyspark
、
apache-spark-sql
我有两个不同
的
pyspark
数据
帧
,需要合并成一个。有一些逻辑需要为合并编码。其中一个
数据
帧
具有以下模式:(id,类型,计数),另一个具有模式:(id,timestamp,test1,test2,test3) 第一个
数据
帧
是通过sql "group by“查询创建
的
。可以有重复
的
ids,但ids
的
类型将有所不同。并且,对于给定
的
类型,有一个相关
的
计数。
浏览 46
提问于2020-01-29
得票数 0
回答已采纳
1
回答
将列有条件地添加到
数据
帧
中
python
、
apache-spark
、
dataframe
、
pyspark
、
multiple-columns
我
在
PySpark
中有一个
数据
帧
。我想有条件地在
数据
框架
中
添加一列。 如果
数据
帧
没有列,那么添加一个带有null值
的
列。如果列存在,则不执行任何操作,并返回与新
数据
帧
相同
的
数据
帧
。如何在
PySpark
中
传递条件语句
浏览 6
提问于2017-01-20
得票数 0
回答已采纳
1
回答
在
PySpark
(本地)上编程与
在
Jupyter Notebook上使用Python编程
python
、
apache-spark
、
pyspark
最近我一直
在
使用
pySpark
,所以我已经习惯了它
的
语法、不同
的
API和HiveContext函数。很多时候,当我开始处理一个项目时,我并不完全知道它
的
范围是什么,或者输入
数据
的
大小,所以有时我最终需要分布式计算
的
全部功能,而在另一些情况下,我最终得到了一些
在
我
的
本地计算机上运行良好
的
脚本。我
的
问题是,与常规
的
Python/Pandas相比,将
p
浏览 0
提问于2016-07-27
得票数 1
1
回答
Pandas版本0.22.0 - drop_duplicates()获得意外
的
关键字参数'keep‘
python
、
pandas
、
python-2.7
、
dataframe
我正在尝试使用子集(drop_duplicates=‘’,keep=False)
在
我
的
数据
帧
中
删除重复项。显然,它在我
的
Jupyter Notebook
中
工作正常,但当我试图通过终端以.py文件
的
形式执行时,我得到了以下错误: Traceback (most recent call last): File"/home/source/fork/
PySpark
_Analytics
浏览 110
提问于2019-06-20
得票数 1
1
回答
Pyspark
使用窗口函数和我自己
的
函数
python
、
pandas
、
pyspark
、
window
我有一个Pandas
的
代码,它计算出x窗口上线性回归
的
R2。参见我
的
代码: def lr_r2_Sklearn(data): X = pd.Series(list(range(0,len(data),1return(regressor.score(X,Y)) r2_rolling = df[['value']].rolling(300).agg([lr_r2_Sklearn]) 我做了一个大小为300
的
滚动,并计算每个窗口
的
浏览 29
提问于2020-06-26
得票数 0
回答已采纳
1
回答
删除
PySpark
数据
帧
中
具有无效多边形值
的
行?
apache-spark
、
validation
、
pyspark
、
polygon
、
apache-sedona
我们在
数据
帧
上使用
PySpark
函数,这会引发错误。错误很可能是由于
数据
帧
中
的
错误行造成
的
。
数据
帧
的
架构
如下:|-- geo_name: string (nullable = true)|--|-- geometry_multipolygon: string (nullable =
浏览 14
提问于2022-10-18
得票数 1
回答已采纳
1
回答
从
数据
帧
列表生成单个DataFrame
list
、
pyspark
、
apache-spark-sql
、
jupyter-notebook
、
pyspark-dataframes
我有一个
数据
帧
列表,
在
列表
的
每个位置上,我有一个
数据
帧
,我需要将所有这些
数据
帧
合并到一个
数据
帧
中
。
在
我使用之前,这是
在
PySpark
中
完成
的
dataframe_new =pd.concat(listName) 解决方案1 from
pyspark
.sql.types import * im
浏览 12
提问于2021-01-28
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
数据架构中的数据问题
在Solidworks中如何更改默认的标准视图方向
tcp/ip模型中,帧是第几层的数据单元?
反欺诈架构中的数据架构及其技术挑战
在钉钉中更改已发送的日志的具体步骤!
热门
标签
更多标签
云服务器
即时通信 IM
ICP备案
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券