腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
在
Pyspark
中
管理
多个
数据
帧
apache-spark
、
pyspark
、
hive
、
apache-spark-sql
、
pyspark-dataframes
我是
PySpark
的新手。
在
我的实现
中
,我使用了
多个
数据
帧
。在这些
数据
帧
中
,有一些中间
数据
帧
稍后将不会在代码中使用。我该如何处理它们呢?我面临着GC、OverHead和内存问题。saveAsTable("DFT.TBL_TX") File "/opt/cloudera/parcels/CDH-6.3.3-1.cdh6.3.3.
浏览 6
提问于2020-12-18
得票数 0
1
回答
如何使用Azure databricks
在
第二代ADLS的多张工作表
中
读写excel
数据
python
、
pyspark
、
databricks
、
azure-databricks
我想使用
pyspark
在
Azure databricks
中
实现以下逻辑。我有一个下面的文件,其中有多张纸。我想将所有工作表的
数据
读入一个不同的文件
中
,并将该文件写入到ADLS2
中
的某个位置。注意:所有工作表都有相同的模式( Id,名称)
浏览 4
提问于2021-10-27
得票数 0
1
回答
分组依据列表
中
的元素
python
、
pyspark
、
pyspark-sql
我是
PySpark
的新手。我创建了spark dataframe,并且我有一个" countries“列,其中包含国家列表。如何通过存在于国家/地区列表
中
的单个国家/地区来groupBy我的
数据
帧
+-----------------++-----------------+ | [
浏览 4
提问于2019-10-09
得票数 0
1
回答
将
多个
PySpark
DataFrames与MergeSchema合并
python
、
pyspark
、
pyspark-dataframes
我想将
多个
PySpark
数据
帧
合并到一个
PySpark
数据
帧
中
。它们都来自相同的模式,但是它们可能会有所不同,因为有时会缺少一些列(例如,模式通常包含200个具有已定义
数据
类型的列,其中dataFrame A有120列,dataFrame B有60列)。是否有可能在不写入和读取所有
数据
帧
的情况下再次使用mergeSchema合并模式? 谢谢。
浏览 2
提问于2020-06-22
得票数 0
1
回答
如何将
pyspark
数据
帧
拆分成
多个
记录数相等的
数据
帧
pyspark
我有一个
pyspark
数据
帧
,我想把它分成
多个
相等记录的
数据
帧
。我
在
AWS EMR上执行此任务,不支持pandas或numpy。
浏览 22
提问于2019-12-22
得票数 0
1
回答
在
一个列表
中
存储
多个
pysparks
数据
帧
?
python
、
apache-spark
、
pyspark
如何在一个列表
中
存储
多个
数据
帧
? 我有一个函数可以读取文件夹
中
的
多个
拼图文件。但是,我需要创建一个列表,其中包含正在读取以执行其他进程的
数据
帧
。预期的结果如下所示: dfs = df1、df2、df3、df4、dfn 注意:我正在使用
pyspark
数据
帧
谢谢!
浏览 8
提问于2021-07-15
得票数 0
2
回答
将
PySpark
数据
帧
转换为
PySpark
.pandas
数据
帧
python-3.x
、
apache-spark
、
pyspark
在
链接
中
,用户可以
在
Spark3.2
中
的
PySpark
之上与熊猫合作。是否需要很长时间才能将
PySpark
数据
帧
转换为
PySpark
熊猫
数据
框架?我知道将
PySpark
数据
帧
转换为熊猫
数据
框架需要很长时间。
浏览 9
提问于2022-03-02
得票数 1
回答已采纳
3
回答
取消持久化(py)spark
中
的所有
数据
帧
python
、
caching
、
apache-spark
、
pyspark
、
apache-spark-sql
这通常是
在
一个大的步骤之后,或者缓存一个我想要多次使用的状态之后。似乎当我第二次对我的
数据
帧
调用cache时,一个新的副本被缓存到内存
中
。
在
我的应用程序
中
,这会导致
在
扩展时出现内存问题。尽管
在
我当前的测试
中
,给定的
数据
帧
最大大约为100MB,但中间结果的累积大小超出了executor上分配的内存。请参见下面的小示例,该示例演示了此行为。C2'])df.show()
浏览 9
提问于2016-04-28
得票数 39
回答已采纳
2
回答
PySpark
列向绑定
pyspark
在
PySpark
中有什么特定的方法可以像我们
在
r
中
那样绑定两个
数据
帧
吗? 我需要在
PySpark
中
同时绑定
数据
帧
和作为一个
数据
帧
。
浏览 1
提问于2017-08-30
得票数 3
1
回答
用Python从JSON文件创建DataFrame最有效的方法是什么?
python
、
json
我找到了一种进行转换的方法,但不幸的是它需要很长时间,因此我
在
问是否有更有效和更优雅的方法来进行转换。json库将JSON文件作为字典打开,它工作得很好:file = json.load(d) 'C': [{'D' :[{'E':
浏览 0
提问于2018-03-13
得票数 0
1
回答
如何将Azure Synapse Dataframe转换为JSON on Databricks?
azure
、
pyspark
、
databricks
、
azure-databricks
、
azure-synapse
我是否可以将Azure Synapse Dataframe转换为JSON?因为当我尝试的时候,它得到了一个错误。我使用脚本作为Pandas DataFrame函数df.to_json(),因为我假设Azure Synapse DataFrame与Pandas Dataframe相同。class UtilAzSynapse(UtilAzSynapse): def write_to_synapse(df, table, write_mode, url, tempDir):
浏览 19
提问于2021-05-31
得票数 0
回答已采纳
1
回答
将文件从S3存储桶读取到
PySpark
数据
帧
Boto3
apache-spark
、
amazon-s3
、
pyspark
、
boto3
如何将S3存储桶
中
的大量文件加载到单个
PySpark
数据
帧
中
?我
在
一个EMR实例上运行。如果文件是本地的,我可以使用SparkContext textFile方法。但是当文件
在
S3上时,我如何使用boto3加载
多个
不同类型的文件(CSV,JSON,...)转换成一个单独的
数据
帧
进行处理?
浏览 0
提问于2018-05-29
得票数 3
回答已采纳
1
回答
将列有条件地添加到
数据
帧
中
python
、
apache-spark
、
dataframe
、
pyspark
、
multiple-columns
我
在
PySpark
中有一个
数据
帧
。我想有条件地在
数据
框架
中
添加一列。 如果
数据
帧
没有列,那么添加一个带有null值的列。如果列存在,则不执行任何操作,并返回与新
数据
帧
相同的
数据
帧
。如何在
PySpark
中
传递条件语句
浏览 6
提问于2017-01-20
得票数 0
回答已采纳
2
回答
迭代和计算列的更有效的方法
apache-spark
、
pyspark
我有一个非常宽的
数据
帧
> 10,000列,我需要计算每个列中空值的百分比。
浏览 0
提问于2017-09-24
得票数 1
2
回答
无法创建火花会话
python
、
machine-learning
、
networking
、
pyspark
、
jupyter-notebook
无法创建火花会话 41 # sc = SparkContext(conf=conf) ~/anaconda3/lib/python3.5/site-packages/
pyspark
appName, sparkHome, pyFiles, environment, batchS
浏览 3
提问于2019-05-03
得票数 2
1
回答
在
PySpark
(本地)上编程与
在
Jupyter Notebook上使用Python编程
python
、
apache-spark
、
pyspark
最近我一直
在
使用
pySpark
,所以我已经习惯了它的语法、不同的API和HiveContext函数。很多时候,当我开始处理一个项目时,我并不完全知道它的范围是什么,或者输入
数据
的大小,所以有时我最终需要分布式计算的全部功能,而在另一些情况下,我最终得到了一些
在
我的本地计算机上运行良好的脚本。我的问题是,与常规的Python/Pandas相比,将
pySpark
作为我的主要语言进行编码是否存在劣势,即使只是进行一些探索性分析?我这么问主要是因为
在
不同语言之间切换的认知工作,以及如果
浏览 0
提问于2016-07-27
得票数 1
1
回答
使用窗口函数的
pyspark
python
、
apache-spark
、
pyspark
、
pyspark-sql
我有一个
数据
帧
,其中包含表示用户对特定电影的评级实例的行。每部电影可以由
多个
用户
在
多个
类别中进行评分。这是我使用movie_lens
数据
创建的结果
数据
帧
。movie_id是电影的唯一id,年份是用户对电影进行评分的年份,类别是电影12个类别
中
的一个。部分文件<code>C1</code> 我想找出每个类别
中
每十年收
浏览 16
提问于2019-03-26
得票数 0
回答已采纳
1
回答
如何使用
多个
数据
帧
在
spark
中
创建
多个
临时视图
pyspark
我有10个
数据
帧
,我想创建
多个
临时视图,以便在
pyspark
中使用createOrReplaceTempView命令对其执行sql操作。
浏览 33
提问于2020-09-10
得票数 0
1
回答
Pyspark
使用窗口函数和我自己的函数
python
、
pandas
、
pyspark
、
window
我希望用
pyspark
和spark dataframe做同样的事情。我知道我必须使用窗口函数,但它比熊猫更难理解,所以我迷路了…… 我有这个,但我不知道如何让它工作。
浏览 29
提问于2020-06-26
得票数 0
回答已采纳
2
回答
对于1-2列,
多个
镶嵌块文件具有不同的
数据
类型
python
、
pyspark
、
schema
、
parquet
我尝试使用
Pyspark
将不同的拼图文件读取到一个
数据
帧
中
,但它给了我错误,因为
多个
拼图文件
中
的一些列具有不同
数据
类型的列。例如:列"geo“
在
某些文件
中
的
数据
类型为"Double”,
在
另一些文件
中
为"String“。 我应该如何处理这个问题?我必须在
多个
拼图文件
中
手动转换具有不同
数据
类型的每一列吗
浏览 12
提问于2021-11-22
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
在 Golang 应用程序中管理多个数据库
将多个Excel工作表合并到一个Pandas数据帧中
在管理Excel中接入外部数据源
如何快速在多个单元格中输入相同的数据或文字
数据挖掘技术在医疗质量管理中的应用
热门
标签
更多标签
云服务器
即时通信 IM
ICP备案
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券