腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
在
Pyspark
中将
多个
数据
帧
合
并为
一个
数据
帧
[
非
pandas
df
]
、
我将通过
一个
过程
一个
接
一个
地获得生成的
数据
帧
。我必须把它们合并成
一个
。-------+----------++--------+----------+ 我尝试了很多选项,比如concat,merge,append,但我猜都是
pandas
spark.createDataFrame(l, ('Name', 'Age')) ldf = spark.createDataFrame(k, (
浏览 18
提问于2019-10-18
得票数 2
回答已采纳
3
回答
从csv文件向现有apache spark
数据
帧
添加
数据
、
、
、
我有
一个
spark dataframe,它有两列: name,age,如下:
数据
帧
是使用以下命令创建的外部文件有几列,但我只需要包括第一列,即'UserId':两个
数据
源中的记录数相同。我
在
windows操作系统上使用的是独立的
pyspark
版本。最终结果应该是
一个
包含三列的新
数据</
浏览 9
提问于2016-09-16
得票数 0
回答已采纳
1
回答
Databricks:如何将行的值转换为数组类型
、
假设我有下面的
数据
帧
col1 a b c有什么想法吗?
浏览 16
提问于2019-11-07
得票数 0
1
回答
计算databricks中线串(geo)的长度
、
、
、
我们导入
一个
具有地理列的
数据
集。这个geo-column表示一条线。当我将
数据
导入到
数据
帧
中时,geo-column中的
数据
如下所示: LINESTRING (155337.4045392797 368804.3359240878,155355.9229438164 368779.3184124769,155373.0222553128368596.075214043,155466.4756062801 368586.0079242395,155491.8449842462 368569
浏览 44
提问于2021-08-09
得票数 0
回答已采纳
1
回答
如何使用
pyspark
合并来自两个不同
数据
帧
的
数据
?
、
、
、
、
我有两个不同的(非常大的)
数据
帧
(详细信息如下)。我需要合并他们两个人的
数据
。由于这些
数据
帧
非常庞大(第
一个
数据
帧
有数百万行,第二个
数据
帧
有数千行),我尝试使用AWS EMR服务。但我不太明白它是如何在那里完成的,我看到的教程大多只显示了
一个
数据
帧
的说明。所以,我一直想知道如何使用
pyspark
来处理两个不同的
数据
帧</
浏览 11
提问于2021-06-03
得票数 0
回答已采纳
1
回答
如何将Azure Synapse Dataframe转换为JSON on Databricks?
、
、
、
、
因为当我尝试的时候,它得到了
一个
错误。我使用脚本作为
Pandas
DataFrame函数
df
.to_json(),因为我假设Azure Synapse DataFrame与
Pandas
Dataframe相同。下面是我的synapse的脚本: @staticmethod def write_to_synapse(
df
, tableUtilAzSynapse.write_to_synapse log:\n" +
浏览 19
提问于2021-05-31
得票数 0
回答已采纳
1
回答
将
pandas
数据
帧
转换为
PySpark
数据
帧
、
、
、
、
我有
一个
脚本与下面的设置。我正在使用:从spark -->
Pandas
的转换很简单,但我正在为如何将
Pandas
数据
帧
转换回Spark而苦苦挣扎。*from
pyspark
.sql import *
浏览 1
提问于2018-10-23
得票数 15
回答已采纳
1
回答
在
spark
数据
帧
上实现pythonic统计函数
、
、
、
我
在
spark
数据
帧
中有非常大的
数据
集,它们分布
在
节点上。我可以使用spark库
pyspark
.sql.functions进行简单的统计,如mean、stdev、skewness、kurtosis等。但为了做到这一点,我必须将spark
数据
帧
转换为
pandas
,这意味着将
数据
强制到主节点中,如下所示: import scipy.stats as stats
pandas
_
df
=sp
浏览 30
提问于2020-09-13
得票数 0
1
回答
如何将spark sql
数据
帧
摘要写入excel文件
、
、
我有
一个
非常大的
数据
帧
,有8,000列和50000行。我想把它的统计信息写到excel文件中。我认为我们可以使用describe()方法。而是如何以良好的格式写出优秀的作品。谢谢
浏览 4
提问于2017-04-22
得票数 3
回答已采纳
2
回答
使用Python将Dask Dataframe转换为Spark dataframe
、
、
、
、
让我们考虑这个例子:dask_
df
= dd.read_csv("file_name.csv") spark_
df
= spark_session.createDataFrame(dask_
df
) 但这是行不通的。
浏览 18
提问于2021-02-25
得票数 0
3
回答
pyspark
to hive中的
Pandas
数据
帧
、
、
、
如何将熊猫
数据
帧
发送到hive表?我知道如果我有
一个
spark
数据
帧
,我可以将它注册到
一个
临时表中,使用sqlContext.sql("create table table_name2as select * from table_name") 但是当我尝试对registerTempTable使用
pandas
dataFrame时,我得到了以下
浏览 0
提问于2016-04-28
得票数 9
回答已采纳
1
回答
用map并行化for循环,用
pyspark
并行化reduce
、
、
在
我的应用程序中,我从S3上不同位置的
数据
创建不同的
数据
帧
,然后尝试将这些
数据
帧
合
并为
单个
数据
帧
。现在,我正在使用
一个
for循环。但我有一种感觉,使用
pyspark
中的map和reduce函数可以更有效地完成这项工作。下面是我的代码:from
pyspark
.sql impo
浏览 0
提问于2016-08-24
得票数 3
2
回答
使用列表中的随机值
在
Pyspark
中创建
数据
帧
、
、
、
、
我需要将此代码转换为
PySpark
等效项。我不能使用
pandas
来创建
数据
帧
。这是我使用
Pandas
创建
数据
帧
的方式:
df
['Name'] = np.random.choice(["Alex","James","Michael","Peter","Harry"], size=3)
df
['ID'
浏览 65
提问于2021-11-09
得票数 1
回答已采纳
1
回答
无法
在
PySpark
(版本2.4.4)和PythonVersion3.6.8中的dataframe列上使用导入的包
、
、
、
、
在
我的AWS集群中,我下载了
一个
Python包:现在,我想在我的名为“'city_no_accents‘city”的
pyspark
列中使用这个词,该列的值为:’s o paulo‘、'seropédica’等(即带有口音),并希望创建
一个
名为“”的新列,它将更正文本中的所有重音,并使其
在
普通英语文本中,如‘圣保罗’、'seropedica= city_
df
['city'
浏览 5
提问于2020-10-15
得票数 0
1
回答
如何将spark dataframe中的String类型列转换为
Pandas
dataframe中的String类型列
、
、
我有
一个
从熊猫
数据
帧
创建的样本spark
数据
帧
-from
pyspark
.sql.types import StringType spark = SparkSessio
浏览 3
提问于2020-09-09
得票数 0
2
回答
从RDD中的
Pandas
DataFrames创建Spark DataFrame
、
、
我正在尝试将每个worker节点(每个元素都是
Pandas
DataFrame的RDD )上的
Pandas
DataFrame转换为跨所有worker节点的Spark DataFrame。示例: def read_file_and_process_with_
pandas
(filename): """ here
浏览 31
提问于2019-06-05
得票数 0
回答已采纳
1
回答
在
pyspark
.
pandas
中添加/减去datetime
、
、
、
、
我
在
使用
pyspark
.
pandas
计算日期时出错。有没有办法用
pyspark
.padnas计算日期?import
pyspark
.
pandas
'day': [4, 5]})
df</em
浏览 2
提问于2021-12-03
得票数 0
3
回答
python中DataFrame中列的条件更新
、
、
、
我需要根据其中一列中的值有条件地更新dataframe中的一列。0.00-0.50 : A0.75-1.00 : C col1..col8 col9 col101 0.293871 0.706129 B3 0.047834 0.952166
浏览 0
提问于2016-12-06
得票数 1
1
回答
pyspark
:创建
多个
dataframe失败
、
、
我想将几个大型
Pandas
数据
帧
转换为Spark
数据
帧
,然后对它们进行操作和合并,如下所示:from
pyspark
import SparkContext,SQLContext=True) sql = SQLContext(sc)spark_
df
2 = sq
浏览 208
提问于2020-06-08
得票数 0
回答已采纳
2
回答
将spark dataframe转换为不带
pandas
dataframe的元组列表
、
、
我有
一个
现有的逻辑,可以将
pandas
数据
帧
转换为元组列表。 list(zip(*[
df
[c].values.tolist() for c in
df
])) 其中
df
是
一个
熊猫
数据
帧
。有没有人能帮我
在
pyspark
中实现同样的逻辑呢?
浏览 17
提问于2019-10-15
得票数 1
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
如何从Pandas迁移到Spark?这8个问答解决你所有疑问
如何只用一行代码让Pandas加速四倍?
pandas系列学习(五):数据连接
12种高效Numpy&Pandas使用技巧!
这样做能让你的 pandas 循环加快 71803 倍
热门
标签
更多标签
云服务器
ICP备案
实时音视频
对象存储
即时通信 IM
活动推荐
运营活动
广告
关闭
领券