前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >pandas和spark的dataframe互转

pandas和spark的dataframe互转

作者头像
机器学习和大数据挖掘
发布2019-07-01 18:26:21
2.8K0
发布2019-07-01 18:26:21
举报
文章被收录于专栏:数据挖掘数据挖掘

pandas的dataframe转spark的dataframe

代码语言:javascript
复制
from pyspark.sql import SparkSession
# 初始化spark会话
spark = SparkSession \
    .builder \
    .getOrCreate()

spark_df = spark.createDataFrame(pandas_df)

spark的dataframe转pandas的dataframe

代码语言:javascript
复制
import pandas as pd

pandas_df = spark_df.toPandas()

由于pandas的方式是单机版的,即toPandas()的方式是单机版的,所以参考breeze_lsw改成分布式版本:

代码语言:javascript
复制
import pandas as pd
def _map_to_pandas(rdds):
    return [pd.DataFrame(list(rdds))]
    
def topas(df, n_partitions=None):
    if n_partitions is not None: df = df.repartition(n_partitions)
    df_pand = df.rdd.mapPartitions(_map_to_pandas).collect()
    df_pand = pd.concat(df_pand)
    df_pand.columns = df.columns
    return df_pand
    
pandas_df = topas(spark_df)
本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2018-11-21 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • pandas的dataframe转spark的dataframe
  • spark的dataframe转pandas的dataframe
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档