如何使用.str和.split将pandas代码转换为Pyspark_如何将pandas str.split调用转换为dask_如何使用pandas将前导零转换为十进制？ - 腾讯云开发者社区

python、pandas、apache-spark、pyspark、apache-spark-sql

我使用pandas编写了以下代码： df['last_two'] = df['text'].str[-2:]df['new_text'] = df['before_hyphen'].astype(str)

浏览 20提问于2021-02-12得票数 0

回答已采纳

4回答

如何在Spark中压缩两个数组列

python、pandas、apache-spark、pyspark、apache-spark-sql

我尝试将包含字符串值的两个列连接到一个列表中，然后使用zip将列表中的每个元素都用'_‘连接起来。df['column_3']: [abc_1.0, def_2.0, ghi_3.0] 我已经在python中成功地使用了下面的代码，但是dataframe相当大，运行整个dataframe需要很长时间为了提高效率，我想在PySpark中做同样的事情。我已经成功地阅读了spark中的数据，但我很难确定如何使用PySpa

浏览 2提问于2019-01-21得票数 9

回答已采纳

3回答

Pandas:有没有一种方法可以在不遇到AttributeError的情况下使用.str访问器来检查对象是否真的是一个字符串？

python、pandas、dataframe

我使用toPandas()将pyspark数据帧转换为pandas数据帧。但是，因为某些数据类型不对齐，所以pandas会将数据帧中的某些列强制转换为object。我也不能使用.str.contains，因为即使包含数值的列是dtype object，在使用.str时它也会出错。(作为参考，我尝试做的是，如果数据帧中的列实际上具有字符串值，则执行一个str.split</e

浏览 1提问于2020-06-23得票数 1

1回答

如何在pyspark中使用pandas_udf拆分dataframe中的字符串

string、pyspark、user-defined-functions

我想使用pyspark中的pandas_udf拆分字符串。因此，我有以下代码： from pyspark.sql.functions import pandas_udf, PandasUDFType def split_msg(string): return msg_ temp

浏览 17提问于2019-10-03得票数 0

回答已采纳

1回答

将Pyspark* RDD转换为Pandas Dataframe*

python、pandas、pyspark、apache-spark-sql、rdd

我有一个Pyspark RDD，如下面的输出所示，如何将其转换为pandas dataframe。nCATEGORY\nIMAGE\nMAIN\nTALK\nUSER\nUSER_TALK\nOTHER\nEXTERNAL\nTEMPLATE\nCOMMENT *\nMINOR 1\nTEXTDATA 9'] 我使用了以下代码片段df = rdd.map(lambda x: str(x)).map(lambda w: w.split(

浏览 59提问于2020-04-23得票数 0

2回答

吡火花蜂巢上下文.具有UTF-8编码的读表

python、apache-spark、pyspark、apache-spark-sql

我在蜂箱里有一张桌子，我正在读入pyspark df_sprk_df中的那张桌子。from pyspark import SparkContextsc = SparkContext()df_pandas_df = df_pandas_df.astype('str') 但是当我试图将df_pandas_df

浏览 0提问于2018-08-29得票数 1

回答已采纳

2回答

如何在Pyspark中将阿拉伯文本(٠٤-٢٥-٢٠٢١)中的日期时间解析为英语日期

python、apache-spark、pyspark

如何在Pyspark中实现这一点？

浏览 40提问于2021-09-11得票数 5

回答已采纳

3回答

df替换不适用于熊猫栏中的分隔器。

python、pandas、list、dataframe

我有个df 'Courses':["Spark,ABCD","PySpark","Hadoop","Python","Pandas"], }print(df)dict = {"Spa

浏览 14提问于2022-05-31得票数 0

回答已采纳

1回答

用数据库中的pyspark将纳秒值转换为日期时间

python、azure-databricks、python-datetime、pyspark-pandas

我正在尝试重新创建我已经用Python使用Databricks完成的一些工作。我有一个数据，其中有一个名为“time”的列，以纳秒为单位。在Python中，我使用以下代码将字段转换为适当的日期时间值： # Convert time field from nanoseconds into datetimedf["time"] = pd.to_datetime(df["time"], unit='ns

浏览 5提问于2022-07-05得票数 0

回答已采纳

1回答

pyspark.pandas.frame.DataFrame饼图

python、apache-spark、pyspark、pie-chart、pyspark-pandas

如何为pyspark.pandas.frame.DataFrame生成相同的饼图？piefreq.plot.pie()piefreq=final_df['Target'].value_counts() fig=go.Figure(dat

浏览 12提问于2022-06-25得票数 2

回答已采纳

1回答

如何在pyspark中使用链接？

python-3.x、pyspark、itertools、chaining

我需要通过使用pyspark适当地重复那些逗号分隔值来重新创建数据帧。我正在使用下面的that.Can代码，我可以将其转换为pyspark吗？from itertools import chain return list(chain.from_iterable(s.str.split(','))) incito['Supplier Inv No'].str

浏览 10提问于2021-05-18得票数 0

回答已采纳

1回答

pyspark.pandas API:构造共生矩阵，.dot()不支持数据作为输入。

python、pandas、apache-spark、pyspark

我试图使用pyspark.pandas API在数据库上构造数据的共生矩阵。该代码在熊猫中运行良好，但在使用pyspark.pandas时出现了错误。pyspark.pandas.DataFrame.dot() 以串联作为输入。我尝试使用psdf.squeeze()将dataframe转换为系列化，但它并不将dataframe转换为串

浏览 8提问于2022-10-14得票数 0

回答已采纳

1回答

Pyspark管道在pandas数据帧上的应用

python、pandas、dataframe、pyspark

我有一个pyspark管道(包含估算和一个机器学习模型)和一个pandas数据帧。我是否可以在不将其转换为Pyspark dataframe的情况下将管道应用于此pandas数据帧？如果不可能，我如何有效地使用pyspark管道来生成对pandas数据帧的预测？

浏览 3提问于2021-09-13得票数 1

1回答

Pandas和Pandas被证明可以一起工作吗？

python、pandas、apache-spark、pyspark、apache-spark-sql

1)如果我将Pandas dataframes转换为，那么多个操作就无法很好地转换，因为Pandas dataframes似乎没有Pandas dataframes那么丰富。2)如果我选择使用Pandas和pandas在同一代码中处理不同的数据集，当通过map调用的函数包含任何熊猫数据时，Pyspark转换(如map)似乎根本不起作用。我在Python中已有使用熊猫和</e

浏览 2提问于2017-12-26得票数 6

2回答

在StringType中将ArrayType转换为PySpark

python、apache-spark、dataframe、pyspark、rdd

我正试图在我的数据集上运行PySpark中的PySpark算法。from pyspark.ml.fpm import FPGrowth only showing top 2 rows name[rs,ce] 如何以从StringType转

浏览 0提问于2018-04-05得票数 2

回答已采纳

2回答

DateType()定义在PySpark中给出空值吗？

pyspark

当我使用简单的字符串类型时，数据加载正确，但是当我使用DateType()对象定义列时，我得到的所有内容都是空值。我可以在某个地方定义日期格式吗?或者Spark应该自动推断出来吗？

浏览 0提问于2018-09-01得票数 0

1回答

在PySpark* (本地)上编程与在Jupyter Notebook上使用Python编程*

python、apache-spark、pyspark

最近我一直在使用pySpark，所以我已经习惯了它的语法、不同的API和HiveContext函数。我的问题是，与常规的Python/Pandas相比，将pySpark作为我的主要语言进行编码是否存在劣势，即使只是进行一些探索性分析？我这么问主要是因为在不同语言之间切换的认知工作，以及如果我需要分发工作，将代码从Python迁移到pySpark的麻烦。就库而言，我知道Python会有更多的功能，但在我目前的项目中，到目前为止

浏览 0提问于2016-07-27得票数 1

1回答

我如何将一只空的熊猫数据转换成“火花放电数据”？

python、pandas、dataframe、apache-spark、pyspark

例如，以下内容将失败：import pandas as pdcols = ['col_1', 'col_2', 'col_3'] 'col_1': str, 'col_3': boolpandas_df = pd.DataFrame(raw_data, colum

浏览 17提问于2022-08-16得票数 1

1回答

动态构建用于导出到csv的大型数据帧(spark或pandas)的方法

python、pandas、apache-spark、pyspark、databricks

我有一个csv，我使用spark.read导入到databricks中。这个大文件包含每日级别的记录/事务。我将数据帧减少到5列，并保持500,000行不变。该脚本有一个filter/groupby/sum命令，该命令返回一行，将数据汇总为一个月的计数。我在使用此脚本的输出(显示或csv导出)时遇到了问题。在pyspark和pandas中我都遇到了问题。我不确定如何堆叠查询的结果，以及它应该是什么形式？但是，display

浏览 12提问于2020-07-12得票数 0

9回答

如何将csv文件转换为拼接

java、parquet

我刚接触BigData.I需要将csv/txt文件转换为Parquet格式。我搜索了很多，但找不到任何直接的方法。有什么方法可以做到这一点吗？

浏览 3提问于2014-09-30得票数 40

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云