腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
如何
使用
.
str
和
.
split
将
pandas
代码
转
换为
Pyspark
python
、
pandas
、
apache-spark
、
pyspark
、
apache-spark-sql
我
使用
pandas
编写了以下
代码
: df['last_two'] = df['text'].
str
[-2:]df['new_text'] = df['before_hyphen'].astype(
str
)
浏览 20
提问于2021-02-12
得票数 0
回答已采纳
4
回答
如何
在Spark中压缩两个数组列
python
、
pandas
、
apache-spark
、
pyspark
、
apache-spark-sql
我尝试
将
包含字符串值的两个列连接到一个列表中,然后
使用
zip
将
列表中的每个元素都用'_‘连接起来。df['column_3']: [abc_1.0, def_2.0, ghi_3.0] 我已经在python中成功地
使用
了下面的
代码
,但是dataframe相当大,运行整个dataframe需要很长时间为了提高效率,我想在
PySpark
中做同样的事情。我已经成功地阅读了spark中的数据,但我很难确定
如何
使用
PySpa
浏览 2
提问于2019-01-21
得票数 9
回答已采纳
3
回答
Pandas
:有没有一种方法可以在不遇到AttributeError的情况下
使用
.
str
访问器来检查对象是否真的是一个字符串?
python
、
pandas
、
dataframe
我
使用
toPandas()
将
pyspark
数据帧转
换为
pandas
数据帧。但是,因为某些数据类型不对齐,所以
pandas
会将数据帧中的某些列强制转
换为
object。我也不能
使用
.
str
.contains,因为即使包含数值的列是dtype object,在
使用
.
str
时它也会出错。(作为参考,我尝试做的是,如果数据帧中的列实际上具有字符串值,则执行一个
str
.
split</e
浏览 1
提问于2020-06-23
得票数 1
1
回答
如何
在
pyspark
中
使用
pandas
_udf拆分dataframe中的字符串
string
、
pyspark
、
user-defined-functions
我想
使用
pyspark
中的
pandas
_udf拆分字符串。因此,我有以下
代码
: from
pyspark
.sql.functions import
pandas
_udf, PandasUDFType def
split
_msg(string): return msg_ temp
浏览 17
提问于2019-10-03
得票数 0
回答已采纳
1
回答
将
Pyspark
RDD转
换为
Pandas
Dataframe
python
、
pandas
、
pyspark
、
apache-spark-sql
、
rdd
我有一个
Pyspark
RDD,如下面的输出所示,
如何
将其转
换为
pandas
dataframe。nCATEGORY\nIMAGE\nMAIN\nTALK\nUSER\nUSER_TALK\nOTHER\nEXTERNAL\nTEMPLATE\nCOMMENT *\nMINOR 1\nTEXTDATA 9'] 我
使用
了以下
代码
片段df = rdd.map(lambda x:
str
(x)).map(lambda w: w.
split
(
浏览 59
提问于2020-04-23
得票数 0
2
回答
吡火花蜂巢上下文.具有UTF-8编码的读表
python
、
apache-spark
、
pyspark
、
apache-spark-sql
我在蜂箱里有一张桌子,我正在读入
pyspark
df_sprk_df中的那张桌子。from
pyspark
import SparkContextsc = SparkContext()df_
pandas
_df = df_
pandas
_df.astype('
str
') 但是当我试图
将
df_
pandas
_df
浏览 0
提问于2018-08-29
得票数 1
回答已采纳
2
回答
如何
在
Pyspark
中将阿拉伯文本(٠٤-٢٥-٢٠٢١)中的日期时间解析为英语日期
python
、
apache-spark
、
pyspark
如何
在
Pyspark
中实现这一点?
浏览 40
提问于2021-09-11
得票数 5
回答已采纳
3
回答
df替换不适用于熊猫栏中的分隔器。
python
、
pandas
、
list
、
dataframe
我有个df 'Courses':["Spark,ABCD","
PySpark
","Hadoop","Python","
Pandas
"], }print(df)dict = {"Spa
浏览 14
提问于2022-05-31
得票数 0
回答已采纳
1
回答
用数据库中的
pyspark
将
纳秒值转
换为
日期时间
python
、
azure-databricks
、
python-datetime
、
pyspark-pandas
我正在尝试重新创建我已经用Python
使用
Databricks完成的一些工作。我有一个数据,其中有一个名为“time”的列,以纳秒为单位。在Python中,我
使用
以下
代码
将
字段转
换为
适当的日期时间值: # Convert time field from nanoseconds into datetimedf["time"] = pd.to_datetime(df["time"], unit='ns
浏览 5
提问于2022-07-05
得票数 0
回答已采纳
1
回答
pyspark
.
pandas
.frame.DataFrame饼图
python
、
apache-spark
、
pyspark
、
pie-chart
、
pyspark-pandas
如何
为
pyspark
.
pandas
.frame.DataFrame生成相同的饼图?piefreq.plot.pie()piefreq=final_df['Target'].value_counts() fig=go.Figure(dat
浏览 12
提问于2022-06-25
得票数 2
回答已采纳
1
回答
如何
在
pyspark
中
使用
链接?
python-3.x
、
pyspark
、
itertools
、
chaining
我需要通过
使用
pyspark
适当地重复那些逗号分隔值来重新创建数据帧。我正在
使用
下面的that.Can
代码
,我可以将其转
换为
pyspark
吗?from itertools import chain return list(chain.from_iterable(s.
str
.
split
(','))) incito['Supplier Inv No'].
str
浏览 10
提问于2021-05-18
得票数 0
回答已采纳
1
回答
pyspark
.
pandas
API:构造共生矩阵,.dot()不支持数据作为输入。
python
、
pandas
、
apache-spark
、
pyspark
我试图
使用
pyspark
.
pandas
API在数据库上构造数据的共生矩阵。该
代码
在熊猫中运行良好,但在
使用
pyspark
.
pandas
时出现了错误。
pyspark
.
pandas
.DataFrame.dot() 以串联作为输入。我尝试
使用
psdf.squeeze()
将
dataframe转
换为
系列化,但它并不将dataframe转
换为
串
浏览 8
提问于2022-10-14
得票数 0
回答已采纳
1
回答
Pyspark
管道在
pandas
数据帧上的应用
python
、
pandas
、
dataframe
、
pyspark
我有一个
pyspark
管道(包含估算
和
一个机器学习模型)
和
一个
pandas
数据帧。我是否可以在不将其转
换为
Pyspark
dataframe的情况下
将
管道应用于此
pandas
数据帧?如果不可能,我
如何
有效地
使用
pyspark
管道来生成对
pandas
数据帧的预测?
浏览 3
提问于2021-09-13
得票数 1
1
回答
Pandas
和
Pandas
被证明可以一起工作吗?
python
、
pandas
、
apache-spark
、
pyspark
、
apache-spark-sql
1)如果我
将
Pandas
dataframes转
换为
,那么多个操作就无法很好地转换,因为
Pandas
dataframes似乎没有
Pandas
dataframes那么丰富。2)如果我选择
使用
Pandas
和
pandas
在同一
代码
中处理不同的数据集,当通过map调用的函数包含任何熊猫数据时,
Pyspark
转换(如map)似乎根本不起作用。我在Python中已有
使用
熊猫
和</e
浏览 2
提问于2017-12-26
得票数 6
2
回答
在StringType中将ArrayType转
换为
PySpark
python
、
apache-spark
、
dataframe
、
pyspark
、
rdd
我正试图在我的数据集上运行
PySpark
中的
PySpark
算法。from
pyspark
.ml.fpm import FPGrowth only showing top 2 rows name[rs,ce]
如何
以从StringType转
浏览 0
提问于2018-04-05
得票数 2
回答已采纳
2
回答
DateType()定义在
PySpark
中给出空值吗?
pyspark
当我
使用
简单的字符串类型时,数据加载正确,但是当我
使用
DateType()对象定义列时,我得到的所有内容都是空值。我可以在某个地方定义日期格式吗?或者Spark应该自动推断出来吗?
浏览 0
提问于2018-09-01
得票数 0
1
回答
在
PySpark
(本地)上编程与在Jupyter Notebook上
使用
Python编程
python
、
apache-spark
、
pyspark
最近我一直在
使用
pySpark
,所以我已经习惯了它的语法、不同的API
和
HiveContext函数。我的问题是,与常规的Python/
Pandas
相比,
将
pySpark
作为我的主要语言进行编码是否存在劣势,即使只是进行一些探索性分析?我这么问主要是因为在不同语言之间切换的认知工作,以及如果我需要分发工作,
将
代码
从Python迁移到
pySpark
的麻烦。就库而言,我知道Python会有更多的功能,但在我目前的项目中,到目前为止
浏览 0
提问于2016-07-27
得票数 1
1
回答
我
如何
将
一只空的熊猫数据转换成“火花放电数据”?
python
、
pandas
、
dataframe
、
apache-spark
、
pyspark
例如,以下内容
将
失败:import
pandas
as pdcols = ['col_1', 'col_2', 'col_3'] 'col_1':
str
, 'col_3': bool
pandas
_df = pd.DataFrame(raw_data, colum
浏览 17
提问于2022-08-16
得票数 1
1
回答
动态构建用于导出到csv的大型数据帧(spark或
pandas
)的方法
python
、
pandas
、
apache-spark
、
pyspark
、
databricks
我有一个csv,我
使用
spark.read导入到databricks中。这个大文件包含每日级别的记录/事务。我
将
数据帧减少到5列,并保持500,000行不变。该脚本有一个filter/groupby/sum命令,该命令返回一行,
将
数据汇总为一个月的计数。我在
使用
此脚本的输出(显示或csv导出)时遇到了问题。在
pyspark
和
pandas
中我都遇到了问题。我不确定
如何
堆叠查询的结果,以及它应该是什么形式?但是,display
浏览 12
提问于2020-07-12
得票数 0
9
回答
如何
将
csv文件转
换为
拼接
java
、
parquet
我刚接触BigData.I需要将csv/txt文件转
换为
Parquet格式。我搜索了很多,但找不到任何直接的方法。有什么方法可以做到这一点吗?
浏览 3
提问于2014-09-30
得票数 40
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
盘点一个Excel数据分割和explode()实战问题
在Python中将字符串转换为列表的方法有哪些
CSV文件在Python中的几种处理方式
Python字典、字符串及列表的相互转换
99%的人都不知道的pandas骚操作
热门
标签
更多标签
云服务器
ICP备案
实时音视频
对象存储
即时通信 IM
活动推荐
运营活动
广告
关闭
领券