腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
Pyspark
:
通过
拆分
文
本来
创建
新
列
、
、
我有一个这样的
pyspark
数据帧: spark.createDataFrame( (1, '1234ESPNnonzodiac'), (3, '963CNNnonzodiac'), ],) 我想
创建
一个
新
<
浏览 8
提问于2020-11-03
得票数 0
回答已采纳
1
回答
Python spark从dataframe中提取字符
、
、
STRINGOFLETTERS3 | ANOTHERSTRING我想要做的是从
列
中提取前5个字符加上第8个字符,并
创建
一个
新
列
,如下所示:------ | ------2 | SOMEO_E4 | EXAMP_E 我不能使用以下代码,因为
列
中的值不同,并且我不想在特定
浏览 0
提问于2016-12-02
得票数 13
回答已采纳
4
回答
如何在控制台中
创建
多个SparkContexts
、
我想在一个控制台中
创建
多个SparkContext。非常感谢:from
pyspark
import SparkConf, SparkContext (u'spark.driver.host', u'10.20.70.80'), (u'spark.app.name
浏览 9
提问于2015-02-01
得票数 6
回答已采纳
2
回答
如何
拆分
pyspark
dataframe并
创建
新
列
、
、
、
、
我必须根据累积和或平均值计算
新
列
。让我们考虑一个例子:cumulative avg on [m11, ......., m20] columns 1003 |
浏览 0
提问于2020-08-04
得票数 0
回答已采纳
1
回答
PySpark
将
列
拆分
到具有应用架构的
新
数据帧
、
、
、
如何
通过
逗号将字符串列
拆分
为具有应用模式的
新
数据帧?作为示例,下面是一个包含两
列
(id和value)的
pyspark
DataFrame df = sc.parallelize([(1, "200,201,hello"), (2, "23,24,hi")]).toDF(["id", "value"]) 我希望获取value
列
并将其
拆分
到一个
新
的DataFrame中,并应用以
浏览 18
提问于2021-11-10
得票数 1
1
回答
将拼花文件复制到具有逗号分隔数据的Redshift中的错误
、
、
、
我试图将位于S3中的拼花文件复制到Redshift,但由于一
列
中有逗号分隔的数据,它失败了。有谁知道如何在地板文件中处理这样的场景吗?"column_16" : "test1, test2"IAM_ROLE 'iam_role'错误 错误:光谱扫描错误详细信息:错误:光谱扫描错误代码: 15007上下文:表和文件之间不匹配的
列
数表
浏览 10
提问于2022-11-29
得票数 0
2
回答
通过
在空白上
拆分
值来
创建
新
的
pyspark
dataframe
列
、
、
、
我想在空白的productname
列
中
拆分
值。然后,我想
创建
具有前3个值的
新
列
。下面有示例输入和输出数据。有人能建议一下如何用火花放电来做这件事吗?
浏览 4
提问于2020-03-25
得票数 2
回答已采纳
1
回答
将
PySpark
数据帧读取到包含VectorUDT
列
的Pandas中时出现问题
、
、
、
、
我有一个
PySpark
表,其中的许多
列
都是VectorUDT类型的。这些
列
是使用
PySpark
中的OneHotEstimator函数
创建
的。我不希望将每个VectorUDT
列
拆分
成各自的
列
。
浏览 18
提问于2019-06-10
得票数 0
1
回答
excel 2010:文本到
列
是记住的,如何摆脱这个?
、
、
、
、
我使用“文本到
列
”来
创建
单独的
列
。但现在Excel直接使用我用来
拆分
这个新文本的文本到
列
,而我现在(显然)不想
拆分
。我尝试将文本粘贴到
新
的工作表上。我尝试将此文本粘贴到新工作簿中,但文本仍被excel直接
拆分
。 我尝试粘贴为文本,也尝试粘贴为unicode文本。但到目前为止,我还没有找到这个问题的解决方案。如何让Excel“忘记”它已将文本
拆分
成<em
浏览 1
提问于2016-03-17
得票数 0
回答已采纳
2
回答
PySpark
:嵌套-将一
列
拆分
为多个
新
列
、
、
、
、
然后,我希望使用=进一步
拆分
每个
新
列
,其中左部分作为列名,右侧部分作为值。Event | Device | ClientIP | URL我完成了第一个步骤,如下所示:from
pyspark
.sql import functions, SQLContext sc
浏览 0
提问于2018-02-27
得票数 0
回答已采纳
1
回答
在CSV文件中处理JSON对象并保存到
PySpark
DataFrame
、
、
、
、
如果我尝试将文件读取为CSV,那么JSON对象将在其他
列
中重叠。from
pyspark
.sql.types import *# Initializing SparkSession and setting up thespark.read.format("csv").options(header="true", delimiter = ',', inferschema='true').load(filepath) df.sho
浏览 2
提问于2020-09-23
得票数 1
1
回答
如何使用Azure Databricks活动在Azure数据工厂中执行python Wheel类/方法(而不是脚本)?
、
、
、
、
是否可以使用Azure Databricks活动在Azure数据工厂中执行python Wheel类/方法(而不是脚本),就像您在.jar中使用java打包方法时所执行的那样?与脚本不同,这将能够返回值,而无需执行诸如掩埋它们的stdout之类的操作。 我没有搜索到任何东西,并且我尝试使用jar活动,但没有成功,这并没有让我感到惊讶,但值得一试。 如果不是,我正在寻找的是一种使用Azure Databricks计算并从python作业返回一小部分值的方法。我已经成功地为databricks python脚本使用了ADF活动。 蒂娅!
浏览 15
提问于2020-01-10
得票数 2
1
回答
修正
pyspark
或linux命令中的垃圾数据
、
、
、
、
我有大量的数据集将来自NIFI,然后我将使用
pyspark
进行ETL转换,不幸的是,中间的一
列
被
新
行
拆分
,使额外的
列
和现有记录对于同一行为NULL,所以在执行ETL转换时,我需要使用Linux命令在Nifi流或
pyspark
代码中进行修正。21.0,final,splitexthere,done,v1,v2,done下面是一些输入,我们不知道哪个
列
会像上面那样被
拆分<
浏览 5
提问于2021-12-15
得票数 0
2
回答
如何
拆分
dataframe
列
值,并将前两个字符串仅取到
新
列
、
我在dataframe中有一个
列
,它的字符串值如下"Software part not present"nullnull null null
浏览 5
提问于2022-09-30
得票数 0
1
回答
数据库中的枢轴问题
、
id Country Interest我想在python中的中将兴趣
列
命名为
新
列
浏览 2
提问于2022-10-17
得票数 0
1
回答
通过
填充现有
列
在
Pyspark
中
创建
新
列
、
我正试图在现有的DataFrame中
创建
新
列
。10|null|null|null|+----+----+---+----+----+----+----++------+------+-----+------+------+------+------+------
浏览 4
提问于2019-12-17
得票数 0
回答已采纳
1
回答
创建
一个
新
列
,详细说明一个
PySpark
数据row中的行是否与另一
列
中的一个行匹配。
、
、
、
我想要
创建
一个函数,该函数从
PySpark
中的左联接
创建
一个
新
列
,详细说明一个
列
中的值是否匹配或不匹配另一个dataframe逐行的
列
。例如,我们有一个
PySpark
dataframe (d1)具有
列
ID和名称,另一个
PySpark
dataframe (d2)具有相同的
列
- ID和Name。我试图
创建
一个连接这两个表的函数,并
创建
一个
新
<em
浏览 3
提问于2021-12-11
得票数 0
1
回答
按
列
值
拆分
火花数据,并在结果中每
列
值获取x行数。
、
我有下面的星星之火数据格式,我试图将其按
列
值
拆分
,并返回一个包含每个
列
值的x行数的
新
数据格式from
pyspark
import *;from
pyspark
.sql.functions import udf from
pyspark
.sql.types import StringType, StructType, StructField(14,'A'
浏览 2
提问于2017-07-02
得票数 0
回答已采纳
1
回答
从火花数据中选择或删除重复列
、
、
、
( A)对于不能修改上游或源的,如何选择、删除或重命名其中的一个
列
,以便检索
列
值?df.select('A')向我显示了一个不明确的
列
错误,filter、drop和withColumnRenamed也是如此。如何选择其中一
列
?
浏览 0
提问于2018-09-06
得票数 2
1
回答
火花放电中
列
(标头)子字符串替换
我想
通过
替换子字符串来重命名列名。 xy.col1 xy.col2 2 3 3 5 4 4 5 8
浏览 4
提问于2020-06-06
得票数 4
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
一个Python大数据处理利器:PySpark入门指南
一文读懂PySpark数据框
一文读懂 PySpark 数据框
PySaprk之DataFrame
Python开源数据分析工具TOP 3!
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
腾讯会议
活动推荐
运营活动
广告
关闭
领券