腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
使用配置单元元数据读取HDFS文件-
Pyspark
、
、
、
、
我是
PySpark
新手,正在尝试读取HDFS文件(上面创建了hive表)并创建
PySpark
数据帧。通过
PySpark
读取配置单元表非常耗时。有没有什么方法可以
动态
获取hive
列名
(用作dataframe中的模式)?我希望将文件位置、表名和数据库名作为输入传递给aa程序/函数,以便从配置单元元数据(可能是元数据xml)中获取模式/
列名
称,并作为dataframe返回。 请指教
浏览 15
提问于2019-03-06
得票数 0
回答已采纳
1
回答
Pyspark
动态
列名
使用for循环遍历所有列表元素,并尝试使用以下代码提供
动态
列值: for i in months: adjustment_1_prepared_df.select().alias( ) ) 因此,基本上在别名中,我试图将
列名
指定为常量如何将
列名
指定为固定字符串和变量的组合。 提前感谢!
浏览 8
提问于2021-11-09
得票数 0
回答已采纳
1
回答
PySpark
从所有
列名
中移除字符前的字符串
、
、
、
、
我在dataset中有一些
列名
,在字符串中有三个下划线___。使用
PySpark
,我希望删除下划线之前的所有字符,包括下划线,并将其余字符保留为
列名
。我需要代码来
动态
重命名
列名
,而不是在代码中写入
列名
。如果___位于
列名
的开头或结尾,那么它应该只删除___并保留原来的字符。示例:sequence_number user___first_name phone___mo
浏览 2
提问于2022-07-28
得票数 0
回答已采纳
1
回答
PySpark
使用另一列中的值查询一个
列名
、
、
、
、
Input_
pyspark
_dataframe:111777 454output_
pyspark
_dataframe1 300 我们可以
浏览 0
提问于2020-08-20
得票数 0
1
回答
使用
pyspark
dataframe从
列名
中删除特殊字符
、
、
我正在尝试使用
pyspark
读取csv文件,大多数
列名
都有特殊字符。我想要使用
pyspark
dataframe.Is删除所有
列名
中的特殊字符,有什么特定的函数可以同时删除所有
列名
的特殊字符吗?
浏览 1
提问于2020-08-05
得票数 2
回答已采纳
1
回答
动态
列.withColumn Python DataFrame
、
、
、
、
我想在我的星火DataFrame上
动态
地应用. list中的
列名
。from
pyspark
.sql.functions import col 结果 Out[67]: ['verified_flag', 'standard_flag', 'overseas_flag',
浏览 3
提问于2020-04-21
得票数 1
回答已采纳
1
回答
如何从F.col对象中恢复
列名
?
、
简单的问题:假设我们那么如何从
pyspark
.sql.column.Column对象F.col('a')中恢复
列名
字符串'a‘。例如,如果我们把str(F.col('a')),我们有而不是原始
列名
'a‘。
浏览 2
提问于2020-05-10
得票数 0
回答已采纳
1
回答
从oracle检索时,值将转换为浮点数
、
oracle中使用
pyspark
检索时的列数据类型为NUMBER的数据库将转换为float。例如:ID列-数据类型编号在检索时具有值111该值显示为111.000000
列名
是
动态
的,我不想通过硬编码来转换它。oracle中的数据是否可以按其在数据库中的显示方式进行检索。
浏览 28
提问于2019-03-04
得票数 0
1
回答
Pyspark
:基于其他
pyspark
数据框架中的
列名
创建一个
pyspark
数据框架
我有两个
pyspark
dfs df1有列- a,b,c,d,e,f df2有列- c,d,e(
列名
不断
动态
变化) 我想要一个从df1中提取的基于df2中的
列名
的df3数据帧。
浏览 11
提问于2020-08-02
得票数 0
回答已采纳
1
回答
动态
填充中的
列名
、
、
、
我正在开发一个
动态
脚本,它可以join任何给定的
pyspark
。问题是文件中的
列名
会发生变化&连接条件的数目可能会有所不同。我可以在一个循环中处理这个问题,但是我使用一个变量名执行连接,它失败了。(我的目的是根据文件结构和联接条件
动态
填充a和b或更多列)a="existingFile.Id" unChangedRecords = existingFile.join(incrementalFile,(a==b),"le
浏览 2
提问于2018-02-24
得票数 0
回答已采纳
1
回答
在
pyspark
中参数化连接条件
、
、
我有一个
列名
列表,每次
列名
都不同。
列名
存储在列表中。因此,我需要传递列表中的
列名
(在下面的示例中,
列名
是其id和programid id),以便在源数据帧和目标数据帧之间进行比较。from
pyspark
import SparkContext, SparkConf, SQLContext from
pyspark
.sql.functions import col, when
浏览 14
提问于2019-04-13
得票数 0
2
回答
PySpark
动态
时语句
、
、
、
我有一个用于创建
列名
的字符串列表。此列表是
动态
的,可能会随着时间的推移而变化。根据字符串的值,
列名
会更改。df.withColumn("newCol", F.when(df.pet == dfvalues[0], \问题是,我不知道如何在
Pyspark
浏览 1
提问于2018-06-20
得票数 3
回答已采纳
1
回答
移除“来自星火DataFrame
列名
、
、
、
从星火DataFrame的
列名
?下面的代码是可复制的。# import Spark libraries, configuration, Contexts, and types.from
pyspark
.sql importSparkSession############# # Star
浏览 12
提问于2017-11-15
得票数 3
回答已采纳
1
回答
在没有硬编码连接条件的情况下,在多列上
动态
地连接两个星火-scala数据
、
、
、
我想
动态
地加入多列上的两个星星之火-scala数据格式。我将避免硬编码的
列名
比较,如以下状态所示;这个查询的解决方案已经存在于
pyspark
版本中--在下面的链接中提供 我想使用编写相同的代码。
浏览 3
提问于2017-04-08
得票数 2
回答已采纳
2
回答
如何在AWS Glue中正确重命名
动态
数据帧的列?
、
、
、
、
问题是,为了更快的雅典娜查询,一旦保存为parquet格式,
列名
就包含点,这违反了雅典娜SQL查询语法,因此我无法进行特定于列的查询。为了解决这个问题,我还对Glue作业中的
列名
进行了重命名,以排除圆点并添加下划线。我的问题是,这两种方法中哪一种更好,为什么?(效率-内存?节点上的执行速度?等等)。此外,考虑到可怕的aws glue文档,我无法提出一个仅限
动态
框架的解决方案。我在以
动态
方式获取
列名
时遇到了问题,因此我使用了toDF()。 1)第一种方法是从从
动态
df中提取的df中获取<e
浏览 132
提问于2019-11-29
得票数 4
回答已采纳
1
回答
如何(
动态
)使用结构连接数组,以便从结构中获得数组中每个元素的值?
、
、
、
、
data_struct“中的
列名
是实际的id (来自"data_array")。尽我最大的努力使用一个
动态
连接,但得到错误“列是不可迭代的”。我们不能像在
PySpark
中那样使用
动态
连接条件吗?} }期望产出:1 ABC 123 1234我的
PySpark
代码: from
pyspark
.sql.functions impor
浏览 1
提问于2022-10-18
得票数 1
回答已采纳
2
回答
使用
PySpark
在Spark DataFrame中将嵌套结构列重命名为all (全部小写
、
、
使用scala已经有类似的解决方案,但我需要一个用
pyspark
的解决方案。我是python的新手,需要大家的帮助。下面是我的DataFrame模式。|-- mnopqrstuv: string (nullable = true)如何
动态
更改Struct
列名
?
浏览 37
提问于2020-06-08
得票数 1
回答已采纳
1
回答
Pyspark
:用另一列替换同名的行值
、
、
我有一个
pyspark
数据帧,如下所示,df| 2 | 4 | 5 |D2 || 3 | 7 | 8|D1 | 并且我想用同一行中的行值替换"out“列的行值,与"out”列的行值具有相同的
列名
。
浏览 0
提问于2021-04-07
得票数 0
2
回答
PySpark
DataFrame:根据列值按行排序
列名
、
、
我是
PySpark
的初学者,正在为我的问题寻找一个解决方案。实际上,我想按
列名
对
列名
进行排序。我的
PySpark
数据框架如下所示:| ID| a| b| c|| 0| 5| 2| 1| | 1| 3|
浏览 5
提问于2020-09-01
得票数 0
回答已采纳
1
回答
聚合函数Spark
、
、
、
我正在使用Pyskem2.2rn,我的代码由这个函数崩溃,我不明白为什么它会在->上崩溃import
Pyspark
.sql.functions as F t.withColumns('column_name
浏览 2
提问于2022-02-11
得票数 0
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
云直播
腾讯会议
实时音视频
活动推荐
运营活动
广告
关闭
领券