腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
如
何在
pyspark
中
做
小写
和
删除
原始
列
?
、
、
我想让它全部
小写
,我这样做了: df1=df.select("*", lower(col('name'))) 但是它创建了一个名为lower(name)的新
列
。我不想保留上一篇专栏文章。所以我这样
删除
了: df2=df1.drop(*'title_split') 但要
删除
它需要很长时间。我怎么才能让它更快呢?我能不能把它改成
小写
,不保留前面的那个?
浏览 18
提问于2021-01-09
得票数 0
回答已采纳
1
回答
如何为HIVE/
PySpark
表
中
的每一
列
获取唯一值?
、
、
我有一张带有A、B
和
C
列
的HIVE/
PySpark
的桌子。我想为每一
列
获得唯一的值,
如
任何格式(数据、表格等) 如
何在
或
PySpark
中高效地执行这个(与每个
列
并行)?我现在的方法是分别为每一
列
做
这件事,因此花费了很多时间。
浏览 0
提问于2018-07-18
得票数 0
回答已采纳
1
回答
Pyspark
:当键
和
值的类型不同时,如何用dict替换
列
值
、
、
、
我有一个带有整数列的
pySpark
数据。我也有一个从整数到字符串的映射,
如
2: 'B', 我希望使用此映射从
原始
列
中
获得一个新
列
。怎么
做
?我尝试使用替换函数,但它将新值转换为与
原始
值相同的数据类型。我想我可以先把整数转换成字符串,但是很高兴知道一种更一般的方法。 我是
pySpark
的新手,可能只是错过了一些非常简单的东西。)
浏览 10
提问于2022-07-06
得票数 0
1
回答
如何像scala .drop
中
那样
删除
rdd
列
、
、
、
、
文件videos.csv如下所示099acca-8888-48ca,Action,Comedy 在Scala
中
,Scala可以使用.drop(1)
删除
RDD
列
1,以便对所有行
删除
rdd
列
1,例如482cal-2792-48da
和
099acca-8888-48ca。我想知道如
何在
PySpark
rdd
中
PySpark
中
这样
做<
浏览 2
提问于2016-12-29
得票数 3
1
回答
用
列
列表激发SQL插入选择?
当我阅读Spark/Hive文档时,将插入到带有
列
列表的表
中
,在Spark2.4
和
更早版本
中
不支持。insert into output_table(fieldx, fieldy, fie
浏览 1
提问于2019-01-09
得票数 4
回答已采纳
1
回答
如何根据行的内容拆分
pyspark
数据
、
、
、
、
原始
数据有一
列
,数据包括输入样例文件(
Pyspark
):column1 column2 Date20191009 [1,
浏览 3
提问于2019-10-10
得票数 1
回答已采纳
2
回答
pyspark
: dataframe头部转换
、
、
、
、
我正在将csv加载到
pyspark
dataframe
中
。我正在尝试
删除
列
标题中的空格
和
更多特殊字符,
如
"(",")“
和
"/”。 我可以
删除
列
标题中的空格,如下所示。它只
删除
列
中
的空格,而不
删除
特殊字符。 我试了一下,它起作用了。
浏览 63
提问于2020-12-15
得票数 0
回答已采纳
2
回答
SQL搜索查询,搜索字符串省略空间并转换为
小写
。
、
、
无论如何,我正在进行搜索,需要将其与
列
中
的字符串
和
值进行比较。它必须超越像。例如,我希望将
列
放在
小写
,并在将其与字符串进行比较之前取出所有空格(字符串太
小写
了,所有空格都消失了)。我想在不修改
列
内容的情况下这样
做
。所以只是为了比较。然后,如果比较结果为true,则将
原始
内容从
列
中
删除
(不以
小写
形式,也不以空格形式)。这可能是具体的。是否有可能这样
做</em
浏览 9
提问于2013-09-02
得票数 0
回答已采纳
4
回答
如
何在
jdbc数据源中使用dbtable选项的子查询?
、
、
、
、
但首先,我不想从JDBC读取
原始
表,而是在JDBC端运行一些查询,以筛选
列
和
连接表,并在Spark中将查询结果作为表加载。例如,您也可以使用括号
中
的子查询来代替完整的表。为了
做
实验,我尝试了这样简单的方法: url="jdbc:mysql://foo.com:、
删除
'as‘子句、开关大
小写
等),但没有
浏览 10
提问于2017-04-02
得票数 10
1
回答
Pyspark
:根据字符串的子集
删除
列
、
、
、
、
我有一个数据帧,如下所示我想
删除
其中包含"id"
和
"ac"的
列
,并保留其他
列
我应该如
何在
这里的列名上使用regexep?
浏览 1
提问于2020-02-06
得票数 0
2
回答
网格
中
的拖放功能,.net
、
、
如
何在
Component 1 Flex网格
中
实现拖放功能。此外,网格还应允许一些与拖动数据相关的功能,
如
如果
删除
了
原始
项目,则拖动的项目也会被
删除
。请任何人可以帮助我或建议我,这是如何可能在flex网格。因此,如果有任何可能性
浏览 1
提问于2011-05-09
得票数 0
回答已采纳
1
回答
用火花放电流到HBase
、
、
、
在线上有相当数量的关于使用Scala进行星火流的批量加载的信息( 是特别有用的),以及一些用于
PySpark
的信息,但是使用
PySpark
似乎缺乏这样的信息。所以我的问题是: 任何语言中的大多数示例都只显示每一行上的一个
列
。如
何在
每一行
中
插入多
列
?我以前已经取得了一些进展,有很多各种各样的错误(
如
文档化的
和
)
浏览 2
提问于2016-01-29
得票数 3
3
回答
当另一
列
包含SQl
中
的值时,如何筛选
列
值
、
如果存在另一
列
中
的值,如何筛选出一
列
中
的值?我试图
删除
代码
列
中
的所有C,如果代码
列
中有'-‘。CODE | DescriptionA -B -C -A
浏览 0
提问于2020-06-28
得票数 1
回答已采纳
2
回答
基于一行
中
的条件筛选出多行
、
、
、
| 1 || 3 | -4 |我希望
删除
所有具有任何值3 || 2 | 8 |我尝试这样
做
:只对带有Value<=0的行进行筛选,从中选择不同的ID,将其转换为列表,然后使用df.filter(~df.Id.isin(mylist))
浏览 4
提问于2020-07-21
得票数 2
回答已采纳
2
回答
如
何在
dataframe spark的一
列
中
获取列表的长度?
我有一个df,它的'products‘
列
如下所示:|member_srl|click_day|103825645]|| 6963| 20160111|[99643224, 106032...| 如何添加一个新的
列
product_cnt以及如
何在
给定产品长度的条件下过滤df以获得指定的行?谢谢。
浏览 3
提问于2017-06-14
得票数 25
2
回答
如果组
中
存在非空项,如何
删除
重复项
和
空项?
、
、
、
下面的DataFrame应该根据标志
列
进行过滤。如果基于
列
id
和
cod的组没有任何与None值不同的行,则只需要维护一个唯一的行,否则,必须
删除
列
标志<code>E 211</code>
中
的None值行。import
pyspark
from
pyspark
.sql.window import Window from
p
浏览 3
提问于2022-06-30
得票数 0
1
回答
火花放电
中
PCA准备的多
列
旋转
、
它如下所示,其中RESULT
列
是我希望分配给另外两
列
中
每一
列
的数值。乍一看,我认为这是一个简单的枢轴过程,但在
Pyspark
中
这样
做
似乎要复杂得多。有没有办法用火花放电来
做
这件事?我所考虑的一种方法包括以下步骤:如果
原始
数据为df,包含RESULT
和
WINDOW
列
标识WINDOW
列
中
的唯一值,并将它们放在一个单独的1Ddataframe unq
中</
浏览 3
提问于2021-08-16
得票数 1
回答已采纳
3
回答
将行
中
的每一
列
传递给Spark
中
的哈希函数
、
、
、
我有一个带有N
列
的表,我想将它们连接到一个string
列
中
,然后在该列上执行一个散
列
。我想完全在Spark
中
完成这项工作,理想情况下,我已经尝试过HASH(*) as myhashcolumn,但是由于几个列有时为null,我无法像我所期望的那样使它工作。
浏览 1
提问于2018-11-26
得票数 1
回答已采纳
2
回答
从postgres数据库
中
删除
包含字符串/句子的行
、
我想知道如何
删除
postgres表
中
包含title
列
中
特定字符串的整个行。因此,如果字符串是:如
何在
postgres中发出命令,将该行从表
中
完全
删除
。例如,将
删除
下一行:另外,我希望它忽略大
小写
,因为字符串可以是大写字母
和
小写
字母的混合(
浏览 0
提问于2016-05-25
得票数 1
回答已采纳
1
回答
使用regex_extract遍历字符串列表
Pyspark
、
、
、
、
List = ['NYC','Austin','San Diego', 'New Orleans','LA'] 我有一个数据框,其中有一
列
,"raw“。'raw‘
中
的所有值都是字典值。Austin':'mild','San Diego':'hot','New Orleans':'cold','LA':'
浏览 18
提问于2020-08-04
得票数 1
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
云直播
腾讯会议
实时音视频
活动推荐
运营活动
广告
关闭
领券