Pyspark:有条件地连接带有空格的列_Pandas有条件地连接两列_带有转置的pyspark列sum - 腾讯云开发者社区

python、pyspark

如果是，我需要按原样返回我的df。如果不是，我应该将那些不同的附加到我的ColA中。因此，在这个场景中，我们有不一致的B列，我的结果表应该如下所示： ColA | ColB | ColC | ColD return df return df 我有这个is

浏览 12提问于2020-10-07得票数 0

回答已采纳

1回答

将列有条件地添加到数据帧中

python、apache-spark、dataframe、pyspark、multiple-columns

我在PySpark中有一个数据帧。我想有条件地在数据框架中添加一列。如果数据帧没有列，那么添加一个带有null值的列。如果列存在，则不执行任何操作，并返回与新数据帧相同的数据帧。如何在PySpark中传递条件语句

浏览 6提问于2017-01-20得票数 0

回答已采纳

1回答

从多个火花柱(具有特定条件)到一个组合了所有条件的柱。PYSPARK

pyspark、pyspark-sql

我有一个Python列表，其中包含一些包含某些条件的PySpark列。我只想有一个列，它总结了列列表中的所有条件。my_condition_list =.isNotNull(C) some_of_my_sdf_columns中c的.isNotNull() 这将返回不同Pyspark列的</

浏览 4提问于2019-06-12得票数 0

1回答

如何在pyspark中写入csv文件时为列保留数据中的空格(4space)

string、csv、apache-spark、pyspark、apache-spark-sql

我有一个带有一条记录的输入csv文件。当我在pyspark中读取文件时，dataframe分别有三列a、b、c。A和c有数据，b有4个空格的数据。将文件写入csv时，4个空格的数据丢失，它将以空字符串的形式写入文件。aaaa, , bbbbaaaa,"", bbbb 如何按原样保留这4个空间的数据？

浏览 19提问于2020-02-20得票数 0

1回答

用复变函数更新列

json、apache-spark、dataframe、hive、pyspark

是否可以使用一个复杂的函数更新hiveContext数据列？我有一个包含许多列的dataframe，其中2列称为时间戳和数据。我需要从数据中的JSON字符串中检索时间戳，如果数据中的时间戳满足某些条件，则需要更新时间戳列。我知道该数据格式是不可变的，但是可以以某种方式构建一个新的dataframe，保留旧的dataframe的所有列，但更新时间戳列</e

浏览 7提问于2016-05-10得票数 1

回答已采纳

3回答

正则表达式- Python -删除前导空格

python、regex

我在文本文件中搜索带有正则表达式的单词Offering。然后，我使用该搜索的起始点和结束点向下查找列并提取整数。有些实例(A列)有我不想要的前导空格。我只想打印数字(可以在B列中找到)到一个文件中，没有前导空格。正则表达式中的正则表达式？有条件的？ price = re.search(r'(^|\s)off(er(ing)?)?'

浏览 0提问于2011-09-23得票数 4

回答已采纳

1回答

如何为HIVE/PySpark表中的每一列获取唯一值？

hive、pyspark、pyspark-sql

我有一张带有A、B和C列的HIVE/PySpark的桌子。我想为每一列获得唯一的值，如任何格式(数据、表格等) 如何在或PySpark中高效地执行这个(与每个列并行)？我现在的方法是分别为每一列做这件事，因此花费了很多时间。

浏览 0提问于2018-07-18得票数 0

回答已采纳

3回答

删除pyspark中所有列名中的空格

pyspark

我是pySpark的新手。我收到了一个csv文件，大约有1000列。我正在使用databricks。大多数这些列之间有空格，例如“总收入”，“总年龄”等。我需要更新所有的列名与空格下划线‘_’。我已经试过了但它在databricks上的Pys

浏览 1提问于2019-08-02得票数 1

1回答

如何将PySpark* (本地机器)连接到电子病历集群？*

apache-spark、amazon-ec2、pyspark、emr

我已经部署了一个带有Apache的3节点AWS ElasticMapReduce集群。访问PySpark。此外(尽管不安全)，我已经将主节点的安全组配置为专门在端口7077上从本地机器的IP地址接受TCP流量。但是，我仍然无法将本地 PySpark实例连接到集群：上面的命令会导致许多

浏览 2提问于2016-12-01得票数 10

回答已采纳

2回答

查询选择带有条件的计算列

sql、select、firebird

我需要在有条件的SELECT查询中创建一个列。就像这样：FROM CRM 因此，SELECT中的第三个参数是带有条件的计算列我相信这很简单，但我并没有成功地解决这个问题。

浏览 3提问于2017-10-31得票数 1

回答已采纳

4回答

如何在Spark中压缩两个数组列

python、pandas、apache-spark、pyspark、apache-spark-sql

我有潘达的数据。我尝试将包含字符串值的两个列连接到一个列表中，然后使用zip将列表中的每个元素都用'_‘连接起来。我的数据集如下：df['column_2']: '1.0, 2.0, 3.0' 我想将这两列连接到第三列中，如下所示，我的每一行数据

浏览 2提问于2019-01-21得票数 9

回答已采纳

3回答

重命名火花python中的dataframe列

python-3.x、apache-spark、pyspark、databricks

我有一个带有标题的CSV，我想将其保存为Parquet (实际上是一个delta表)from pyspark.sql.functions import * df = spark.read.option("header", True).optiondf2 = df.withColumnRenamed(name,regexp_

浏览 0提问于2020-06-24得票数 1

回答已采纳

1回答

如何在将数据从Teradata加载到Databricks时避免空白

jdbc、pyspark、teradata、databricks

在将Teradata驱动程序连接参数设置为CHARSET =‘UTF8 8’后，我遇到了一个空格问题。/server-name:server-port/database-server-name，TMODE = ANSI，CHARSET =‘UTF8 8’，COLUMN_NAME = ON谁能给我提供替代方案，而不是使用trim在

浏览 7提问于2022-01-05得票数 0

1回答

pySpark 3.0如何裁剪所有列的空格[复制]

apache-spark、pyspark、apache-spark-sql

这个问题在这里已经有答案了：在Pyspark Dataframe中修剪 (3个答案) 3天前就关门了。对于此数据帧:如何修剪循环中每列的所有前导空格和尾随空格？, ) df.show(5) 我知道如何通过如下方式指定每一列，但需要对循环中的所有列执

浏览 19提问于2021-02-26得票数 0

回答已采纳

2回答

如何将dataframe转换为一个文本文件？

apache-spark

这个表有各种数据类型的数据。我试图将其保存为文本文件，但得到了一个错误：文本数据源只支持单个列，并且有5列。我的要求是创建一个文本文件，如下所示。

浏览 3提问于2021-02-09得票数 0

2回答

PySpark错误: AnalysisException：‘无法解析列名

apache-spark、exception、pyspark

我正在尝试将整个df转换为单个向量列，使用我被抛出了这个错误： File "/usr/hdp/current/spark2-client/python/pyspark/sql/utils.py", line 69, in deco raise AnalysisException(s.split(': ',

浏览 0提问于2019-04-01得票数 7

2回答

pyspark: dataframe头部转换

python、dataframe、apache-spark、replace、pyspark

我正在将csv加载到pyspark dataframe中。我正在尝试删除列标题中的空格和更多特殊字符，如"("，")“和"/”。我可以删除列标题中的空格，如下所示。它只删除列中的空格，而不删除特殊字符。我试了一下，它起作用了。df.withColumnRenamed(col,col.replace(" ", "").repl

浏览 63提问于2020-12-15得票数 0

回答已采纳

1回答

改变数据的位置

python、pandas、dataframe

我很抱歉问了这么一个基本的问题，但我在这个问题上已经被困了一个星期了。我有下面的dataframe，name列中有异常，但是我已经能够使用下面的代码修复其中的一部分 names = ['a', 'an', 'my', 'by', 'mad', 'very', 'just'& archive['text'].str.contains('named')][&#

浏览 4提问于2022-08-20得票数 0

回答已采纳

1回答

在jqgrid窗体编辑中单击viewPagerButtons重新创建窗体

jquery、jqgrid

我使用的是jqgrid表单编辑，在其中我必须在单击viewPagerButtons按钮时重新创建编辑表单。因为我使用行值动态地设置editable:false，所以我必须在行的每一个编辑上重新创建表单。当单击行并单击“编辑”时，将重新创建窗体。

浏览 5提问于2014-08-26得票数 0

回答已采纳

3回答

如何在Pyspark中替换dataframe的所有空值

dataframe、null、pyspark

我在pyspark中有一个超过300列的数据框架。在这些列中，有一些列的值为null。_2null null125 124and so on 当我想对column_1求和时，我得到的结果是一个空值现在，我想用空格替换数据框所有列中的null。所以当我尝试对这些列求和时，我不会得到空值，但我会得到

浏览 1提问于2017-02-18得票数 56

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云