文章/答案/技术大牛

发布

无法删除列(pyspark / databricks)

无法删除列(pyspark / databricks)是指在使用pyspark或者databricks进行数据处理时，无法删除数据表或者数据框中的某一列。

在pyspark或者databricks中，数据表或者数据框是以列的形式进行组织的，每一列都有自己的属性和数据类型。一般情况下，可以通过select方法选择需要的列，也可以通过drop方法删除指定的列。

然而，有时候可能会遇到无法删除列的情况，这可能是由于以下几个原因导致的：

列不存在：在尝试删除列之前，需要确保所要删除的列是存在的。可以通过使用printSchema方法查看数据表或者数据框的结构，确认列名是否正确。
列是只读的：有些情况下，数据表或者数据框中的某些列可能被设置为只读，这意味着无法对这些列进行删除操作。可以通过使用describe方法查看列的属性，确认是否为只读列。
数据表或者数据框不可变：如果数据表或者数据框是不可变的，即不能修改其内容，那么也无法删除列。在这种情况下，可以尝试使用其他方法来处理需要删除的列，例如创建一个新的数据表或者数据框，并排除需要删除的列。
版本或者依赖冲突：在使用pyspark或者databricks时，可能会遇到版本或者依赖冲突的情况。这种冲突可能导致某些功能无法正常使用，包括删除列的功能。在这种情况下，可以尝试升级或者切换到其他版本的pyspark或者databricks，或者检查并解决依赖冲突问题。

需要注意的是，pyspark和databricks是云原生的大数据处理框架，它们提供了丰富的数据处理和分析功能，包括数据的读取、转换、过滤、聚合等。在处理数据时，可以根据具体的业务需求选择合适的方法和技术。腾讯云提供了适用于大数据处理的产品和服务，例如云数据仓库、云托管Hadoop等，可以帮助用户在云上高效地进行大数据处理。详情请参考腾讯云大数据产品页面：https://cloud.tencent.com/product/cdh

无法删除列(pyspark / databricks)

、、

我有一个dataframe，我只想删除一列。以下是数据片段： ? 我想去掉"value“列。我尝试过以下几种方法： df.drop(col("value"))df.drop(df.value) 我没有遇到错误，但是列仍然存在。我必须先从列中删除数据吗？有没有办法强制它删除该列？感谢您的回复。

浏览 13提问于2021-08-12得票数 1

回答已采纳

1回答

在windows中的天蓝色自托管池中安装databricks

、

主要思想是安装databricks，所以我使用以下脚本： displayName: "Install databricks cli"inputs: pip install databricks-cli --user pip install databricksworkingDirectory: $(projectRoot)/${{ paramet

浏览 7提问于2022-03-17得票数 0

1回答

在pyspark/python作业中访问databricks密钥

、、

可以使用dbutils在notebooks中访问Databricks密钥，但是，由于dbutils在notebooks之外不可用，因此如何在pyspark/python作业中访问密钥，特别是当它们使用我已经试过How to load databricks package dbutils in pyspark了它不适用于远程作业或mlflow项目运行。

浏览 12提问于2020-06-09得票数 0

2回答

如何在pyspark sql的大表中选择除2列以外的所有列？

、、、、

在连接两个表时，我想从一个在databricks上的pyspark sql上有许多列的大表中选择除其中两列之外的所有列。我的pyspark sql： set hive.support.quoted.identifiers=none;谢谢

浏览 5提问于2020-07-28得票数 0

1回答

PythonException：'pyspark.serializers.SerializationError ModuleNotFoundError:没有名为‘Crypto’的模块

、、、

我在解密的时候发现了错误，这是mycode中的加密列。顺便说一下，我正在用Azure databricks编写下面的代码。: Caused by Traceback (most recent call last): return self.loads(obj) Fil

浏览 27提问于2022-01-12得票数 0

3回答

删除pyspark中所有列名中的空格

我是pySpark的新手。我收到了一个csv文件，大约有1000列。我正在使用databricks。大多数这些列之间有空格，例如“总收入”，“总年龄”等。我需要更新所有的列名与空格下划线‘_’。我已经试过了但它在databricks上的Pyspark中不起作用。

浏览 1提问于2019-08-02得票数 1

1回答

如何在databricks中现有的增量表中添加自动增量列

、、、

在Databricks中，我有一个现有的delta表，我希望在其中再添加一个列，作为Id，这样每一行都有唯一的id no，并且是连续的(主键在sql中的存在方式)。到目前为止，我已经尝试将delta表转换为，并将新列添加为from pyspark.sql import functions我试着把它写回达美台， df.write.mode("append").format("delta&qu

浏览 5提问于2022-07-12得票数 0

1回答

Databricks:如何将行的值转换为数组类型

、

假设我有下面的数据帧col1 a b c有什么想法吗？

浏览 16提问于2019-11-07得票数 0

2回答

如何修复异常‘无效的参数，而不是字符串或列’，同时连接两个数据文件在火花公子？

、、

，我想从df1中删除同一列并从df2中选择它。= 'line_number'], col("df2.line_number")) File "/databricks/spark&#

浏览 1提问于2022-05-10得票数 -1

2回答

写到csv的火花性能差

、、、

上下文我试过什么几乎所有的东西。

浏览 1提问于2020-07-01得票数 1

2回答

IF语句Pyspark

、、、、

它将由tot_amt列的值定义。我想将这一列添加到上面的数据中。如果tot_amt <(-50)，我希望它返回0，如果tot_amt > (-50)，我希望它在新列中返回1。我到目前为止的尝试是：from pyspark.sql.functions import udf def y(row/spark/python/pyspark/worker.py

浏览 1提问于2017-12-01得票数 6

回答已采纳

2回答

如何在pyspark中删除字符串中的特定字符？

、、、

我正在尝试从字符串中删除特定字符，但无法获得任何适当的解决方案。你能教我怎么做吗？我使用下面的代码将dataframe写入文件： df.repartition(1).write.format('com.databricks.spark.csv').mode('overwrite'

浏览 1提问于2020-03-23得票数 0

1回答

Conver int YYYYMMDD到目前为止

、、、

我正在尝试将一个INT列转换为一个有Pyspark的Databricks中的日期列。列如下所示：202101022021010620210104df = df.withColumn("Report_Date", col("Report_Date").cast(DateType()))由于数据类型不匹配，无法解析“强制转换(Report\

浏览 0提问于2021-03-22得票数 0

回答已采纳

1回答

为什么我的函数用来检测语言的工作为我的熊猫数据文件，但当包装在一个UDF，它不工作，我的电火花数据？

、、、

我想把它应用到的一个列中。= udf(lambda x: get_language(x))pandas_dataframe['language']= pandas_dataframe['text'].apply(lambda x: get_language(x)) 但是，当我使用utf在pyspark中创建一个新列时，当我运行这个列时会得到一个错误: Caused by Traceba

浏览 45提问于2022-03-01得票数 0

1回答

用不同的头序追加多个CSV文件

、、、

我有一个包含CSV文件的目录，这些文件具有相同的列，但顺序不同。我想将它们附加到一个CSV文件中，但是当使用pyspark使用以下代码时，我会得到csv，但是里面有混合数据(也就是说，它没有正确地排序列的顺序)。from pyspark import SparkContext from pyspark.sql.functions importSparkContext("local", "Simple A

浏览 1提问于2018-02-21得票数 0

1回答

在PySpark中写入增量表时如何使用Zorder集群？

、、、

按照我在https://databricks.com/blog/2018/07/31/processing-petabytes-of-data-in-seconds-with-databricks-delta.html中看到的建议，我正在尝试编写一个非常大的PySpark数据帧然而，这个页面使用Scala显示建议，我不知道如何将其转换为PySpark 我看到Scala代码是这样的： spark.read.tableconnZorder) sql(s&

浏览 4提问于2019-01-08得票数 2

回答已采纳

1回答

使用databricks python代码删除azure帐户中的文件

、、

如何在databricks中编写pyspark/python代码以删除在azure存储帐户中超过X天的文件。

浏览 5提问于2022-04-21得票数 0

1回答

用数据库中的pyspark将纳秒值转换为日期时间

、、、

我正在尝试重新创建我已经用Python使用Databricks完成的一些工作。我有一个数据，其中有一个名为“time”的列，以纳秒为单位。time"] = pd.to_datetime(df["time"], unit='ns') 此代码将下列值1642778070000000000转换为2022-01-21 15:14:30.现在，我想在databricks中使用pyspark (因为我正在扩展问题，而且我使用的数据集太大，无法用Python进行处理)。

浏览 5提问于2022-07-05得票数 0

回答已采纳

1回答

使用UDF从Apache中的其他列创建新列

、、、

我正在尝试从Apache中的另一列中创建一个新列。/spark/python/pyspark/worker.py", line 262, in main File "/databricks/spark/python/pyspark_write_with_length(obj, stream) File "/databricks

浏览 0提问于2018-10-26得票数 0

回答已采纳

1回答