从dask数据帧中删除有问题的列

可以通过以下步骤实现：

首先，需要导入Dask库和相应的函数。可以使用以下代码导入所需的库和函数：

import dask.dataframe as dd

接下来，需要加载或创建一个Dask数据帧。可以使用以下代码加载一个CSV文件作为示例：

df = dd.read_csv('data.csv')

然后，可以使用df.drop函数删除有问题的列。该函数接受一个列或列列表作为参数，并返回一个新的Dask数据帧，其中不包含指定的列。下面是一个例子：

df_new = df.drop(['column1', 'column2'])

在上面的例子中，'column1'和'column2'是需要删除的有问题的列的名称。可以根据实际情况进行调整。

最后，可以使用df_new.compute()函数将Dask数据帧转换为Pandas数据帧，以便进行进一步的处理或分析。

这样就完成了从dask数据帧中删除有问题的列的操作。

需要注意的是，Dask是一个开源的并行计算框架，适用于大型数据集和分布式计算。它可以提供类似于Pandas的API，并支持并行处理和延迟计算。Dask数据帧是Dask库中用于处理结构化数据的主要数据结构，类似于Pandas的数据帧。使用Dask数据帧可以在分布式环境中进行数据处理和分析。

推荐的腾讯云相关产品：由于要求答案中不能提及特定的云计算品牌商，无法给出腾讯云的相关产品和产品介绍链接地址。建议查阅腾讯云官方文档或咨询腾讯云技术支持获取更多信息。

从dask数据帧中删除有问题的列

、、、

我有一个包含一个有问题的列的dask数据帧，它(我相信)是每次我尝试对该数据帧执行任何操作(无论是head还是to_csv，甚至是尝试使用(不同)列)进行子集时都会抛出的特定错误的根源。错误可能是由于数据类型不匹配造成的，并显示如下： ValueError: invalid literal for int()

浏览 16提问于2019-02-17得票数 2

1回答

Dask dataframe groupby因类型错误而失败，但相同的pandas groupby成功

、、、

我已经从地理熊猫期货创建了一个dask数据帧，每个数据帧产生一个熊猫数据帧，如下所示：所有数据类型似乎都是合理的left float64 bottom float64dat

浏览 3提问于2020-03-16得票数 0

1回答

Dask - groupby期间行之间时间戳差异的平均值

、、、

在聚合期间，我尝试使用Dask计算组行之间的时间戳差异的平均值(两个乘以两个)。数据帧的一个例子是： Timestamp IP Packets1 2021-073 2021-07-12 09:54:46 10.41.0.1 30 4 2021-07-12 09:54:52 10.42.0.1 2 根据这个documentation，我尝试了这样的

浏览 97提问于2021-07-13得票数 0

1回答

Pandas-Dask* DataFrame Apply函数，返回列表*

、、、

我正在尝试向dask数据帧添加多个列，以存储apply函数的结果。这将是我关于堆栈溢出的第一个问题，我希望这个问题不会太长！'weather‘创建了dask数据帧，然后将函数'dfFunc’应用到数据帧的每一行。这段代码运行得很好，因为输出'res‘是原始的天气数据帧</e

浏览 5提问于2018-10-11得票数 1

1回答

KeyError:当尝试选择dask数据框上的列时：“没有[索引([‘’，'']，dtype='object')]在[列]中”

、

我正在使用from_pandas()函数从熊猫数据帧创建一个dask数据帧。当我尝试使用方括号[ ]从dask dataframe中选择两列时，我得到了一个KeyError。根据dask文档，dask dataframe支持像pandas dataframe一样的方括号列选择。KeyError: "None of [Index(['length

浏览 67提问于2019-10-04得票数 1

2回答

向dask.dataframe添加dask.array列

、、

我有一个dask数据帧和一个dask数组，它们以相同的逻辑顺序具有相同的行数。数据帧行通过字符串进行索引。我正在尝试将一个数组列添加到数据帧中。我尝试了几种方法，但都以其特定的方式失败了。当结构在逻辑上兼容时，将dask数组列添加到dask数据帧的<

浏览 15提问于2018-01-09得票数 8

1回答

Dask -是否有可能通过自定义函数使用每个worker中的所有线程？

、、

在我的例子中，我在S3中有几个文件和一个自定义函数，该函数读取每个文件并使用所有线程进行处理。为了简化示例，我只生成了一个数据帧df，并且假设我的函数是使用多进程的tsfresh.extract_features。from dask.distributed import Client, progressfrom dask_clou

浏览 26提问于2020-08-27得票数 1

2回答

使用Dask导入大型CSV文件

、、、、

我正在使用Dask导入一个非常大的csv文件，大约680 am，然而，输出并不是我所期望的。我的目标是只选择一些列(6/50)，并可能过滤它们(这一点我不确定，因为似乎没有数据？)： file_path = "/Volumes/Seagate/Work/Tickets/Third ticket/Extinction/spec

浏览 6提问于2021-07-03得票数 3

1回答

如何将dask数据帧写入google云存储或Bigquery

、、、、

我正在为我的ML项目使用google cloud datalab。我的一个数据在bigquery表中，该表有数百万条记录(文本数据)，其中有许多列。我从bigquery表创建了一个pandas数据帧，将其转换为dask数据帧(具有5个分区)，并执行了数据辩论。现在，我有了这个dask数据帧，我

浏览 16提问于2019-02-14得票数 0

1回答

Dask延迟的sum被杀死，但有足够的资源

、、、

我正在创建一个函数，该函数读取整个文件夹，创建一个Dask数据帧，然后处理该数据帧的分区并对结果求和，如下所示： import dask.dataframe as dddef another_function(partition): return result 我检查了一下，在处理过程中创建的变量都很小<

浏览 6提问于2021-02-04得票数 1

回答已采纳

1回答

在dask中将字符串拆分成大量列

、、

我有一个dask Series X，里面填满了包含许多文本的字符串，我想将其拆分为多个列。这就是我所做的：W = X.str.split(n=cols, expand=True) #X has 3320 lines and npartitions=1000 我不能简单地增加分区的数量来说明列大小，因为dask是按行对DataFrame进行分区的。是否有可能改为在列上进行分区？

浏览 5提问于2019-11-09得票数 0

1回答

对DASK中的列中的每个值运行mysql查询

、、

我有一个包含用户id的CSV文件。此CSV文件作为dask-dataframe导入。进入数据帧后，我需要为id列中的每个条目获取该user-id，并在其上运行一个SQL查询来获取该user -id的用户名，并将其添加到新列中的dataframe。我有几个这样的列需要获取。我不确定对DASK数据

浏览 26提问于2020-03-18得票数 1

回答已采纳

1回答

如何绘制巨大的dask数据框图，最好是全息图？

、、

如何绘制巨大的Dask数据框图？我需要绘制DASK数据帧，我需要： import holoviews as hvhv.extension('bokeh', 'matplotlibparquet', hv.BoxWhisker(data=d, datatype

浏览 14提问于2019-07-02得票数 0

1回答

将一列随机数添加到dask数据帧的正确方法

、、、、

将一列随机数添加到dask数据帧的正确方法是什么？显然，我可以使用map_partitions将列添加到每个分区，但我不确定当dask并行化该计算时，如何处理随机状态。(即，它是否会在所有工作进程中使用相同的随机状态，从而在每个工作进程中生成相同的随机数？)在dask.array.random ()中似乎有相关的函数，但我找不到一个示例来说明如何将这些函数与<em

浏览 2提问于2021-02-09得票数 1

2回答

我正在尝试从一个MySQL表中加载一个dask数据帧，它占用了大约4 4gb的磁盘空间。我使用的是一台内存为8 8gb的机器，但当我执行drop复制并尝试获取数据帧的长度时，就遇到了内存不足错误。下面是我的代码片段： df = dd.read_sql_table("testtable", db_uri, npartitions=8, index_col=sql.func.abs(sql.colum

浏览 0提问于2021-07-13得票数 1

1回答

使用to_csv和dask忽略不匹配的列类型

、、、、

我正在尝试使用dask和Dask手册中列出的dask.dataframe.to_csv(datframe_name, file etc..)命令导出数据帧：ValueError: Mismatched dtypes found in `pd.read_csv`/`pd.read_table`.

浏览 2提问于2019-10-16得票数 0

2回答

如何在dask中使用'loc‘选择数据帧的列

、、、、

谁能告诉我应该如何使用dask在数据框中选择一列“loc”？错误： File "/usr/local/dask-2018-08-22/lib/python

浏览 1提问于2018-08-26得票数 4

1回答

在单热编码ML工作负载中，何时使用暗阵列与dask数据帧

、

我有一个数据集，它是一个巨大的、短的、胖的矩阵(大约4000 x 20,000,000)。我认为dask对我来说可能是一个很好的解决方案。但是，我希望确保可以将其编码为一个单热矩阵。我查看了dask-ml中的选项，它们似乎总是需要一个dask数据帧。然而，创建一个有2000万列的数据帧

浏览 9提问于2018-02-14得票数 2

1回答

如何将MultiIndex熊猫数据帧转换为Dask数据帧

、、、、

我试图将两个变量(一个ID和一个DateTime变量)为MultiIndexed的熊猫数据帧转换为dask数据帧，但是我得到了以下错误； "NotImplementedError: Dask doesnot support MultiIndex Dataframes" 我正在使用下面的代码 import pandas as pd dask_df= dd.f

浏览 18提问于2019-07-02得票数 2

回答已采纳

1回答

Dask dataframe concat将列类型从“int”更改为“float”

、、

我处理大数据时间序列数据集。数据存储在拼花文件中。随着时间的推移，将添加新的列。我使用concat连接不同文件中的数据，这非常好，但是我遇到了一个小问题，当连接dask数据帧时，数据类型不稳定。示例：我有两个数据帧，具有不同的列集，同时具

浏览 2提问于2020-01-13得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

从dask数据帧中删除有问题的列

相关·内容

从dask数据帧中删除有问题的列

Dask dataframe groupby因类型错误而失败，但相同的pandas groupby成功

Dask - groupby期间行之间时间戳差异的平均值

Pandas-Dask* DataFrame Apply函数，返回列表*

KeyError:当尝试选择dask数据框上的列时：“没有[索引([‘’，'']，dtype='object')]在[列]中”

向dask.dataframe添加dask.array列

Dask -是否有可能通过自定义函数使用每个worker中的所有线程？

使用Dask导入大型CSV文件

如何将dask数据帧写入google云存储或Bigquery

Dask延迟的sum被杀死，但有足够的资源

在dask中将字符串拆分成大量列

对DASK中的列中的每个值运行mysql查询

如何绘制巨大的dask数据框图，最好是全息图？

将一列随机数添加到dask数据帧的正确方法

尽管数据大小未超过内存，但仍出现内存不足错误

使用to_csv和dask忽略不匹配的列类型

如何在dask中使用'loc‘选择数据帧的列

在单热编码ML工作负载中，何时使用暗阵列与dask数据帧

如何将MultiIndex熊猫数据帧转换为Dask数据帧

Dask dataframe concat将列类型从“int”更改为“float”

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐