文章/答案/技术大牛

发布

在Dask中使用pandas剪切功能

Dask是一个用于并行计算的灵活的开源库，它可以扩展到大型数据集和分布式环境中。它提供了类似于pandas的数据结构和API，使得在大规模数据集上进行高性能计算变得更加容易。

在Dask中使用pandas的剪切功能，可以通过以下步骤完成：

导入必要的库和模块：

import dask.dataframe as dd

读取数据集：

df = dd.read_csv('data.csv')

进行剪切操作：

sliced_df = df.loc[(df['column1'] > 10) & (df['column2'] == 'value')]

这个例子中，我们使用了两个条件来剪切数据集。你可以根据自己的需求修改条件。

执行计算：

result = sliced_df.compute()

由于Dask是惰性计算的，需要使用compute()方法来触发实际的计算。

Dask的优势在于它能够处理大规模数据集，并且可以利用分布式计算资源进行并行计算。它提供了类似于pandas的API，使得迁移现有的pandas代码到Dask变得更加容易。此外，Dask还可以与其他工具和库（如NumPy、scikit-learn等）无缝集成，提供更强大的数据处理和分析能力。

Dask在以下场景中特别适用：

大规模数据集的处理和分析
并行计算和分布式计算
需要与pandas和其他数据科学工具集成的项目

腾讯云提供了一些与Dask相关的产品和服务，例如：

TKE（腾讯云容器服务）：用于管理和部署容器化应用，可以用于部署和管理Dask集群。
CVM（云服务器）：提供了弹性的虚拟机实例，可以用于搭建Dask集群的计算节点。
COS（对象存储）：用于存储和管理大规模数据集，可以与Dask配合使用。

请注意，以上提到的腾讯云产品仅作为示例，你可以根据自己的需求选择适合的产品和服务。

希望以上信息对你有所帮助！如果你对其他问题有疑问，请随时提问。

在Dask中使用pandas剪切功能

、

如何在Dask中使用pd.cut()？由于数据集很大，我无法在完成pd.cut()之前将整个数据集放入内存。当前代码可以在Pandas中运行，但需要更改为Dask： import pandas as pd 0 namebin1 5 3 1 namebin2

浏览 38提问于2020-09-18得票数 1

回答已采纳

1回答

在Pandas和Dask中将属性附加到dataset

、、、、

我也有一些自定义的类和函数，我使用了很多不同的分析，我总是需要编辑，以解释Dask或Pandas。有效地类似于：import dask.dataframe as dddf.vals12 #would still contain the attribute vals12 但是，我

浏览 0提问于2020-12-05得票数 1

回答已采纳

3回答

我从CSV文件中获取了数据，并将其保存在我的Dask数据帧中并对其进行操作。然后，我需要将数据写入数据表。我还没有真正遇到过任何解决方案。Pandas的to_sql函数具有内置的功能，所以我不确定是否需要首先转换为Pandas？我目前认为，将Dask数据帧转换为Pandas会导致它被完全加载到内存中，这可能会违背最初使用Dask的目的。将Dask数据帧写入datatable最好、

浏览 4提问于2020-03-27得票数 1

2回答

保存文本数据的大型Pandas df到磁盘崩溃Colab，因为耗尽了所有的RAM。有解决办法吗？

、

我有一个非常大的Pandas数据帧，我想把它保存到磁盘上，以便以后使用。数据帧仅包含字符串数据。然而，无论我使用哪种格式，保存过程都会导致我的Google Colab环境崩溃，因为除了CSV之外，所有可用的RAM都会用完，CSV甚至在5小时后都不会完成。from sqlalchemy import create_engine engine = sqlalchemy.create_engine("sqlite://&#

浏览 2提问于2019-05-29得票数 2

1回答

用dask读取蜂巢数据

、、

我正在使用as_pandas实用程序从impala.util读取从hive获取的dataframe格式的数据。但是，使用熊猫，我想我将无法处理大量的数据，而且速度也会变慢。我一直在阅读dask，它为读取大数据文件提供了极好的功能。我如何使用它有效地从蜂巢中获取数据。def as_dask(cursor): """Return a DataFrame out of an impyla cursor.For

浏览 2提问于2018-10-18得票数 2

回答已采纳

1回答

选择子集后将其转换为pandas时，Dask dataframe内存不足

、、、、

因此，我使用dask在python中使用EMR CLuster m5.12xlarge加载它。Dask Name: concat, 489 tasks现在我正试着把它转换成pandas df。这只需要几秒的时间来执行，并使用大约1.5 GB的内存。a_count = a_count.compute() 现在，在其中一列中，我希望所有记录的值都为null，然后执行与前面相同的操作，即v

浏览 1提问于2021-09-23得票数 0

1回答

Pandas read_csv大文件(50)问题

、

我正试图通过Pandas.read_csv打开一个巨大的csv文件(大约50 to )。我看到了另一个问题，解决方案是使用块，但这对我来说不是一个好方法。实际上，我只需要使用可能允许我读取该文件的结尾行(例如2010年)。非常感谢您的支持

浏览 10提问于2020-05-28得票数 0

回答已采纳

1回答

Python/ dask :如何在dask中复制“.groupby(‘Asset’).resample(‘2D’).pad()”的用法？

、、、

我怎么才能得到和DASK上的熊猫一样的结果呢？目标是每个组都有一个统一的时间间隔，重复最后一个值，直到我们有一个新的值。import pandas as pd import numpy as np import datetime data=pd.DataFrame([["AAAA","2020-01-15",2],

浏览 14提问于2021-02-02得票数 0

1回答

DASK dataframe.to_csv将文件存储在worker上，而不是本地

、

我是DASK的新手，我正在尝试在私有云上建立一个分布式集群。现在，我在同一台机器上运行了调度器和一个工作程序，它们都运行在同一Docker容器中。为简单起见，假设我在本地/home/my_user/local_directory目录中运行一个IPython控制台。当按照here中的示例运行时： import daskif not os.path.exists('data'):

浏览 25提问于2020-03-27得票数 1

回答已采纳

1回答

使用从拼花文件创建的dataframe时内存使用量过高

、

1)因此，我的问题是，为什么这些简单的操作会使用Dask Dataframe来破坏内存的使用，但是当我使用Pandas Dataframe将所有内容加载到内存中时却能很好地工作？我注意到了npartitions=1，我在文档中看到read_parquet“将Parquet数据目录读取到Dask.dataframe中，每个分区只有一个文件”。在我的例子中，听起来我正在失去拥有多个分区的所有并行化<em

浏览 0提问于2018-12-24得票数 6

回答已采纳

1回答

如何在dask中有效地使用pandas.cut() (或等效)？

、、

在Dask中是否存在与pandas.cut()等价的内容？我尝试用Python对大型数据集进行装箱和分组。它是一个被测量的电子与性质(positionX，positionY，能量，时间)的列表。groupby方法工作得很好，但不幸的是，当我试图将数据存储在能量中时，我遇到了困难。我找到了一个使用pandas.cut()的解决方案，但它需要调用原始数据集上的compute() (将其本质上转换为非并行代码)。在dask</em

浏览 4提问于2017-02-24得票数 13

回答已采纳

2回答

使用Python将Dask* Dataframe转换为Spark dataframe*

、、、、

我想将Dask Dataframe转换为Spark Dataframe。让我们考虑这个例子：dask_df = dd.read_csv("file_name.csv") spark_df = spark_session.createDataFrame(dask_df) 但这是行不通的。

浏览 18提问于2021-02-25得票数 0

1回答

在Dask中使用尚未实现的Pandas函数

、、、、

我相信在使用Dask数据帧时，我在Dask教程中看到了一个关于如何使用Dask框架中尚未实现的Pandas函数的建议，但我似乎看错了地方。例如，我想使用Pandas函数'ewm‘。作为一种变通方法，我将Dask数据帧转换为Pandas数据帧，在Pandas数据帧上运行ewm，然后将它们转换回Dask，

浏览 10提问于2019-06-02得票数 1

回答已采纳

1回答

从元组的python列表中提取dask* dataframe*

、、、

我想从一个元组的python列表中创建一个dataframe。在熊猫中，您可以使用DataFrame.from_records将元组列表转换为数据格式。什么功能可以给我同样的功能在达克。我的数据有点像这样 import dask impo

浏览 0提问于2018-10-16得票数 3

回答已采纳

1回答

如何在Dask中进行groupby过滤

例如，下面的代码可以在pandas中运行： import pandas as pdx = grouped.filter(lambda x: x['A'].count().astype(int) > MIN_SAMPLE_COUNT) 然而，在Dask

浏览 15提问于2019-03-22得票数 2

回答已采纳

2回答

Pandas DataFrame没有属性“is_monotonic_increasing”

、、、

我有一个作为Pandas DataFrame读入的.csv文件。然后，我尝试将其转换为dask dataframe，但这会导致错误'Index' object has no attribute 'is_monotonic_increasing'。import pandas as pddf = pd.read_csv('s3://my-bucket/data.csv') df =

浏览 1提问于2019-12-12得票数 1

1回答

在什么情况下，我可以使用Dask而不是Apache？

、、、

我目前正在使用Pandas和星火进行数据分析。我发现Dask提供并行化的NumPy数组和Pandas DataFrame。如果你想要一个能做所有事情的项目，而且你已经在使用大数据硬件，那么火花是一个安全的选择。，或者在整个集群<em

浏览 4提问于2016-08-10得票数 101

1回答

计算()在Dask中的用途

、、、、

在numpy和pandas中添加额外的.compute()来模拟功能背后的逻辑是什么？它仅仅是为了支持某种懒惰的评估吗？下面是来自Dask documentation的示例： import pandas as pd import dask.dataframe as dd df =

浏览 19提问于2019-01-31得票数 4

1回答

从字典创建dask数据帧

、

, 'Term': 'unique_tokens', 'LocalFreq': 'local_freq_list','CorpusFreq': 'corpus_freq_list'} 我想从它创建一个dask通常，在Pandas中，可以通过以下方式轻松地将is导入Pandas df： df = pd.DataFrame({'Caps': cap_list, '

浏览 28提问于2019-12-17得票数 3

1回答

将熊猫系列添加到dask* dataframe中*

、、

将熊猫系列添加到dask dataframe中的惯用方法是什么？熊猫在处理数据方面要灵活得多，所以我经常将部分dask数据存储在内存中，操作列并创建新的列。然后，我想将这些新列添加到原始的dask数据格式中。如何才能做到这一点？

浏览 0提问于2017-06-29得票数 4

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

在Dask中使用pandas剪切功能

相关·内容

在Dask中使用pandas剪切功能

在Pandas和Dask中将属性附加到dataset

如何将DASK数据帧放入MySQL数据表？

保存文本数据的大型Pandas df到磁盘崩溃Colab，因为耗尽了所有的RAM。有解决办法吗？

用dask读取蜂巢数据

选择子集后将其转换为pandas时，Dask dataframe内存不足

Pandas read_csv大文件(50)问题

Python/ dask :如何在dask中复制“.groupby(‘Asset’).resample(‘2D’).pad()”的用法？

DASK dataframe.to_csv将文件存储在worker上，而不是本地

使用从拼花文件创建的dataframe时内存使用量过高

如何在dask中有效地使用pandas.cut() (或等效)？

使用Python将Dask* Dataframe转换为Spark dataframe*

在Dask中使用尚未实现的Pandas函数

从元组的python列表中提取dask* dataframe*

如何在Dask中进行groupby过滤

Pandas DataFrame没有属性“is_monotonic_increasing”

在什么情况下，我可以使用Dask而不是Apache？

计算()在Dask中的用途

从字典创建dask数据帧

将熊猫系列添加到dask* dataframe中*

扫码

热门标签

活动推荐

运营活动

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐