Dask DataFrame能和大熊猫DataFrames一起工作吗？_DynamoDBMapper能和DAX一起工作吗？_COALESCE能和视图一起正常工作吗？ - 腾讯云开发者社区

python、pandas、dask

我想使用Dask来处理大型数据帧。然而，当我尝试使用它时，我得到了一个内存错误，如下所示。df = pandas.DataFrame({'x': my_very_large_array}) ddf = dask.dataframe.from_pandas(df, npartitions=100) 我认为Dask应该处理比内存更大的数据。

浏览 7提问于2019-03-06得票数 0

回答已采纳

1回答

使用dask.bag和pandas.DataFrame将字典的dask.delayed转换为dask.dataframe

dask、dask-delayed

我正在努力将字典的dask.bag转换为dask.delayed pandas.DataFrames，使之成为最终的dask.dataframe到目前为止，我一直在使用dask.delayed对象来加载、转换和附加所有工作正常的数据(参见下面的示例)。但是，对于以后的<em

浏览 3提问于2019-03-22得票数 5

回答已采纳

1回答

如何在多台机器上运行dask？

dask

关于Dataframe和其他数据结构，我有非常基本的问题。我需要设置像星火一样的星系团吗？如何在我自己的计算节点中运行Dask数据文件？达斯克需要主从设

浏览 1提问于2016-09-11得票数 2

回答已采纳

3回答

导入dataframe会产生错误，无法导入名称“is_datetime64tz_dtype”

pandas、jupyter、data-science、dask

pip install “dask[complete]”我得到了以下错误。as da 9 D:\Anaconda\lib\site-packages\dask</em

浏览 0提问于2018-09-10得票数 3

2回答

达斯克大战急流。急流提供了达斯克没有的东西？

machine-learning、parallel-processing、gpu、dask、rapids

我想了解什么是达斯克和急流之间的区别，什么是急流提供的好处，达克没有。急流内部是否使用dask代码？如果是这样的话，那为什么我们有达斯克，因为即使是达斯克也可以与GPU进行交互。

浏览 3提问于2020-03-18得票数 8

回答已采纳

1回答

在本地使用Dask时，是否需要初始化客户端？

python、dask、dask-dataframe

我看过Dask教程，它们总是从客户端的初始化开始： from dask.distributed import Client df = dd.read_csv('trainset.csv').compute() 尽管设置了n_workers=4，Das

浏览 20提问于2020-04-25得票数 0

1回答

减少dask* XGBoost内存消耗*

python、dask、xgboost、dask-distributed、dask-ml

这是我正在使用的代码：import dask_mlfrom dask_ml.model_selection import train_test_splitimport xgboost import dask_xgboost['engagement_like_

浏览 2提问于2021-05-01得票数 0

1回答

Pandas性能:在一列中有多个数据类型，还是拆分成不同的数据类型？

python、pandas

我有和我一起工作的大熊猫DataFrames。20 30行，30列。这些行有很多数据，并且每一行都有一个使用某些列的“类型”。正因为如此，我目前已经将DataFrame设计为具有一些混合数据类型的列，无论该行是哪种“类型”。这些列可以是当前构造的float/str、float/

浏览 2提问于2014-05-21得票数 0

6回答

DASK: Typerrror:列赋值不支持numpy.ndarray类型，而Pandas工作得很好

python、pandas、numpy、dask

我使用Dask读取10m行的csv+并执行一些计算。到目前为止，它比Pandas快10倍。import dask.datafra

浏览 12提问于2019-10-06得票数 6

回答已采纳

1回答

我收集了大量的条目E和函数f: E --> pd.DataFrame。对于不同的输入，函数f的执行时间会有很大的变化。最后，所有DataFrames都应该连接到一个DataFrame中。我想避免的情况是分区(为示例起见使用2个分区)，在分区1上意外地发生所有快速函数执行，在分区2上执行所有缓慢执行，因此不能优化地使用工作人员。====][===============] 我目前的解决方案是迭代条目集

浏览 0提问于2017-11-11得票数 3

回答已采纳

3回答

将一个大型Dask* dataframe与一个小型Pandas dataframe合并*

python、pandas、dask

合并位于两个列A和B上，我没有设置任何索引：from dask.diagnostics import ProgressBar large_df = dd.read_csv(dataframe2) #as dask.dataframe df2 = large_df.mergewould fit on m

浏览 16提问于2016-09-13得票数 26

1回答

用Dask从文件系统/S3中并行读取文件块？

distributed-computing、dask

我知道HDFS将分割数据文件并将其分发给工作人员，但我正在尽量保持环境的简单性，如果不必安装Hadoop，我宁愿不必安装Hadoop。我最近看了几次来自连续分析的关于他们的Dask框架的网络研讨会，看起来它将完全满足我的需要。鉴于上述段落和Dask框架，当前对文件系统的建议是什么？

浏览 2提问于2016-05-16得票数 3

回答已采纳

3回答

如何将dask.dataframe与自定义dsk图一起使用

python、dask

我将尝试重新表述我的问题：id,names,amount387,Tim,208129,Patricia,284import dask.dataframeas ddfrom dask.threaded import get df = dd.read_csv('accounts.0.csv&#

浏览 5提问于2015-10-21得票数 2

回答已采纳

1回答

使用dask.distributed的ImportError

python-3.x、importerror、dask-distributed

我正在尝试导入集合包，但一直收到这个错误: ImportError:无法导入名称‘dask.distributed _ to _dsk’。感谢您的帮助。

浏览 0提问于2018-03-30得票数 1

1回答

来自延迟压缩csv的Dask数据

pandas、dask、zip、dask-delayed

我正在尝试从一组压缩的CSV文件中创建一个dask数据文件。读到这个问题，dask似乎需要使用dask.distributed延迟()import dask.dataframe as ddimport pandasas pd #Create zip_dict with key-value pairs for .zip & .csv names

浏览 0提问于2018-10-19得票数 2

1回答

取可能为空的数据帧列表的合并

scala、functional-programming、apache-spark-sql

我有以下代码：// TODO There has to be a better way to do lines below. if (dataFrames.length > 1) { } else if (dat

浏览 7提问于2018-05-03得票数 0

回答已采纳

1回答

dask dataframe的工作方式与熊猫不一样

pandas、pyspark、dask、python-xarray

这将产生一个xarray数据集，我可以将其转换为熊猫和/或dask数据格式。最后，由于数据量的原因，我希望将数据转换为dask数据，然后转换为pyspark。熊猫第一print(df.head())only showing top 5 rows 现在是达斯克

浏览 13提问于2022-03-24得票数 0

回答已采纳

1回答

什么是最快的方式循环通过排序的达克数据？

python-3.x、pandas、dask

我是Pandas和Dask的新手，dataframes包着熊猫的数据文件，并共享大多数相同的函数调用。但是它运行得很慢(大约需要8个小时)，有更快的方法吗？我之所以使用dask，是因为它可以对非常大的csv文件进行排序，并且具有灵活的c

浏览 3提问于2020-01-31得票数 0

回答已采纳

1回答

自定义Dask调度程序与客户端

python、dask、xgboost、dask-distributed、dask-dataframe

我希望在自定义调度程序上运行Dask任务，类似于Ray上的Dask工作方式。目前，我正在使用Dask的配置来指定调度程序：这种方法适用于简单的Dask dataframe操作，如下面这样的操作dask.config.set(scheduler=my_custom_scheduler) if __name__ == "__main__"

浏览 3提问于2021-07-01得票数 0

1回答

熊猫的鳞片和串连成一只dask数据

python、pandas、dataframe、dask、dask-distributed

由于这个大型数据文件将不适合内存，所以我认为同样地使用dataframe可能会更好。但我不知道如何解决这个问题。import pandas as pd 'id1': range(1,6), dflarge = dflarge.

浏览 0提问于2019-05-10得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云