在Dask中高效地删除行_在可变距离上高效地旋转NumPy行_在Python中高效地比较两个文件中的行 - 腾讯云开发者社区

、、、

我想在表单的操作中使用Dask df.groupby(some_columns).apply(some_function) 其中，some_function()可以计算一些汇总统计信息，执行时间序列预测，甚至只需将组保存到AWS S3中的单个文件。 Dask 状态(以及其他几个StackOverflow答案引用)表明，groupby-apply不适合聚合：熊猫的群-应用可以用来应用任意函数，包括每组产生一行的聚合。Dask的将对每个分区组对应用func一次，所以当func是一个约简时，每个分区组对将得到一行。若要使用Dask应用自定义聚合，请使用dask.dataframe.groupby

浏览 40提问于2021-12-07得票数 1

回答已采纳

1回答

Dask分布式调度器和大型函数

、

在Dask distributed scheduler w/ aLocalCluster的上下文中:有人能帮我理解一下拥有一个大型(堆)映射函数的动态性吗？例如，考虑Dask数据帧ddf和map_partitions操作： def mapper(): resource=... #load some large resource eg 50MB def inner(pdf): return pdf.apply(lambda x: ..., axis=1) return inner mapper_fn = mapper() #50MB on heap ddf.map_

浏览 26提问于2020-05-04得票数 1

回答已采纳

1回答

如何在Dask中进行行处理和项目分配

、、、

类似的未回答问题：我正在处理数百万行长的dataframe，所以现在我尝试并行执行所有的dataframe操作。我需要转换成达斯克的一个这样的行动是： for row in df.itertuples():

浏览 0提问于2018-04-03得票数 2

回答已采纳

1回答

计算具有共同依赖关系的两个值时，Dask高内存使用率

、、、

我在一台机器上使用Dask (LocalCluster有4个进程，16个线程，68.56 to内存)，当我试图一次计算两个共享依赖关系的结果时，遇到了工作内存问题。在下面显示的示例中，仅用一次计算就可以很好地快速计算result，工作人员的总内存使用量最高可达1 1GB左右。但是，当使用两次计算来计算results时，当总内存使用量约为40 is时，工作人员会迅速耗尽所有内存，并开始写入磁盘。计算最终将完成，但一旦开始写入磁盘，就会有一个巨大的减速。直观地说，如果读入一个块，然后立即计算它的两个和，那么该块可以被丢弃，并且内存使用率保持在较低水平。然而，看起来Dask正在优先加载数据，而不

浏览 18提问于2021-02-27得票数 2

回答已采纳

1回答

使用Dask中的read_sql_table将时间戳指定为索引

、、

在SQLite中，我有一个带有索引列time的表data，该列是time.time()在录制时生成的时间戳我想将这个表中的数据加载到Dask DataFrame中。为此，我使用： import dask.dataframe as dd data = dd.read_sql_table('data', 'sqlite:///'+DB_PATH, index_col='time', parse_dates={"time": {"unit":"s"}}) 当我想对数据data.resample('

浏览 2提问于2021-05-04得票数 0

2回答

如何有效地将csv文件在dask中水平连接，然后垂直连接？

、、、、

给定3个相同行数的csv文件，如下所示 fx.csv 7.23,4.41,0.17453,0.12 6.63,3.21,0.3453,0.32 2.27,2.21,0.3953,0.83 f0.csv 1.23,3.21,0.123,0.12 8.23,9.21,0.183,0.32 7.23,6.21,0.123,0.12 和f1.csv 6.23,3.21,0.153,0.123 2.23,2.26,0.182,0.22 9.23,9.21,0.183,0.135 f0.csv和f1.csv附带相应的标签0s和1s。目标是将其读入dask.DataFrame中。连接的值，以便我们得到 f

浏览 12提问于2022-08-02得票数 0

1回答

Dask:凸矩阵优化

我目前正在尝试实现Dask的凸矩阵优化。目标是对内存不足的矩阵执行矩阵优化(因式分解)。以一个高矩阵为输入，两个高矩阵为输出，以及一些参数(如收敛性等)。我使用dask数组来分块我的原始矩阵和迭代中间/输出矩阵。最后，迭代是顺序的，前一次迭代的输出被用作新迭代的输入(参见下面的简单示例)。在每次迭代中，必须计算两个标准并检查其收敛性(最后的if语句)。然而，如果我执行下面给出的代码，我看到的是Dask计算标准(由if语句强制执行)，但然后在每次迭代中重新计算其他矩阵:即迭代1标准计算正确，迭代2不使用之前找到的A和E，而是重新计算它们，导致两个SVD评估，依此类推。Dask似乎没有意识到在前

浏览 16提问于2019-11-15得票数 1

1回答

Holoviz面板不会打印Jupyter笔记本中的pandas数据帧行

、、、、

我正在尝试使用Pandas数据帧而不是Dask数据帧重新创建Holoviz教程中的第一个panel.interact示例。我得到了滑块，但pandas dataframe行没有显示。查看原始示例：我尝试使用了Holoviz示例中的Dask。Dask行可以很好地打印出来，但它演示了面板在打印时似乎以不同于Pandas dataframe行的方式处理Dask dataframe行。下面是我的最小代码： import pandas as pd import panel l1 = ['a','b','c','d','a'

浏览 4提问于2019-08-13得票数 0

1回答

在dask dataframe中使用行号作为索引，使用chunksize和skiprows过滤输入文件

我有大约70 MD的MD模拟输出。固定行数解释和固定行数数据的模式在文件中有规律地重复。如何逐块读取Dask Dataframe中的文件，其中的解释行被忽略？我成功地在pandas.read_csv的skiprows参数中编写了一个lambda函数，以忽略解释行，只读取数据行。我将pandas输入的代码转换为dask one，但它不起作用。在这里您可以看到用dd.read_csv替换pandas.read_csv所编写的dask代码： # First extracting number of atoms and hence, number of data lines: with open(f

浏览 0提问于2019-10-04得票数 0

1回答

在Dask中高效地删除行

、、

我正在尝试删除dask dataframe上的空值，文档中的示例对列很有效： import dask.dataframe as dd df = dd.read_csv("test.csv",assume_missing=True) df.dropna(how='all', subset=None, thresh=None).compute() 但是，如果我试图指定轴0来按行过滤，我会得到这样的错误： import dask.dataframe as dd df = dd.read_csv("test.csv",assume_missing=Tru

浏览 8提问于2019-07-15得票数 1

回答已采纳

2回答

为什么dask中的点乘积比numpy慢

、、、

dask中的点产品似乎比在numpy中运行得慢得多： import numpy as np x_np = np.random.normal(10, 0.1, size=(1000,100)) y_np = x_np.transpose() %timeit x_np.dot(y_np) # 100 loops, best of 3: 7.17 ms per loop import dask.array as da x_dask = da.random.normal(10, 0.1, size=(1000,100), chunks=(5,5)) y_dask = x_dask.transpose

浏览 7提问于2015-12-23得票数 4

回答已采纳

1回答

Dask Worker配置文件和Dask Scheduler配置文件的正确位置在哪里？

、

我正试图找到Dask配置文件的正确位置。我有许多与配置Dask相关的问题。 $ dask-worker --version dask-worker, version 2.3.2 是Dask和Dask共享相同的配置文件还是使用不同的配置文件？我不清楚是否有特定于Dask和Dask的配置变量。是否有Dask和Dask的有效配置变量列表？ Dask和Dask配置文件的正确位置在哪里？我在我的系统和Dask文档中找到了三个不同的配置文件： ~/.config/dask/distributed.yaml ~/.config/dask/dask.yaml ~/.dask/config.y

浏览 0提问于2019-09-06得票数 0

回答已采纳

1回答

如何快速地将一个大型CSV文件读入Python中？

、、、、

为了机器学习，我试图将一个~67 gb的数据dask ( 2300行6,000,000功能)加载到dask中。我在AWS上使用96核心机器，我希望在实际的机器学习位上使用它。但是，Dask在一个线程中加载CSV。它已经花了整整24小时，而且还没有上膛。 #I tried to display a progress bar, but it is not implemented on dask's load_csv from dask.diagnostics import ProgressBar pbar = ProgressBar() pbar.register() df = dd.r

浏览 0提问于2019-01-29得票数 0

1回答

导入DASK时出错:模块“dask.array”没有属性“分块”

、、、、

我正在尝试使用DASK进行快速计算，因为在我的系统上17个小时后，逻辑回归被中止。我的数据集大约有100万行。我首先运行了以下命令： import dask.array as da import dask.dataframe as dd from dask.distributed import Client client = Client() from dask.distributed import Client client = Client() 上面的命令运行，但经过一个警告： C:\ProgramData\Anaconda3\lib\site-packages\distribut

浏览 0提问于2020-06-01得票数 0

1回答

如何在Dask中使用regex删除行？

、、、

有没有办法在dask dataframe上使用regex条件来删除行？我有一个大约有1亿行的dask dataframe，我想在处理它之前删除B列中包含'the ocean‘的行。有没有办法做到这一点？下面是数据帧的样子： df = pd.DataFrame({ "A":[34,12,78,84, 96], "B":['land', '', 'human', 'seagull by the ocean', 'running fox'] }) patternDel = &#

浏览 0提问于2019-05-01得票数 0

2回答

如何在dask中使用'loc‘选择数据帧的列

、、、、

谁能告诉我应该如何使用dask在数据框中选择一列“loc”？注意，当我使用标头等于"None“的dd.read_csv加载数据帧时，列名的开头是从0到131094。我将要选择列名为131094的最后一列，但得到错误消息。代码： > import dask.dataframe as dd > df = dd.read_csv('filename.csv', header=None) > y = df.loc['131094'] 错误： File "/usr/local/dask-2018-08-22/lib/python2.7

浏览 1提问于2018-08-26得票数 4

1回答

基于dask的高效n体仿真

、

用于模拟涉及粒子相互作用的物理系统的动力学，或简化为一类具有物理意义的粒子的问题。粒子可以是气体分子，也可以是星系中的恒星。Dask.bag提供了一种简单的方法来分发集群中的粒子，例如，为dask.bag.from_sequence()提供一个自定义迭代器，该迭代器返回粒子对象： class ParticleGenerator(): def __init__(self, num_of_particles, max_position, seed=time.time()): random.seed(seed) self.index = -1

浏览 0提问于2016-10-25得票数 2

回答已采纳

1回答

Dask计算非常慢

、、、、

我有一个由五百万条记录组成的数据。我试图使用下面的代码来处理它，方法是利用python中的dask数据格式。 import dask.dataframe as dd dask_df = dd.read_csv(fullPath) ............ for index , row in uniqueURLs.iterrows(): print(index); results = dask_df[dask_df['URL'] == row['URL']]

浏览 0提问于2018-10-07得票数 5

1回答

在dask dataframe中用每列最大值填充NaNs

、

当值为np.nan时，我需要在数据中计算每个列中的最大数目。不幸的是，在SimpleImputer中，根据文档，这种策略是而不是支持的：因此，我尝试用fillna手动完成这一操作。这是我的尝试： df = pd.DataFrame({ 'height': [6.21, 5.12, 5.85, 5.78, 5.98, np.nan], 'weight': [np.nan, 150, 126, 133, 164, 203] }) df_dask = dd.from_pandas(df, npartitions=2) meta = [(&#

浏览 8提问于2022-08-21得票数 1

回答已采纳

1回答

了解将多个文件内容加载到Dask Array的过程及其扩展方式

在上使用示例 filenames = sorted(glob('2015-*-*.hdf5') dsets = [h5py.File(fn)['/data'] for fn in filenames] arrays = [da.from_array(dset, chunks=(1000, 1000)) for dset in dsets] x = da.concatenate(arrays, axis=0) # Concatenate arrays along first axis 我很难理解下一行，以及它是一个"dask数组“的dask_array还

浏览 10提问于2016-08-27得票数 1

回答已采纳

1回答

Dask广播在计算图期间不可用

、、、

我正在尝试使用Dask，并希望向所有工作节点发送一个查找pandas.DataFrame。不幸的是，它失败了，原因是： TypeError: ("'Future' object is not subscriptable", 'occurred at index 0') 当使用lookup.result()['foo'].iloc[2]代替lookup['baz'].iloc[2]时，它工作得很好，但是:对于较大的输入数据帧实例，它似乎一次又一次地卡在from_pandas上。此外，看起来很奇怪的是，未来需要手动阻

浏览 13提问于2019-05-11得票数 1

回答已采纳

1回答

使用dask延迟合并一个巨大的数据帧列表

、

我有一个函数，它向我返回一个数据。我试图通过使用dask并行地使用这个函数。我将数据文件的延迟对象附加到列表中。但是，我的代码的运行时间与dask.delayed的运行时间相同。我与pd.merge一起使用函数工具的还原函数来合并我的数据文件。对如何改进运行时间有什么建议吗？可视化的图形和代码如下所示。 lot_data = data[data"LOTID"==lot] trmat =延迟( lot )(lot，lot_data).transition_matrix(lot) d.append(trmat) df =延迟(减少)(lambda，y: x.merge(y

浏览 1提问于2018-11-11得票数 2

1回答

dask read_parquet内存不足

我正在尝试读取一个很大的(内存不能容纳)镶木地板数据集，然后从中提取样本。数据集的每个分区都可以完美地存储在内存中。数据集在磁盘上大约有20 in的数据，分为104个分区，每个分区大约200Mb。我不想在任何时候使用超过40‘m的内存，所以我相应地设置了n_workers和memory_limit。我的假设是，Dask将加载它能处理的尽可能多的分区，从它们中采样，从内存中删除它们，然后继续加载下一个。或者类似的东西。相反，从执行图(104个并行加载操作，在每个样本之后)来看，它似乎试图同时加载所有分区，因此工作进程总是因为内存不足而被杀死。我是不是遗漏了什么？这是我的代码： fro

浏览 66提问于2019-09-25得票数 0

1回答

Dask分布式:使用AttributeError安装后获取“setup.py”

、

你好，我想从头开始构建磁盘分发版。我读了杜威的但是在这些步骤之后，当我使用pytest distributed --verbose时，我会得到错误文件"/Users/bielefem/Dev/dask/distributed/distributed/init.py"，第3行，in from。导入配置文件"/Users/bielefem/Dev/dask/distributed/distributed/config.py"，第13行，在config = dask.config.config AttributeError中:模块'dask‘没有属性&

浏览 0提问于2018-05-12得票数 1

回答已采纳

1回答

是否有更快的方法将数据从Dask DataFrame导出到CSV？

、、

我正在使用Dask读取CSV文件(10 GB)。然后，在执行一些操作后，我将使用to_csv以CSV格式导出文件。但是问题是导出这个文件需要大约27分钟(根据ProgressBar诊断)。 CSV文件包含有一列时间戳的350个列，其他列的数据类型设置为float64。 Pro 机器规格：Intel i7-4610M @ 3.00 GHz8GB DDR3 RAM500 GB SSD<code>H 111</code>Windows 10 我尝试过在像to_csv('filename-*.csv')这样的单独文件中导出，也尝试过不包括.csv。因此，D

浏览 1提问于2019-10-23得票数 5

回答已采纳

1回答

使用apply函数在Dask中添加两列

、、

我有一个Dask函数，可以将列添加到现有的Dask dataframe中，它可以很好地工作： df = pd.DataFrame({ 'height': [6.21, 5.12, 5.85, 5.78, 5.98], 'weight': [150, 126, 133, 164, 203] }) df_dask = dd.from_pandas(df, npartitions=2) s = """ obj.weight + 100 """ df_dask['new_weight&

浏览 50提问于2021-10-21得票数 1

回答已采纳

3回答

使用Python读取大型csv文件

、、、、

我使用Dask读取了2.5 to的csv文件，Python给了我错误。这是我写的代码： import pandas as pd import numpy as np import time from dask import dataframe as df1 s_time_dask = time.time() dask_df = df1.read_csv('3SPACK_N150_7Ah_PressureDistributionStudy_Data_Matrix.csv') e_time_dask = time.time() 以下是我从Python得到的错误： dask_df

浏览 0提问于2021-06-17得票数 0

1回答

如果我在HPC上使用了，我还需要使用Dask来运行scikit-learn代码吗？

、、、、

如果我在高性能计算机(HPC)上使用Dask，我还需要使用Dask(即.( joblib.parallel_backend('dask')运行scikit学习代码？假设我有以下代码： from dask_jobqueue import PBSCluster cluster = PBSCluster(cores=36, memory='100GB', project='P48500028', queue

浏览 3提问于2020-06-21得票数 0

回答已采纳

1回答

dask dataframe.persist()是否为下一次查询保留结果？

、、、、

我正在尝试理解df.persist()在dask中是如何工作的。我会再次构建相同的表达式，是重新计算它还是从缓存中加载它？例如，当我这样做时会发生什么： ddf = dask.dataframe.read_csv('my.csv').shift(1).persist() print(ddf.sum().compute()) del ddf ddf = dask.dataframe.read_csv('my.csv').shift(1).persist() print(ddf.mean().compute()) dask读取.csv并移位一次是两次，还是第二次来

浏览 22提问于2019-08-06得票数 4

回答已采纳

1回答

使用Dask读取块结构ASCII文件

我有一个以块为单位的ASCII文件，结构如下(简化版)： DATASET OBJTYPE "mesh2d" BEGSCL ND 4 NC 10 NAME "Depth" TIMEUNITS SECONDS TS 0 0.00 1.0 2.0 3.0 4.0 TS 0 180.00 1.1 2.1 3.1 4.1 TS 0 360.00 1.2 2.2 3.2 4.2 TS 0 540.00 1.3 2.3 3.3 4.3 我们可以忽略标题行，每个块都是由定义时间步长的TS行开始的，后面跟着一个'ND‘值的数据块。块中每个数据点的索引就是值在块中的

浏览 1提问于2018-08-07得票数 1

1回答

是否可以使用dask.compute将dask.DataFrame.categorize与另一个dask计算结合起来？

、、

我正在尝试避免重复使用dask.compute(list_of_dask_computations)进行dask计算。在我的代码中，我必须在dask dataframe中创建一些分类列，并调用dask.DataFrame.categorize来使类别成为已知的。但我希望与dask.compute(list_of_dask_computations)提供的其他列上的其他计算同时执行该调用。但我不知道该怎么做。下面是一个示例： import dask df = dask.datasets.timeseries() df['letter'] = df['name'

浏览 12提问于2020-04-15得票数 0

1回答

触发Dask工作进程释放内存

、

我正在使用Dask分发一些函数的计算。我的总体布局如下所示： from dask.distributed import Client, LocalCluster, as_completed cluster = LocalCluster(processes=config.use_dask_local_processes, n_workers=1, threads_per_worker=1, ) client

浏览 55提问于2019-04-30得票数 4

回答已采纳

1回答

dask=parallelized和dask=allowed在xarray的apply_ufunc中有什么区别？

、、、、

在函数的apply_ufunc中，它说： dask: ‘forbidden’, ‘allowed’ or ‘parallelized’, optional How to handle applying to objects containing lazy data in the form of dask arrays: ‘forbidden’ (default): raise an error if a dask array is encountered. ‘allowed’: pass dask arrays directly on to func. ‘p

浏览 0提问于2018-08-07得票数 5

回答已采纳

1回答

如何从Dask中键维不一致的字典列表中创建DataFrame？

、、

对Dask有些陌生，但由于大多数操作都是懒惰的，我如何才能使像这样的基本案例在规模上工作？ import dask.dataframe as dd import dask.bag as db dataset = [ dict(a = 1, b = 2, c = 3), dict(a = 3, b = 4, d = 5, e = 5), dict(a = 2, x = 1, y = 2, z = 3, q = 5) # etc... ] dag_data = db.from_sequence(dataset) dag_data.to_dataframe()

浏览 6提问于2020-07-16得票数 2

1回答

从多进程切换到多线程Dask.DataFrame

、、、、

我有一个关于如何使用dask来并行我的代码的问题。我有一个熊猫数据文件和8个核心CPU。所以我想按行应用一些函数。下面是一个例子： import dask.dataframe as dd from dask.multiprocessing import get # o - is pandas DataFrame o['dist_center_from'] = dd.from_pandas(o, npartitions=8).map_partitions(lambda df: df.apply(lambda x: vincenty((x.fromlatitude, x.froml

浏览 1提问于2018-07-06得票数 4

回答已采纳

1回答

Dask数据流分析

、、

我有一个数据集存储在一个标签分隔的文本文件中。该文件如下所示： date time temperature 2010-01-01 12:00:00 10.0000 ... 其中temperature列包含以摄氏度(°C)为单位的值。我用达斯克计算日平均温度。这是我的代码： from dask.distributed import Client import dask.dataframe as dd client = Client("<scheduler URL") inputDataFrame = dd.read_table("<in

浏览 1提问于2018-10-12得票数 0

1回答

requirements.txt中的Dask数据文件？

、、

我需要使用requirements.txt (使用pip install )在Docker容器中安装一些python包。其中一个包是dask。但是，在安装它时，它会抛出一个错误，因为它找不到包toolz。已经回答了这个问题，也就是通过键入 pip install "dask[dataframe]" 但是，我需要通过在requirements.txt中添加行来修复它。类似于： pandas==0.23.4 dask==1.0.0 ???dask[dataframe]??? 在需求文件中它应该是什么样的呢？我应该写些什么来代替？

浏览 0提问于2019-02-07得票数 3

回答已采纳

2回答

在dask中基于多条件的行式选择？

、、

在dask中，基于多个条件选择行的最有效方法是什么？在熊猫中，类似这样的东西 df[df.A > 0 & df.B <= 10] 确实行得通。然而，在dask中，这将返回一个错误。到目前为止，我想到的最好的解决方案是使用numpys的logical_and()函数： df[np.logical_and(df.A > 0, df.B <= 10)] 然而，这是超级慢的，因为它触发了几次计算(我假设)。在dask中，有没有更好的基于多个条件选择行的方法？

浏览 0提问于2016-11-16得票数 1

1回答

将任务提交给员工约会

、

我运行一个长函数(几个小时)和大结果(几百兆字节)的计算图。这种类型的负载对于dask来说可能是不典型的。我试着在4个工人身上运行这个图表。我看到描述给员工约会的任务：在第一行中，“绿色”任务只取决于“蓝色”任务，而不是“紫色”任务。为什么绿色任务不转移到其他工人？是否可以向调度程序提供一些提示，以便始终在自由工作人员上移动任务？您需要和可能获得哪些信息有助于调试更多？这样的指定是非最优的，而图的计算需要更多的时间。一点点信息：计算图合成是用dask.delayed完成的。计算调用使用下一段代码完成。 to_compute = [result_of_

浏览 3提问于2020-06-08得票数 1

1回答

如何使用dask并行导入hdf5数据并创建dataframe？

、、、

我完全被困住了，所以我正在寻求善意的建议。我的目标是并行读取多个hdf5文件，提取内部的多个模糊数组，并将每个数组存储在一个dataframe的一行，准确地说是一个单元格中。我不选择熊猫df，因为我相信它会太大。不可能使用read_hdf()从用h5py创建的hdf5文件中读取。我能做些什么来用paralleL中的dask导入数千个hdf5 5文件，并访问其中的多个do数组？我想要创建一个dataframe，其中每个2d数组(从hdfs中的n个暗数组中提取)都存储在dataframe的一个单元格中。因此，行数对应于在所有文件中找到的总数组数，在这里9。我将数组存储在一个列中。在将来我希望将更

浏览 0提问于2021-09-30得票数 1

回答已采纳

1回答

稀疏CSR阵列的核外处理

、、、、

如何在使用Python保存在磁盘上的稀疏CSR数组的块上并行应用一些函数？按照顺序，这可以通过使用joblib.dump保存CSR数组、用joblib.load(.., mmap_mode="r")打开它并逐一处理行块来实现。用能更有效地做到这一点吗？特别是，假设不需要对稀疏数组进行所有可能的核心操作，而只需要并行加载行块(每个块是一个CSR数组)并将某些函数应用到它们(在我的例子中，这将是来自scikit-learn的estimator.predict(X) )。此外，磁盘上是否有适合此任务的文件格式？spark.mllib可以工作，但我不确定作为内存映射加载的CSR数组

浏览 3提问于2017-07-17得票数 43

1回答

dataframe连接和重新分区大文件，用于时间序列和相关性。

、、、

我有11年的数据和记录(行)每秒钟，超过100列。它用一系列的日期时间(用Pandas to_datetime()创建)进行索引，我们需要能够在列之间进行一些相关分析，一次只能加载两个列。我们可能在较低的时间(例如48小时、1小时、月等)重新采样。在长达11年的时间里，把这些关联想象成11年。数据目前在11个单独的拼花文件中(每年一个)，从11个.txt文件中单独生成Pandas。熊猫没有对任何这些文件进行分区。在内存中，这些拼花文件中的每一个都加载了大约20 In的内存。预期的目标机器只有16 GB，即使在11年中只加载1列也需要10 GB，因此两列也不适合。是否有一个比使用Pandas

浏览 29提问于2022-06-20得票数 1

2回答

如何使用Dask正确地迭代for循环？

、、

当我使用dask和pandas运行像这样的循环时(见下文)，只有列表中的最后一个字段会被求值。这大概是因为“懒惰评估”。 import pandas as pd import dask.dataframe as ddf df_dask = ddf.from_pandas(df, npartitions=16) for field in fields: df_dask["column__{field}".format(field=field)] = df_dask["column"].apply(lambda _: [__ for __ in _ if

浏览 1提问于2019-05-03得票数 0

1回答

达斯克是什么?它和熊猫有什么不同？

、、

有谁能解释一下如何纠正这个错误吗？我在哪里能得到达斯克的详细信息？它能代替熊猫吗。它与其他数据格式有什么不同，处理速度快吗？代码： import dask.dataframe as dd df = dd.demo.make_timeseries('2000-01-01', '2000-12-31', freq='10s', partition_freq='1M',dtypes={'name': str, 'id': int, 'x': fl

浏览 0提问于2018-05-22得票数 0

1回答

使用dask.dataframe逐个分区从CSV文件中读取尾部

、、、、

使用Dash，我们可以轻松地读取CSV文件，并使用head读取第一行，即使在多个分区中也是如此。 import dask.dataframe as dd df = dd.read_csv('data.csv').head(n=100, npartitions=2) 但我想在多个分区上读取CSV文件的最后几行，如下所示： import dask.dataframe as dd df = dd.read_csv('data.csv').tail(n=100, npartitions=2) Dask data.frame似乎不支持tail方法上的分区。在pandas

浏览 1提问于2018-03-14得票数 4

1回答

如何在dask.dataframe中子集一行？

、、、

我试图使用命令dask.dataframe从x.loc[0].compute()中只选择一行。它返回4行，所有行都有index=0。我尝试了reset_index，但在重置后仍有4行具有index=0。(我认为我重置是正确的，因为我做了reset_index(drop=False)，我可以在新列中看到原始索引)。我阅读了dask.dataframe文档，它说明了index=0可能有多个行，这是因为dask如何构造块数据。所以，如果我真的希望通过使用index=0来设置一个行，我如何做到这一点？

浏览 0提问于2019-02-02得票数 4

回答已采纳

1回答

了解dask cudf对象生命周期

、、、

我想了解Dask对象的有效内存管理过程。我已经设置了一个Dask GPU集群，并且我能够执行跨该集群运行的任务。然而，使用dask对象，特别是当我运行计算函数时，在GPU上运行的进程会随着使用越来越多的内存而快速增长，很快我就会收到“内存不足错误”。我想知道如何在使用完dask对象后释放它们。在下面的示例中，在计算函数之后，我如何释放该对象。我运行了几次以下代码。内存在它运行的进程中不断增长。 import cupy as cp import pandas as pd import cudf import dask_cudf nrows = 100000000 df2 = cudf.Da

浏览 16提问于2021-05-06得票数 1

1回答

为什么达斯克的"to_sql“比熊猫花了更多的时间？

、、、、

我在ETL中使用dask而不是pandas，即从S3存储桶中读取CSV，然后进行一些所需的转换。Until here - dask读取和应用转换的速度比pandas快！最后，我使用to_sql将转换后的数据转储到Redshift。在dask中这个to_sql转储比在pandas中花费更多的时间。有没有可能缩短这段时间？如果不是，为什么在这种情况下dask比熊猫慢？

浏览 2提问于2021-09-27得票数 1

1回答

在条件下在dask dataFrame中放置行

、、、

我试图在我的dask dataframe中放置一些行，其中包括： df.drop(df[(df.A <= 3) | (df.A > 1000)].index) 但是这个不工作，并返回NotImplementedError: Drop currently only works for axis=1 我真的需要帮助

浏览 0提问于2018-09-20得票数 4

回答已采纳

1回答

dask kubernetes aks (azure)虚拟节点

、、、、

使用下面的代码，就可以在天蓝色的aks中创建一个集群。它使用远程调度器(dask.config.set({"kubernetes.scheduler-service-type": "LoadBalancer"}))，工作非常完美。若要使用虚拟节点，请取消注释行extra_pod_config=virtual_config (在之后)。它不起作用，有以下错误： ACI does not support providing args without specifying the command. Please supply both command and a

浏览 5提问于2020-07-20得票数 0

回答已采纳