使用Dask loc的另一种方法，就像在Pandas中一样loc |= operator在dask中不工作 - 腾讯云开发者社区

python、pandas、dask

我有一个用dd.read_csv("./*/file.csv")创建的dataframe，其中* glob是每个日期的一个文件夹。例如，在级联的数据帧中，我想过滤掉时间子集，比如我将如何使用pd.between_time("09:30", "16:00")。因为Dask对索引的内部表示没有Pandas的DateTimeIndex那样好的特性，所以我已经成功地过滤了我通常在Pandas中的表现。除非求助于一个简单的映射函数/循环，否则我无法让它在Dask中工作。由于分区是按日期划分的，也许可以通过转换为Pandas dataframe然后返回到

浏览 6提问于2020-06-18得票数 3

1回答

达克和潘达给出了不同的结果

python、pandas、dask

当运行下面的代码时，我会得到不同的结果。 import dask # Loading Data df = dask.datasets.timeseries() # Dask Computation df.groupby("name").aggregate({"x": "sum", "y": "max"}).compute() # Pandas computation pandas_df = df.compute() pandas_df.groupby("name").aggregate({&#

浏览 5提问于2022-10-01得票数 0

2回答

有没有一种很好的方法来在dask数据帧上对许多条件进行条件选择？

python、dask

我正在从Pandas切换到Dask，并希望在数据帧上执行条件选择。我想提供一个条件列表，最好是布尔数组/序列，然后得到一个应用了所有这些条件的数据帧。在Pandas中，我只是做了np.all(BoolSeries1，BoolSeries2，...)并将结果应用于数据帧。 import dask.array as da import dask.dataframe as dd import numpy as np import pandas as pd df = pd.DataFrame({'A' : np.random.rand(1000) , 'B':

浏览 10提问于2019-06-27得票数 2

回答已采纳

1回答

使用Dask映射分区时，解压函数内部的元组

python、pandas、dask

我尝试在Dask数据帧的多个分区上运行一个函数。该代码需要解压元组，并且可以很好地与Pandas一起工作，但不能与Dask map_partitions一起工作。数据对应于元组列表，其中列表的长度可以变化，但元组始终具有已知的固定长度。 import dask.dataframe as dd import pandas as pd def func(df): for index, row in df.iterrows(): tuples = row['A'] for t in tuples: x, y = t

浏览 27提问于2021-02-24得票数 1

回答已采纳

1回答

Holoviz面板不会打印Jupyter笔记本中的pandas数据帧行

pandas、dataframe、jupyter-notebook、holoviz、panel-pyviz

我正在尝试使用Pandas数据帧而不是Dask数据帧重新创建Holoviz教程中的第一个panel.interact示例。我得到了滑块，但pandas dataframe行没有显示。查看原始示例：我尝试使用了Holoviz示例中的Dask。Dask行可以很好地打印出来，但它演示了面板在打印时似乎以不同于Pandas dataframe行的方式处理Dask dataframe行。下面是我的最小代码： import pandas as pd import panel l1 = ['a','b','c','d','a'

浏览 4提问于2019-08-13得票数 0

1回答

dask索引的行为不像列(也不像pandas中的那样)

python、dask

在这个bug报告中：https://github.com/dask/dask/issues/8319我有一个解决以下问题的方法。由于这似乎超出了该bug报告的范围，因此我将在这里询问最初的问题： import pandas as pd import dask # some example dataframe df = pd.DataFrame([{"a": "A", "b": "B"}, {"a": "@", "b": "β"}, {"a": &#

浏览 25提问于2021-11-02得票数 0

回答已采纳

1回答

如何在dask中找到数据帧的长度？

python、pandas、dask

如何使用dask找到数据帧的长度？例如，在熊猫中，我可以这样做： import pandas as pd import numpy as np df = pd.DataFrame(np.random.normal(0, 1, (5, 2)), columns=["A", "B"]) print df['A'].count() print df 输出： 5 A B 0 1.538531 0.424717 1 -0.929843 1.323648 2 -1.283680 0.056199 3 -0.641

浏览 0提问于2018-05-28得票数 6

1回答

选择子集后将其转换为pandas时，Dask dataframe内存不足

python、python-3.x、pandas、dataframe、dask

所以我有一个包含160M记录和240列的拼图文件。因此，我使用dask在python中使用EMR CLuster m5.12xlarge加载它。 import dask.dataframe as dd df = dd.read_parquet(file) 现在我需要其中一列的值计数和归一化值计数： count = df.a.value_counts() percent = df.a.value_counts(normalize = True) a_count = dd.concat([count,percent], axis=1, keys=['counts', '%

浏览 1提问于2021-09-23得票数 0

1回答

只执行第一个结果( .loc ) (iloc[0])

pandas、dask、dask-dataframe

示例dask数据帧： import pandas as pd import dask import dask.dataframe as dd df = pd.DataFrame({'col_1': [1,2,3,4,5,6,7], 'col_2': list('abcdefg')}, index=pd.Index([0,0,1,2,3,4,5])) df = dd.from_pandas(df, npartitions=2) 现在，我只想(根据指数)得到第一个结果--像这样的熊猫结果： df.loc[df.

浏览 3提问于2020-11-25得票数 0

回答已采纳

2回答

将多个列乘成一列

pandas、dask

我想将大约50,000列与另一列相乘在一个大型dataframe (6_500_000 x 50_002)中。使用for循环的解决方案可以工作，但速度慢得令人痛苦。下面，我尝试了另外两个失败的应用程序。如有任何建议，敬请见谅。 Pandas import pandas as pd df = pd.DataFrame({'a':[1,2,3], 'b':[4,5,6], 'c':[7,8,9]}) df[['a','b']].multiply(df['c'], axis="index"

浏览 20提问于2020-10-01得票数 1

回答已采纳

2回答

索引到Dask系列可以返回Dask系列

python、pandas、dask

我有Dask系列的Dask数据帧。我想在本系列中建立索引，以获取dask数据帧以供后续工作使用。但是，使用loc[0]会导致另一个dask系列。使用to_frame也不起作用，因为结果是"Dask系列Dask数据帧的Dask数据帧“。下面是一个使用Dask系列Pandas数据帧的最小示例(不完全相同，但说明了问题)： import pandas as pd import dask.dataframe as dd pdf1 = pd.DataFrame({'a': [1,2,3,4], 'b': [4,3,2,1]}) pdf2 = pd.Data

浏览 3提问于2020-02-03得票数 1

1回答

用Dask DataFrame计算正向差分？

python、dataframe、time-series、dask

如何使用Dask DataFrame计算第一个离散差分？或者，在“潘达斯之声”中，我如何在达斯克做？从数学上讲，操作非常简单:从其自身的副本中减去一个列向量，移动一行或多行。我尝试过以以下方式在Dask中实现diff()，但这些方法都没有工作(目前为止)： df - df.shift(periods=1)在潘达斯工作。但是Dask DataFrame没有shift()方法。 df.values[:-1] - df.values[1:]在潘达斯工作。但我看不出如何按位置索引到Dask DataFrame中。我目前最好的实现diff的方法是用dask.dataframe.rol

浏览 5提问于2016-11-08得票数 3

回答已采纳

1回答

在字符串匹配算法中使用dask map_partitions时存在的问题

python、pandas、search、dask、fuzzywuzzy

我在使用并行dask框架的文本搜索算法时遇到了一些问题。我正在尝试在一个序列对象中找到40,000个string的最佳匹配，而不是4000个字符串列表。我本来可以用pandas.apply来完成的，但是时间太贵了，所以我决定在dask中尝试使用map_partitions并行化。我正在使用这个文本搜索库和python-Levenshtein 正如你所看到的，在这个例子中，它在一个熊猫数据集上工作得很好： process.extractOne(df['endereco2'][1],choices=choices,scorer=fuzz.token_set_ratio,

浏览 2提问于2019-06-16得票数 0

1回答

DASK:使用掩码时，防止使用NaNs覆盖

python、dataframe、dask

在Pandas中，我可以使用.loc执行满足条件的行计算，而不会影响其他行。也就是说，我可以隔离第1行，更改列值，并知道第2行保持不变。在Dask中，由于其他冲突(通常是“函数未实现”，因为我有一些复杂的公式在运行)，我无法将.loc与我需要的函数一起使用，所以我转而使用.mask()作为.loc()的替代。使用.mask()会导致未选中的行目标列被NaN覆盖(示例如下)。即，那些满足条件的行被正确计算，但那些条件不满足任何现有值的行将被替换为NaN。对该列的任何进一步操作都将使任何较早的计算行保留为NaN。 * 我可以使用/做什么来防止使用NaN覆盖未选中行中的现有值？让我

浏览 28提问于2021-03-01得票数 1

回答已采纳

2回答

如何在dask中使用'loc‘选择数据帧的列

python、pandas、dataframe、distributed、dask

谁能告诉我应该如何使用dask在数据框中选择一列“loc”？注意，当我使用标头等于"None“的dd.read_csv加载数据帧时，列名的开头是从0到131094。我将要选择列名为131094的最后一列，但得到错误消息。代码： > import dask.dataframe as dd > df = dd.read_csv('filename.csv', header=None) > y = df.loc['131094'] 错误： File "/usr/local/dask-2018-08-22/lib/python2.7

浏览 1提问于2018-08-26得票数 4

2回答

如何使用Dask正确地迭代for循环？

pandas、dask、numba

当我使用dask和pandas运行像这样的循环时(见下文)，只有列表中的最后一个字段会被求值。这大概是因为“懒惰评估”。 import pandas as pd import dask.dataframe as ddf df_dask = ddf.from_pandas(df, npartitions=16) for field in fields: df_dask["column__{field}".format(field=field)] = df_dask["column"].apply(lambda _: [__ for __ in _ if

浏览 1提问于2019-05-03得票数 0

2回答

可以将Series.str.extract与Dask一起使用吗？

pandas、dask、dask-dataframe

我目前正在使用Pandas处理一个大型数据集，我必须使用pandas.Series.str.extract提取一些数据。它看起来是这样的： df['output_col'] = df['input_col'].str.extract(r'.*"mytag": "(.*?)"', expand=False).str.upper() 然而，它工作得很好，因为它必须做大约十次(使用各种源列)，性能并不是很好。为了通过使用多个内核来提高性能，我想尝试使用Dask，但它似乎不受支持(我在dask的文档中找不到对extrac

浏览 15提问于2020-12-07得票数 0

1回答

dask的本地使用:客户端()还是不客户机()？

python、data-science、dask、dask-distributed

我正在尝试理解本地机器上Dask的使用模式。具体来说，我有一个适合记忆的数据集我想做一些熊猫手术集体..。日期解析等。熊猫通过一个核心来执行这些操作，这些操作对我来说需要几个小时。我在我的机器上有8个核心，因此，我想使用Dask尽可能地并行化这些操作。我的问题如下:在Dask中，这两种方法有什么区别？ import pandas as pd from sklearn.datasets import load_iris iris = load_iris() (1) import dask.dataframe as dd df = dd.f

浏览 0提问于2018-05-30得票数 6

回答已采纳

1回答

如何用Pandas/Dask中的可变桶列离散大数据

python、pandas、dataframe、parallel-processing、dask

我可以使用以下代码按列对Pandas数据进行离散化： import numpy as np import pandas as pd def discretize(X, n_scale=1): for c in X.columns: loc = X[c].median() # median absolute deviation of the column scale = mad(X[c]) bins = [-np.inf, loc - (scale * n_scale), loc +

浏览 3提问于2016-08-08得票数 2

回答已采纳

2回答

Dask Dataframe View整行

python-3.x、dask

我想看到dask数据帧的整行，而不是截断字段，在pandas中，命令是pd.set_option('display.max_colwidth', -1)，dask是否有等效的命令？我什么也找不到。

浏览 0提问于2019-01-02得票数 3

1回答

Dask Dataframe形状属性给出了错误的形状

python、dataframe、dask、dask-distributed、dask-dataframe

我正在试图找到一个更大的dataframe的子集数据的形状。但是我没有得到正确的形状(行的#)，而是得到了一个错误的值在这个例子中，我将前3行存储到一个新的dataframe中，当我试图找到形状时，输出是4而不是3。有没有解决这个问题的方法？ data = {'Name':['Tom', 'nick', 'nick', 'krish', 'jack', 'jack'], 'Age':[20, 21, 21, 19, 18, 18]} df = pd.DataFram

浏览 2提问于2022-03-23得票数 2

1回答

如何在Python Dask数据帧中执行位置索引

python、pandas、dataframe、dask

我一直在使用Dask Concurrent.futures ，但我在使用(过时的) 时遇到了一些问题。具体地说，使用位置索引将dask数据帧分成测试/训练拆分： train = dfs[:-1] test = dfs[-1] 我也尝试过，但都无济于事： train = dfs.loc[:-1] test = dfs.loc[-1] 这给了我一个错误： KeyError Traceback (most recent call last) /opt/anaconda/lib/python3.5/site-packages/panda

浏览 13提问于2018-02-14得票数 4

2回答

仅将布尔掩码应用于数据框列的索引部分

python、pandas、indexing、mask

我有一个包含一些列的数据帧： >>> np.random.seed(0xFEE7) >>> df = pd.DataFrame({'A': np.random.randint(10, size=10), 'B': np.random.randint(10, size=10), 'C': np.random.choice(['A', 'B'], size=10)}) >>&g

浏览 4提问于2021-04-22得票数 3

回答已采纳

1回答

Dask更新列类似于sql案例

python、dataframe、dask

我有一个dask dataframe，它有一个类型为int64的列"is_internal“。我想将其更新为类似于SQL case语句： CASE WHEN ltrim(rtrim(is_internal)) = '1' then 'Internal' else 'External' END as type 将数据导入为： import pandas as pd import dask.dataframe as dd import time t=time.process_time() df_train = dd.read_csv(r

浏览 14提问于2020-09-22得票数 0

回答已采纳

1回答

当我尝试使用client.persist时，Dask client.persist返回AssertionError

python-3.x、dask、dask-distributed

我正在尝试用dask HashingVectorizer来向量化dask.dataframe。我希望向量化结果留在集群(分布式系统)中。这就是为什么我在尝试转换数据时使用client.persist的原因。但出于某种原因，我得到了下面的错误。 Traceback (most recent call last): File "/home/dodzilla/my_project/components_with_adapter/vectorizers/base_vectorizer.py", line 112, in hybrid_feature_vectorizer C

浏览 2提问于2019-12-23得票数 0

回答已采纳

3回答

在使用Python dask读取CSV时，可以设置索引列吗？

python、csv、dataframe、dask

当使用Python Pandas读取CSV时，可以指定索引列。是否可以在读取文件时使用Python Dask，而不是在之后设置索引？例如，使用pandas： df = pandas.read_csv(filename, index_col=0) 理想情况下，使用dask可能是： df = dask.dataframe.read_csv(filename, index_col=0) 我试过了 df = dask.dataframe.read_csv(filename).set_index(?) 但是索引列没有名称(这似乎很慢)。

浏览 1提问于2017-09-12得票数 10

1回答

将dask日期月份与整数进行比较时出错

python、pandas、dask

下面代码中的dask map_partitions函数有一个dask字段，它的月份与整数相比较。如果出现以下错误，此比较将失败： ValueError:系列的真值不明确。使用a.empty、a.bool()、a.item()、a.any()或a.all()。这个错误是什么?如何修复？ import pandas as pd import dask import dask.dataframe as dd import datetime pdf = pd.DataFrame({ 'id2': [1, 1, 1, 2, 2], 'balance'

浏览 2提问于2021-12-28得票数 1

回答已采纳

1回答

在jupyter笔记本中从熊猫数据中选择单行时发生的Python键错误

python-3.x、pandas、dataframe、jupyter-notebook

我成功地用StackOverflow解决了许多问题，但这是我第一次在其他地方找不到问题，自己也解决不了. 我在jupyter笔记本上工作，里面有熊猫的数据，包括文字评论和亚马逊产品的评分。下面是我的代码： import pandas as pd data = pd.read_csv("AmazonSampleForStudentOffice.csv") reviews = data[['reviewText', 'score', 'len_text']] reviews.head(5) 其结果是： reviewText scor

浏览 0提问于2020-03-31得票数 1

回答已采纳

1回答

多处理组应用python

python、python-2.7、pandas、python-multiprocessing

我有两个组，一个是要作为组处理的行，另一个是要查看的组。 test = pd.DataFrame({'Address1':['123 Cheese Way','234 Cookie Place','345 Pizza Drive','456 Pretzel Junction'],'city':['X','U','X','U']}) test2 = pd.DataFrame({'Address1':['123 c

浏览 16提问于2017-06-22得票数 1

回答已采纳

1回答

任务期间的任务进度

python、pandas、dask、tqdm、dask-dataframe

使用dask dataframe df = dask.dataframe.from_pandas(df, npartitions=5) series = df.apply(func) future = client.compute(series) progress(future) 在jupyter笔记本中，我可以看到进度条显示每个分区完成了多少次apply()调用(例如2/5)。有没有办法让dask报告每个分区的进度？就像熊猫的tqdm progress_apply()。

浏览 2提问于2020-03-01得票数 0

1回答

使用dask将过滤函数应用于数据块

python、dask

我使用pandas写了一个函数来对数据进行下采样，但是我的一些数据集不适合内存，所以我想用dask尝试一下，这是我现在拥有的工作代码： def sample_df(df,target_column = "target",positive_percentage = 35,index_col="index"): """ Takes as input a data frame with imbalanced records, e.g. x% of positive cases, and returns a datafr

浏览 12提问于2020-01-03得票数 1

1回答

打印dask系列/数据帧的简单方法？

python、dask

在pandas中，有许多方法可以用来查看内部数据，比如head、tail、loc、iloc，但每当我在dask上调用其中一个方法时，得到的结果是： Dask DataFrame Structure: Close npartitions=1 bool ... Dask Name: try_loc, 9 tasks 不管我之前是否调用了.compute()。如何查看dask数据帧/系列中的数据？我使用的是Visual Studio Code 1.38.1，python 3.7，dask 2.13.0

浏览 10提问于2020-04-05得票数 2

回答已采纳

1回答

如何在Dask DataFrame的特定索引中插入新列？

python-3.x、dask

使用pandas，我可以在特定位置插入一个新列，如下所示： df_all.insert(loc=10, column="label", value=label_column, allow_duplicates=True) 如何使用dask将新列添加到特定位置？(至dask数据帧)

浏览 13提问于2019-12-24得票数 1

1回答

如何在dask数据帧中使用等级值进行索引？

pandas、dataframe、dask、dask-dataframe

通过对数据集的初始值执行过滤步骤，我得到了一个大得多的数据集的索引的子集，其形式如下 indices = pandas_DataFrame_of_initial_values[my_subset].index.get_level_values(0) 这些索引的形式如下 Int64Index([...], dtype='int64', name='id', length=N) 因此，我喜欢使用索引来使用Dask减少大型数据集，给定的数据集如下 from dask import dataframe as dd ddf = dd.read_csv(path_to_d

浏览 15提问于2020-12-23得票数 0

回答已采纳

1回答

处理大熊猫数据帧

python、pandas、dataframe、dask、dask-dataframe

我有一个巨大的数据库(500 it左右)，它可以放进熊猫里。数据库包含大约39705210个观测结果。正如您可以想象的那样，python甚至在打开它时都很困难。现在，我尝试使用Dask将其导出到cdv到20个分区，如下所示： import dask.dataframe as dd dask_merge_bodytextknown5 = dd.from_pandas(merge_bodytextknown5, npartitions=20) # Dask DataFrame has 20 partitions dask_merge_bodytextknown5.to_csv('df_

浏览 2提问于2022-06-29得票数 2

回答已采纳

1回答

计算整个任务数据帧的方差

python、data-science、dask

我有一个这样的dask数据帧： pprint(daskdf.iloc[:,95:100].head()) 1980-04-02 1980-04-03 1980-04-04 1980-04-05 1980-04-06 0 3.459240 0.0 2.296430 5.771730 13.344725 1 5.036489 0.0 1.021041 3.930686 8.015582 2 0.000000 0.0 0.667812 4.580948 9.824745

浏览 11提问于2020-05-05得票数 2

1回答

为什么dask系列没有实现getitem？

python、python-3.x、dask

我在使用dask系列对象做任何有用的事情时遇到了麻烦。在我设法创建了一个之后，我不能在比序列对象本身更低的级别上使用它。换句话说，我可以计算它并将其加载到内存中，然后获得我想要的数据(dseries.compute()['x'])，但理想情况下我希望是这样的：dseries['x'].compute()，因为对于我的实际应用程序来说，dseries.compute()对于内存来说可能太大了。 import numpy as np import pandas as pd import dask.dataframe as ddf import random fo

浏览 9提问于2019-04-10得票数 0

回答已采纳

1回答

Dask -如何将系列产品串联成一个DataFrame？

python、pandas、dataframe、dask、dask-distributed

如何从应用于Dask系列的函数中返回多个值？我试图从dask.Series.apply的每一次迭代中返回一个系列，最后的结果是一个dask.DataFrame。下面的代码告诉我元数据是错误的。然而，全熊猫版本起作用了。这里怎么了？更新：--我认为我没有正确地指定元/模式。我该如何正确地做这件事？现在，当我放弃元参数时，它就起作用了。然而，它提出了一个警告。我想用达斯克“正确”。 import dask.dataframe as dd import pandas as pd import numpy as np from sklearn import datasets iris = dat

浏览 0提问于2019-03-05得票数 1

回答已采纳

1回答

从dask.dataframe.apply()返回数据格式，而不是使用嵌套数据返回序列

python、pandas、apply、dask、dask-dataframe

我正在向dask.dataframe应用一个函数。该函数返回一个pd.Dataframe。现在，我希望dask.dataframe.apply()的结果是函数返回的级联数据格式。然而，apply返回一个包含嵌套在该系列中的数据的pd.Series。将这个系列解压缩成一个dataframe是很简单的，但是我认为应该有一个更好的解决方案。玩具样品： import numpy as np import pandas as pd import dask.dataframe as dd vals = np.random.randint(0, 20, size=4) def func(param

浏览 4提问于2022-05-24得票数 0

3回答

将一个大型Dask dataframe与一个小型Pandas dataframe合并

python、pandas、dask

下面的示例是：，我试图将一个~70 as的Dask数据帧与我作为Pandas数据frame加载的~24 as数据帧合并。合并位于两个列A和B上，我没有设置任何索引： import dask.dataframe as dd from dask.diagnostics import ProgressBar small_df = pd.read_csv(dataframe1) # as pandas large_df = dd.read_csv(dataframe2) #as dask.dataframe df2 = large_df.merge(small_df, how='left

浏览 16提问于2016-09-13得票数 26

1回答

大熊猫KeyError的大指标值

python、pandas

我用UInt64Index设置了一个数据文件，如下所示 df = pandas.DataFrame([[1,2,3],[4,5,9223943912072220999],[7,8,9]], columns=['a','b','c']) df = df.set_index('c') >>> df a b c 3 1 2 9223943912072220999 4 5 9

浏览 2提问于2018-01-25得票数 3

回答已采纳

3回答

随机访问一行Dask dataframe需要很长时间。

python、dask、dask-dataframe

我有一个一亿行数据的Dask数据。我试图在不将整个数据文件加载到RAM的情况下迭代这个数据文件。在实验中，尝试访问等于1的索引行。 %time dask_df.loc[1].compute() 花费的时间高达8.88秒(华尔街时间)。为什么要花这么长时间？我能怎么做才能让它更快？提前谢谢。每一个请求，这是代码。它只是读取1亿行数据并尝试访问一行。 `dask_df = dd.read_parquet("/content/drive/MyDrive/AffinityScore_STAGING/staging_affinity_block1.gzip", chunksi

浏览 7提问于2022-07-01得票数 0

回答已采纳

1回答

在Pandas中，有没有一种方法可以使用以前的行值来计算一行的新值

python、excel、pandas、dataframe

我有一个这样的数据帧这是AAPL的每日收益率。假设我最初有1美元要投资。在每一天结束时，我还会额外投资3美元。我知道这有点复杂，所以这里有一些例子在1/13/20，我会得到$1 *(1+ 0.0213) +3=$4.02. 在1/14/20，我会得到$4.02 * (1 - 0.013) +3= $6.96 在1/15/20，我会得到$6.96 *(1- 0.004) +3= $9.93 这是它在Excel中的样子。我不确定如何在python pandas中实现此方案。有人能帮帮我吗？

浏览 12提问于2021-06-02得票数 1

回答已采纳

2回答

关闭dask客户端警告

python、jupyter-notebook、dask

达克客户端垃圾邮件警告在我的木星笔记本输出。有办法关掉达斯克警告吗？警告文本如下："distributed.worker -警告-内存使用率很高，但工作人员没有数据要存储到磁盘。也许还有其他进程在泄漏内存?进程内存:3.16GB --工作内存限制:4.20GB“。问题出现在以下代码之后： import pandas as pd from sqlalchemy import create_engine, MetaData from sqlalchemy import select, insert, func import dask.dataframe as dd from dask

浏览 0提问于2019-08-09得票数 6

回答已采纳

1回答

在具有不同模块版本的项目之间共享一个Dask集群？

dask、dask-delayed

在我的情况下，多个不同的应用程序很少被用于实时统计计算。在这种情况下，当有人浏览其中一个应用程序时，我需要有良好的性能，而目前我有一个漂亮而昂贵的云实例来为它们服务。我本想使用一个Dask集群来卸载计算量，但是不同的Flask应用程序有不同版本的相同库，我无法修复这个问题。例如，每个应用程序都有成对的环境(生产和测试)，这些应用程序总是有不同的模块(根据定义)。至于我在文档中读到的内容，让Dask工作人员根据连接的客户端加载相同模块的不同版本而不完全重新加载模块并不是件容易的事。是否有可能有一个共享的Dask集群来卸载使用相同模块的不同版本的应用程序的计算？ -编辑-- 我在这里看到了

浏览 2提问于2020-11-15得票数 0

2回答

从`dask.DataFrame`中分割出几行

dask

通常，在使用大型dask.DataFrame时，只获取几行来测试所有后续操作是有用的。目前，根据的说法，这是不支持的。当时我希望使用head来实现同样的目标(因为这个命令是受支持的)，但它返回了一个普通的熊猫DataFrame。我也尝试过df[:1000]，它会执行，但是生成一个不同于您期望的Pandas输出。有没有办法从dask.DataFrame抓取前1000行？

浏览 0提问于2018-03-06得票数 4

回答已采纳

1回答

dask数据帧中的列过滤和乘法

python、python-3.x、pandas、dataframe、dask

我尝试在dask dataframe上复制以下操作，其中我必须根据列值过滤dataframe，并在该数据框上乘以另一列。以下是pandas的等价物- import dask.dataframe as dd df['adjusted_revenue'] = 0 df.loc[(df.tracked ==1), 'adjusted_revenue'] = 0.7*df['gross_revenue'] df.loc[(df.tracked ==0), 'adjusted_revenue'] = 0.3*df['gros

浏览 10提问于2020-09-26得票数 1

1回答

在Dask中重复使用中间结果(混合延迟和dask.dataframe)

python、dask

基于在上收到的答复，我编写了一个ETL过程，如下所示： import pandas as pd from dask import delayed from dask import dataframe as dd def preprocess_files(filename): """Reads file, collects metadata and identifies lines not containing data. """ ... return filename, metadata, skiprows d

浏览 3提问于2016-09-09得票数 3

回答已采纳

1回答

为什么运行一旦df.read_csv方法导致两个.csv读取？

python、pandas、csv、dask

这是我的密码： import dask.dataframe as df data_frame = df.read_csv(normal_numerical_path, blocksize=None) data_frame = data_frame.dropna(how='all') bad_samples = data_frame[data_frame['Response'] == 1].shape[0].compute() good_samples = data_frame[data_frame['Response'] == 0].shap

浏览 2提问于2021-03-31得票数 1

回答已采纳

1回答