所以我对dask DataFrame.append有个问题。我从主数据中生成了许多派生特征,并将它们附加到主数据框架中。在此之后,任何一组列的dask图都会被放大。下面是一个小示例:
%pylab inline
import numpy as np
import pandas as pd
import dask.dataframe as dd
from dask.dot import dot_graph
df=pd.DataFrame({'x%s'%i:np.random.rand(20) for i in range(5)})
ddf = dd.from_pandas(df
我试图使用dask.bag来保存给定类的对象,其中每个实例都捕获文档的各种属性(标题、字数等)。
该对象有一些关联的方法,它们设置对象的不同属性。
例如:
import dask.bag as db
class Item:
def __init__(self, value):
self.value = 'My value is: "{}"'.format(value)
def modify(self):
self.value = 'My value used to be: "
我试图通过一个长度约为300k (块大小约为900)的数据数组来计算日出后的小时数。生成的数组是一个使用xr.apply_ufunc和astroplan函数没有问题的dask.array。但是,当我使用这个dask.array通过xr.where()过滤数据时,它似乎非常慢。我可以在哪里改进它?
这是我的工作流程:
from astropy.time import Time
from astroplan import Observer
import astropy.units as u
import xarray as xr
import numpy as np
def cal_sunris
我想在dask dataframe上并行迭代这些代码: from dask import dataframe
dataset_df = dataframe.read_csv('input.csv')
for x, row in dataset_df.iterrows():
similarity = []
for y, item in dataset_df.iterrows():
similarity.append(similarity_text(row['text'], item[
我是新来的达斯克,列被删除的方式让我感到困惑。我已经把一个csv文件读到了Dask数据文件中。那么假设我有这个:
print(len(columns_to_drop)) # There are 66
print(len(list(df.columns))) # The Dask columns before the drop
df.drop(columns_to_drop, axis=1).compute(). # Drop the columns
pd_df = df.compute() # Create a Pandas dataframe
print(pd_df.shape[1
我做了一个计时实验,我不相信我使用dask.delayed是正确的。以下是代码:
import pandas as pd
import dask
import time
def my_operation(row_str: str):
text_to_add = 'Five Michigan State University students—Ash Williams, his girlfriend, Linda; his sister, Cheryl; their friend Scott; and Scotts girlfriend Shelly—vacation at a
目前,我正在处理一个大型数据帧(12x47800)。十二列中的一列是由整数秒组成的列。我想将此列更改为包含datetime.time格式的列。Schedule是我尝试更改名为'depTime‘的列的数据帧。因为我希望它是一个datetime.time,并且它可以跨越午夜,所以我添加了if-语句。这是“有效的”,但速度之慢可想而知。有没有更快的方法来做这件事?我目前唯一能运行的代码是: for i in range(len(schedule)):
t_sec = schedule.iloc[i].depTime
[t_min, t_sec] = divmod(t_sec
我有一个从csv文件读取的Dataframe文件,有大约100万条记录和120个特性/列,我想在每一列中计算唯一值的数量。我可以使用for -循环分别为每一列执行此操作:
from dask import dataframe as dd
dask_df = dd.read_csv("train.csv")
for column in dask_df.columns:
print(dask_df[col].nunique().compute())
但是每次迭代时的计算都是非常昂贵的(每个工作人员拥有2GB的内存和2个vcore,每个工作人员有3个节点集群,每个工作人员需
我可以使用以下代码按列对Pandas数据进行离散化:
import numpy as np
import pandas as pd
def discretize(X, n_scale=1):
for c in X.columns:
loc = X[c].median()
# median absolute deviation of the column
scale = mad(X[c])
bins = [-np.inf, loc - (scale * n_scale),
loc +
在矩阵的每一列上应用函数的最快方法是什么?
我使用的函数是pwelch,但是任何函数的概念都应该是相同的。目前,我正在循环通过我的矩阵作为这样。
X = ones(5);
for i = 1:5 % length of the number of columns
result = somefunction(X(:,i))
end
有什么方法可以矢量化这段代码吗?
下面是熊猫的操作。我怎么才能在达斯克做到这一点?
In [10]: pdf
Out[10]:
name text
0 a asdf
1 b fdsa
2 a qwer
3 c zxcv
4 c jkl;
In [11]: pdf.groupby('name').aggregate(" ".join)
Out[11]:
text
name
a asdf qwer
b fdsa
c zxcv jkl;
我希望通过连接相应组中的字符串来聚合text列。目前,Dask
我有一个非常大的csv文件,我不能使用熊猫read_csv加载到我的计算机内存。
我看着dask.dataframe as dd
我需要使用dask只读取csv文件中某些列的某些行,并将其存储为熊猫数据。
例如:
User ProductA ProductB
A 1 2
B 2 3
C 3 1
如何使用dask只读取用户C和列ProductA的行?
所需产出作为数据框架:
User ProductA
C 3
我有一个大的BCP文件(12 to ),我已经导入到dask中,并进行了一些数据处理,我希望导入到SQL server中。该文件已从40+列减少到8列,我希望找到最好的方法来导入到SQL server。我已经尝试使用以下几种方法: import sqlalchemy as sa
import dask.dataframe as dd
from dask.diagnostics import ProgressBar
from urllib.parse import quote_plus
pbar = ProgressBar()
pbar.register()
#windows authent
我试图分配一个达克数组到一个达克数据,但遇到了这个奇怪的问题。
示例:
import dask
import dask.dataframe as dd
import dask.array as da
# create a random dataframe like official documentation does
ts_df = dask.datasets.timeseries(
'2000', '2003', freq='2H', partition_freq='2Y'
)
print(ts_df.head()
我是dask的新手,正在尝试弄清楚如何重塑从dask数据帧的单个列中获得的dask数组,但遇到了错误。想知道有没有人知道这个修复方法(不需要强行计算)?谢谢!
示例:
import pandas as pd
import numpy as np
from dask import dataframe as dd, array as da
df = pd.DataFrame({'x': [1, 2, 3], 'y': [4, 5, 6]})
ddf = dd.from_pandas(df, npartitions=2)
# This does not work -
我正在尝试用dask HashingVectorizer来向量化dask.dataframe。我希望向量化结果留在集群(分布式系统)中。这就是为什么我在尝试转换数据时使用client.persist的原因。但出于某种原因,我得到了下面的错误。
Traceback (most recent call last):
File "/home/dodzilla/my_project/components_with_adapter/vectorizers/base_vectorizer.py", line 112, in hybrid_feature_vectorizer
C