迭代Dask数据帧_Dict to dask数据帧_Dask数据帧崩溃 - 腾讯云开发者社区

python、pandas、dask

是否可以遍历dask GroupBy对象来访问底层数据帧？我试过了： import dask.dataframe as dd import pandas as pd pdf = pd.DataFrame({'A':[1,2,3,4,5], 'B':['1','1','a','a','a']}) ddf = dd.from_pandas(pdf, npartitions = 3) groups = ddf.groupby('B') for name, df in gro

浏览 21提问于2016-09-28得票数 10

回答已采纳

1回答

将大于内存的SQL查询读入dask数据帧

python、pandas、dask

我需要将SQL表中的条目读取到dask数据帧中，以处理我需要读取的条目数量可能会超过内存中可以容纳的条目数量如何使用dask完成此操作？我正在做这件事 def get_frame_from_query(query, column_names): frames = [] batch = [] # TODO ask stackoverflow about this. for row in database_conn.FetchManyIter(query,batch_size=30000): #read from the database 30k rows at

浏览 13提问于2020-03-04得票数 1

回答已采纳

1回答

dask dataframe:来自分区的生成器

python、pandas、generator、dask、dask-dataframe

我想知道是否有可能将dask对象转换为生成器。具体地说，是否可以使用dask数据帧复制以下pandas-based生成器，将每个分区转换为生成器： import pandas as pd import dask.dataframe as dd df = pd.DataFrame(range(10), columns=['a']) ddf = dd.from_pandas(df, npartitions=3) def gen_pandas(df): # this is a sample function, its content is not # important as l

浏览 7提问于2021-07-09得票数 1

1回答

如何将MultiIndex熊猫数据帧转换为Dask数据帧

python、pandas、dataframe、dask、multi-index

我试图将两个变量(一个ID和一个DateTime变量)为MultiIndexed的熊猫数据帧转换为dask数据帧，但是我得到了以下错误； "NotImplementedError: Dask does not support MultiIndex Dataframes" 我正在使用下面的代码 import pandas as pd import dask.dataframe as dd dask_df = dd.from_pandas(pandas_df) 实际上，我有700多个熊猫数据帧(每个超过100MB)，我计划将每个熊猫数据帧转换为dask，然后将它们全部附加到一

浏览 18提问于2019-07-02得票数 2

回答已采纳

1回答

在Dask中使用尚未实现的Pandas函数

python、pandas、dask、dask-distributed、dask-delayed

我相信在使用Dask数据帧时，我在Dask教程中看到了一个关于如何使用Dask框架中尚未实现的Pandas函数的建议，但我似乎看错了地方。例如，我想使用Pandas函数'ewm‘。作为一种变通方法，我将Dask数据帧转换为Pandas数据帧，在Pandas数据帧上运行ewm，然后将它们转换回Dask，以便以后进行更多内存密集型操作。效率不是最高的。有没有更好的策略呢？

浏览 10提问于2019-06-02得票数 1

回答已采纳

2回答

索引到Dask系列可以返回Dask系列

python、pandas、dask

我有Dask系列的Dask数据帧。我想在本系列中建立索引，以获取dask数据帧以供后续工作使用。但是，使用loc[0]会导致另一个dask系列。使用to_frame也不起作用，因为结果是"Dask系列Dask数据帧的Dask数据帧“。下面是一个使用Dask系列Pandas数据帧的最小示例(不完全相同，但说明了问题)： import pandas as pd import dask.dataframe as dd pdf1 = pd.DataFrame({'a': [1,2,3,4], 'b': [4,3,2,1]}) pdf2 = pd.Data

浏览 3提问于2020-02-03得票数 1

1回答

无法从pandas转到dask dataframe，内存错误

python、pandas、dask、dask-distributed

我有一个有700万条记录的pandas数据帧，我正在尝试创建一个dask数据帧，但我总是遇到内存问题。使用的代码： dd_test = dd.from_pandas(df_lookup_table, npartitions=3) 错误消息： Traceback (most recent call last): File "<input>", line 1, in <module> File "C:\Users\user\venv\lib\site-packages\dask\dataframe\io\io.py", line

浏览 9提问于2019-01-29得票数 1

回答已采纳

0回答

Dask图的执行和内存使用

python、dask、dask-delayed

我正在dask中构建一个非常大的DAG，以提交给分布式调度器，在分布式调度器中，节点操作数据帧，而数据帧本身可能非常大。一种模式是，我有大约50-60个函数，用于加载数据和构造pandas数据帧，每个数据帧大小为几百MB (并且逻辑上表示单个表的分区)。我想将这些连接到图中下游节点的单个dask数据帧中，同时最小化数据移动。我像这样链接任务： dfs = [dask.delayed(load_pandas)(i) for i in disjoint_set_of_dfs] dfs = [dask.delayed(pandas_to_dask)(df) for df in dfs] return

浏览 6提问于2017-06-07得票数 4

1回答

块大小未知的示例dask数据帧

python、dask、dask-dataframe

我正在尝试读取一个大型.parquet作为dask数据帧，并对其进行采样： ddf = dd.read_parquet("big_data.parquet") sample_ddf = ddf.sample(frac=0.03) 这会产生以下错误： ValueError: Arrays chunk sizes are unknown: (nan,) A possible solution: https://docs.dask.org/en/latest/array-chunks.html#unknown-chunks Summary: to compute chunks si

浏览 29提问于2021-05-21得票数 0

2回答

如何让Dask知道索引已排序？

dask

根据 answer的说法，如果Dask知道数据帧的索引已排序，则Dask数据帧可以执行智能索引。如何让Dask知道索引是否已排序？在我的特定情况下，我这样做： for source is sources: # This df has a datetimeindex that I know to be sorted pd = load_pandas_df_from_some_source(source) dd = dask.dataframe.from_pandas(pd, chunksize=foo) dd.to_hdf(some_unique_filename, '

浏览 11提问于2017-06-23得票数 3

1回答

如何在Dask中获取从拼图文件读取数据帧的单行值？

python、dask

问题: DASK数据帧 loc[concrete_row, concrete_column] 返回多行的pandas数据帧，每行都有相同的索引： 0 [1,2,3] 0 [1,2] 0 [3] 而不是一个行值。 0 [1,2,3] 我正在阅读许多拼图文件： dd.read_parquet(dataset_dir+'/train/date*/*.parquet') 拼图文件中的每一行都有一个数组！似乎在调用具体行时，dask data

浏览 48提问于2019-06-05得票数 0

2回答

Dask DataFrame的逐行处理

python、pandas、dask

我需要处理一个大文件并更改一些值。我想做这样的事情： for index, row in dataFrame.iterrows(): foo = doSomeStuffWith(row) lol = doOtherStuffWith(row) dataFrame['colx'][index] = foo dataFrame['coly'][index] = lol 对我不好，我不能做数据帧‘’colx‘= foo！我的行数相当大，我需要处理大量的列。因此，如果我执行一个dataFrame.a

浏览 5提问于2017-03-17得票数 5

3回答

如何将DASK数据帧放入MySQL数据表？

python、dask、dask-dataframe

我从CSV文件中获取了数据，并将其保存在我的Dask数据帧中并对其进行操作。然后，我需要将数据写入数据表。我还没有真正遇到过任何解决方案。Pandas的to_sql函数具有内置的功能，所以我不确定是否需要首先转换为Pandas？我目前认为，将Dask数据帧转换为Pandas会导致它被完全加载到内存中，这可能会违背最初使用Dask的目的。将Dask数据帧写入datatable最好、最快的方法是什么？

浏览 4提问于2020-03-27得票数 1

1回答

KeyError:当尝试选择dask数据框上的列时：“没有[索引([‘’，'']，dtype='object')]在[列]中”

pandas、dask

我正在使用from_pandas()函数从熊猫数据帧创建一个dask数据帧。当我尝试使用方括号[ ]从dask dataframe中选择两列时，我得到了一个KeyError。根据dask文档，dask dataframe支持像pandas dataframe一样的方括号列选择。 # data is a pandas dataframe dask_df = ddf.from_pandas(data, 30) data = data[dask_df[['length', 'country']].apply( lambda x: myfun

浏览 67提问于2019-10-04得票数 1

2回答

Dask Dataframe groupby在pandas序列中的结果，我如何返回dask dataframe？

pandas、dataframe、pandas-groupby、dask

我正尝试在Dask中执行groupby函数来创建一个新的Dask数据帧。然而，当我做groupby时，结果是一个熊猫系列。当我在Pandas中执行相同的操作时，我确实返回了一个新的数据帧。如何返回新的dask数据帧？代码如下： g1 = df1.groupby(['SFDC_Refresh_Date', 'Forecast_Category']).Total.sum().compute() g1.dtypes 返回： dtype('float64') 和 type(g1) 返回 pandas.core.series.Series 当

浏览 4提问于2019-10-09得票数 0

1回答

使用to_csv和dask忽略不匹配的列类型

python、pandas、csv、dataframe、dask

我正在尝试使用dask和Dask手册中列出的dask.dataframe.to_csv(datframe_name, file etc..)命令导出数据帧：我使用dask是因为原始的csv文件非常大(20 to )，并且使用pandas读取文件非常慢。但是，每次我尝试导出数据帧时，都会得到以下错误： ValueError: Mismatched dtypes found in `pd.read_csv`/`pd.read_table`. +----------+--------+----------+ | Column | Found | Expected | +---------

浏览 2提问于2019-10-16得票数 0

1回答

存储在dataframe中的计算dask延迟对象

python-3.x、pandas、dask、dask-delayed

我正在寻找最好的方法来计算存储在数据帧中的许多dask delayed指令。我不确定是否应该将pandas数据帧转换为包含delayed对象的dask数据帧，或者是否应该对pandas数据帧的所有值调用compute调用。我非常感谢大家的建议，因为我在通过嵌套的for循环传递delayed对象的逻辑上遇到了问题。 import numpy as np import pandas as pd from scipy.stats import hypergeom from dask import delayed, compute steps = 5 sample = [int(x) for x

浏览 10提问于2019-08-10得票数 0

1回答

如何将dask数据帧转换为期货列表？

dask

我有一个如下所示的dask数据帧： import dask.dataframe as dd df = dd.read_csv('s3://...') 如何从该数据帧中获取期货列表？

浏览 11提问于2018-02-15得票数 0

1回答

使用Dask数据帧的自动学习预测/对dask数据帧的自动学习支持

dataframe、dask、automl、dask-dataframe

我已经使用pandas数据帧训练了我的自动学习分类模型，并试图使用dask数据帧从训练的模型中获得预测。我已经用熊猫数据帧进行了测试，并获得了正确的预测。现在，我必须对大数据集的dask dataframe执行预测任务。当我读完dask和Autosklearn的所有文档时，到目前为止还没有对此的支持。如果有人能帮上忙，那就太好了。提前谢谢。

浏览 0提问于2020-03-05得票数 0

1回答

从表示多级字典的字符串创建Dask Dataframes

python、pandas、dictionary、dask

我有一个庞大的数据集，我正在尝试从字符串列表中创建dask数据帧 df_.head() A | B | C ---------------------------------------- 1 | "{a:1, {b:2, c:3}, d:5}" | 4 2 | "{a:5, {b:2, c:3}, d:0}" | 7 ... 请注意，列c是一个字符串，因此我必须执行一个literal_eval。在pandas中，我做了以下工作： import ast for i in

浏览 1提问于2019-03-08得票数 0

1回答

dask dataframe应用程序不能并行执行

python、multiprocessing、dask

我有以下python脚本，其中我使用现有的pandas数据帧创建了一个dask数据帧。我使用的是多进程调度器，因为我的函数使用纯python。调度器创建8个进程(每个分区一个)，但它们是按顺序运行的，一次一个。 dask_data = ddf.from_pandas(data, npartitions=8) dask_data = dask_data.assign( images_array_1=dask_data.images_array_1.apply(lambda x: [] if x == "" else [int(el) for el in x.split(

浏览 4提问于2016-06-29得票数 1

2回答

向dask.dataframe添加dask.array列

python、dataframe、dask

我有一个dask数据帧和一个dask数组，它们以相同的逻辑顺序具有相同的行数。数据帧行通过字符串进行索引。我正在尝试将一个数组列添加到数据帧中。我尝试了几种方法，但都以其特定的方式失败了。 df['col'] = da.col # TypeError: Column assignment doesn't support type Array df['col'] = da.to_frame(columns='col') # TypeError: '<' not supported between instances

浏览 15提问于2018-01-09得票数 8

1回答

在Numpy数组上执行Pandas函数

python、pandas、numpy、dataframe、dask

我有一个大约8700万行的Pandas数据帧。为了对其进行一些处理，我将其设置为Dask数据帧。问题是我需要做Dask不支持的unstack和plot。我已经将Dask数据帧写入h5文件，但在尝试将其作为Pandas数据帧读取时遇到内存问题。我在将Dask DF转换为Pandas时也遇到了内存错误。从本质上讲，我尝试做的是df2 = df.groupby(['A','B'])['B'].count().unstack('A')，然后是df2.plot(kind = 'bar', stacked = True)。

浏览 2提问于2020-04-22得票数 2

1回答

计算整个任务数据帧的方差

python、data-science、dask

我有一个这样的dask数据帧： pprint(daskdf.iloc[:,95:100].head()) 1980-04-02 1980-04-03 1980-04-04 1980-04-05 1980-04-06 0 3.459240 0.0 2.296430 5.771730 13.344725 1 5.036489 0.0 1.021041 3.930686 8.015582 2 0.000000 0.0 0.667812 4.580948 9.824745

浏览 11提问于2020-05-05得票数 2

1回答

Pandas-Dask DataFrame Apply函数，返回列表

python、pandas、dataframe、dask

我正在尝试向dask数据帧添加多个列，以存储apply函数的结果。这将是我关于堆栈溢出的第一个问题，我希望这个问题不会太长！目前，我有一段有效的代码： from dask import dataframe as dd from multiprocessing import cpu_count nCores = cpu_count() import dask.multiprocessing dask.config.set(scheduler='processes') def dfFunc(varA, varB): # Some calculations...

浏览 5提问于2018-10-11得票数 1

1回答

如何在dask中找到数据帧的长度？

python、pandas、dask

如何使用dask找到数据帧的长度？例如，在熊猫中，我可以这样做： import pandas as pd import numpy as np df = pd.DataFrame(np.random.normal(0, 1, (5, 2)), columns=["A", "B"]) print df['A'].count() print df 输出： 5 A B 0 1.538531 0.424717 1 -0.929843 1.323648 2 -1.283680 0.056199 3 -0.641

浏览 0提问于2018-05-28得票数 6

1回答

打印dask系列/数据帧的简单方法？

python、dask

在pandas中，有许多方法可以用来查看内部数据，比如head、tail、loc、iloc，但每当我在dask上调用其中一个方法时，得到的结果是： Dask DataFrame Structure: Close npartitions=1 bool ... Dask Name: try_loc, 9 tasks 不管我之前是否调用了.compute()。如何查看dask数据帧/系列中的数据？我使用的是Visual Studio Code 1.38.1，python 3.7，dask 2.13.0

浏览 10提问于2020-04-05得票数 2

回答已采纳

3回答

将一个大型Dask dataframe与一个小型Pandas dataframe合并

python、pandas、dask

下面的示例是：，我试图将一个~70 as的Dask数据帧与我作为Pandas数据frame加载的~24 as数据帧合并。合并位于两个列A和B上，我没有设置任何索引： import dask.dataframe as dd from dask.diagnostics import ProgressBar small_df = pd.read_csv(dataframe1) # as pandas large_df = dd.read_csv(dataframe2) #as dask.dataframe df2 = large_df.merge(small_df, how='left

浏览 16提问于2016-09-13得票数 26

1回答

Dask Dataframe大于延迟数字

dask

有没有一种方法可以做到这一点，但将阈值作为延迟数字？ import dask import pandas as pd import dask.dataframe as dd threshold = 3 df = pd.DataFrame({'something': [1,2,3,4]}) ddf = dd.from_pandas(df, npartitions=2) ddf[ddf['something'] >= threshold] 如果threshold是： threshold = dask.delayed(3) 它给我的自动取款机： TypeE

浏览 17提问于2020-02-13得票数 1

回答已采纳

1回答

将一列随机数添加到dask数据帧的正确方法

python、random、dask、random-seed、dask-dataframe

将一列随机数添加到dask数据帧的正确方法是什么？显然，我可以使用map_partitions将列添加到每个分区，但我不确定当dask并行化该计算时，如何处理随机状态。(即，它是否会在所有工作进程中使用相同的随机状态，从而在每个工作进程中生成相同的随机数？) 在dask.array.random ()中似乎有相关的函数，但我找不到一个示例来说明如何将这些函数与dask数据帧一起使用。

浏览 2提问于2021-02-09得票数 1

1回答

Dask Dataframe -小型数据帧的多个任务/分区

python、pandas、dataframe、dask

我一直在使用Dask处理大型数据帧，并执行连接/过滤器等操作。最终结果是一个我知道有8行的数据帧。但是，如果我的dask数据帧是f，那么我选中f，就会得到npartitions=81和Dask Name: assign, 10633 tasks。为什么会这样呢？我花了将近5个小时写入一个.h5文件，才发现结果中只有8行。有没有什么方法可以加快速度呢？分区的数量是81，这似乎太高了。我把它降到了5个小时，还是花了4个小时。

浏览 19提问于2020-05-01得票数 1

1回答

无法将合并的Dask dataframe转换为pandas dataframe -出现错误"Unalignable boolean Series provided as indexer“

python、dask、dask-dataframe

我正在尝试合并3个Dask数据帧并相应地查询它们。数据帧是从formula1数据的SQL表的.csv文件创建的。表格 laptimes: raceId, driverId, lap, position, time races: raceId, year, round drivers: driverId, forename, surname 下面的laptimes表与races和drivers表具有外键关系。我已经读入，合并了数据帧，并尝试查询数据帧： from dask import dataframe as df import pandas as pd pd.set_option("

浏览 82提问于2021-10-05得票数 2

2回答

有没有一种很好的方法来在dask数据帧上对许多条件进行条件选择？

python、dask

我正在从Pandas切换到Dask，并希望在数据帧上执行条件选择。我想提供一个条件列表，最好是布尔数组/序列，然后得到一个应用了所有这些条件的数据帧。在Pandas中，我只是做了np.all(BoolSeries1，BoolSeries2，...)并将结果应用于数据帧。 import dask.array as da import dask.dataframe as dd import numpy as np import pandas as pd df = pd.DataFrame({'A' : np.random.rand(1000) , 'B':

浏览 10提问于2019-06-27得票数 2

回答已采纳

1回答

Dask Dataframe describe方法返回分位数上的NaN值

python、pandas、dask

我有以下数据帧 np.random.seed(42) dataframe = pd.DataFrame({'score': np.random.poisson(42, 100000)}) 并创建了dask数据帧： dask_df = dd.from_pandas(dataframe, npartitions=10) 并在这两个服务器上运行describe方法 dataframe.describe(percentiles=[.25, .5, .75, .85, .9]).score.to_frame().T 结果是： count mean s

浏览 12提问于2018-12-06得票数 1

1回答

使用sklearn scaler覆盖dask数据帧

python、arrays、scikit-learn、dask

我有以下dask数据帧：我想要对其应用sklearn缩放器，例如，应用到列LotArea： scaler = StandardScaler() scaler.fit_transform(df[['LotArea']]) 返回一个numpy数组，如下所示： array([[ 0.82160041], [ 1.59216945], [ 1.46485804], [-0.11648362], [-1.10613315], [ 0.34906243], [-0.23942507],

浏览 14提问于2019-07-16得票数 0

1回答

通过读取Python的dask模块中的pickle文件来创建dask数据帧

python、dask

当我尝试通过读取pickle文件来创建dask数据帧时，我得到了一个错误 import dask.dataframe as dd ds_df = dd.read_pickle("D:\test.pickle") AttributeError: 'module' object has no attribute 'read_pickle' but it works fine with read_csv 在大熊猫身上，它一如既往地成功了。所以，如果我在这里或者在dask中做错了什么，请纠正我，我们根本不能通过读取一个pickle文件来创建数据帧

浏览 1提问于2015-12-14得票数 7

1回答

Groupby和shift a dask数据帧

python、dask

我想使用dask 2.14扩展我在熊猫数据帧上所做的一些操作。例如，我想对数据帧的一列应用移位： import dask.dataframe as dd data = dd.read_csv('some_file.csv') data.set_index('column_A') data['column_B'] = data.groupby(['column_A'])['column_B'].shift(-1) 但是我得到了AttributeError: 'SeriesGroupBy' object

浏览 7提问于2020-05-05得票数 5

回答已采纳

2回答

如何在dask dataframe中设置(计算)分区？

python、dask

从拼图或csv文件加载数据时，具有无分区。DASK文档没有关于如何设置和计算此...的信息。如何正确设置和计算DASK数据帧的划分？

浏览 14提问于2019-06-05得票数 2

1回答

在单热编码ML工作负载中，何时使用暗阵列与dask数据帧

python、dask

我有一个数据集，它是一个巨大的、短的、胖的矩阵(大约4000 x 20,000,000)。我认为dask对我来说可能是一个很好的解决方案。但是，我希望确保可以将其编码为一个单热矩阵。我查看了dask-ml中的选项，它们似乎总是需要一个dask数据帧。然而，创建一个有2000万列的数据帧似乎真的很奇怪，而且可能会导致大量开销。使用dask数组并以某种方式使用apply on axis将每一列转换为1-hot会更容易吗？谢谢你的建议。

浏览 9提问于2018-02-14得票数 2

1回答

Dask DataFrame能和大熊猫DataFrames一起工作吗？

python、pandas、dask

我想使用Dask来处理大型数据帧。然而，当我尝试使用它时，我得到了一个内存错误，如下所示。 df = pandas.DataFrame({'x': my_very_large_array}) ddf = dask.dataframe.from_pandas(df, npartitions=100) 我认为Dask应该处理比内存更大的数据。这是怎么回事？

浏览 7提问于2019-03-06得票数 0

回答已采纳

1回答

任务合并失败，返回keyerror

python-3.x、pandas、dask

我有一个dask数据帧，如下所示： id refseqno xml 0 31110671 42 <my_xml> ... 1 34470834 6 <my_xml>... 2 35025043 19 <my_xml>... 3 37360536 7 <my_xml>... 4 44152211 10 <my_xml>... 5 45322759 15 <my_xml>.. 我想在id上运行group by，以便将相同的id分组在一起，并联接

浏览 1提问于2020-09-23得票数 0

3回答

使用pandas从Google云存储读取CSV文件

pandas、google-cloud-storage、dask

我正在尝试将一堆CSV文件从谷歌云存储读取到pandas数据帧中，如Read csv from Google Cloud storage to pandas dataframe中所述 storage_client = storage.Client() bucket = storage_client.bucket(bucket_name) blobs = bucket.list_blobs(prefix=prefix) list_temp_raw = [] for file in blobs: filename = file.name temp = pd.read_csv(

浏览 39提问于2019-03-05得票数 0

回答已采纳

1回答

Dask DataFrame.map_partition()以写入db表

python、mysql、dask、dask-distributed

我有一个dask dataframe，它包含一些转换后的数据。我想把这些数据写回mysql表。我已经实现了一个函数，它获取一个数据帧，一个db url，然后将该数据帧写回数据库。因为我需要一些来对数据帧的数据进行一些最后的编辑，所以我使用pandas df.to_dict('record')来处理写操作。该函数如下所示 def store_partition_to_db(df, db_url): from sqlalchemy import create_engine from mymodels import DBTableBaseModel rec

浏览 0提问于2017-11-30得票数 0

1回答

如何使用dask dataframe中的rank函数？

python、pandas、python-3.7、dask、rank

如何在dask数据帧上使用pandas的pd.rank()函数。或者，在dask中有没有其他的内置函数可以做同样的事情。

浏览 11提问于2019-10-23得票数 1

回答已采纳

1回答

如何将Pandas期货列表转换为Dask Dataframe？

python、pandas、dask

我有一张达克期货的清单，它指向潘达斯的数据： from dask.dataframe import Client client = Client() import pandas futures = client.map(pd.read_csv, filenames) 如何将这些转换为Dask数据帧？注意，我知道dask.dataframe.read_csv存在，我只是以pd.read_csv为例

浏览 1提问于2018-02-14得票数 3

1回答

如何将dask数据帧写入google云存储或Bigquery

python、pandas、google-bigquery、dask、google-cloud-datalab

我正在为我的ML项目使用google cloud datalab。我的一个数据在bigquery表中，该表有数百万条记录(文本数据)，其中有许多列。我从bigquery表创建了一个pandas数据帧，将其转换为dask数据帧(具有5个分区)，并执行了数据辩论。现在，我有了这个dask数据帧，我想将其存储在bigquery中，或者将其转换为拼接文件并将其存储在我的gcp存储中。如果能听到来自社区的选择，那就太好了。谢谢。

浏览 16提问于2019-02-14得票数 0

1回答

对DASK中的列中的每个值运行mysql查询

python、mysql、dask

我有一个包含用户id的CSV文件。此CSV文件作为dask-dataframe导入。进入数据帧后，我需要为id列中的每个条目获取该user-id，并在其上运行一个SQL查询来获取该user -id的用户名，并将其添加到新列中的dataframe。我有几个这样的列需要获取。我不确定对DASK数据帧中的值运行select查询的dask方法是什么。我该怎么做呢？我不想走命令式路线，并使用for循环来解决它。

浏览 26提问于2020-03-18得票数 1

回答已采纳

2回答

如何在不占用RAM的情况下创建额外的列，然后将其用于ML算法？

python、pandas、machine-learning、dask、ram

我有一个包含3m+ (有序)行和100列的数据集，我可以使用Pandas将其加载到我的笔记本中。我想追加大约900列，这些列是使用100个现有的列计算得出的。最终目标是训练几个机器学习模型(NN，随机森林)。当我尝试使用Pandas添加列时，由于RAM不足(我有25 to )，我的机器崩溃了。因此，我尝试使用Dask，它允许我毫无问题地计算900列。然而，Dask数据帧不能用作随机森林(Sklearn)和Keras模型的输入，所以我猜在某些时候您必须将其转换回pandas数据帧。在这一点上我被卡住了。速度是相当重要的，因为我需要经常改装模型。有没有人有好的建议？

浏览 18提问于2021-05-22得票数 1

1回答

对于.head(20)这样的操作，如何让Dask变得像PySpark一样懒惰？

python、dask

在PySpark中，每当我在一个非常大的数据帧df上排列一组复杂的操作，然后键入： df.show(20) Spark将只执行必要的操作(在部分数据集上)，以便快速返回20条记录以供显示。除非我用.collect()强制它这样做，否则它不会对dataframe df的所有行执行操作。另一方面，在Dask中，当我做同样的事情时： df.head(20) Dask实际上将对整个数据帧执行操作(并且会持续很长一段时间)，然后返回前20条记录。 Dask方法使得在非常大的数据集上快速迭代想法变得笨拙。有没有一种方法可以通过智能地返回足够的记录子集来提高Dask的响应性？

浏览 38提问于2018-06-03得票数 1

1回答