使用多列作为索引旋转dask数据帧_使用多索引从旋转的数据帧中获取原始数据帧_多个多索引列数据帧求和 - 腾讯云开发者社区

python、dataframe、dask

我有一个dask数据帧和一个dask数组，它们以相同的逻辑顺序具有相同的行数。数据帧行通过字符串进行索引。我正在尝试将一个数组列添加到数据帧中。我尝试了几种方法，但都以其特定的方式失败了。 df['col'] = da.col # TypeError: Column assignment doesn't support type Array df['col'] = da.to_frame(columns='col') # TypeError: '<' not supported between instances

浏览 15提问于2018-01-09得票数 8

2回答

索引到Dask系列可以返回Dask系列

python、pandas、dask

我有Dask系列的Dask数据帧。我想在本系列中建立索引，以获取dask数据帧以供后续工作使用。但是，使用loc[0]会导致另一个dask系列。使用to_frame也不起作用，因为结果是"Dask系列Dask数据帧的Dask数据帧“。下面是一个使用Dask系列Pandas数据帧的最小示例(不完全相同，但说明了问题)： import pandas as pd import dask.dataframe as dd pdf1 = pd.DataFrame({'a': [1,2,3,4], 'b': [4,3,2,1]}) pdf2 = pd.Data

浏览 3提问于2020-02-03得票数 1

1回答

如何将MultiIndex熊猫数据帧转换为Dask数据帧

python、pandas、dataframe、dask、multi-index

我试图将两个变量(一个ID和一个DateTime变量)为MultiIndexed的熊猫数据帧转换为dask数据帧，但是我得到了以下错误； "NotImplementedError: Dask does not support MultiIndex Dataframes" 我正在使用下面的代码 import pandas as pd import dask.dataframe as dd dask_df = dd.from_pandas(pandas_df) 实际上，我有700多个熊猫数据帧(每个超过100MB)，我计划将每个熊猫数据帧转换为dask，然后将它们全部附加到一

浏览 18提问于2019-07-02得票数 2

回答已采纳

1回答

任务合并失败，返回keyerror

python-3.x、pandas、dask

我有一个dask数据帧，如下所示： id refseqno xml 0 31110671 42 <my_xml> ... 1 34470834 6 <my_xml>... 2 35025043 19 <my_xml>... 3 37360536 7 <my_xml>... 4 44152211 10 <my_xml>... 5 45322759 15 <my_xml>.. 我想在id上运行group by，以便将相同的id分组在一起，并联接

浏览 1提问于2020-09-23得票数 0

1回答

达斯克分拣

sorting、dask、dask-distributed、dask-delayed

我想在dask中找到pandas.dataframe.sort_value函数的替代方案。我是通过set_index来的，但是它会在一个列上排序。如何对Dask数据帧的多列进行排序？

浏览 1提问于2018-06-12得票数 9

回答已采纳

1回答

使用多列作为索引旋转dask数据帧

dask

我有一个如下格式的Dask DataFrame： date hour device param value 20190701 21 dev_01 att_1 0.000000 20190718 22 dev_01 att_2 20.000000 20190718 22 dev_01 att_3 18.611111 20190701 21 dev_01 att_4 18.706083 20190718 22 dev_01 att_5 23.333333 我正在尝试使用Dask.DataFrames.pi

浏览 22提问于2020-01-03得票数 3

回答已采纳

1回答

发布旋转数据帧

python、pandas、pivot、pivot-table

我正在尝试旋转这个数据帧photo of dataframe。我刚接触熊猫，所以我不知道为什么我会有像"bake“这样的单元格来伸展多行(这是groupby的结果)。理想情况下，我希望"Not Math“、”want be Math“和"Math”作为列标签，并在所有单元格中使用“keep”中的数字。如果有什么简单的方法，请告诉我。

浏览 18提问于2019-12-08得票数 0

回答已采纳

1回答

KeyError:当尝试选择dask数据框上的列时：“没有[索引([‘’，'']，dtype='object')]在[列]中”

pandas、dask

我正在使用from_pandas()函数从熊猫数据帧创建一个dask数据帧。当我尝试使用方括号[ ]从dask dataframe中选择两列时，我得到了一个KeyError。根据dask文档，dask dataframe支持像pandas dataframe一样的方括号列选择。 # data is a pandas dataframe dask_df = ddf.from_pandas(data, 30) data = data[dask_df[['length', 'country']].apply( lambda x: myfun

浏览 67提问于2019-10-04得票数 1

1回答

在pandas中将未堆叠的数据帧转换为数据帧

python、pandas

我有一个数据帧，如下所示：此数据帧是对另一个数据帧进行拆分的结果。 cost 10 20 30 ------------------------------------------- cycles -------------------------------------------- 1 2 4 6 2 1 2 3 3 3 6

浏览 6提问于2017-03-10得票数 1

回答已采纳

2回答

从dask dataframe保存多个地块文件

python、dask、parquet

我想从Dask dataframe中保存多个拼图文件，一个拼图文件用于特定列中的所有唯一值。因此，拼图文件的数量应该等于该列中唯一值的数量。例如，给定以下数据帧，我想保存四个拼图文件，因为在列"A“中有四个唯一的值。 import pandas as pd from dask import dataframe as dd df = pd.DataFrame( { "A": [1, 1, 2, 3, 1, 3, 6, 6], "B": ["A", "L", "C",

浏览 5提问于2021-04-09得票数 1

2回答

如何让Dask知道索引已排序？

dask

根据 answer的说法，如果Dask知道数据帧的索引已排序，则Dask数据帧可以执行智能索引。如何让Dask知道索引是否已排序？在我的特定情况下，我这样做： for source is sources: # This df has a datetimeindex that I know to be sorted pd = load_pandas_df_from_some_source(source) dd = dask.dataframe.from_pandas(pd, chunksize=foo) dd.to_hdf(some_unique_filename, '

浏览 11提问于2017-06-23得票数 3

1回答

使用to_csv和dask忽略不匹配的列类型

python、pandas、csv、dataframe、dask

我正在尝试使用dask和Dask手册中列出的dask.dataframe.to_csv(datframe_name, file etc..)命令导出数据帧：我使用dask是因为原始的csv文件非常大(20 to )，并且使用pandas读取文件非常慢。但是，每次我尝试导出数据帧时，都会得到以下错误： ValueError: Mismatched dtypes found in `pd.read_csv`/`pd.read_table`. +----------+--------+----------+ | Column | Found | Expected | +---------

浏览 2提问于2019-10-16得票数 0

2回答

如何根据dask dataframe列写入文件名？

amazon-s3、dask

我有一个dask数据帧，我想保存到s3。数据帧中的每一行都是一个“时间戳”列。我想根据时间戳列中的日期对s3中的路径进行分区，因此s3中的输出如下所示： s3://....BUCKET_NAME/data/date=2019-01-01/part1.json.gz s3://....BUCKET_NAME/data/date=2019-01-01/part2.json.gz ... ... s3://....BUCKET_NAME/data/date=2019-05-01/part1.json.gz 在dask中这是可能的吗？我只能在输出中找到需要整数作为输入的name_function，并且

浏览 16提问于2019-07-16得票数 2

1回答

Pandas-Dask DataFrame Apply函数，返回列表

python、pandas、dataframe、dask

我正在尝试向dask数据帧添加多个列，以存储apply函数的结果。这将是我关于堆栈溢出的第一个问题，我希望这个问题不会太长！目前，我有一段有效的代码： from dask import dataframe as dd from multiprocessing import cpu_count nCores = cpu_count() import dask.multiprocessing dask.config.set(scheduler='processes') def dfFunc(varA, varB): # Some calculations...

浏览 5提问于2018-10-11得票数 1

1回答

将一列随机数添加到dask数据帧的正确方法

python、random、dask、random-seed、dask-dataframe

将一列随机数添加到dask数据帧的正确方法是什么？显然，我可以使用map_partitions将列添加到每个分区，但我不确定当dask并行化该计算时，如何处理随机状态。(即，它是否会在所有工作进程中使用相同的随机状态，从而在每个工作进程中生成相同的随机数？) 在dask.array.random ()中似乎有相关的函数，但我找不到一个示例来说明如何将这些函数与dask数据帧一起使用。

浏览 2提问于2021-02-09得票数 1

2回答

Dask Dataframe View整行

python-3.x、dask

我想看到dask数据帧的整行，而不是截断字段，在pandas中，命令是pd.set_option('display.max_colwidth', -1)，dask是否有等效的命令？我什么也找不到。

浏览 0提问于2019-01-02得票数 3

1回答

对DASK中的列中的每个值运行mysql查询

python、mysql、dask

我有一个包含用户id的CSV文件。此CSV文件作为dask-dataframe导入。进入数据帧后，我需要为id列中的每个条目获取该user-id，并在其上运行一个SQL查询来获取该user -id的用户名，并将其添加到新列中的dataframe。我有几个这样的列需要获取。我不确定对DASK数据帧中的值运行select查询的dask方法是什么。我该怎么做呢？我不想走命令式路线，并使用for循环来解决它。

浏览 26提问于2020-03-18得票数 1

回答已采纳

1回答

使用python处理来自bigquery的大型数据集，将其加载回bigquery表

python、google-cloud-platform、google-bigquery、bigdata

我在bigquery中有一个巨大的数据集，有5000万行和57列。我想做很多过滤/转换/清理，而不是使用sql。我尝试使用dask/panda/python将数据加载到本地mac的dask数据帧中，进行转换，然后将数据推送回bigquery，以便其他总线可以使用它。将数据推送回bigquery需要超过3个小时。有没有其他方式，或者谷歌云服务，我可以利用？

浏览 2提问于2019-03-30得票数 0

2回答

如何在dask dataframe中设置(计算)分区？

python、dask

从拼图或csv文件加载数据时，具有无分区。DASK文档没有关于如何设置和计算此...的信息。如何正确设置和计算DASK数据帧的划分？

浏览 14提问于2019-06-05得票数 2

1回答

计算整个任务数据帧的方差

python、data-science、dask

我有一个这样的dask数据帧： pprint(daskdf.iloc[:,95:100].head()) 1980-04-02 1980-04-03 1980-04-04 1980-04-05 1980-04-06 0 3.459240 0.0 2.296430 5.771730 13.344725 1 5.036489 0.0 1.021041 3.930686 8.015582 2 0.000000 0.0 0.667812 4.580948 9.824745

浏览 11提问于2020-05-05得票数 2

3回答

如何将DASK数据帧放入MySQL数据表？

python、dask、dask-dataframe

我从CSV文件中获取了数据，并将其保存在我的Dask数据帧中并对其进行操作。然后，我需要将数据写入数据表。我还没有真正遇到过任何解决方案。Pandas的to_sql函数具有内置的功能，所以我不确定是否需要首先转换为Pandas？我目前认为，将Dask数据帧转换为Pandas会导致它被完全加载到内存中，这可能会违背最初使用Dask的目的。将Dask数据帧写入datatable最好、最快的方法是什么？

浏览 4提问于2020-03-27得票数 1

1回答

如何在使用dask.dataframe时指定行顺序

python、pandas、dask

我有两个形状相同的数据帧。我尝试转换为指定相同n_partition=50的dask数据帧。然而，每个数据帧如何分割成分区似乎是不同的，如下图所示。有人知道如何指定应该如何分隔数据帧吗？

浏览 0提问于2018-04-11得票数 0

2回答

如何将多个函数应用于dataframe的多个块？

python、pandas、function、dataframe、dask

我有50万行和3列的数据。我想要为dataframe中的每5,000行代码块(即100块)计算三个函数的结果。这三个函数中有两个是使用定义的，第三个是第3列中值的平均值。目前，我首先提取一个块，然后计算该块的函数结果。对于第3列的平均值，我使用的是df.iloc[:,2].compute().mean()，但其他函数是在dask之外执行的。有没有一种方法可以利用达斯克的多线程能力，将整个数据帧和块大小作为输入，并让它计算相同的函数，但却是自动的？这似乎是使用达斯克的更合适的方式。而且，对我来说，这就像是一个基本的dask问题，所以如果这是一个重复的问题，请告诉我正确的地方(我对dask还

浏览 5提问于2020-03-13得票数 0

回答已采纳

3回答

如何为Dask数据框中的列赋值

python、insert、append、dask

如何对dask数据帧执行与以下代码相同的操作。 df['new_column'] = 0 for i in range(len(df)): if (condition): df[i,'new_column'] = '1' else: df[i,'new_column'] = '0' 我想在dask数据框中添加一个新列，并在新列中插入0/1。

浏览 0提问于2020-03-04得票数 2

2回答

如何在不占用RAM的情况下创建额外的列，然后将其用于ML算法？

python、pandas、machine-learning、dask、ram

我有一个包含3m+ (有序)行和100列的数据集，我可以使用Pandas将其加载到我的笔记本中。我想追加大约900列，这些列是使用100个现有的列计算得出的。最终目标是训练几个机器学习模型(NN，随机森林)。当我尝试使用Pandas添加列时，由于RAM不足(我有25 to )，我的机器崩溃了。因此，我尝试使用Dask，它允许我毫无问题地计算900列。然而，Dask数据帧不能用作随机森林(Sklearn)和Keras模型的输入，所以我猜在某些时候您必须将其转换回pandas数据帧。在这一点上我被卡住了。速度是相当重要的，因为我需要经常改装模型。有没有人有好的建议？

浏览 18提问于2021-05-22得票数 1

1回答

在单热编码ML工作负载中，何时使用暗阵列与dask数据帧

python、dask

我有一个数据集，它是一个巨大的、短的、胖的矩阵(大约4000 x 20,000,000)。我认为dask对我来说可能是一个很好的解决方案。但是，我希望确保可以将其编码为一个单热矩阵。我查看了dask-ml中的选项，它们似乎总是需要一个dask数据帧。然而，创建一个有2000万列的数据帧似乎真的很奇怪，而且可能会导致大量开销。使用dask数组并以某种方式使用apply on axis将每一列转换为1-hot会更容易吗？谢谢你的建议。

浏览 9提问于2018-02-14得票数 2

1回答

从Dask数据框列创建列表的方法

python、dask、dask-dataframe

我想从Dask Dataframe列创建一个列表/集合。基本上，我希望使用此列表通过将值与此数据帧中的列进行匹配来过滤另一个数据帧中的行。我尝试过使用list(df[column])和set(df[column])，但它们花费了很多时间，最终导致创建集群时出现错误，有时当达到内存限制时，它会重新启动内核。我可以使用dask.bag或多处理来创建列表吗？

浏览 10提问于2020-12-31得票数 0

回答已采纳

1回答

Groupby和shift a dask数据帧

python、dask

我想使用dask 2.14扩展我在熊猫数据帧上所做的一些操作。例如，我想对数据帧的一列应用移位： import dask.dataframe as dd data = dd.read_csv('some_file.csv') data.set_index('column_A') data['column_B'] = data.groupby(['column_A'])['column_B'].shift(-1) 但是我得到了AttributeError: 'SeriesGroupBy' object

浏览 7提问于2020-05-05得票数 5

回答已采纳

3回答

dask_ml线性回归多个常量列检测错误

python、pandas、numpy、machine-learning、dask

我正在使用python与dask一起创建一个逻辑回归模型，以便在培训时加快速度。我有x，这是特征数组(numpy数组)，y是标签向量。编辑: numpy数组是: x_train (n*m大小)浮点数数组，y_train是(n*1)整数向量，是训练的标签。这两种方法都很适合滑雪LogisticRegression.fit，而且在那里工作也很好。我尝试使用这段代码创建一个熊猫df，然后将其转换为dask，并在其上进行培训，如所示 from dask_ml.linear_model import LogisticRegression from dask import dataframe as

浏览 0提问于2019-06-06得票数 1

1回答

如何将dask数据帧的所有部分合并在一起

python、dataframe、merge、dask

我有一个sales DataFrame，它有28M行，还有一些其他数据帧，还有一个示例Product DataFrame。当我第一次将pandas数据帧转换为Dask数据帧时： sales_dd = dd.from_pandas(Sales, npartitions=3) #28M rows product_dd = dd.from_pandas(Product, npartitions=3) #600 rows 转换Dask Dataframe后，我可以使用； sales_dd.tail() Date ProductNo Total_

浏览 2提问于2018-05-27得票数 1

2回答

如何将pandas str.split调用转换为dask

dask

我有一个dask数据帧，它的索引是一个字符串，看起来像这样： 12/09/2016 00:00;32.0046;-106.259 12/09/2016 00:00;32.0201;-108.838 12/09/2016 00:00;32.0224;-106.004 (它基本上是一个对日期时间、纬度、行的经度进行编码的字符串) 我想在dask上下文中将其拆分成表示每个字段的单独列。我可以用一个熊猫数据帧来做到这一点： df['date'], df['Lat'], df['Lon'] = df.index.str.split(';'

浏览 17提问于2017-08-01得票数 2

回答已采纳

1回答

如何将dask数据帧写入google云存储或Bigquery

python、pandas、google-bigquery、dask、google-cloud-datalab

我正在为我的ML项目使用google cloud datalab。我的一个数据在bigquery表中，该表有数百万条记录(文本数据)，其中有许多列。我从bigquery表创建了一个pandas数据帧，将其转换为dask数据帧(具有5个分区)，并执行了数据辩论。现在，我有了这个dask数据帧，我想将其存储在bigquery中，或者将其转换为拼接文件并将其存储在我的gcp存储中。如果能听到来自社区的选择，那就太好了。谢谢。

浏览 16提问于2019-02-14得票数 0

1回答

如何在dask中找到数据帧的长度？

python、pandas、dask

如何使用dask找到数据帧的长度？例如，在熊猫中，我可以这样做： import pandas as pd import numpy as np df = pd.DataFrame(np.random.normal(0, 1, (5, 2)), columns=["A", "B"]) print df['A'].count() print df 输出： 5 A B 0 1.538531 0.424717 1 -0.929843 1.323648 2 -1.283680 0.056199 3 -0.641

浏览 0提问于2018-05-28得票数 6

1回答

Dask:合并后写入csv非常慢(python)

python、merge、dask

我有一个小的Pandas数据帧(2000行，35列)，我将它与一个大的Dask数据帧(600万行，550列)合并在一起。我将小Pandas数据帧转换为Dask数据帧，并使用以下代码进行合并： final_df=dd.merge(left=small_df,right=big_df,how='inner',on=('var1','var2','var3')) 合并操作非常快，但运行这些代码需要一段时间： final_df.head() 或者： final_ddf.to_csv('file.csv',header=T

浏览 28提问于2020-07-16得票数 0

回答已采纳

1回答

将dask QuantileTransformer应用于同一数据帧中的计算字段

python、dask、dask-distributed、dask-ml

我正在尝试将dask QuantileTransformer转换应用到percentage字段，并在相同的数据帧中创建一个新的字段percentage_qt。但是我得到了错误Array assignment only supports 1-D arrays。怎样才能做到这一点？ import pandas as pd import dask.dataframe as dd from dask_ml.preprocessing import QuantileTransformer mydict = [{'percentage': 12.1, 'b': 2, &#

浏览 3提问于2022-02-01得票数 1

回答已采纳

1回答

如何在Dask DataFrame的特定索引中插入新列？

python-3.x、dask

使用pandas，我可以在特定位置插入一个新列，如下所示： df_all.insert(loc=10, column="label", value=label_column, allow_duplicates=True) 如何使用dask将新列添加到特定位置？(至dask数据帧)

浏览 13提问于2019-12-24得票数 1

1回答

当数据不能放入内存时，将dask数据帧存储到拼图

dask、parquet

我正在尝试将dask数据帧的内容存储到拼图。使用read_sql_table从数据库中读取内容 import dask.dataframe as dd df = dd.read_sql_table(table, uri, index_col) df.to_parquet(path) 当我这样做的时候，首先将所有数据读取到内存中。但是，由于整个数据集无法装入内存，内核最终会崩溃。如何将数据分块或通过管道传输，以使此操作成功？ (我正在使用快速拼接作为引擎，但并未与其结合使用。)

浏览 23提问于2020-07-02得票数 0

1回答

在Dask中使用尚未实现的Pandas函数

python、pandas、dask、dask-distributed、dask-delayed

我相信在使用Dask数据帧时，我在Dask教程中看到了一个关于如何使用Dask框架中尚未实现的Pandas函数的建议，但我似乎看错了地方。例如，我想使用Pandas函数'ewm‘。作为一种变通方法，我将Dask数据帧转换为Pandas数据帧，在Pandas数据帧上运行ewm，然后将它们转换回Dask，以便以后进行更多内存密集型操作。效率不是最高的。有没有更好的策略呢？

浏览 10提问于2019-06-02得票数 1

回答已采纳

1回答

使用sklearn scaler覆盖dask数据帧

python、arrays、scikit-learn、dask

我有以下dask数据帧：我想要对其应用sklearn缩放器，例如，应用到列LotArea： scaler = StandardScaler() scaler.fit_transform(df[['LotArea']]) 返回一个numpy数组，如下所示： array([[ 0.82160041], [ 1.59216945], [ 1.46485804], [-0.11648362], [-1.10613315], [ 0.34906243], [-0.23942507],

浏览 14提问于2019-07-16得票数 0

2回答

快速采样Dask数据帧的方法(Python)

python、dask、sampling

我有一个很大的文件，我用Dask (Python)读取的。该文件大约有600万行和550列。我想随机选择5000条记录(没有替换)。下面是我尝试过的两个方法，但是运行起来需要很长时间(超过13个小时后我就停止了)： df_s=df.sample(frac=5000/len(df), replace=None, random_state=10) NSAMPLES=5000 samples = np.random.choice(df.index, size=NSAMPLES, replace=False) df_s=df.loc[samples] 我不确定这些方法是否适合Dask数据帧。对于大数据

浏览 0提问于2020-07-14得票数 1

1回答

按行块处理dask数据帧

python、pandas、dask

我有一个使用某个blocksize的区块创建的dask数据帧 df = dd.read_csv(filepath, blocksize = blocksize * 1024 * 1024) 我可以像这样分块处理它： partial_results = [] for partition in df.partitions: partial = trivial_func(partition[var]) partial_results.append(partial) result = delayed(sum)(partial_results) (在这里，我尝试使用map_partit

浏览 11提问于2021-01-22得票数 1

回答已采纳

2回答

使用dask hdf/parquet的Python大型数据集特征工程工作流

python、pandas、dask、hdf、feature-engineering

已经有了一个很好的问题，但最好的答案是现在已经5年了，所以我认为2018年应该有更好的选择。我目前正在寻找一个比内存数据集更大的特性工程管道(使用适当的dtype)。初始文件是一个不适合内存的csv。以下是我的需要：创建特性(主要使用多列的groupby操作)。将新特性合并到以前的数据(磁盘上，因为它不适合内存) 对某些ML应用程序使用子集(或全部)列/索引重复1/2/3 (这是一个类似于day1的迭代过程:创建4个特性，day2: create 4个.) 试着用胸罩和丹克：首先，我把大csv文件分割成多个小的“地板”文件。这样，dask对于计算新特性是非常

浏览 0提问于2018-03-29得票数 2

1回答

无法从pandas转到dask dataframe，内存错误

python、pandas、dask、dask-distributed

我有一个有700万条记录的pandas数据帧，我正在尝试创建一个dask数据帧，但我总是遇到内存问题。使用的代码： dd_test = dd.from_pandas(df_lookup_table, npartitions=3) 错误消息： Traceback (most recent call last): File "<input>", line 1, in <module> File "C:\Users\user\venv\lib\site-packages\dask\dataframe\io\io.py", line

浏览 9提问于2019-01-29得票数 1

回答已采纳

1回答

将熊猫系列添加到dask dataframe中

python、dataframe、dask

将熊猫系列添加到dask dataframe中的惯用方法是什么？熊猫在处理数据方面要灵活得多，所以我经常将部分dask数据存储在内存中，操作列并创建新的列。然后，我想将这些新列添加到原始的dask数据格式中。如何才能做到这一点？

浏览 0提问于2017-06-29得票数 4

1回答

加速pandas concat函数，用于40个数据帧，每个数据帧具有100万行和100列

python、python-3.x、multithreading、python-2.7、multiprocessing

我想为大数据帧加速pandas concat()函数。我有40个数据帧，每个数据帧有100万行和100列(列可以是任何东西:布尔、字符串、整数等)。我们已经尝试在集群上运行它，使用dask等。结果还没有出来！任何想法都将受到高度赞赏。

浏览 10提问于2019-10-25得票数 0

3回答

将一个大型Dask dataframe与一个小型Pandas dataframe合并

python、pandas、dask

下面的示例是：，我试图将一个~70 as的Dask数据帧与我作为Pandas数据frame加载的~24 as数据帧合并。合并位于两个列A和B上，我没有设置任何索引： import dask.dataframe as dd from dask.diagnostics import ProgressBar small_df = pd.read_csv(dataframe1) # as pandas large_df = dd.read_csv(dataframe2) #as dask.dataframe df2 = large_df.merge(small_df, how='left

浏览 16提问于2016-09-13得票数 26

1回答

将行值转换为多列-任务

dask、dask-dataframe

我有一个包含单列数据的文件。其中很少部分需要转换为列作为标题。经过几次dask计算后，我将我的数据帧缩减如下： In [9]: df.compute() Out[9]: * 0 140 Global Intel 1 1 Frequency 2 2 Currency 3 3 Currency Conversion 4

浏览 16提问于2020-01-28得票数 1

1回答

将dask数据帧转换为avro

python、avro、dask

我有一个包含100个分区和57列的dask数据帧。然后我想将它保存为Google Cloud Storage上的avro。我已经检查了intake-avro lib，但它只能将avro转换为dask数据帧，而不能反之亦然。有没有库可以做到这一点，或者我应该写自己的库？我想确保我不会重复发明轮子。

浏览 14提问于2019-03-16得票数 0

2回答

如何在dask中使用'loc‘选择数据帧的列

python、pandas、dataframe、distributed、dask

谁能告诉我应该如何使用dask在数据框中选择一列“loc”？注意，当我使用标头等于"None“的dd.read_csv加载数据帧时，列名的开头是从0到131094。我将要选择列名为131094的最后一列，但得到错误消息。代码： > import dask.dataframe as dd > df = dd.read_csv('filename.csv', header=None) > y = df.loc['131094'] 错误： File "/usr/local/dask-2018-08-22/lib/python2.7

浏览 1提问于2018-08-26得票数 4

1回答

无法加载Dask数据帧期望元以指定DataFrame错误类型

python、dask

我试图使用Dask加载一个固定宽度的文件，这样我就可以解析列并加载到数据库中，但是我无法让Dask加载数据帧。我收到了一个错误，该错误表示指定DataFrame类型的预期元，got类型为pandas.core.frame.DataFrame。以下是代码： import dask.dataframe as dd df == dd.read_csv("S://folder//file.csv") 有人能帮助我做些什么吗？谢谢你，菲尔

浏览 2提问于2022-01-27得票数 1