将dask数据帧转换为avro_将dask系列转换为dask数据帧_将dask转换为pandas数据帧 - 腾讯云开发者社区

python、avro、dask

我有一个包含100个分区和57列的dask数据帧。然后我想将它保存为Google Cloud Storage上的avro。我已经检查了intake-avro lib，但它只能将avro转换为dask数据帧，而不能反之亦然。有没有库可以做到这一点，或者我应该写自己的库？我想确保我不会重复发明轮子。

浏览 14提问于2019-03-16得票数 0

1回答

如何将MultiIndex熊猫数据帧转换为Dask数据帧

python、pandas、dataframe、dask、multi-index

我试图将两个变量(一个ID和一个DateTime变量)为MultiIndexed的熊猫数据帧转换为dask数据帧，但是我得到了以下错误； "NotImplementedError: Dask does not support MultiIndex Dataframes" 我正在使用下面的代码 import pandas as pd import dask.dataframe as dd dask_df = dd.from_pandas(pandas_df) 实际上，我有700多个熊猫数据帧(每个超过100MB)，我计划将每个熊猫数据帧转换为dask，然后将它们全部附加到一

浏览 18提问于2019-07-02得票数 2

回答已采纳

1回答

如何将dask数据帧转换为期货列表？

dask

我有一个如下所示的dask数据帧： import dask.dataframe as dd df = dd.read_csv('s3://...') 如何从该数据帧中获取期货列表？

浏览 11提问于2018-02-15得票数 0

1回答

无法从pandas转到dask dataframe，内存错误

python、pandas、dask、dask-distributed

我有一个有700万条记录的pandas数据帧，我正在尝试创建一个dask数据帧，但我总是遇到内存问题。使用的代码： dd_test = dd.from_pandas(df_lookup_table, npartitions=3) 错误消息： Traceback (most recent call last): File "<input>", line 1, in <module> File "C:\Users\user\venv\lib\site-packages\dask\dataframe\io\io.py", line

浏览 9提问于2019-01-29得票数 1

回答已采纳

1回答

如何在scala中实现avro到GenericRecord的数据帧转换

scala、apache-spark

我陷入了将avro数据帧转换为GenericRecord/ByteArray的困境，在那里我在google上冲浪，他们为我提供了相反的解决方案。有人尝试过在scala中将AVRO RDD/Dataframe转换为GenericRecord或ByteArray吗？我使用这个命令来读取我的avro文件。 spark.read.avro("/app/q.avro") 它会像这样返回给我数据帧。 res0: org.apache.spark.sql.DataFrame = [recordType: string, recordVersion: string ... 6 more f

浏览 4提问于2017-10-16得票数 0

2回答

使用dask合并csv文件

python、dask

我是python的新手。我正在使用dask读取5个大的(>1 GB) csv文件，并将它们合并(类似SQL)到一个dask数据帧中。现在，我正在尝试将合并后的结果写入单个csv。我在dask dataframe上使用compute()将数据收集到单个df中，然后调用to_csv。但是，compute()在读取所有分区的数据时速度很慢。我尝试在dask df上直接调用to_csv，它创建了多个.part文件(我没有尝试将这些.part文件合并到一个csv中)。有没有其他方法可以将dask df放入单个csv或任何参数中来计算()以收集数据。我使用硬盘和i5处理器的6 6GB内存。谢谢

浏览 5提问于2017-03-23得票数 4

1回答

通过读取Python的dask模块中的pickle文件来创建dask数据帧

python、dask

当我尝试通过读取pickle文件来创建dask数据帧时，我得到了一个错误 import dask.dataframe as dd ds_df = dd.read_pickle("D:\test.pickle") AttributeError: 'module' object has no attribute 'read_pickle' but it works fine with read_csv 在大熊猫身上，它一如既往地成功了。所以，如果我在这里或者在dask中做错了什么，请纠正我，我们根本不能通过读取一个pickle文件来创建数据帧

浏览 1提问于2015-12-14得票数 7

1回答

在Numpy数组上执行Pandas函数

python、pandas、numpy、dataframe、dask

我有一个大约8700万行的Pandas数据帧。为了对其进行一些处理，我将其设置为Dask数据帧。问题是我需要做Dask不支持的unstack和plot。我已经将Dask数据帧写入h5文件，但在尝试将其作为Pandas数据帧读取时遇到内存问题。我在将Dask DF转换为Pandas时也遇到了内存错误。从本质上讲，我尝试做的是df2 = df.groupby(['A','B'])['B'].count().unstack('A')，然后是df2.plot(kind = 'bar', stacked = True)。

浏览 2提问于2020-04-22得票数 2

1回答

dask-yarn KilledWorker没有有意义的回溯

python、hadoop-yarn、dask

我使用dask-yarn和中提供的脚本在电子病历上部署了dask。我尝试了一个简单的read和take的avro文件在我的s3，但我得到了KillerWorker异常，没有明确的含义，作为错误的原因。 from dask_yarn import YarnCluster cluster = YarnCluster(environment='environment.tar.gz', worker_vcores=2, worker_memory='4GB',

浏览 0提问于2019-10-22得票数 1

1回答

从Dask数据框列创建列表的方法

python、dask、dask-dataframe

我想从Dask Dataframe列创建一个列表/集合。基本上，我希望使用此列表通过将值与此数据帧中的列进行匹配来过滤另一个数据帧中的行。我尝试过使用list(df[column])和set(df[column])，但它们花费了很多时间，最终导致创建集群时出现错误，有时当达到内存限制时，它会重新启动内核。我可以使用dask.bag或多处理来创建列表吗？

浏览 10提问于2020-12-31得票数 0

回答已采纳

1回答

在dask中搜索行后获取列值

python、pandas、dask

我有一个熊猫数据帧，我使用dask的from_pandas函数将其转换为dask数据帧。它有3列，即col1、col2和col3。现在，我使用daskdf[(daskdf.col1 == v1) & (daskdf.col2 == v2)]搜索特定的行，其中v1和v2是我要搜索的值。但是，当我尝试使用daskdf[(daskdf.col1 == v1) & (daskdf.col2 == v2)]['col3']获取col3的值时，它给出了一个dask系列结构，而不是列值。在熊猫中，我可以做pandasdf[(pandasdf.col1 == v1) &a

浏览 8提问于2021-04-13得票数 3

回答已采纳

2回答

索引到Dask系列可以返回Dask系列

python、pandas、dask

我有Dask系列的Dask数据帧。我想在本系列中建立索引，以获取dask数据帧以供后续工作使用。但是，使用loc[0]会导致另一个dask系列。使用to_frame也不起作用，因为结果是"Dask系列Dask数据帧的Dask数据帧“。下面是一个使用Dask系列Pandas数据帧的最小示例(不完全相同，但说明了问题)： import pandas as pd import dask.dataframe as dd pdf1 = pd.DataFrame({'a': [1,2,3,4], 'b': [4,3,2,1]}) pdf2 = pd.Data

浏览 3提问于2020-02-03得票数 1

1回答

如何将列索引添加到Apache Beam Python SDK的拼图输出中？

python、apache-beam

我试着从GCS批量处理.avro文件，并将结果作为拼图文件写回GCS，数据是时间序列，元素是时间戳。如何从拼图输出中的timestamp列创建列索引？在Pandas/Dask中，它是一个简单的.set_index('timestamp')语句。 class AddTimestampDoFn(beam.DoFn): def process(self, element): yield beam.window.TimestampedValue(element, element['timestamp']) with beam.Pipelin

浏览 13提问于2021-08-10得票数 1

回答已采纳

1回答

在bean类中不能有循环引用，但是得到了类org.apache.avro.Schema的循环引用。

java、apache-spark

我想转换包含Avro对象的javaRDD (例如。对象( MyAvroClsass)到java中的数据帧。我的错误越来越少 Cannot have circular references in bean class, but got the circular reference of class class org.apache.avro.Schema 代码： JavaRDD测试；数据集outputDF = sparksession.createDataFrame(test.rdd()，.class)；

浏览 0提问于2017-08-01得票数 8

1回答

在DASK上运行的cuML函数？那么dask_cudf操作呢？

python、dataframe、dask、rapids

如何在大型数据集dask_cudf上运行dask_cuML (例如逻辑回归)？我不能在我的cudf dataframe上运行cuML，因为数据集太大了，所以只要我尝试任何东西，就会“内存不足”。好的一面是我有4个GPU可以和dask_cudf一起使用。例如，有人知道在dask_cudf数据帧上运行逻辑回归的步骤吗？关于我的cudf和cuml逻辑函数： type(gdf) cudf.core.dataframe.DataFrame logreg = cuml.LogisticRegression(penalty='none', tol=1e-6, max_iter=100

浏览 1提问于2020-02-06得票数 0

1回答

Dask中的异常处理(浮点转换)

python、exception、dataframe、dask

在将值转换为浮点数时，我正在尝试对dask数据帧进行异常处理。基本上，我希望将每个值转换为浮点数，如果抛出异常，则将其设置为None。目前我有以下功能： def float_apply(x): try: return float(x) except Exception: return np.NaN 然后我会这样做： datall = datall.applymap(float_apply).compute() 但是，我的异常没有被捕获，只是返回了一个ValueError。有没有办法用dask做到这一点？谢谢。

浏览 2提问于2017-08-25得票数 0

3回答

如何将DASK数据帧放入MySQL数据表？

python、dask、dask-dataframe

我从CSV文件中获取了数据，并将其保存在我的Dask数据帧中并对其进行操作。然后，我需要将数据写入数据表。我还没有真正遇到过任何解决方案。Pandas的to_sql函数具有内置的功能，所以我不确定是否需要首先转换为Pandas？我目前认为，将Dask数据帧转换为Pandas会导致它被完全加载到内存中，这可能会违背最初使用Dask的目的。将Dask数据帧写入datatable最好、最快的方法是什么？

浏览 4提问于2020-03-27得票数 1

1回答

无法转换dataframe列数据类型

python、pandas、type-conversion、dask、data-conversion

在使用Pandas/Dask处理大数据集之后，我将结果数据帧保存到csv文件中。当我尝试使用Dask读取输出CSV时，默认情况下数据类型都是对象。每当我试图使用传统方法(例如，在读取数据时定义数据类型或阅读后重新分配数据类型)来转换它们时，我总是会遇到与转换有关的错误，如下所示： # ATTEMPT 1 import dask.dataframe as dd header = ['colA', 'colB', ...] dtypes = {'colA' : 'float', ...} df = dd.read_csv('

浏览 0提问于2018-09-19得票数 4

回答已采纳

1回答

将一列随机数添加到dask数据帧的正确方法

python、random、dask、random-seed、dask-dataframe

将一列随机数添加到dask数据帧的正确方法是什么？显然，我可以使用map_partitions将列添加到每个分区，但我不确定当dask并行化该计算时，如何处理随机状态。(即，它是否会在所有工作进程中使用相同的随机状态，从而在每个工作进程中生成相同的随机数？) 在dask.array.random ()中似乎有相关的函数，但我找不到一个示例来说明如何将这些函数与dask数据帧一起使用。

浏览 2提问于2021-02-09得票数 1

1回答

将任务数据帧保存到hdf5

dataframe、dask、hdf5

我有dask dataframe，它有cols [ID,'PERIOD','CURRENCY'] 在这里我创建了PERIOD作为 datetime.datetime.strptime(''201901, "%Y%m").date() 当我尝试使用以下命令保存此数据帧时： dd.to_hdf('table.h5', key='df', append=True,complib='zlib', format='table', data_column=True) 我得到一个

浏览 21提问于2019-12-23得票数 0

1回答

存储在dataframe中的计算dask延迟对象

python-3.x、pandas、dask、dask-delayed

我正在寻找最好的方法来计算存储在数据帧中的许多dask delayed指令。我不确定是否应该将pandas数据帧转换为包含delayed对象的dask数据帧，或者是否应该对pandas数据帧的所有值调用compute调用。我非常感谢大家的建议，因为我在通过嵌套的for循环传递delayed对象的逻辑上遇到了问题。 import numpy as np import pandas as pd from scipy.stats import hypergeom from dask import delayed, compute steps = 5 sample = [int(x) for x

浏览 10提问于2019-08-10得票数 0

1回答

在Dask中使用尚未实现的Pandas函数

python、pandas、dask、dask-distributed、dask-delayed

我相信在使用Dask数据帧时，我在Dask教程中看到了一个关于如何使用Dask框架中尚未实现的Pandas函数的建议，但我似乎看错了地方。例如，我想使用Pandas函数'ewm‘。作为一种变通方法，我将Dask数据帧转换为Pandas数据帧，在Pandas数据帧上运行ewm，然后将它们转换回Dask，以便以后进行更多内存密集型操作。效率不是最高的。有没有更好的策略呢？

浏览 10提问于2019-06-02得票数 1

回答已采纳

2回答

遍历dask序列(从dask序列中获取唯一值到列表)

python、dask

我需要遍历dask dataframe中的唯一值。我使用.unique()来获取列的惟一值，但是现在给了我一个不能用来迭代的dask对象。我需要知道如何将这些唯一值从这个dask对象中获取到一个列表(或类似的内容)中，这样我就可以使用这些值来迭代dask数据帧。 df = dd.read_csv('file.csv') df.column1.unique() for unique_value in column1_array: print(unique_value) 这是我得到的错误: NotImplementedError: Series getitem in仅支持

浏览 19提问于2019-06-02得票数 1

回答已采纳

3回答

将Avro转换为Parquet格式

apache-pig、sqoop、avro、parquet、apache-crunch

我想从数据库中导出数据，并转换为Avro + Parquet格式。Sqoop支持Avro导出，但不支持拼图。我尝试使用Apache Pig，Apache Crunch等将Avro对象转换为Parquet，但都没有结果。阿帕奇猪给了我“原因: org.apache.hadoop.mapreduce.lib.input.InvalidInputException:输入路径不存在”。但是输入路径存在于该位置。 Apache Crunch总是抛出:java.lang.ClassNotFoundException: Class Hadoop not found“，尽管我将它添加到了Hadoop lib

浏览 5提问于2014-05-06得票数 2

1回答

dusk ml intercept回归抛出此错误："NotImplementedError:无法向具有未知块形状的数组添加截取“

python、nlp、dask、dask-ml

大家好，我刚开始接触dusk Ml，我一直在尝试使用dask ml训练一个逻辑回归模型来预测tweet的情绪。我已经将pandas数据帧转换为dask数据帧。在那之后，我执行了列车测试拆分。在那之后，我在X_train和X_test上使用了散列向量器。我执行了Train_X_vect.compute().shape行来检查形状，它返回(180224, 7000)，否则y_train.compute().shape会在我尝试的时候返回(180224,)，为了将它们拟合到逻辑回归模型中，我得到了一个错误，说"cannot add intercept to array with unknow

浏览 3提问于2020-05-13得票数 0

1回答

将HDF5 (.h5)转换为火花数据帧

python、pyspark、spark-dataframe、hdf5

我刚刚开始学习spark (更准确地说是pyspark)。如何将HDF5文件转换为spark数据帧？能否在这方面提供帮助，或者dask dataframes是不同于spark dataframes的东西？

浏览 2提问于2016-09-29得票数 3

2回答

如何将Dask DataFrame转换为字典列表？

python、pandas、dictionary、parallel-processing、dask

我需要将dask数据帧转换为字典列表，作为API端点的响应。我知道我可以将dask数据帧转换为pandas，然后从那里我可以转换为字典，但最好将每个分区映射到一个字典，然后连接。我尝试过的： df = dd.read_csv(path, usecols=cols) dd.compute(df.to_dict(orient='records')) 我得到一个错误： AttributeError: 'DataFrame' object has no attribute 'to_dict'

浏览 30提问于2020-04-08得票数 2

回答已采纳

0回答

Dask图的执行和内存使用

python、dask、dask-delayed

我正在dask中构建一个非常大的DAG，以提交给分布式调度器，在分布式调度器中，节点操作数据帧，而数据帧本身可能非常大。一种模式是，我有大约50-60个函数，用于加载数据和构造pandas数据帧，每个数据帧大小为几百MB (并且逻辑上表示单个表的分区)。我想将这些连接到图中下游节点的单个dask数据帧中，同时最小化数据移动。我像这样链接任务： dfs = [dask.delayed(load_pandas)(i) for i in disjoint_set_of_dfs] dfs = [dask.delayed(pandas_to_dask)(df) for df in dfs] return

浏览 6提问于2017-06-07得票数 4

1回答

Dask Dataframe -每行多行

python、pandas、dataframe、dask

我有这个dask数据帧，它有两列，其中一列包含元组(或数组)。我想要的是有一个新的数据帧，每一行中的元组的每个元素都有一行。示例数据帧可以像这样构造： import pandas as pd import dask.dataframe as dd tmp = pd.DataFrame({'name': range(10), 'content': [range(i) for i in range(10)]}) ddf = dd.from_pandas(tmp, npartitions=1) 它的形状如下： ddf: name content

浏览 30提问于2018-06-09得票数 2

回答已采纳

1回答

块大小未知的示例dask数据帧

python、dask、dask-dataframe

我正在尝试读取一个大型.parquet作为dask数据帧，并对其进行采样： ddf = dd.read_parquet("big_data.parquet") sample_ddf = ddf.sample(frac=0.03) 这会产生以下错误： ValueError: Arrays chunk sizes are unknown: (nan,) A possible solution: https://docs.dask.org/en/latest/array-chunks.html#unknown-chunks Summary: to compute chunks si

浏览 29提问于2021-05-21得票数 0

1回答

org.apache.avro.UnresolvedUnionException:不在联合中["long"，"null"]

scala、apache-spark、avro

我已经使用Spark (1.3.0)、Scala (2.10.4)和Spark avro (1.0.0)将Spark数据帧保存到Avro文件中。 def getMatchingLine(line: String) : Option[Row] = { val regex = "^.*&50=(\\w+)&.*&62-\\d=8&63-\\d=(\\w+)&.*timestamp=(\\d+).*$".r line match { case regex(a, b, c) => Some(Row(a, b,

浏览 0提问于2016-03-13得票数 4

回答已采纳

2回答

如何让Dask知道索引已排序？

dask

根据 answer的说法，如果Dask知道数据帧的索引已排序，则Dask数据帧可以执行智能索引。如何让Dask知道索引是否已排序？在我的特定情况下，我这样做： for source is sources: # This df has a datetimeindex that I know to be sorted pd = load_pandas_df_from_some_source(source) dd = dask.dataframe.from_pandas(pd, chunksize=foo) dd.to_hdf(some_unique_filename, '

浏览 11提问于2017-06-23得票数 3

1回答

如何读取数据并删除坏行

python、pandas、bigdata、data-science、dask

我试图使用dask聚合一个包含多行坏数据的大型(66 of )数据库。由于dask没有删除坏行的功能，所以我第一次将所有数据作为熊猫数据读取，并删除坏行。然后，我将此转换为dask数据帧。我的代码如下：导入dask.dataframe作为dd从dask.distributed导入客户端导入熊猫 #Groups the average Thresholds by NEATGeneration and finds the mean, standard deviation, minimum and maximum of the data def group(df): res = df.g

浏览 2提问于2020-02-21得票数 1

1回答

将dask QuantileTransformer应用于同一数据帧中的计算字段

python、dask、dask-distributed、dask-ml

我正在尝试将dask QuantileTransformer转换应用到percentage字段，并在相同的数据帧中创建一个新的字段percentage_qt。但是我得到了错误Array assignment only supports 1-D arrays。怎样才能做到这一点？ import pandas as pd import dask.dataframe as dd from dask_ml.preprocessing import QuantileTransformer mydict = [{'percentage': 12.1, 'b': 2, &#

浏览 3提问于2022-02-01得票数 1

回答已采纳

1回答

KeyError:当尝试选择dask数据框上的列时：“没有[索引([‘’，'']，dtype='object')]在[列]中”

pandas、dask

我正在使用from_pandas()函数从熊猫数据帧创建一个dask数据帧。当我尝试使用方括号[ ]从dask dataframe中选择两列时，我得到了一个KeyError。根据dask文档，dask dataframe支持像pandas dataframe一样的方括号列选择。 # data is a pandas dataframe dask_df = ddf.from_pandas(data, 30) data = data[dask_df[['length', 'country']].apply( lambda x: myfun

浏览 67提问于2019-10-04得票数 1

1回答

使用多列作为索引旋转dask数据帧

dask

我有一个如下格式的Dask DataFrame： date hour device param value 20190701 21 dev_01 att_1 0.000000 20190718 22 dev_01 att_2 20.000000 20190718 22 dev_01 att_3 18.611111 20190701 21 dev_01 att_4 18.706083 20190718 22 dev_01 att_5 23.333333 我正在尝试使用Dask.DataFrames.pi

浏览 22提问于2020-01-03得票数 3

回答已采纳

1回答

如何使用dask提高并行计算的性能

python、list、pandas、dask

我有一个pandas数据帧，并转换为dask数据帧 df.shape = (60893，2) Df2.form= (7254909，2) df['name_clean'] = df['Name'].apply(lambda x :re.sub('\W+','',x).lower(),meta=('x', 'str')) names = df['name_clean'].drop_duplicates().values.compute() df2['found'] =

浏览 8提问于2017-03-14得票数 0

回答已采纳

2回答

Dask Dataframe groupby在pandas序列中的结果，我如何返回dask dataframe？

pandas、dataframe、pandas-groupby、dask

我正尝试在Dask中执行groupby函数来创建一个新的Dask数据帧。然而，当我做groupby时，结果是一个熊猫系列。当我在Pandas中执行相同的操作时，我确实返回了一个新的数据帧。如何返回新的dask数据帧？代码如下： g1 = df1.groupby(['SFDC_Refresh_Date', 'Forecast_Category']).Total.sum().compute() g1.dtypes 返回： dtype('float64') 和 type(g1) 返回 pandas.core.series.Series 当

浏览 4提问于2019-10-09得票数 0

1回答

使用to_csv和dask忽略不匹配的列类型

python、pandas、csv、dataframe、dask

我正在尝试使用dask和Dask手册中列出的dask.dataframe.to_csv(datframe_name, file etc..)命令导出数据帧：我使用dask是因为原始的csv文件非常大(20 to )，并且使用pandas读取文件非常慢。但是，每次我尝试导出数据帧时，都会得到以下错误： ValueError: Mismatched dtypes found in `pd.read_csv`/`pd.read_table`. +----------+--------+----------+ | Column | Found | Expected | +---------

浏览 2提问于2019-10-16得票数 0

1回答

Dask的性能与数据处理

dask

我已经进口了一份大约的拼花文件。800 50~5000万行进入dask数据帧。有5列：DATE, TICKER, COUNTRY, RETURN, GICS 问题：如何在read_parquet中指定数据类型，或者必须使用astype来实现？我可以在read_parquet中解析日期吗？我只想做以下几点：将dask.dataframe导入为dd dd.read_parquet('.\abc.gzip') df‘’INDUSTRY‘= df.GICS.str0:4 n= df.INDUSTRY.unique().compute() 它需要永远的回归。我在这里做

浏览 0提问于2018-12-12得票数 1

1回答

任务合并失败，返回keyerror

python-3.x、pandas、dask

我有一个dask数据帧，如下所示： id refseqno xml 0 31110671 42 <my_xml> ... 1 34470834 6 <my_xml>... 2 35025043 19 <my_xml>... 3 37360536 7 <my_xml>... 4 44152211 10 <my_xml>... 5 45322759 15 <my_xml>.. 我想在id上运行group by，以便将相同的id分组在一起，并联接

浏览 1提问于2020-09-23得票数 0

1回答

Dask -在map_partition调用时返回dask.dataframe

python-3.x、pandas、dataframe、dask、dask-dataframe

我想知道如何在调用map_partitions而不是pd.Dataframe时返回dask Dataframe，以避免内存问题。输入数据帧 id | name | pet_id --------------------- 1 Charlie pet_1 2 Max pet_2 3 Buddy pet_3 4 Oscar pet_4 map_partitions的预期输出 pet_id | name | date | is_healty ------------------------------------------

浏览 2提问于2020-12-01得票数 0

1回答

使用Dask数据帧的自动学习预测/对dask数据帧的自动学习支持

dataframe、dask、automl、dask-dataframe

我已经使用pandas数据帧训练了我的自动学习分类模型，并试图使用dask数据帧从训练的模型中获得预测。我已经用熊猫数据帧进行了测试，并获得了正确的预测。现在，我必须对大数据集的dask dataframe执行预测任务。当我读完dask和Autosklearn的所有文档时，到目前为止还没有对此的支持。如果有人能帮上忙，那就太好了。提前谢谢。

浏览 0提问于2020-03-05得票数 0

1回答

Dask广播在计算图期间不可用

python、pandas、dask、dask-distributed

我正在尝试使用Dask，并希望向所有工作节点发送一个查找pandas.DataFrame。不幸的是，它失败了，原因是： TypeError: ("'Future' object is not subscriptable", 'occurred at index 0') 当使用lookup.result()['foo'].iloc[2]代替lookup['baz'].iloc[2]时，它工作得很好，但是:对于较大的输入数据帧实例，它似乎一次又一次地卡在from_pandas上。此外，看起来很奇怪的是，未来需要手动阻

浏览 13提问于2019-05-11得票数 1

回答已采纳

1回答

当我对Dask数据帧使用isin时抛出NotImplementedError

python、dask

假设我有两个dask数据帧： import dask.dataframe as dd import pandas as pd dd_1 = dd.from_pandas(pd.DataFrame({'a': [1, 2,3], 'b': [6, 7, 8]}), npartitions=1) dd_2 = dd.from_pandas(pd.DataFrame({'a': [1, 2, 5], 'b': [3, 7, 1]}), npartitions=1) 现在我想用第二个列的值过滤第一个： dd_1[dd_1.a.is

浏览 17提问于2019-03-20得票数 4

2回答

将groupby.apply输出连接到单个数据帧

python、pandas、dataframe、apply、dask

我使用dask dataframe.groupby().apply()，并将dask系列作为返回值。我是每个组的一个列表三胞胎，如(a，b,1)，然后希望把所有的三胞胎变成一个单dask数据帧。在映射函数的末尾，我使用这段代码将三胞胎作为df返回。 #assume here that trips is a generator for tripletes such as you would produce from itertools.product([l1,l2,l3]) trip = list(itertools.chain.from_iterable(trip)) df = pd.Dat

浏览 4提问于2017-11-10得票数 2

回答已采纳

1回答

从dask数据帧中删除有问题的列

python、pandas、dataframe、dask

我有一个包含一个有问题的列的dask数据帧，它(我相信)是每次我尝试对该数据帧执行任何操作(无论是head还是to_csv，甚至是尝试使用(不同)列)进行子集时都会抛出的特定错误的根源。错误可能是由于数据类型不匹配造成的，并显示如下： ValueError: invalid literal for int() with base 10: 'FIPS' 所以我决定删除该列('FIPS')，使用 df = df.drop('FIPS', axis=1) 现在，当我执行df.columns时，我不再看到'FIPS'，这意味着它确实已经

浏览 16提问于2019-02-17得票数 2

1回答

配置Spark写入HDFS的Avro文件大小

scala、apache-spark、hdfs、avro

我正在将Avro格式的Spark数据帧写入HDFS。我想拆分较大的Avro文件，以便它们适合Hadoop块大小，同时又不会太小。有没有什么dataframe或Hadoop选项？如何将要写入的文件拆分成更小的文件？下面是我将数据写入HDFS的方法： dataDF.write .format("avro") .option("avroSchema",parseAvroSchemaFromFile("/avro-data-schema.json")) .toString) .save(dataDir)

浏览 24提问于2019-04-10得票数 2

回答已采纳

1回答

dask dataframe应用程序不能并行执行

python、multiprocessing、dask

我有以下python脚本，其中我使用现有的pandas数据帧创建了一个dask数据帧。我使用的是多进程调度器，因为我的函数使用纯python。调度器创建8个进程(每个分区一个)，但它们是按顺序运行的，一次一个。 dask_data = ddf.from_pandas(data, npartitions=8) dask_data = dask_data.assign( images_array_1=dask_data.images_array_1.apply(lambda x: [] if x == "" else [int(el) for el in x.split(

浏览 4提问于2016-06-29得票数 1

2回答

向dask.dataframe添加dask.array列

python、dataframe、dask

我有一个dask数据帧和一个dask数组，它们以相同的逻辑顺序具有相同的行数。数据帧行通过字符串进行索引。我正在尝试将一个数组列添加到数据帧中。我尝试了几种方法，但都以其特定的方式失败了。 df['col'] = da.col # TypeError: Column assignment doesn't support type Array df['col'] = da.to_frame(columns='col') # TypeError: '<' not supported between instances

浏览 15提问于2018-01-09得票数 8