如何使用dask dataframe将列转换为类别'as_known()‘？_如何将嵌套的json列从postgresql数据库转换为使用python或查询的dataframe？ - 腾讯云开发者社区

python、dask、dask-distributed

我正在尝试将列转换为类别，以便执行pivot_table操作。/dataframe/core.py in pivot_table(self, index, columns, values, aggfunc) ValueError: 'columns' must be category dtype 因此，我尝试转换列：user_item.song_id =

浏览 14提问于2019-02-12得票数 0

回答已采纳

1回答

如何将dask数据交换(将列转换为行)以接近整洁的数据原则

python、twitter、dataframe、transpose、dask

TLDR：我从一个dask包创建了一个dataframe。dask dataframe将每个观察(事件)作为一列对待。因此，我没有为每个事件设置行数据，而是为每个事件设置了一列。其目标是将列转换为行，就像熊猫可以使用df.T转换数据格式一样。 Details：我有。为了达到我的起点，下面是将json从磁盘读入dask.bag并将其转换为d

浏览 7提问于2016-08-04得票数 4

回答已采纳

1回答

为什么dask_ml.preprocessing.OrdinalEncoder.transform会产生不按序号编码的结果？

dask、dask-dataframe、dask-ml

我对的结果感到困惑from dask_ml.preprocessing import OrdinalEncoderas DaskOrdinalEncoderimport pandas as pd np.random.seed(1234) [1., 2.], [1., 0.],

浏览 7提问于2021-05-07得票数 0

回答已采纳

1回答

如何在dask中转换/重命名类别

python、dask

我正在尝试将dask数据帧的dtype 'category‘列的类别重命名为从1到len(类别)的一系列数字。/dask/dataframe/core.py", line 3186, in _property_map out = self.getattr(self._series./dask/dataframe/core.py", lin

浏览 0提问于2016-10-19得票数 1

2回答

每个Dask* Dataframe列中的唯一值数*

python、dask

我有一个名为train的Dataframe，它是从一个大型CSV文件中加载的，我想在每一列中计算唯一值的数量。num = train[col].nunique().compute() print(line) 但是，上面的代码将为每一列遍历巨大的Dask能有效地计算每列中唯一值的数目吗？类似于潘达斯中的DataFrame.nunique()函数。

浏览 2提问于2020-12-27得票数 0

回答已采纳

1回答

从dask* dataframe提供程序收集属性*

python、pandas、dask

TL;DR：我如何从分布式读取中收集元数据(解析期间的错误)到dataframe集合中。目前，我有一种专用的文件格式，用于输入dask.DataFrame。我有一个函数，它接受一个文件路径并返回一个pandas.DataFrame，dask.DataFrame成功地在内部使用该函数将多个文件加载到同一个dask.DataFrame。直到最近，我还在使用自己的代码将</em

浏览 7提问于2016-01-26得票数 2

回答已采纳

1回答

将行值转换为多列-任务

dask、dask-dataframe

其中很少部分需要转换为列作为标题。经过几次dask计算后，我将我的数据帧缩减如下： In [9]: df.compute() *5 5 Segmentation 6 6 Sector 是否可以将行转置为列，并使用dask本身创建新的数据帧？In [22]: df_fi

浏览 16提问于2020-01-28得票数 1

1回答

Dask“列分配不支持时间戳”

python、pandas、datetime、dask

试图将熊猫日期时间添加到Dask DataFrame中，下面是可复制的示例：import pandas as pdiris = datasets.load_iris() #

浏览 1提问于2018-02-12得票数 2

回答已采纳

3回答

避免GroupBy在大型Pandas DataFrame上的内存问题

python、pandas、dataframe、memory、dask

df是这样创建的：encoded = pd.get_dummies(df, columns=['account'])df = dd.from_pandas(encoded, 50)result = df.groupby('journal_entry除四列外，所有列均

浏览 1提问于2018-04-26得票数 12

回答已采纳

1回答

我有一个已知的带有分类数据类型的Dask.Series。我想创建一个小的dataframe，它显示相关的映射，而不必计算整个系列。我该如何实现这一点？import pandas as pdfrom dask_ml.preprocessing import Categorizer df = pd.read_csv中创建了一个类别系列。通过使用test.cat.codes，我可以将</em

浏览 10提问于2020-11-14得票数 0

回答已采纳

2回答

保存文本数据的大型Pandas df到磁盘崩溃Colab，因为耗尽了所有的RAM。有解决办法吗？

python、pandas

我有一个非常大的Pandas数据帧，我想把它保存到磁盘上，以便以后使用。数据帧仅包含字符串数据。然而，无论我使用哪种格式，保存过程都会导致我的Google Colab环境崩溃，因为除了CSV之外，所有可用的RAM都会用完，CSV甚至在5小时后都不会完成。from sqlalchemy import create_engine engine = sqlalchemy.create_engine("sqlite:///database.db&qu

浏览 2提问于2019-05-29得票数 2

2回答

相当于pd.to_numeric的Dask

dask、dask-distributed

我正在尝试读取多个CSV文件，每个文件大约15 GB，使用dask read_csv。在执行此任务时，dask将特定的列解释为float，但是它有一些字符串类型的值，后来当我尝试执行某些操作时，它失败了，说明它无法将字符串转换为float。因此，我使用dtype=str参数将所有列作为字符串读取。现在，我希望将特定的列转换为numeric with errors=‘column’，

浏览 60提问于2019-06-26得票数 7

1回答

Dask one-hot-编码，不知道类别

python、dask、one-hot-encoding

from sklearn.preprocessing import MultiLabelBinarizermlb = MultiLabelBinarizer() df_tmp = pd.DataFrame(mlb.fit_transform(df['CatData']), columns=mlb.classes_, index=df.index) 其中，我的CatData列包含类别列表。为了处理更大的数据集，我尝试使用dask。大多数pandas功能都有一个简单的替代方法。

浏览 8提问于2019-09-20得票数 1

1回答

使用dask.bag和pandas.DataFrame将字典的dask.delayed转换为dask.dataframe

dask、dask-delayed

我正在努力将字典的dask.bag转换为dask.delayed pandas.DataFrames，使之成为最终的dask.dataframe 我有一个函数(make_dict)将文件读入相当复杂的嵌套字典结构，另一个函数(make_df)将这些字典转换为pandas.DataFrame (由此产生的数据为每个文件大约100 mb )。我成功地将数据加载到dask.bag中，生成

浏览 3提问于2019-03-22得票数 5

回答已采纳

1回答

如何操作Dask的group by返回的组？

dask

value category1 20 B3 40 B 我想添加一个mean列，其中包含每个类别的值的平均值。我不能按原样使用pandas函数，因为你不能在Dask中枚举groupby对象。这 import dask.dataframe as dd list(d.groupby("category"))

浏览 15提问于2019-10-18得票数 0

回答已采纳

1回答

Dict to dask数据帧

python、pandas、dataframe、dask

每个delayed对象的计算值必须转换为dask.Dataframe中的一个条目。(myfunc)(source) values1[source_name] = dask.delayed(myfunc1)(intermediate) df1 =df

浏览 26提问于2020-07-28得票数 0

1回答

如何从urls列表中创建DataFrame？

python、pandas、dask

我有一个URL列表，我很想立刻将它们读到dask数据框架中，但是看起来read_csv不能为http使用星号。有什么办法做到这一点吗？

浏览 1提问于2017-03-29得票数 4

回答已采纳

1回答

在dataframe上进行Dask计算以添加列返回AttributeError

python、json、pandas、dask、dask-dataframe

我有一个函数，它使用函数将列添加到DataFrame中，例如 resp_data = {'status': '1', 'data': x}return json.dumps(resp_data)import dask.da

浏览 2提问于2022-01-27得票数 1

回答已采纳

1回答

将转换后的日期时间str分配给dask* df。*

python、pandas、datetime、dask、dask-dataframe

我把我的dask dataframe字符串日期列转换为一个熊猫日期时间，它创建了一个datetimeindex。当我尝试将它重新分配给源dask dataframe时，使用ValueError: Length of values (1000000我尝试将datetimeindex转换为pd.dataframe，但转换成功，但不能将该pd.df添

浏览 5提问于2022-02-26得票数 0

4回答

如何读取一个非常大的CSV的一小部分行。熊猫-时间序列-大型数据集

python、pandas、time-series、bigdata

我在一个大的文本文件中有一个时间序列。该文件超过4GB。理想的极简主义例子： load_line_percentage = 1)期望产出： 0, 654564 200, 54 ... 加载后我不能重采样，因为首

浏览 0提问于2019-05-23得票数 2

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云