Dask使用SQLAlchemy join作为dask.dataframe.read_sql - index_col的表不能让熊猫和dask都高兴 - 腾讯云开发者社区

、、

我创建了一个SQLAlchemy sqlalchemy.sql.selectable.Join对象，以便可以将多个表的连接引入到dask数据帧中。True}).string, engine, index_col='COL1') 然而，如果我尝试用dask做同样的事情，我会遇到两个错误中的一个，Pandas或Dask都找不到我引用的列。熊

浏览 7提问于2020-03-17得票数 0

回答已采纳

1回答

持久化来自read_sql_table的dask数据帧问题&了解dask分布式Client.get_future_errors输出

、

使用dask-ec2脚本设置集群后，我尝试将sql表作为dask数据帧读取。我的查询如下所示：from dask.distributed import Client, progress[date_column_1, date_column_2]) 其中sq

浏览 0提问于2018-01-09得票数 1

1回答

将SQL查询读取到Dask* DataFrame中*

、、、、

我正在尝试创建一个函数，该函数将SELECT查询作为参数，并使用dask使用dask.read_sql_query函数将其结果读入dask中。我是达斯克和SQLAlchemy的新手。(sql=query, con=con_string, index_col="name", npartitions=10) 您可能已经知道，这是行不通的，因为sql参数必须是一个可选择的</e

浏览 12提问于2022-05-24得票数 3

2回答

使用dask的新to_sql提高效率(内存/速度)或替代将数据从dask数据获取到Server表

、、、、

所以，我和dask一起去了：但是，上面的第三条一直是主要的瓶颈。对于上面的#1、#2<

浏览 4提问于2020-06-16得票数 6

回答已采纳

3回答

达克DataFrame卷绕KilledWorker read_sql

、、

我正在尝试运行一个Dask集群和一个Dash应用程序来分析非常大的数据集。我能够成功地运行一个LocalCluster，并成功地执行DataFrame计算。Dash应用程序是使用以下gunicorn命令启动的： table, conn_string, npartitions=10, index_c

浏览 1提问于2021-12-03得票数 0

回答已采纳

0回答

Dask图的执行和内存使用

、、

一种模式是，我有大约50-60个函数，用于加载数据和构造pandas数据帧，每个数据帧大小为几百MB (并且逻辑上表示单个表的分区)。我想将这些连接到图中下游节点的单个dask数据帧中，同时最小化数据移动。(df) for df in dfs]所有的熊猫数据帧在它们<e

浏览 6提问于2017-06-07得票数 4

1回答

在read_sql_table之后无法持久化dask数据帧

、

我正在尝试将数据库表读入dask数据帧，然后持久化该数据帧。我尝试了一些变体，它们要么导致内存不足，要么导致错误。下面是设置700MB SQLite表以重现该问题的代码。(请原谅python代码中的任何笨拙--我已经做了10年的SAS数据分析师。我正在寻找

浏览 67提问于2018-01-02得票数 0

回答已采纳

1回答

使用bonobo_sqlalchemy连接Bonobo中的交叉数据库

、、

我一直试图在Bonobo中加入不同的数据源(MySQL和PostgreSQL)，但到目前为止，我一直在努力应对paralelism，而bonobo是否是最适合这样做的工具？graph 但是，在我的情况下，atm真正需要的是用另一个表中的另一个数据加入这个获取(这可能是dask/熊猫中的一种连接)。bonobo_sqlalchemy.Select('SELECT * FROM ta

浏览 6提问于2020-04-14得票数 0

3回答

Dask DataFrame.to_parquet在读重分区写入操作中失败

、、、、

([dask.delayed(read_file)(x, indx) for (indx, x) in enumerate(files_list)])选择新的分区，以便每个分区中文件的总内存不超过1000 MB。但是，最后的to_parquet调用将永远挂起。在dask仪表板上，没有任何活动。所有工作人员消耗的内存仍然非常小(55 it )，至少在仪表板中

浏览 12提问于2022-03-15得票数 2

回答已采纳

2回答

Modin | Dask* | Data.table | Pandas并行处理与内存不足csv文件的比较*

、、、

Dask | Modin | Data.table的基本区别和主要用例是什么我查看了每个库的文档，所有这些库似乎都为pandas的局限性提供了一个“类似”的解决方案

浏览 5提问于2019-06-07得票数 13

2回答

尝试按列删除值(我将这些值转换为nan，但可能是任何值)不起作用

、

在给定某个阈值的情况下，尝试按列丢弃NAs，然后收到下面的错误。可复制的例子。import pandas as pd # Create the pandas

浏览 13提问于2022-05-25得票数 1

回答已采纳

2回答

将两个具有一对多关系的CSV表转换为具有嵌入子文档列表的JSON

、、、

我有两个CSV文件，它们之间有一对多的关系。Python和Pandas，比如： import pandas group.reset_index(inplace=True)orient='records') attributes = pandas.read_csv('attributes.csv', index_col在我的整个数

浏览 15提问于2020-12-13得票数 0

2回答

我有一个Cudf dataframe，它看起来像这样列POSITION_ANTENNA1和POSITION_ANTENNA2的d类型是列表，我希望构造一个列= POSITION_ANTENNA1有没有办法做简单的列表操作，而不把它转换成熊猫。编辑：df_merged['BASELINE'] = df_merged.POSITION_ANTENNA1-df_merged.POSITION_ANTENNA2 我得到了这个错误

浏览 7提问于2022-05-25得票数 1

1回答

从MYSQL查询时read_sql错误

、、、、

我使用python2.7和dask，并试图从远程机器查询db表到dask dataframeddf = dd.read_sql_table("tableDbname",spesific column name).head() start = asanyarray(start) * 1.0 TypeError: ufunc 'multiply‘不包含带有签名匹

浏览 1提问于2017-11-30得票数 0

回答已采纳

1回答

Dask DataFrame过滤器和重新分区给出了一些空分区

、、、

我正在尝试过滤一个Dask DataFrame，然后使用map_partitions对每个分区应用一个函数。该功能预计熊猫DataFrame至少有一排。下面是作为pandas DataFrame (然后转换为Dask DataFrame)为MCVE生成一些虚拟数据的代码 df = pd.DataFrame每个分区有6行和一个(唯一的) store_id。因此，每个分区都包含单个store

浏览 1提问于2020-05-08得票数 1

回答已采纳

2回答

如何分块(子矩阵)，或处理一个巨大的矩阵产生内存错误的numpy？

、、、、

我有一个非常大的矩阵，不能简单地放入内存中。我必须使用的矩阵有483798149136元素，这意味着4830亿个浮点数。复制此矩阵的代码如下：np.meshgrid(a,a) 我的分裂和汇集方法是可行的，还是有其他更好

浏览 0提问于2019-03-01得票数 4

回答已采纳

1回答

大型Dask/Pandas (27M行x 52列) .to_csv或.to_sql MemoryError

、、、、

我将两个较大的.csv文件附加到一起，使用dask形成一个更大的.csv文件(27M行x 52列)，以便节省内存，而不是使用pandas，因为我在pandas中内存不足或接近内存。我想把这个问题集中在如何在不耗尽内存的情况下简单地将这个东西放到.csv中。然后，我计划使用SQL Server的导入向导将该文件导入到数据库中的一个新表中。参见下面的代码，了解我如何读取和concat<

浏览 25提问于2020-06-12得票数 0

2回答

dask数据帧读取地板模式差异

、、、

我所做的工作如下：from dask.distributed import Clientdataset是从Mathew所做的演示中提取出来的，并被用作dask da

浏览 0提问于2018-07-20得票数 2

回答已采纳

1回答

Dask Dataframe n唯一操作:内存不足的工作人员(MRE)

、、、、

长版如果作为熊猫数据加载，所有数据都会在内存中接受20GB。由于分区采用<em

浏览 0提问于2021-03-18得票数 2

回答已采纳

15回答

如何使用pandas读取大型csv文件？

、、、、

我正在尝试读取一个大的csv文件(aprox。

浏览 1提问于2014-09-22得票数 258

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云