如何使用Dask在read_sql_table中使用sqlalchemy表达式？

)', conn_cx_Oracle), npartitions = 10)想法？不适用于我的用例？下面以及在</

浏览 1提问于2019-08-12得票数 0

1回答

、、、

我正在使用df = dd.read_sql_table('mytable_name', 'connection_string',npartitions=10, index_col='id')创建一个Dask但是它正在获取表中的所有行。我想限制行数或应用一些条件。为此，根据官方文档，我们可以使用sqlalchemy表达式。我正在尝试编写sqlalchemy表达式，但没有一种方法对我有效。这是我<

浏览 25提问于2020-02-14得票数 2

回答已采纳

3回答

在使用SQLAlchemy表达式时排除read_sql_table错误

、、、

我正在尝试将SQLAlchemy表达式与dask的read_sql_table一起使用，以减少通过连接和过滤几个不同的表而创建的数据集。documentation表明这应该是可能的。我构建了我的连接字符串，创建了一个SQLAlchemy引擎和与我数据库中的一个表相对应的表。(我使用的是PostgreSQL。)import dask.dataframe as ddfrom sqlalch

浏览 158提问于2019-02-22得票数 2

回答已采纳

1回答

如何在分布式Dask上运行SQLAlchemy查询？

、、、、

我正在尝试使用我设置的dask集群来运行和并行化这个sqlalchemy查询，因为我没有足够的内存从本地计算机执行它。我的代码如下-我不确定这是否是实现这一目标的最佳方法： from dask.distributed import Clientfrom dask.delayed"""SELECT * FROM table WHERE date = '%s'""&

浏览 43提问于2020-04-26得票数 0

回答已采纳

1回答

是否有一种方法在dask* read_sql_table中将列设置为空？*

、、

一开始，我试着在熊猫上使用大块头，但是不管我设置了什么体型，我总是会有一个记忆错误。然后我尝试使用Dask，因为我知道它对大量的数据更好。但是，有一些列需要使其为空，是否可以在read_sql_table查询中执行此操作，就像在熊猫中一样，当您可以写出sql查询时？干杯

浏览 3提问于2019-11-15得票数 0

回答已采纳

1回答

使用Dask库连接到Impala DB

、、、

我正在尝试通过Dask Library连接到Impala DB，以便使用read_sql_table()从表中获取所有数据。需要连接字符串连接，我已经尝试使用连接字符串，我通常在Dbeaver连接，但它失败了，无法加载插件：'impala‘。是否有人可以帮助我使用Dask库连接到Impala DB，或者让我知道Dask是否支持Impala连接？谢谢。

浏览 46提问于2021-11-09得票数 0

2回答

为什么达斯克的read_sql_table需要一个index_col参数？

、

我正在尝试使用来自dask的read_sql_table，但我面临一些与index_col参数相关的问题。我的sql表没有任何数值，我也不知道如何给index_col参数。我在文档中看到，如果index_col是"object“类型，我必须提供”values“参数，但在读取表之前，我不知道index_col中的值是什么。我真的很困惑。不知道为什么在使用read_sql_table时我必须给出一个index_col，但在<e

浏览 1提问于2020-07-09得票数 3

1回答

可以将dask* dataframe与teradata python模块一起使用吗？*

、、

我有这样的代码： import teradatapwd = password udaExec = teradata.UdaExec我想要一个dask数据帧。

浏览 14提问于2019-04-21得票数 0

1回答

Dask Dataframe不能容忍其中的NA值吗？正在获取ValueError，无法转换非限定值

、、

我还在学习Dask如何使用数据库：我有一个从本地sql DB成功复制的Dask数据帧，如下所示： ddf_authorized = dd.read_sql_table("cz_transaction_authorizedNA值来检查Dask Dataframes？因为我对Pandas很熟悉，并且对NA值没有任何问题，所以必须在Dask中看到这个问题。更新:我正在对根本原因做一些研究..我尝试将数据库中的一个表导出到csv文件中，它没有NA

浏览 24提问于2019-12-17得票数 2

1回答

当数据不能放入内存时，将dask数据帧存储到拼图

、

我正在尝试将dask数据帧的内容存储到拼图。使用read_sql_table从数据库中读取内容 import dask.dataframe as dddf.to_parquet(path) 当我这样做的时候，首先将所有数据读取到内存中。如何将数据分块或通过管道传输，以使此操作成功？ (我正在使用快速拼接作为引擎，但并未与其结合使用。)

浏览 23提问于2020-07-02得票数 0

1回答

Dask + PostgreSQL read_sql_table:错误的数据类型index_col

、、

我正在尝试对一个非常大的PostgreSQL表中的列运行mean()函数。因为我不能在内存中加载列，所以我选择了并行和Dask分布式分区。系统配置： 12 cores / 24 threadsSSD 我已经尝试(1)在1个进程中最大化线程计数(24)，(2)在每个进程中都尝试最大化线程计数(24)。此任务主要由用于设置SQL连接的sqlalchemy组件组成。从延迟的任务的长执行时间似乎与sql查询有关:我的索引列是bigint数据类型，但Dask基于fl

浏览 26提问于2019-08-28得票数 2

回答已采纳

1回答

如何在python中读取dask中的表

、

Features" , conn) conn = pyo

浏览 7提问于2020-04-10得票数 0

回答已采纳

1回答

dask read_sql_table在具有数字日期时间的sqlite表上失败

、、

我得到了一些大型sqlite表，我需要将它们读入到dask数据帧中。表中的列具有存储为sqlite NUMERIC数据类型的日期时间(ISO格式的字符串)。我能够使用Pandas的read_sql_table读入这种数据。但是，来自dask的相同调用给出了一个错误。有人能建议一个好的变通办法吗？import sqlalchemyimport dask.dataframe as ddf connString =

浏览 13提问于2018-01-25得票数 2

回答已采纳

1回答

Dask read_sql_table不返回数据

、、

我试图使用read_sql_table方法将整个表放入dask dataframe中，但由于某种原因，我没有在dataframe中获得任何数据。我已经为此苦苦挣扎了好一阵子了。import dask.dataframe as dd url = "oracle+cx_oracle://user:pass@server:port/?

浏览 11提问于2019-03-20得票数 0

1回答

如何将.pem文件发送到Dask集群？

、、、、

在尝试以分布式方式运行sqlalchemy查询时，我有一个如下所示的dask表达式。但是，它引用了在connect_args参数中输入的.pem密钥文件。如何将此密钥文件上载到dask群集/工作器，以便它允许我运行此sqlalchemy查询？return pd.read_sql(q, conn) delayed(execute_query)(q) for q in qu

浏览 17提问于2020-04-27得票数 0

回答已采纳

1回答

红移到dask* DataFrame*

、

(sql, con, chunksize=None)pandas.read_sql_table(table_name, con, schema=None, chunksize=None) 与SQLAlchemy

浏览 3提问于2017-09-27得票数 3

回答已采纳

1回答

将SQL查询读取到Dask* DataFrame中*

、、、、

我正在尝试创建一个函数，该函数将SELECT查询作为参数，并使用dask使用dask.read_sql_query函数将其结果读入dask中。我是达斯克和SQLAlchemy的新手。问题是，dask需要推断列的类型，并通过读取表中的第一个head_row行(默认情况下为5行)并推断那里的类型。dask代码库中的这个向查询添加了一个LIMIT ?我可以简单地使用pandas.read

浏览 12提问于2022-05-24得票数 3

2回答

无法使用dask读取数据

、

我希望使用dask.read_sql获取sql数据。我的代码是password='piddata", con=conn_str, index_col='id')File "C:\Program Files\Python38\lib\site-packages\<

浏览 36提问于2022-08-21得票数 0

1回答

Pandas正在使用大量内存

我使用Pandas将表的内容从oracle、mysql和postgress复制到postgress。连续使用15天左右，CPU内存消耗非常大。它通常每两天至少传输500万条记录。

浏览 0提问于2019-08-05得票数 0

1回答

Datashader中的分段绘图-数据超过我的内存

、

然而，所有的示例都必须在具有大量ram的机器上完成，或者只是不使用那么大的数据集。因为我在做大图的时候会炸掉我的16 do的内存。我毫不怀疑Datashader可以处理数据，然而，我不知道如何加载它并逐段绘制它。需要明确的是，它不是在绘图期间，而是实际上通过从数据库读取失败了-然而，由于Datashader是一个用于绘制非常大的数据的库，所以必须有一些方法来代替在df中加载所有内容并传递它？

浏览 19提问于2020-06-11得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何将大型Oracle表的子集加载到dataframe中？