如何在dask中的sqlalchmey中应用多个whereclause，同时从teradata中获取大型数据集

文章/答案/技术大牛

发布

1回答

、、、

我正在尝试使用dask和sqlalchmey从teradata获取更大的数据集。我能够应用单一的code和能够获取data.below是工作代码 td_engine = create_engine(connString)t = Tableperf_counter() print("Time taken to execute the code {

浏览 19提问于2020-11-05得票数 0

1回答

将数据行从teradata表加载到mysql表

、

在这种情况下，我们需要将数据行从teradata表加载到mysql表中，对于如何开始使用它有任何提示吗？可以出口(或其他任何实用工具)帮助？ (预先谢谢:)

浏览 3提问于2014-02-27得票数 0

回答已采纳

1回答

用不同的列选择加载多个拼花文件

、、、

我想使用Dask从存储在不同目录中的许多拼板文件中加载特定的列，并且每个分区需要加载不同的列。我想使用Dask，这样我就可以在一台机器上使用多个核心。我了解了如何将文件或通配符的列表传递给dd.read_parquet，以指示多个文件(例如*.parquet)，但我没有看到传递要为每个文件读取的不同列集的方法。我想知道是否可以使用dask.del

浏览 0提问于2019-05-24得票数 1

回答已采纳

1回答

使用dask将ufunc应用于xarray单数据集变量作为延迟操作

、、

我想将自定义函数应用于xarray.Dataset中的一个变量，只修改指定的变量。同时，我正在尝试制作dask计算图的这一部分，以便在使用to_netcdf读取到磁盘之前将其延迟。目前，我可以使用ufunc应用xr.apply_ufunc()，但只能应用于数据集中的所有变量。我知道我可能可以直接使用变量的名称(如Dataset.var )访问它，并将其传递给app

浏览 0提问于2019-07-13得票数 0

1回答

在fastAPI应用程序中通过python缓慢读取小zarr/S3数据

、、、、

我有这样一个小数据集：Dimensions: (time: 24) * time (time) datetime64) float32 dask.array<chunksize=(24,), meta=np.ndarray> PM2.5 (time) float32 dask.array<chunksize此数据集是在托管于ds.where()服

浏览 10提问于2022-10-13得票数 0

1回答

如何在线程调度程序中利用多线程？

、、

我对Dask的本地线程调度程序感兴趣。此调度程序可以使用多个线程从多维数组中“并行”加载数据块。我对I/O界问题感兴趣，所以暂时不考虑计算密集型应用。使用Dask的存储方法从随机数组加载和保存数据的一些速度测试似乎证实了这一事实:随着块大小的增加，性能下降(据说是因为最小块增加了并行性)。在这个实验中，我使用没有物理块的</em

浏览 4提问于2019-11-02得票数 2

回答已采纳

1回答

cuDF -不利用GPU核心

、、、

下面是用cuDF编写的python代码，以加速这个过程。但与我的4核心本地机器cpu相比，我没有看到任何速度上的差异。

浏览 1提问于2020-04-21得票数 0

2回答

Keras模型采用dask数据模型进行训练

、、、、

我正在处理内存不足的大型数据集，我被介绍给了dataframe。我从文档中了解到，Dask并没有将整个数据集加载到内存中。相反，它创建了多个线程，这些线程将根据需要从磁盘中获取记录。因此，我假设批处理大小为500的keras模型，在训练时应该只有500条记录在内存中。但当我开始训练的时候。这需要forever.May，我正在做w

浏览 1提问于2017-11-15得票数 2

回答已采纳

1回答

用于处理多年NetCDF数据集的Dask* +X数组实施*

、、

我正在尝试使用两个水文数据集(每个70 GB )，其中包括66年的模拟日流量和其他变量。数据集具有每天的netcdf文件。我需要同时打开这两个数据集，如果我尝试使用xr.open_mfdataset打开它们，则需要1个多小时才能加载。我也尝试过使用xr.open_mfdataset('filename', parallel = True)，但是花费的时间几乎是一样的。我还尝试将完

浏览 11提问于2020-07-08得票数 0

回答已采纳

1回答

DDL脚本的自动生成

、

当组织尝试从本地Teradata实时迁移到Snowflake时，如何在Snowflake中创建所有对象？(例如数据库、模式、表和视图)。肯定不能手动创建每个对象。(假设有大约5000多个表)。DDL脚本的自动生成是如何实时完成的？此外，我正在努力避免任何第三方工具，如Roboquery。

浏览 21提问于2021-10-12得票数 0

1回答

将dask_cudf分区加载到GPU内存中时，每个分区的开销是多少？

、、

PCIE总线带宽延迟强制限制应用程序应如何以及何时将数据复制到GPU或从GPU复制数据。在直接使用cuDF时，我可以高效地将单个大型数据块移动到单个DataFrame中。当使用dask_cudf对我的DataFrames进行分区时，是否一次一个地将分区复制到GPU内存中？一批一批？如果是这样，多个拷贝操作而不是单个较大的拷贝是否会产生显著的开销？

浏览 74提问于2019-02-15得票数 2

1回答

DNA序列转化为特征

、、

我有一个包含DNA序列的数据集，我想把它们转换成一个数字表示。如本文件所示：我如何在python中应用它呢？作为数据集输入，可以对大型数组执行此操作吗？

浏览 2提问于2017-10-09得票数 1

回答已采纳

1回答

将数据返回活动、intent.putExtra或内容提供程序？

我有一个活动和一个intentService，我的intentServie从web获取一些数据，并需要将它传回活动。我目前正在使用服务中的ResultReceiver将数据传递回活动。适合于larg数据集吗?我应该如何在主要活动上更新UI (ListView) ? (它不会挂在大型dataSet上吗？)如果是

浏览 3提问于2012-04-19得票数 1

回答已采纳

2回答

使用dask的新to_sql提高效率(内存/速度)或替代将数据从dask数据获取到Server表

、、、、

所以，我和dask一起去了：但是，上面的第三条一直

浏览 4提问于2020-06-16得票数 6

回答已采纳

1回答

Bokeh +Holoview+ Datashader on Django

、、、

我们正在尝试构建一个web应用程序--Dashboard--在DJango上显示不同的交互式图表(包括单击回调、获取新数据等)，并使用Bokeh +Holoview+ Datashader。由于数据非常大，并且可能有10+ 100万个点，所以我们使用的是datashader。但是，由于我们使用了Datashader，所以数据是在静态html中聚合和转换的，当我们放大时，我们不会从端获取我们正在寻找<

浏览 6提问于2020-08-04得票数 0

1回答

Teradata: ANSI和TERA模式在记录插入方面的区别

、

我正在开发一个应用程序，该应用程序从Hadoop获取记录，并通过sqoop(JDBC)将它们插入Teradata中。对于连接，我使用TERA模式，目标表被设置为表。我得到了一些数据集的重复行问题。

浏览 3提问于2013-07-23得票数 0

回答已采纳

1回答

TensorFlow数据集如何处理无法装入服务器内存的大型数据？

问题Spark可以处理具有多个节点的大型数据。对于中的问题，答案是使用Tensorflow变换，它使用Apache，它需要分布式计算集群(如Spark )。如果我们有较大的数据集，比如一个50 do的CSV文件，那么如何计算平均值或其他类似的统

浏览 3提问于2020-08-09得票数 1

2回答

Laravel dabatabse正面内存使用情况

、、、

我发现了用php pdo编写的一个很好的例子，它有助于迭代大量的数据，而不实际为整个结果分配内存： //do something我做了一个调查，这种方法使用了内存的18mb。如果我获取像这个$results = $statement->fetchAll(PDO::FETCH_ASSOC);这样

浏览 2提问于2019-03-06得票数 3

回答已采纳

5回答

打开一个大型JSON文件

、、

我有一个1.7GB的JSON文件，当我试图用json.load()打开时，它会产生内存错误，那么如何在python中读取JSON文件呢？>>>for line in open(&

浏览 6提问于2012-05-23得票数 13

2回答

生成存储资源的队列

、、、、

我有一个大型数据集存储在一个Firestore集合中，一个Nodejs应用程序(作为一个火基functions.https.onRequest公开)有一个端点，它允许用户查询这个数据集并下载大量数据。我需要从端点返回CSV格式的数据。因为有大量的数据，所以我希望避免每次命中端点时进行大型数据库读取。我现在的端点是这样做

浏览 4提问于2020-08-13得票数 0

回答已采纳

点击加载更多