在spark作业中,我需要从cosmosdb中检索大约20000个文档的数据,这些文档的ids和分区键我都知道。我当前的代码是准备一个查询SELECT * FROM c WHERE c.pkey = %{pkey}i AND c.id in (%{ids}s),它非常慢,我有一个循环来顺序查询cosmosdb,在这个查询中从同一个分区注入一批(然后使用联合来组装数据帧) 每个查询都需要30秒到1分钟的时间。在SQLServer中会快得
为了安装Azure CosmosDB Jar Library(PySpark 2.4),我一直在跟踪Databricks Official guide,让它包含一个数据库集群(作业集群,而不是活动集群这是我的init脚本: dbutils.fs.put("/databricks/scripts/cosmosdb-install.sh",""" ..
我正在尝试配置Azure数据工厂查找活动,以从CosmosDb容器获取最大日期时间字段值。但不幸的是,最简单的查询完全不起作用,查询是 SELECT max(members.lastModifiedOn) as dt FROM members 在CosmosDb控制面板中,我们可以看到结果[ "dt": "2020-09-01T07:32:03.6733333"] 但在Azure数据工厂预览中</e