我有一个使用将数据加载到amazon RDS PostgreSQL实例中的node.js ETL系统。突然之间,我开始在向数据库中插入记录时看到随机的超时错误:
TimeoutError: ResourceRequest timed out
at ResourceRequest._fireTimeout (/home/ubuntu/myproject/etl/node_modules/generic-pool/lib/ResourceRequest.js:62:17)
at Timeout.bound (/home/ubuntu/myproject/etl/node_modul
我正在尝试使用AWS rds-数据api在极光服务器级Postgresql中执行一些繁重的etl操作。
根据文档,By default, a call times out if it's not finished processing within 45 seconds. However, you can continue running a SQL statement if the call times out by using the continueAfterTimeout parameter.
我看到支持continueAfterTimeout参数(一个布尔值)。我可以在这样的
我正在尝试对从RDS迁移到Redshift的数据使用Glue for ETL。 据我所知,胶水书签只查找使用指定主键的新行,而不跟踪更新的行。 但是,我正在处理的数据往往有频繁更新的行,我正在寻找可能的解决方案。我对pyspark还是个新手,所以如果可以在pyspark中做到这一点,我将非常感谢一些指导或正确方向的观点。如果在Spark之外还有可能的解决方案,我也很乐意听到。