我是talend的新手,对它的经验非常有限,我的任务需要在daliy的基础上执行每天从sql rds到redshift的增量更新,但是我的作业运行时传输速率非常慢,详细信息如下所示
我的sql rds查询是
SELECT
*
FROM
test.ankit2
WHERE
id > (SELECT COALESCE(max(id), 0) as id FROM test.stagetable)
ankit2是myrds中的表,stagetable是红移中的表,并使用tmap组件将组件从rds输入链接到红移输出组件请查看图像
请看一看,并提供您的建议,任何帮助将
在单个表上有一个不同的查询。
select distinct d, e, f, a, b, c from t where a = 1 and e = 2;
在cols a,b,c中的不同值的个数高(高列基数),而cols d,e,f是低基数列。我的数据是S3格式的ORC格式,我在雅典娜和红移谱中有外部表指向同一个文件。
当上面的查询在雅典娜中运行时,它会在几秒内返回,而在红移谱中则需要几分钟。
但是当我移到选择列表的末尾时,它在红移光谱中也能很好地工作。这种情况只发生在这个特定的列中,我的意思是在结尾移动d或e不会有任何区别,即它们运行的时间更长。col和其他列一样是varchar列,该列的最
我们的数据以没有分区的JSON形式存储在S3中。直到今天,我们只使用雅典娜,但现在我们尝试红移光谱。
我们正在运行相同的查询两次。一次使用红移光谱,一次使用雅典娜。两者都连接到S3中的相同数据。
使用红移频谱,这个报告需要永远(超过15分钟)的运行和使用雅典娜,它只需要10秒的运行。
我们在aws控制台中运行的两种情况下的查询如下:
SELECT "events"."persistentid" AS "persistentid",
SUM(1) AS "sum_number_of_reco"
FROM "analyti
我正在尝试删除红移表中的一些重复数据。
以下是我的查询:-
With duplicates
As
(Select *, ROW_NUMBER() Over (PARTITION by record_indicator Order by record_indicator) as Duplicate From table_name)
delete from duplicates
Where Duplicate > 1 ;
这个查询给了我一个错误。
亚马逊无效操作:语法错误在或接近“删除”;
不确定with子句的语法是什么问题似乎是正确的。以前有人遇到过这种情况吗?
我有一个,它的记录我想用AWSGlu将其插入AWS红移,我创建了爬行器来将源表和目标表.They工作得很好。
当我使用目标作为红移时,当我将记录保存在S3上而不是红移.But上时,代码就会工作,我得到了错误。
不管怎么说我总是犯错误
"StreamingQueryException:在列表碎片时出错“
import sys
from awsglue.transforms import *
from awsglue.utils import getResolvedOptions
from pyspark.context import SparkContext
from awsglue.c
最好的做法是将Graphene-Django与我的红移表集成,而不将django模型的DjangoObjectType转换作为第一步,在我的情况下,这是我没有的。
如何将这些表与schema.py中的Graphene绑定。
class CategoryType(DjangoObjectType):
class Meta:
model = Category
fields = ("id", "name")