我目前正在实现对HDFS和Hive表进行数据监视的ETL (Talend)。我现在正面临着对重复的担忧。更详细地说,如果我们需要使用相同的输入运行一个ETL作业2次,我们将在我们的Hive表中以重复的形式结束。
实际上,ETL正在将CSV文件放入HDFS,该文件用于向ORC表提供"INSERT INS
我正在使用talend for ETL我没有足够的经验在这方面,我有两个表,例如- account和account_roles帐户表有id,名称,密码等字段和account_roles表有account_id但是我得到了错误,因为我没有任何表可以被视为account_roles表中的主键,所以talend不能更新或插入它。如何处理这种情况我尝试了tDBOutput高级选项use_field_option,但它仍然需要唯一的条目。如果是,那么如何在talend OPen studio中制作