我有一种星型模式的数据库结构,就像一个包含所有id和skey的事实表,而有多个维度表包含事实表中引用的id的实际id、代码和描述。我们将所有这些表(事实和维度)分别移动到S3 (云),并且每个表数据在S3位置被分成多个拼图文件(每个表一个S3对象)。此文件稍后将由Redshift for Analytics使用。
我的疑问:实现这个解决方案的最好方法是什么,因为我不需要Redshift中的原始数据(skey和id)来
我对sqooping的过程比较陌生,所以请原谅我的无知。我一直在尝试将数据源中的表作为拼图文件进行sqoop操作,并创建一个impala表(也作为拼图),我将在其中插入sqooped数据。/EWT_CALL_PROF_DIM_SQOOP/ec2fe2b0-c9fa-4ef9-91f8-46cf0e12e272.parquet' has an incompatible Parquet schemaColum