我正在写一个ETL (在python中有一个mongodb后端),我想知道:一个ETL应该有什么样的标准函数和工具才能被称为ETL?
这个ETL将尽可能具有通用性,采用可脚本化和模块化的方法。大多数情况下,它将用于保持不同数据库的同步,以及以不同格式(xml和csv)导入/导出数据集。我不需要任何多维工具,但有可能以后会需要它。
发布于 2009-08-24 10:26:52
让我们考虑一下ETL用例。
读取电子表格
的
cleanse
中任意时间点的
此外,还有一些不是单一用例的额外需求。
请注意。因为ETL是受I/O限制的,所以多线程对你没什么好处。由于每个进程都要运行很长时间--特别是当您有数千行数据要处理时--“重量级”进程的开销不会有任何影响。
发布于 2009-08-24 09:49:34
下面是一个随机列表,没有特定的顺序:
连接到广泛的源,包括所有主要的关系型databases.
发布于 2009-08-24 11:38:42
列名的自动/启发式映射。例如简单的字符串映射:
DB1: customerId
DB2: customer_id
我发现我在DTS / SSIS中所做的很多工作都可以自动生成。
https://stackoverflow.com/questions/1321396
复制相似问题