我们有大于200,000,000行的平面文件(CSV),我们将其导入到一个包含23个维度表的星型模式中。最大的维度表有300万行。目前,我们在一台计算机上运行导入过程,大约需要15个小时。因为时间太长了,我们想用40台电脑来做进口。
我的问题
如何有效地利用40台计算机进行导入。主要担心的是,在所有节点上复制维度表将花费大量时间,因为它们需要在所有节点上保持相同。这可能意味着,如果将来我们使用1000台服务器进行导入,由于服务器之间广泛的网络通信和协调,它实际上可能比使用单个服务器慢。
有人有建议吗?
编辑:
以下是CSV文件的简化:
"avalue";"anothervalue"
"bvalue";"evenanothervalue"
"avalue";"evenanothervalue"
"avalue";"evenanothervalue"
"bvalue";"evenanothervalue"
"avalue";"anothervalue"导入后,表如下所示:
dimension_table1
id name
1 "avalue"
2 "bvalue"dimension_table2
id name
1 "anothervalue"
2 "evenanothervalue"事实表
dimension_table1_ID dimension_table2_ID
1 1
2 2
1 2
1 2
2 2
1 1发布于 2011-04-26 18:42:43
在另一个注意事项上,您可以使用Windows云计算附件用于Windows:http://www.microsoft.com/virtualization/en/us/private-cloud.aspx
https://stackoverflow.com/questions/5632127
复制相似问题