首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >如何有效利用10+计算机导入数据

如何有效利用10+计算机导入数据
EN

Stack Overflow用户
提问于 2011-04-12 08:01:14
回答 8查看 463关注 0票数 9

我们有大于200,000,000行的平面文件(CSV),我们将其导入到一个包含23个维度表的星型模式中。最大的维度表有300万行。目前,我们在一台计算机上运行导入过程,大约需要15个小时。因为时间太长了,我们想用40台电脑来做进口。

我的问题

如何有效地利用40台计算机进行导入。主要担心的是,在所有节点上复制维度表将花费大量时间,因为它们需要在所有节点上保持相同。这可能意味着,如果将来我们使用1000台服务器进行导入,由于服务器之间广泛的网络通信和协调,它实际上可能比使用单个服务器慢。

有人有建议吗?

编辑:

以下是CSV文件的简化:

代码语言:javascript
运行
复制
"avalue";"anothervalue"
"bvalue";"evenanothervalue"
"avalue";"evenanothervalue"
"avalue";"evenanothervalue" 
"bvalue";"evenanothervalue"
"avalue";"anothervalue"

导入后,表如下所示:

dimension_table1

代码语言:javascript
运行
复制
id  name
1   "avalue"
2   "bvalue"

dimension_table2

代码语言:javascript
运行
复制
id  name
1   "anothervalue"
2   "evenanothervalue"

事实表

代码语言:javascript
运行
复制
  dimension_table1_ID       dimension_table2_ID
    1                      1
    2                      2
    1                       2
    1                       2              
    2                       2
    1                       1
EN

Stack Overflow用户

发布于 2011-04-26 18:42:43

在另一个注意事项上,您可以使用Windows云计算附件用于Windows:http://www.microsoft.com/virtualization/en/us/private-cloud.aspx

票数 0
EN
查看全部 8 条回答
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/5632127

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档