问将数据加载到OrientDB集群中的策略
EN

Stack Overflow用户

提问于 2016-08-26 15:08:27

回答 1查看 137关注 0票数 0

我正在使用OrientDB开发一个POC。我已经在3台服务器上设置了它。我阅读了OrientDB文档，并想知道以CSV文件的形式加载数据的最佳方法。该模式具有3个类顶点和3个类边，它们之间应该相互关联。

以下是我的一些问题：

1)就ETL性能而言，如果为每个类创建3个集群并将每个集群分配给其中一个服务器，这是否有意义？(基于这个链接：http://orientdb.com/docs/2.2.x/Distributed-Sharding.html --我在现阶段不担心容错)

2)关于ETL存储过程，我正在考虑三个选项：

对于第二和第三种方法，我需要手动提供记录Ids，我怀疑如何确保不创建重复的顶点。索引有助于避免这种情况吗？以上三种方法在性能上比较如何？

3)是否可以使用ETL工具中的"plocal“选项将OrientDB集群的一个服务器存储在该机器中？

( 4)即使OrientDB在分布式模式下运行，也可以对ETL使用plocal选项吗？

发布于 2016-08-26 18:39:46

合乎道理。也要注意副本，因为对于3台服务器，如果将相同的集群复制到所有服务器上，则会慢一些(当然)
如果不需要复杂的转换，我建议您使用ETL。如果速度慢，可以用Java编写代码
4.它是支持的，但不是来自oetl.sh脚本。您必须编写一个Java类，其中包含几行代码：(1)以嵌入式的形式启动分布式服务器，然后运行ETL类(com.orientechnologies.orient.etl.OETLProcessor).

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/39169421

复制

相似问题

问将数据加载到OrientDB集群中的策略EN