我正在努力寻找最好的组件来构建类似于Splunk的组件,以便从计算网格中的大量服务器上聚合日志。另外,它应该被分发,因为我每天都有很多日志,没有一台机器能够存储日志。
我特别感兴趣的东西将与Ruby工作,并将在Windows和最新的Solaris (是的,我有一个动物园)。
我认为建筑是:
日志爬虫和分布式搜索引擎没有问题-日志将由Ruby解析,ElasticSearch将用于索引日志消息。前端也很容易选择-辛纳屈。
我的主要问题是分布式日志存储。我看了MongoDB,CouchDB,HDFS,Cassandra和HBase。
所以我卡住了。一些东西告诉我HDFS或HBase是最好的作为日志存储的工具,但是HDFS只有在Java中才能顺利地工作,而HBase只是部署/监视的噩梦。
有谁能分享它的想法或经验,使用我上面描述的组件构建类似的系统,还是使用完全不同的组件?
发布于 2010-10-15 10:51:00
我建议使用水槽将数据聚合到HBase中。您还可以使用弹性搜索槽 for Flume来实时更新搜索索引。
有关更多信息,请参见我对Quora类似问题的回答。
发布于 2010-06-22 19:46:52
关于Java和HDFS --使用像BeanShell这样的工具,您可以通过Javascript与HDFS存储进行交互。
https://stackoverflow.com/questions/3096131
复制相似问题