PrinterBolt", new LocalFile(), 6).setNumTasks(4)我从KafkaSpout获取tweet并将其发送给bolt进行预处理,我的问题是在avgScoring中调用S3,因为我为每个用户设置csv,并为每个用户计算每个tweet的得分。我有100个用户,这意味着我的平均得分必须为s3中所有用户数的每条推文计算平均得分。它相当慢,我怎么才能提高这个螺栓的性
我在从S3下载一个较大(3.5 an )的文件到EC2实例时遇到了一些间歇性问题。大约95%的时间,它工作得很好,而且速度很快--可能只有30秒。但是,5%时间它会停止,且可能需要2个小时以上的时间才能下载。重新启动作业通常可以解决此问题-表明此问题是暂时的。这让我觉得我下载文件的方式有问题。下面是我的实现-我将读取流通过管道传输到磁盘,并返回一个promise,当它完成(或出错时拒绝)时,promise就会解析。 这是使用node.js从</