我正在BE模式下运行我的flume (Flum0.9.4-cdh3u 4)流,代理和收集器都位于不同的机器上,它们都是大型EC2实例。
收集器写入本地文件系统以及同一区域中的S3桶。在E2E模式下配置的代理已经过测试,以处理4MB/s,代理<->收集器的速度也是如此。使用“iftop”,我注意到收集器与S3之间有两个传出连接,对s3的写入吞吐量徘徊在40 by
我希望在ML管道中使用FastText模型,它是我在s3上创建并保存为.bin文件的。我希望所有这些都保持在一个基于云的管道中,所以我不想要本地文件。我也不确定是否以最有效的方式保存和读取FastText模型。下面的代码可以工作,但它将文件保存在本地,这是我想要避免的。import smart_openlisted = b