文章/答案/技术大牛

发布

社区首页 >问答首页 >对于HDFS文件夹的数百个下载请求，最有效的解决方案是什么？

问对于HDFS文件夹的数百个下载请求，最有效的解决方案是什么？
EN

Stack Overflow用户

提问于 2020-02-22 22:02:57

回答 1查看 42关注 0票数 0

在我的公司，我们有一个持续的学习过程。每隔5-10分钟，我们就在HDFS中创建一个新模型。模型是由几个文件组成的文件夹：

模型~ 1G (二进制文件)
模型元数据1K (文本文件)
模型具有1K (csv文件).

另一方面，我们有数百个模型服务实例，它们需要将模型下载到本地文件系统5到10分钟，然后从它服务。目前，我们正在使用来自服务的WebFS (java FileSystem客户机)，但是它可能会为我们的Hadoop集群创建一个负载，因为它将请求重定向到具体的数据节点。

我们考虑使用HTTPFs服务。它有缓存功能吗？因此，第一个请求将获得一个文件夹来服务内存，而下一个请求将使用已经下载的结果？

对于这种用例，还可以使用什么其他技术/解决方案？

hadoop

hdfs

webhdfs

httpfs

回答 1

Stack Overflow用户

发布于 2020-02-24 16:31:58

我们找到了一个很好的解决办法。

它可以用于Hadoop以减少读取负载，也可以用于Google/S3桶以降低成本。

我们只需设置几个Ngnix服务器，并将它们配置为具有文件缓存2分钟的代理。

这样，只有Ngnix机器才会从Hadoop集群下载数据。

所有服务机器(可能有数百台)都会从Nginx服务器上提取数据，在Nginx服务器上已经缓存了数据。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/60357277

复制

相似问题

问对于HDFS文件夹的数百个下载请求，最有效的解决方案是什么？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问对于HDFS文件夹的数百个下载请求，最有效的解决方案是什么？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问对于HDFS文件夹的数百个下载请求，最有效的解决方案是什么？
EN