首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >对于HDFS文件夹的数百个下载请求,最有效的解决方案是什么?

对于HDFS文件夹的数百个下载请求,最有效的解决方案是什么?
EN

Stack Overflow用户
提问于 2020-02-22 22:02:57
回答 1查看 42关注 0票数 0

在我的公司,我们有一个持续的学习过程。每隔5-10分钟,我们就在HDFS中创建一个新模型。模型是由几个文件组成的文件夹:

  1. 模型~ 1G (二进制文件)
  2. 模型元数据1K (文本文件)
  3. 模型具有1K (csv文件).

另一方面,我们有数百个模型服务实例,它们需要将模型下载到本地文件系统5到10分钟,然后从它服务。目前,我们正在使用来自服务的WebFS (java FileSystem客户机),但是它可能会为我们的Hadoop集群创建一个负载,因为它将请求重定向到具体的数据节点。

我们考虑使用HTTPFs服务。它有缓存功能吗?因此,第一个请求将获得一个文件夹来服务内存,而下一个请求将使用已经下载的结果?

对于这种用例,还可以使用什么其他技术/解决方案?

EN

回答 1

Stack Overflow用户

发布于 2020-02-24 16:31:58

我们找到了一个很好的解决办法。

它可以用于Hadoop以减少读取负载,也可以用于Google/S3桶以降低成本。

我们只需设置几个Ngnix服务器,并将它们配置为具有文件缓存2分钟的代理。

这样,只有Ngnix机器才会从Hadoop集群下载数据。

所有服务机器(可能有数百台)都会从Nginx服务器上提取数据,在Nginx服务器上已经缓存了数据。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/60357277

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档