在我的公司,我们有一个持续的学习过程。每隔5-10分钟,我们就在HDFS中创建一个新模型。模型是由几个文件组成的文件夹:
另一方面,我们有数百个模型服务实例,它们需要将模型下载到本地文件系统5到10分钟,然后从它服务。目前,我们正在使用来自服务的WebFS (java FileSystem客户机),但是它可能会为我们的Hadoop集群创建一个负载,因为它将请求重定向到具体的数据节点。
我们考虑使用HTTPFs服务。它有缓存功能吗?因此,第一个请求将获得一个文件夹来服务内存,而下一个请求将使用已经下载的结果?
对于这种用例,还可以使用什么其他技术/解决方案?
发布于 2020-02-24 16:31:58
我们找到了一个很好的解决办法。
它可以用于Hadoop以减少读取负载,也可以用于Google/S3桶以降低成本。
我们只需设置几个Ngnix服务器,并将它们配置为具有文件缓存2分钟的代理。
这样,只有Ngnix机器才会从Hadoop集群下载数据。
所有服务机器(可能有数百台)都会从Nginx服务器上提取数据,在Nginx服务器上已经缓存了数据。
https://stackoverflow.com/questions/60357277
复制相似问题