首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

干货丨Tachyon:Spark生态系统中的分布式内存文件系统

本文将先向读者介绍Tachyon在Spark生态系统中的使用,也将分享百度在大数据平台上利用Tachyon取得的性能改善的用例,以及在实际使用Tachyon过程中遇到的一些问题和解决方案。...Tachyon系统架构 在上一章我们介绍了Tachyon的设计,本章我们来简单看看Tachyon的系统架构以及实现。...所有的Tachyon Worker都被Tachyon Master所管理,Tachyon Master通过Tachyon Worker定时发出的心跳来判断Worker是否已经崩溃以及每个Worker剩余的内存空间量...在Tachyon Client实现中最主要的是Tachyon File这个部件。...图7: Tachyon缓存数据逻辑 Tachyon的一些新功能 我们把Tachyon当作缓存来使用,但是每台机器的内存有限,内存很快会被用完。

1.4K50

3.5RDD的容错机制

提到Lineage的容错机制,不得不提Tachyon。...Tachyon包含两个维度的容错,一个是Tachyon集群的元数据的容错,它采用了类似于HDFS的Name Node的元数据容错机制,即将元数据保存到一个Image文件,并且保存了元数据变化的编辑日志(...另外一个是Tachyon保存的数据的容错机制,这个机制类似于RDD的Lineage,Tachyon会保留生成文件数据的Lineage,在数据丢失时会通过这个Lineage来恢复数据。...现在Tachyon的容错机制的实现还处于开发阶段,并不推荐将这个机制应用于生产环境。不过,这并不影响Spark使用Tachyon。...如果Spark保存到Tachyon的部分数据丢失,那么Spark会根据自有的容错机制来重算这部分数据。

49980

《深入理解Spark-核心思想与源码分析》读书笔记(2)

第四章 存储体系 这章主要讲的就是如何存储,包括存内存,存硬盘,还有存Tachyon 这个图写画得灰常好,下面是对其中序号的解释。...4)表示访问远端节点的Executor的TransportServer进行Block的上传或者下载 5)为远端Executor提供Block的上传或者下载服务 6)表示当前存储体系选择Tachyon...存储,对于BlockManager的读写设计上调用的是Tachyon的putBytes、putArray、getBytes、getValue等等。...Tachyon存储TachyonStore Tachyon其实就是一种分布式文件系统。和Spark一样,也使用了Master和Worker的架构。...它也实现了BlockStore的get、put方法,然后这些方法又都调用了TachyonStore的方法将数据写入Tachyon的分布式内存中。

93560

揭秘Sponge:统一Hadoop、Spark、SDS、Swift的大数据操作系统

补充问题: 文件系统是Sponge的一项核心技术,是否可以把SpongeFS和分布式内存文件系统做一下Tachyon比较?...李东:Tachyon和Sponge都提供了一个In-Memory的分布式存储系统,这一点是类似的。...但是如果用户要access在Tachyon里面的数据,则需要使用Tachyon提供的API或者特殊CLI指令,很不方便。...Tachyon往往无法独立使用,因为它没有自己的persist文件系统,需要plug-in第三方文件系统比如HDFS,这样用户又要多管理一个系统。...Tachyon可能的一个优点是对于Spark的RDD off-heap存储的支持。我们也考虑过提供同样的接口给Spark使用,让Spark把Sponge当做Tachyon一样来用。

96290

专访Databricks辛湜,谈Spark排序比赛摘冠及生态圈热点

运行Spark时,应用的中间结果会通过磁盘传递,势必会影响到性能,而业内李浩源的Tachyon可以剥离spark,并且对HDFS文件系统有很好的支持,在不更改用户使用情况下大幅度提高性能,当下也受到Intel...Tachyon印证了储存系统应该更好利用内存的大趋势。我预测未来越来越多的存储系统会有这方面的考虑和设计,Spark项目的原则就是能够更好的利用下层的储存系统,所以我们也会对这方面做出支持。...值得注意的是,把shuffle数据放入Tachyon或者HDFS cache(HDFS的新功能)其实不是一个好的优化模式。原因是shuffle每个数据块本身非常的小,而元数据量非常的多。...直接把shuffle数据写入Tachyon或者HDFS这种分布式储存系统多半会直接击垮这些系统的元数据存储,反而导致性能下降。 CSDN:算法方面考虑。

808100
领券