问在Spark Thrift服务器中缓存DataFrame
EN

Stack Overflow用户

提问于 2017-08-16 17:52:02

回答 2查看 1.3K关注 0票数 3

我有一个Spark Thrift服务器。我连接到Thrift Server并获取Hive表的数据。如果我再次查询同一个表，它将再次将文件加载到内存中并执行查询。

有没有办法使用Spark Thrift Server缓存表数据？如果是，请告诉我怎么做。

发布于 2017-10-18 00:07:38

注意，内存可能是由驱动程序消耗的，而不是执行器(取决于您的设置，本地/集群...)，所以不要忘记为驱动程序分配更多的内存。

输入数据的步骤：

CACHE TABLE today AS
SELECT * FROM datahub WHERE year=2017 AND fullname IN ("api.search.search") LIMIT 40000

首先限制数据，然后看看内存是如何消耗的，以避免OOM异常。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/45710364

复制

相似问题

问在Spark Thrift服务器中缓存DataFrameEN