我有一个Spark Thrift服务器。我连接到Thrift Server并获取Hive表的数据。如果我再次查询同一个表,它将再次将文件加载到内存中并执行查询。
有没有办法使用Spark Thrift Server缓存表数据?如果是,请告诉我怎么做。
发布于 2017-10-18 00:07:38
注意,内存可能是由驱动程序消耗的,而不是执行器(取决于您的设置,本地/集群...),所以不要忘记为驱动程序分配更多的内存。
输入数据的步骤:
CACHE TABLE today AS
SELECT * FROM datahub WHERE year=2017 AND fullname IN ("api.search.search") LIMIT 40000首先限制数据,然后看看内存是如何消耗的,以避免OOM异常。

https://stackoverflow.com/questions/45710364
复制相似问题