我将其复制到s3中,然后将其加载到雅典娜: CREATE EXTERNAL TABLE IF NOT EXISTS main TBLPROPERTIES ('has_encrypted_data'='false'); 我有另一个较小的文件(相同的格式),并将其加载到雅典娜我的目标是创建一个包含来自main和static的记录的第三个表,查询
我有一个大约800MB的大XML文件,里面有很多标签和属性。我需要从这个文件中提取不同的值,因此,我使用了许多SORT和JOIN转换。除了下图中红色椭圆形中显示的最后一个SORT转换之外,所有这些方法都工作得很好,并且不需要花费太多时间。这需要永远的时间。如果我使用较小的XML文件,它将通过并且不会花费太多时间。所以我假设问题出在它所处理的数据集的大小上。我想知道你是否知道有什么方法可以帮助我处理这种情况。需要更改以提高此特定情况的性能的任何属性。我使用的是Visual Studio 2015。谢谢!