我收到了Azure Synapse的推荐。
建议详细信息我们检测到,您可以通过拆分存储帐户中暂存的压缩文件来提高负载吞吐量。一个很好的经验法则是将压缩文件拆分为60个或更多,以最大限度地提高负载的并行性。Learn more
看看Azure的文档,这是推荐的。
Preparing data in Azure Storage
To minimize latency, colocate your storage layer and your SQL pool.
When exporting data into an ORC File Format, you might get Java out-of-memory errors when there are large text columns. To work around this limitation, export only a subset of the columns.
All file formats have different performance characteristics. For the fastest load, use compressed delimited text files. The difference between UTF-8 and UTF-16 performance is minimal.
Split large compressed files into smaller compressed files.我想知道的是如何将一个大的压缩文件分割成小的压缩文件?有这样的选择吗?谢谢!
发布于 2020-09-25 14:14:24
你可以查看这篇文章How to maximize COPY load throughput with file splits。
建议一次加载多个文件,以便进行并行处理,并使用COPY语句最大化SQL池的批量加载性能。
以下documentation概述了文件拆分指导,该博客介绍了如何使用数据管道中的Azure数据工厂映射数据流轻松拆分数据湖中的CSV文件。
https://stackoverflow.com/questions/64025466
复制相似问题