首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

如何在Scala中读取Hadoop集群上的gz压缩文件

存在Hadoop集群上的文件,大部分都会经过压缩,如果是压缩后的文件,我们直接在应用程序中如何读取里面的数据?...答案是肯定的,但是比普通的文本读取要稍微复杂一点,需要使用到Hadoop的压缩工具类支持,比如处理gz,snappy,lzo,bz压缩的,前提是首先我们的Hadoop集群得支持上面提到的各种压缩文件。...本次就给出一个读取gz压缩文件的例子核心代码: 压缩和解压模块用的工具包是apache-commons下面的类: import org.apache.commons.io.IOUtils import...,其实并不是很复杂,用java代码和上面的代码也差不多类似,如果直接用原生的api读取会稍微复杂,但如果我们使用Hive,Spark框架的时候,框架内部会自动帮我们完成压缩文件读取或者写入,对用户透明...,当然底层也是封装了不同压缩格式的读取和写入代码,这样以来使用者将会方便许多。

2.7K40

Java 读取文件

JAVA有多种读取文件的方式,其中比较深层次的原理在我的另外一篇文章分析过:JDK核心JAVA源码解析(5) - JAVA File MMAP原理解析,那么,我们有哪些方式去读取一个文件的内容呢?...从ClassPath中读取文件 直接从项目的classpath(maven的话src/main/resource编译之后也会存在于classpath下)读取: InputStream inputStream...JDK7中的读取文件内容的方式 利用Path对象省略了各种StreamReader,同时原生自带读取所有内容到内存的方法,在读取比较小的文件所有内容时我们可以考虑这么做: Path path = Paths.get...JDK8中的读取文件内容的方式 JDK8继续优化了这块的代码,引入了Stream相关框架,同时针对文件读取也能转化为Stream操作: Path path = Paths.get(getClass()....利用FileUtils读取文件 我们还可以使用commons-io包里面的读取文件相关类FileUtils: commons-io commons-io 2.5 利用FileUtils

4K20
领券