spark scala练习

spark scala练习

准备一个文件上传至hdfs

hello word
hello java
hello python
hello c++

​ 启动spark-shell

spark-shell

获取到要计算的文件

val file = spark.read.textFile("test.txt")

统计该文件的行数

 file.count()

获取第一行的内容

file.first()

获取到特定的内容

val lines = file.filter(line => line.contains("hello"))

获取指定词出现的次数

file.filter(line => line.contains("hello")).count()

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • mybatis-plus自定义sql注入器

    虽然mybats-plus的BaseMapper提供了非常好用,非常多的方法,但是如果我们需要扩充BaseMapper中的方法又该如何实现呢

    许喜朝
  • springboot解决前后端数据跨域问题

    许喜朝
  • mybatis-plus代码生成器

    通过 AutoGenerator 可以快速生成 Entity(pojo)、Mapper、Mapper XML、Service、Controller 等各个模块的...

    许喜朝
  • ASTMatcher分析函数调用链(下)

    上一篇文章(ASTMatcher分析函数调用链(上))讲到ASTMatcher的原理以及创建,本文将详细介绍ASTMatcher获取函数调用链在iOS app中...

    adding
  • K8s二进制升级从1.14.2至1.16.2

    升级前准备 master节点组件: kubectl,kube-apiserver,kube-controller-manager,kube-scheduler

    院长技术
  • API测试工具SoapUI & Postman对比分析

    最近公司要引入API测试工具,经过调查和了解,最终决定在SoapUI 和 Postman两种工具之间做一个选择,两种工具在业界都很有名,相信很多人两种工具也都曾...

    葡萄城控件
  • 使用Jmeter导出导入接口自动化案例中的自定义变量

    jmeter技术研究
  • Spark Adaptive Execution调研

    本文阅读价值不错建议大家仔细阅读,感谢作者疯狂哈秋,转自:https://blog.csdn.net/u013332124/article/details/90...

    Spark学习技巧
  • 快速上手 Swarm mode搭建集群 原

    Swarm 是使用 SwarmKit 构建的 Docker 引擎内置(原生)的集群管理和编排工具。Swarm 集群由 管理节点 和 工作节点 组成。

    wuweixiang
  • 数据结构之线段树

    1、什么是线段树(也称为区间树)Segment Tree。为什么使用线段树,线段树解决了什么问题,对于有一类问题,我们关心的是线段(或者区间)。

    别先生

扫码关注云+社区

领取腾讯云代金券