首页
学习
活动
专区
工具
TVP
发布

大数据-Hadoop、Spark

专栏作者
88
文章
141437
阅读量
39
订阅数
头条大数据实践
一、 除了日志数据,关系数据库中的数据也是数据分析的重要来源。在数据的采集方式上,用Spark实现类 Sqoop 的分布式抓取替代了早期定期用单机全量抓取 MySQL 数据表的方式,有效的提升了抓取速度,突破了单机瓶颈。
sparkle123
2018-12-06
6660
DataFrame常用操作
在spark-shell状态下查看sql内置函数: spark.sql("show functions").show(1000) 比如:SUBSTR(columnName,0,1)='B' show,take,first,head df.show(30,false)df.take(10) df.first() df.head(3) 选择某列显示 df.select("column").show(30,false) 按条件过滤 df.filter("name='' OR name='NULL'").
sparkle123
2018-04-28
7250
Linux上安装MySql
准备安装环境 CentOS6.7 Final MySQL-5.5.48-1.linux2.6.x86_64.rpm-bundle.tar 上传MySQL安装包到CentOS上 执行rz,就可以从本地选择要上传的文件了。 默认上传至服务器的usr/local目录下 设置执行权限chmod u+x MySQL-5.5.48-1.linux2.6.x86_64.rpm-bundle.tar 执行解压命令 tar -xvf MySQL-5.5.48-1.linux2.6.x86_64.rpm-bundle.t
sparkle123
2018-04-26
3K0
SparkSQL操作外部数据源
parquet数据 hive表数据 mysql表数据 hive与mysql结合 1.处理parquet数据 启动spark-shell: spark-shell --master local[2] --jars ~/software/mysql-connector-java-5.1.27-bin.jar 在spark-shell模式下,执行 标准的加载方法 : val path = "file:///home/hadoop/app/xxx.parquet"//处理的parquet文件的路径 val us
sparkle123
2018-04-26
1.1K0
没有更多了
社区活动
RAG七天入门训练营
鹅厂大牛手把手带你上手实战
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档