大数据-Hadoop、Spark-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

大数据-Hadoop、Spark

专栏成员

88

文章

145549

阅读量

39

订阅数

头条大数据实践

大数据日志数据数据库数据分析 spark

一、除了日志数据，关系数据库中的数据也是数据分析的重要来源。在数据的采集方式上，用Spark实现类 Sqoop 的分布式抓取替代了早期定期用单机全量抓取 MySQL 数据表的方式，有效的提升了抓取速度，突破了单机瓶颈。

2018-12-06

6850

DataFrame常用操作

在spark-shell状态下查看sql内置函数： spark.sql("show functions").show(1000) 比如：SUBSTR(columnName,0,1)='B' show，take，first，head df.show(30,false)df.take(10) df.first() df.head(3) 选择某列显示 df.select("column").show(30,false) 按条件过滤 df.filter("name='' OR name='NULL'").

2018-04-28

7460

Linux上安装MySql

linux 云数据库 SQL Server 数据库

准备安装环境 CentOS6.7 Final MySQL-5.5.48-1.linux2.6.x86_64.rpm-bundle.tar 上传MySQL安装包到CentOS上执行rz，就可以从本地选择要上传的文件了。默认上传至服务器的usr/local目录下设置执行权限chmod u+x MySQL-5.5.48-1.linux2.6.x86_64.rpm-bundle.tar 执行解压命令 tar -xvf MySQL-5.5.48-1.linux2.6.x86_64.rpm-bundle.t

2018-04-26

3.1K0

SparkSQL操作外部数据源

spark 云数据库 SQL Server 数据库 sql

parquet数据 hive表数据 mysql表数据 hive与mysql结合 1.处理parquet数据启动spark-shell: spark-shell --master local[2] --jars ~/software/mysql-connector-java-5.1.27-bin.jar 在spark-shell模式下，执行标准的加载方法 : val path = "file:///home/hadoop/app/xxx.parquet"//处理的parquet文件的路径 val us

2018-04-26

1.1K0

没有更多了

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态