个人分享-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

个人分享

专栏成员

238

文章

266831

阅读量

42

订阅数

Spark代码调优（一）

spark apache sql

import org.apache.spark.sql.{DataFrame, Row, SQLContext}

2018-09-06

1.8K0

Spark之SQL解析（源码阅读十）

spark sql 数据库 hive

　　如何能更好的运用与监控sparkSQL?或许我们改更深层次的了解它深层次的原理是什么。之前总结的已经写了传统数据库与Spark的sql解析之间的差别。那么我们下来直切主题~ 　　如今的Spark已

2018-09-06

8400

hdfs文件按修改时间下载

云数据库 SQL Server 数据库 sql 大数据

应用于：对于不同用户创建的表目录，进行文件的下载，程序中执行hadoop cat命令下载文件到本地，随后通过ftp传至目标服务器，并将hdfs文件目录的修改时间存入mysql中。每次修改前将mysql中记录的数据，与本批次下载的HDFS文件路径修改时间对比，如果改变，则决定是否下载文件：

2018-09-06

2K1

sparksql工程小记

spark sql oracle

　　最近做一个oracle项目迁移工作，跟着spark架构师学着做，进行一些方法的总结。

2018-09-06

6840

Kudu存储实战笔记

　　就像官网所说，Kudu是一个针对Apache hadoop 平台而开发的列式存储管理器,在本菜鸟看来，它是一种介于hdfs与hbase的一种存储。它的优势在于:

2018-09-06

2.1K0

前一天数据偏移至当日数据

mongodb sql 人工智能 spark

客户画像项目中可能会遇到此类问题，因为客户画像要求的是对单个用户信息的查询。但倘若以日周期为准，今日梳理的数据宽表中某个字段为null,但此类字段不能以null显示，要以前一天有数据的值为今日的值，就需要做case when处理。同时还有个问题，日表拥有某些客户信息（以日更新)，但并不是用户全量表，而月表为用户全量表（拥有历史月的所有用户数），日表可能会增加也可能会减少数据。这样不管你left join谁都无法得到全量的用户数据。使用以下方法便可实现:

2018-09-06

7280

获取表头信息

spark sql hive jdbc

代码中的使用直接通过list<Map<String,Object>> tableHead = jdbcBaseDao.getBackSimpleJdbcTemplate().queryForList(sql.toString());

2018-09-06

2K0

Spark RDDRelation

spark 人工智能 sql apache

注意这里声明的是 sqlContext = new SQLContext(sc) 如果要存成hive 表需用hivecontext.

2018-09-06

3500

SparkSql官方文档中文翻译(java版本)

Spark SQL是Spark的一个组件，用于结构化数据的计算。Spark SQL提供了一个称为DataFrames的编程抽象，DataFrames可以充当分布式SQL查询引擎。

2018-09-06

9K0

Spark1.6 DataSets简介

spark apache api sql

Apache Spark提供了强大的API，以便使开发者为使用复杂的分析成为了可能。通过引入SparkSQL，让开发者可以使用这些高级API接口来从事结构化数据的工作（例如数据库表，JSON文件)，并提供面向对象使用RDD的API，开发只需要调用相关的方法便可使用spark来进行数据的存储与计算。那么Spark1.6带给我们了些什么牛逼的东西呢？额。。。

2018-09-06

4310

SparkStreaming入门及例子

看书大概了解了下Streaming的原理，但是木有动过手啊。。。万事开头难啊，一个wordcount 2小时怎么都运行不出结果。是我太蠢了，好了言归正传。

2018-09-06

3650

SparkSQL项目中的应用

spark sql 大数据分布式

Spark是一个通用的大规模数据快速处理引擎。可以简单理解为Spark就是一个大数据分布式处理框架。基于内存计算的Spark的计算速度要比Hadoop的MapReduce快上100倍以上，基于磁盘的计算速度也快于10倍以上。Spark运行在Hadoop第二代的yarn集群管理之上，可以轻松读取Hadoop的任何数据。能够读取HBase、HDFS等Hadoop的数据源。

2018-09-06

7620

Spark工程开发常用函数与方法(Scala语言)

spark scala apache sql

import org.apache.spark.{SparkContext, SparkConf} import org.apache.spark.sql.{SaveMode, DataFrame} import scala.collection.mutable.ArrayBuffer import main.asiainfo.coc.tools.Configure import org.apache.spark.sql.hive.HiveContext import java.sql.DriverManager import java.sql.Connection

2018-09-06

7650

SparkSQL的解析详解

spark sql hive mapreduce

　　SparkSQL继承自Hive的接口，由于hive是基于MapReduce进行计算的，在计算过程中大量的中间数据要落地于磁盘，从而消耗了大量的I/O，降低了运行的效率，从而基于内存运算的SparkSQL应运而生。

2018-09-06

8060

使用SparkSQL实现多线程分页查询并写入文件

spark sql 人工智能

一、由于具有多张宽表且字段较多，每个宽表数据大概为4000万条，根据业务逻辑拼接别名，并每张宽表的固定字段进行left join 拼接SQL。这样就能根据每个宽表的主列，根据每个宽表的不同字段关联出一张新的集合。由于下来要进行分页查询，如果要使用SparkSQL进行分页查询，需要增加序号列，那么就在刚才的Sql之前增加一句 create table tableName as SELECT ROW_NUMBER() OVER() as id,* from (拼接的SQL) 就可创建一张带自增序列的，业务需要字段的几张宽表的关联集合,方便下来分页。

2018-09-06

1.4K0

没有更多了

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态