腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
个人分享
专栏成员
举报
238
文章
266831
阅读量
42
订阅数
订阅专栏
申请加入专栏
全部文章(238)
其他(116)
spark(43)
hadoop(22)
java(18)
sql(15)
编程算法(14)
存储(14)
人工智能(13)
大数据(13)
hbase(13)
mapreduce(12)
分布式(12)
apache(11)
hive(10)
api(9)
数据库(7)
云数据库 SQL Server(6)
linux(6)
zookeeper(6)
node.js(5)
xml(5)
云数据库 Redis(5)
缓存(5)
企业组织(5)
TDSQL MySQL 版(4)
mongodb(4)
决策树(4)
rpc(4)
数据挖掘(3)
.net(3)
json(3)
yarn(3)
shell(3)
yum(3)
数据处理(3)
机器学习(2)
bash(2)
servlet(2)
scala(2)
spring(2)
ssh(2)
面向对象编程(2)
jdbc(2)
hashmap(2)
grep(2)
数据结构(2)
自动驾驶(1)
bootstrap(1)
html(1)
oracle(1)
memcached(1)
mvc(1)
nginx(1)
bash 指令(1)
神经网络(1)
深度学习(1)
企业(1)
http(1)
容器(1)
jdk(1)
jvm(1)
erp(1)
监督学习(1)
二叉树(1)
ntp(1)
安全(1)
https(1)
架构设计(1)
nat(1)
kafka(1)
任务调度(1)
int(1)
io(1)
push(1)
selection(1)
队列(1)
工作(1)
搜索文章
搜索
搜索
关闭
Spark代码调优(一)
spark
apache
sql
import org.apache.spark.sql.{DataFrame, Row, SQLContext}
用户3003813
2018-09-06
1.8K
0
Spark之SQL解析(源码阅读十)
spark
sql
数据库
hive
如何能更好的运用与监控sparkSQL?或许我们改更深层次的了解它深层次的原理是什么。之前总结的已经写了传统数据库与Spark的sql解析之间的差别。那么我们下来直切主题~ 如今的Spark已
用户3003813
2018-09-06
840
0
hdfs文件按修改时间下载
云数据库 SQL Server
数据库
sql
大数据
应用于:对于不同用户创建的表目录,进行文件的下载,程序中执行hadoop cat命令 下载文件到本地,随后通过ftp传至目标服务器,并将hdfs文件目录的修改时间存入mysql中。每次修改前将mysql中记录的数据,与本批次下载的HDFS文件路径修改时间对比,如果改变,则决定是否下载文件:
用户3003813
2018-09-06
2K
1
sparksql工程小记
spark
sql
oracle
最近做一个oracle项目迁移工作,跟着spark架构师学着做,进行一些方法的总结。
用户3003813
2018-09-06
684
0
Kudu存储实战笔记
sql
就像官网所说,Kudu是一个针对Apache hadoop 平台而开发的列式存储管理器,在本菜鸟看来,它是一种介于hdfs与hbase的一种存储。它的优势在于:
用户3003813
2018-09-06
2.1K
0
前一天数据偏移至当日数据
mongodb
sql
人工智能
spark
客户画像项目中可能会遇到此类问题,因为客户画像要求的是对单个用户信息的查询。 但倘若以日周期为准,今日梳理的数据宽表中某个字段为null,但此类字段不能以null显示,要以前一天有数据的值为今日的值,就需要做case when处理。 同时还有个问题,日表拥有某些客户信息(以日更新),但并不是用户全量表,而月表为用户全量表(拥有历史月的所有用户数),日表可能会增加也可能会减少数据。这样 不管你left join谁 都无法得到全量的用户数据。 使用以下方法便可实现:
用户3003813
2018-09-06
728
0
获取表头信息
spark
sql
hive
jdbc
代码中的使用直接通过list<Map<String,Object>> tableHead = jdbcBaseDao.getBackSimpleJdbcTemplate().queryForList(sql.toString());
用户3003813
2018-09-06
2K
0
Spark RDDRelation
spark
人工智能
sql
apache
注意 这里声明的是 sqlContext = new SQLContext(sc) 如果要存成hive 表 需用hivecontext.
用户3003813
2018-09-06
350
0
SparkSql官方文档中文翻译(java版本)
spark
sql
java
Spark SQL是Spark的一个组件,用于结构化数据的计算。Spark SQL提供了一个称为DataFrames的编程抽象,DataFrames可以充当分布式SQL查询引擎。
用户3003813
2018-09-06
9K
0
Spark1.6 DataSets简介
spark
apache
api
sql
Apache Spark提供了强大的API,以便使开发者为使用复杂的分析成为了可能。通过引入SparkSQL,让开发者可以使用这些高级API接口来从事结构化数据的工作(例如数据库表,JSON文件),并提供面向对象使用RDD的API,开发只需要调用相关 的方法便可使用spark来进行数据的存储与计算。那么Spark1.6带给我们了些什么牛逼的东西呢? 额。。。
用户3003813
2018-09-06
431
0
SparkStreaming入门及例子
spark
sql
看书大概了解了下Streaming的原理,但是木有动过手啊。。。万事开头难啊,一个wordcount 2小时怎么都运行不出结果。是我太蠢了,好了言归正传。
用户3003813
2018-09-06
365
0
SparkSQL项目中的应用
spark
sql
大数据
分布式
Spark是一个通用的大规模数据快速处理引擎。可以简单理解为Spark就是一个大数据分布式处理框架。基于内存计算的Spark的计算速度要比Hadoop的MapReduce快上100倍以上,基于磁盘的计算速度也快于10倍以上。Spark运行在Hadoop第二代的yarn集群管理之上,可以轻松读取Hadoop的任何数据。能够读取HBase、HDFS等Hadoop的数据源。
用户3003813
2018-09-06
762
0
Spark工程开发常用函数与方法(Scala语言)
spark
scala
apache
sql
import org.apache.spark.{SparkContext, SparkConf} import org.apache.spark.sql.{SaveMode, DataFrame} import scala.collection.mutable.ArrayBuffer import main.asiainfo.coc.tools.Configure import org.apache.spark.sql.hive.HiveContext import java.sql.DriverManager import java.sql.Connection
用户3003813
2018-09-06
765
0
SparkSQL的解析详解
spark
sql
hive
mapreduce
SparkSQL继承自Hive的接口,由于hive是基于MapReduce进行计算的,在计算过程中大量的中间数据要落地于磁盘,从而消耗了大量的I/O,降低了运行的效率,从而基于内存运算的SparkSQL应运而生。
用户3003813
2018-09-06
806
0
使用SparkSQL实现多线程分页查询并写入文件
spark
sql
人工智能
一、由于具有多张宽表且字段较多,每个宽表数据大概为4000万条,根据业务逻辑拼接别名,并每张宽表的固定字段进行left join 拼接SQL。这样就能根据每个宽表的主列,根据每个宽表的不同字段关联出一张新的集合。由于下来要进行分页查询,如果要使用SparkSQL进行分页查询,需要增加序号列,那么就在刚才的Sql之前增加一句 create table tableName as SELECT ROW_NUMBER() OVER() as id,* from (拼接的SQL) 就可创建一张带自增序列的,业务需要字段的几张宽表的关联集合,方便下来分页。
用户3003813
2018-09-06
1.4K
0
没有更多了
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
立即查看
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档