腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
扎心了老铁
专栏成员
举报
89
文章
213102
阅读量
41
订阅数
订阅专栏
申请加入专栏
全部文章(89)
python(22)
云数据库 Redis(11)
java(10)
es 2(9)
其他(8)
分布式(8)
zookeeper(8)
sql(7)
spark(7)
数据库(6)
django(6)
编程算法(5)
大数据(5)
云数据库 SQL Server(4)
api(4)
linux(4)
hive(4)
mybatis(4)
hadoop(3)
javascript(2)
node.js(2)
ajax(2)
maven(2)
apache(2)
nginx(2)
spring(2)
http(2)
存储(2)
缓存(2)
jvm(2)
grep(2)
rabbitmq(2)
安全(2)
erlang(1)
.net(1)
servlet(1)
scala(1)
html(1)
jquery(1)
嵌入式(1)
memcached(1)
mvc(1)
打包(1)
centos(1)
容器镜像服务(1)
mapreduce(1)
mongodb(1)
容器(1)
压力测试(1)
数据迁移(1)
爬虫(1)
ssh(1)
yum(1)
spring boot(1)
aop(1)
tcp/ip(1)
scrapy(1)
jenkins(1)
数据结构(1)
kafka(1)
配置(1)
搜索文章
搜索
搜索
关闭
使用spark与MySQL进行数据交互的方法
spark
云数据库 SQL Server
hive
sql
在项目中,遇到一个场景是,需要从Hive数据仓库中拉取数据,进行过滤、裁剪或者聚合之后生成中间结果导入MySQL。 对于这样一个极其普通的离线计算场景,有多种技术选型可以实现。例如,sqoop,MR,HSQL。 我们这里使用的spark,优点来说是两个:一是灵活性高,二是代码简洁。 1)灵活性高 相比sqoop和HSQL,spark可以更灵活的控制过滤和裁剪逻辑,甚至你可以通过外部的配置或者参数,来动态的调整spark的计算行为,提供定制化。 2)代码简洁 相比MR来说,代码量上少了很多。也无需实现MySQ
用户1225216
2018-03-05
6.1K
0
spark-streaming集成Kafka处理实时数据
spark
在这篇文章里,我们模拟了一个场景,实时分析订单数据,统计实时收益。 场景模拟 我试图覆盖工程上最为常用的一个场景: 1)首先,向Kafka里实时的写入订单数据,JSON格式,包含订单ID-订单类型-订单收益 2)然后,spark-streaming每十秒实时去消费kafka中的订单数据,并以订单类型分组统计收益 3)最后,spark-streaming统计结果实时的存入本地MySQL。 前提条件 安装 1)spark:我使用的yarn-client模式下的spark,环境中集群客户端已经搞定 2)zooke
用户1225216
2018-03-05
2.3K
0
spark三种连接join
spark
本文主要介绍spark join相关操作。 讲述spark连接相关的三个方法join,left-outer-join,right-outer-join,在这之前,我们用hiveSQL先跑出了结果以方便进行对比。 我们以实例来进行说明。我的实现步骤记录如下。 1、数据准备 2、HSQL描述 3、Spark描述 1、数据准备 我们准备两张Hive表,分别是orders(订单表)和drivers(司机表),通过driver_id字段进行关联。数据如下: orders orders表有两个字段,订单id:order
用户1225216
2018-03-05
1.4K
0
大数据算法设计模式(1) - topN spark实现
大数据
spark
编程算法
topN算法,spark实现 package com.kangaroo.studio.algorithms.topn; import org.apache.spark.api.java.JavaPairRDD; import org.apache.spark.api.java.JavaRDD; import org.apache.spark.api.java.JavaSparkContext; import org.apache.spark.api.java.function.FlatMapFuncti
用户1225216
2018-03-05
1.2K
0
使用spark对hive表中的多列数据判重
spark
hive
apache
本文处理的场景如下,hive表中的数据,对其中的多列进行判重deduplicate。 1、先解决依赖,spark相关的所有包,pom.xml spark-hive是我们进行hive表spark处理的关键。 <dependencies> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.10</artifactId> <ver
用户1225216
2018-03-05
5.2K
0
java使用spark/spark-sql处理schema数据
java
spark
sql
大数据
1、spark是什么? Spark是基于内存计算的大数据并行计算框架。 1.1 Spark基于内存计算 相比于MapReduce基于IO计算,提高了在大数据环境下数据处理的实时性。 1.2 高容错性和高可伸缩性 与mapreduce框架相同,允许用户将Spark部署在大量廉价硬件之上,形成集群。 2、spark编程 每一个spark应用程序都包含一个驱动程序(driver program ),他会运行用户的main函数,并在集群上执行各种并行操作(parallel operations) spark提供的最
用户1225216
2018-03-05
1K
0
java spark-streaming接收TCP/Kafka数据
java
spark
maven
本文将展示 1、如何使用spark-streaming接入TCP数据并进行过滤; 2、如何使用spark-streaming接入TCP数据并进行wordcount; 内容如下: 1、使用maven,先解决pom依赖 <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-streaming-kafka_2.10</artifactId> <version>1
用户1225216
2018-03-05
823
0
没有更多了
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
立即查看
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档