腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
浪淘沙
专栏成员
举报
86
文章
81390
阅读量
18
订阅数
订阅专栏
申请加入专栏
全部文章(86)
其他(46)
java(10)
sql(10)
spark(10)
数据库(8)
xml(7)
apache(7)
http(6)
存储(6)
mapreduce(4)
开源(4)
分布式(4)
hadoop(4)
hive(4)
python(3)
servlet(3)
云数据库 SQL Server(3)
云数据库 Redis(3)
api(3)
jdk(3)
jvm(3)
hbase(3)
access(2)
git(2)
jar(2)
tomcat(2)
spring(2)
编程算法(2)
jdbc(2)
安全(2)
费用中心(1)
php(1)
go(1)
.net(1)
scala(1)
node.js(1)
mvc(1)
ide(1)
eclipse(1)
github(1)
maven(1)
unix(1)
访问管理(1)
腾讯优客(1)
xslt & xpath(1)
容器(1)
serverless(1)
游戏(1)
缓存(1)
网络安全(1)
ssh(1)
mybatis(1)
sql server(1)
面向对象编程(1)
zookeeper(1)
aop(1)
tcp/ip(1)
数据分析(1)
数据处理(1)
windows(1)
kafka(1)
搜索文章
搜索
搜索
关闭
Spark常见面试题
spark
zookeeper
1、scala 语言有什么特点,相比java有什么优点? 2、什么是Scala的伴生类和伴生对象? 3、spark有什么特点,处理大数据有什么优势? 4、Spark技术栈有哪些组件,每个组件都有
曼路
2019-05-26
2.8K
1
SparkStreaming编程实现
spark
hadoop
hbase
hive
scala
3.MyNetworkTotalWordCountV2.scala(开发自己的实时词频统计程序(累计单词出现次数))
曼路
2018-10-18
709
0
SparkStreaming_Kafka_Redis整合
spark
云数据库 Redis
存储
apache
java
1.将kafka streaming 和 redis整合 实现词频统计 Producer.class 生成数据daokafka package day14; /** * 创建一个生产者 生成随机的key 和 字母 * 用于实现实时流统计词频 并 存储到redis */ import org.apache.kafka.clients.producer.KafkaProducer; import org.apache.kafka.clients.producer.ProducerRecord;
曼路
2018-10-18
951
0
SparkStreaming学习笔记
spark
api
编程算法
数据处理
数据库
(*)Spark Streaming是核心Spark API的扩展,可实现可扩展、高吞吐量、可容错的实时数据流处理。数据可以从诸如Kafka,Flume,Kinesis或TCP套接字等众多来源获取,并且可以使用由高级函数(如map,reduce,join和window)开发的复杂算法进行流数据处理。最后,处理后的数据可以被推送到文件系统,数据库和实时仪表板。而且,您还可以在数据流上应用Spark提供的机器学习和图处理算法。
曼路
2018-10-18
1K
0
Spark工具包
spark
apache
access
git
http
1.ApacheAccessLog 解析下列数据 194.237.142.21 - - [18/Sep/2013:06:49:18 +0000] "GET /wp-content/uploads/2013/07/rstudio-git3.png HTTP/1.1" 304 0 "-" "Mozilla/4.0 (compatible;)" 183.49.46.228 - - [18/Sep/2013:06:49:23 +0000] "-" 400 0 "-" "-" 163.177.71.12 - - [1
曼路
2018-10-18
544
0
spark求最受欢迎的老师的问题
spark
http
java
.net
apache
文件内容: http://bigdata.edu360.cn/zhangsan http://bigdata.edu360.cn/zhangsan http://bigdata.edu360.cn/lisi http://bigdata.edu360.cn/lisi 1.求最受欢迎的老师,不考虑课程类别(然后类似于wordCount) import java.net.URL import org.apache.log4j.{Level, Logger} import org.apache.spark.rd
曼路
2018-10-18
431
0
Sprak学习--Maven实现之pom.xml配置
maven
xml
http
apache
spark
<?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" x
曼路
2018-10-18
724
0
Spark 实现两表查询(SparkCore和SparkSql)
spark
sql
access
java
apache
1.将两张表的数据提取出来,转换成DataFrame,创建两个view。实现join查询
曼路
2018-10-18
1.5K
0
SparkSql学习笔记一
spark
sql
分布式
hive
mapreduce
1.简介 Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。 为什么要学习Spark SQL? 我们已经学习了Hive,它是将Hive SQL转换成MapReduce然后提交到集群上执行,大大简化了编写MapReduce的程序的复杂性,由于MapReduce这种计算模型执行效率比较慢。所以Spark SQL的应运而生,它是将Spark SQL转换成RDD,然后提交到集群执行,执行效率非常快!同时Spark SQL也支持从Hive中读取数据。 2.特点 *容易整合 *统一的数据访问方式 *兼容Hive *标准的数据连接 3.基本概念 *DataFrame DataFrame(表) = schema(表结构) + Data(表结构,RDD) 就是一个表 是SparkSql 对结构化数据的抽象 DataFrame表现形式就是RDD DataFrame是组织成命名列的数据集。它在概念上等同于关系数据库中的表,但在底层具有更丰富的优化。DataFrames可以从各种来源构建, DataFrame多了数据的结构信息,即schema。 RDD是分布式的Java对象的集合。DataFrame是分布式的Row对象的集合。 DataFrame除了提供了比RDD更丰富的算子以外,更重要的特点是提升执行效率、减少数据读取以及执行计划的优化 *Datasets Dataset是数据的分布式集合。Dataset是在Spark 1.6中添加的一个新接口,是DataFrame之上更高一级的抽象。它提供了RDD的优点(强类型化,使用强大的lambda函数的能力)以及Spark SQL优化后的执行引擎的优点。一个Dataset 可以从JVM对象构造,然后使用函数转换(map, flatMap,filter等)去操作。 Dataset API 支持Scala和Java。 Python不支持Dataset API。 4.创建表 DataFrame 方式一 使用case class 定义表 val df = studentRDD.toDF 方式二 使用SparkSession直接生成表 val df = session.createDataFrame(RowRDD,scheme) 方式三 直接读取一个带格式的文件(json文件) spark.read.json("") 5.视图(虚表) 普通视图 df.createOrReplaceTempView("emp") 只对当前对话有作用 全局视图 df.createGlobalTempView("empG") 在全局(不同会话)有效 前缀:global_temp 6.操作表: 两种语言:SQL,DSL spark.sql("select * from t ").show df.select("name").show
曼路
2018-10-18
844
0
Spark Core 学习笔记
spark
mapreduce
数据分析
分布式
sql
1:Spark Core:内核,也是Spark中最重要的部分,相当于Mapreduce SparkCore 和 Mapreduce都是进行离线数据分析 SparkCore的核心:RDD(弹性分布式数据集),由分区组成 2:Spark Sql:相当于Hive 支持Sql和DSL语句 -》Spark任务(RDD)-》运行
曼路
2018-10-18
2.2K
0
没有更多了
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
立即查看
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档