腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
cwl_Java
专栏作者
举报
2423
文章
2145734
阅读量
64
订阅数
订阅专栏
申请加入专栏
全部文章
编程算法
java
sql
数据库
c++
spring
http
网站
jdk
xml
javascript
存储
api
网络安全
php
linux
tcp/ip
云数据库 SQL Server
html
容器
打包
postgresql
android
协议
ide
面向对象编程
腾讯云测试服务
https
node.js
数据结构
apache
css
hive
algorithm
区块链
unix
微服务
jar
jvm
大数据
windows
文件存储
缓存
主机
python
mvc
mapreduce
git
vue.js
maven
hadoop
json
开源
servlet
mybatis
程序
jquery
分布式
数据分析
ip
容器镜像服务
语法
mongodb
kafka
github
shell
路由器
scala
jdbc
zookeeper
Elasticsearch Service
对象存储
负载均衡
bash
ecmascript
oracle
TDSQL MySQL 版
其他
ajax
云数据库 MongoDB
tomcat
nginx
排序
云数据库 Redis
负载均衡缓存
访问管理
云推荐引擎
数据结构与算法
消息队列 CMQ 版
企业
bit
服务器
go
jsp
react
lucene/solr
npm
aop
系统架构
云数据库 postgresql
任务调度
ascii
max
代理
数字货币
机器学习
access
eclipse
bash 指令
solaris
渲染
dns
udp
jenkins
spring cloud
数据处理
架构设计
table
对象
工具类
连接
全文检索
SSL 证书
hashmap
uml
hbase
public
定时器
进程
设计模式
数组
c 语言
游戏
ssh
正则表达式
yum
rpc
云计算
es
object
费用中心
命令行工具
ftp
grep
单元测试
rabbitmq
安全
count
excel
for循环
select
set
snmp
string
system
队列
函数
基础
集合
开发
配置
索引
嵌入式
memcached
laravel
spring boot
break
byte
data
db
default
host
key
map
min
replication
root
search
sentinel
变量
登录
管理
继承
命令行
权限
搜索
统计
文件系统
异常
以太坊
自动驾驶
perl
c#
单片机
analyzer
thinkphp
数据安全
express
serverless
运维
html5
sql server
二叉树
socket编程
虚拟化
case
char
command
dom
gc
heap
line
mysql
nacos
network
poi
return
service
遍历
动态代理
计算机
加密
客户端
内存
前端
事件
数据
系统
线程
硬件
注解
字符串
比特币
ios
regex
jquery ui
textview
nosql
struts
搜索引擎
centos
深度学习
数据备份
webpack
yarn
自动化
gui
gradle
防火墙
utf8
实时监控
archive
block
branch
class
code
es5
exists
file
filter
flume
function
init
integer
limit
load
nfs
null
private
protected
setter
socket
static
tail
timeout
var
void
报表
分页
垃圾回收
流量
调试
通信
网关
性能优化
域名
原型
指针
作用域
云服务器
云点播
人脸识别
erlang
bootstrap
webview
listview
opengl
composer
ubuntu
windows server
神经网络
人工智能
图像处理
电商
eslint
xslt & xpath
黑客
数据迁移
spark
监督学习
asp
自动化测试
dubbo
kernel
gcc
kerberos
微信
小程序
机器人
canvas
swoole
mvcc
sdk
性能测试
数据库管理
abstract
app
autowired
border
cat
clone
commit
config
console
dao
deadlock
debug
dijkstra
distinct
elasticsearch
event
exception
fibonacci
freemarker
hdfs
hystrix
include
innodb
interface
io
list
lock
md5
media
memory
multicast
mycat
numbers
path
port
post
project
prototype
ps
sequence
session
shutdown
src
stream
sum
synchronous
telnet
transactions
transfer
tree
txt
vr
web
window
word
百度
编程
编译器
表格
并发
操作系统
插件
产品
程序员
单例模式
服务端
工具
后端
集群
脚本
接口
模型
内核
日志
软件
数据类型
同步
效率
虚拟机
优化
源码
终端
语音识别
官方文档
NLP 服务
objective-c
mac os
.net
angularjs
makefile
sqlite
svn
apt-get
delphi
专用宿主机
归档存储
日志服务
检测工具
数据加密服务
短信
视频处理
redux
babel.js
压力测试
爬虫
erp
推荐系统
cdn
flash
ddos
无监督学习
物联网
安全漏洞
nat
processing
unicode
ipv6
raft
ghost
adapter
admin
aes
agent
aggregation
analysis
ansi
append
arguments
aspectj
attr
auto
avro
bat
bind
binding
boolean
build
cascade
center
channel
checksum
chmod
constructor
controller
cpu
cursor
cut
daemon
decimal
delay
device
distance
distribution
driver
dynamic
edit
editor
element
encoding
equals
esb
etl
execute
execution
export
extjs
fedora
footer
frame
free
gateway
get
getter
glib
hash
having
histogram
history
import
input
insert
instance
int
intel
interpolation
iso
jetty
jit
jobs
join
jpa
jsch
jsoup
jwt
localhost
log4j
logic
logout
lombok
mac
mapping
match
math
matrix
message
microsoft
monitoring
navigation
nlog
ole
oop
oozie
openmp
outlook
overloading
overriding
padding
pdf
perfect
php7
pic
pid
ping
plugin
plugins
pojo
polymorphism
position
powerpoint
proc
progress
properties
push
radix
random
range
ref
reference
refresh
registry
release
report
request
response
restart
restore
sax
self
sendmail
server
sh
sha
shift
smtp
sort
sorting
spa
spi
state
statistics
status
storage
subscription
sudo
super
syntax
target
tcpdump
terminal
thrift
timer
timestamp
truncate
union
unsigned
url
usb
vector
vhosts
vim
vmware
width
wizard
worker
wrapper
zsh
备份
编程语言
编辑器
编码
表单
并发编程
布局
部署
程序设计
磁盘
代理服务器
递归
定时任务
多线程
二进制
服务
规范化
行业
技巧
架构
监控
局域网
开发工具
可视化
快捷键
框架
量化
流媒体
乱码
模块化
内存管理
日志分析
软件架构
软件开发
设计
生命周期
事务
数据仓库
数据存储
数据恢复
数据同步
数学
算法
推荐算法
网络
网页爬虫
文件上传
系统设计
线程安全
线程池
响应式
性能
序列化
虚拟主机
需求分析
压缩
异常处理
源码分析
重定向
组件库
搜索文章
搜索
搜索
关闭
快速学习-Azkaban入门
hive
网站
任务调度
hadoop
mapreduce
1)一个完整的数据分析系统通常都是由大量任务单元组成:shell脚本程序,java程序,mapreduce程序、hive脚本等 2)各任务单元之间存在时间先后及前后依赖关系 3)为了很好地组织起这样的复杂执行计划,需要一个工作流调度系统来调度执行;
cwl_java
2020-03-25
576
0
快速学习-Kylin概述
编程算法
hadoop
sql
mapreduce
Apache Kylin是一个开源的分布式分析引擎,提供Hadoop/Spark之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由eBay Inc开发并贡献至开源社区。它能在亚秒内查询巨大的Hive表。
cwl_java
2020-03-24
525
0
快速学习-Sqoop入门与简介
hadoop
mapreduce
python
大数据
数据库
Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql…)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。
cwl_java
2020-03-20
556
0
快速学习-Hive企业级调优
hive
mapreduce
hadoop
Fetch 抓取是指,Hive 中对某些情况的查询可以不必使用 MapReduce 计算。例如:SELECT * FROM employees;在这种情况下,Hive 可以简单地读取 employee 对应的存储目录下的文件,然后输出查询结果到控制台。 在 hive-default.xml.template 文件中 hive.fetch.task.conversion 默认是 more,老版本 hive默认是 minimal,该属性修改为 more 以后,在全局查找、字段查找、limit 查找等都不走mapreduce。
cwl_java
2020-02-21
889
0
快速学习-HBaseAPI操作
hbase
TDSQL MySQL 版
hive
mapreduce
数据库
通过HBase的相关JavaAPI,我们可以实现伴随HBase操作的MapReduce过程,比如使用MapReduce将数据从本地文件系统导入到HBase的表中,比如我们从HBase中读取一些原始数据后使用MapReduce做数据分析。
cwl_java
2020-02-21
432
0
快速学习-Hive 基本概念
mapreduce
hadoop
数据库
sql
hive
Hive:由 Facebook 开源用于解决海量结构化日志的数据统计。 Hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并 提供类 SQL 查询功能。 本质是:将 HQL 转化成 MapReduce 程序
cwl_java
2020-02-21
504
0
快速学习-Hive查询
数据库
sql
hive
mapreduce
https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Select 查询语句语法:
cwl_java
2020-02-21
1.6K
0
快速学习-Oozie的使用
xml
ios
jar
mapreduce
linux
目标:使用Oozie调度MapReduce任务 分步执行: 1)找到一个可以运行的mapreduce任务的jar包(可以用官方的,也可以是自己写的) 2)拷贝官方模板到oozie-apps
cwl_java
2020-02-20
956
0
快速学习-Azkaban概述
任务调度
mapreduce
数据库
sql
hive
Azkaban 是由 Linkedin 公司推出的一个批量工作流任务调度器,主要用于在一个工作流内以一个特定的顺序运行一组工作和流程,它的配置是通过简单的 key:value 对的方式,通过配置中的 Dependencies 来设置依赖关系。Azkaban 使用 job 配置文件建立任务之间的依赖关系,并提供一个易于使用的 web 用户界面维护和跟踪你的工作流。
cwl_java
2020-02-19
469
0
快速学习-Azkaban实战
网站
java
jar
mapreduce
hive
注意: 目前,Azkaban 上传的工作流文件只支持 xxx.zip 文件。zip 应包含 xxx.job 运行作业所需的文件和任何文件(文件名后缀必须以.job 结尾,否则无法识别)。作业名称在项目中必须是唯一的。
cwl_java
2020-02-18
457
0
快速学习ES6新特性-map和reduce
mapreduce
编程算法
reduce() :接收一个函数(必须)和一个初始值(可选),该函数接收两个参数:
cwl_java
2020-02-14
817
0
快速学习-ES6语法指南
ecmascript
mapreduce
javascript
node.js
编程算法
后端项目搭建完毕,接下来就是前端页面了。不过在这之前需要一些准备工作。我们需要学习ES6的语法标准。
cwl_java
2020-02-11
948
0
大数据-Hive的基本概念
mapreduce
hive
存储
jdbc
大数据
Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类 SQL查询功能。
cwl_java
2019-12-26
442
0
大数据-Hive排序
mapreduce
Distribute By:类似MR中partition,进行分区,结合sort by使用。
cwl_java
2019-12-26
776
0
大数据-Hive联表语句
mapreduce
hive
数据库
sql
左外连接:JOIN操作符左边表中符合WHERE子句的所有记录将会被返回。 查询老师对应的课程
cwl_java
2019-12-26
613
0
大数据-[案例]Reduce端实现JOIN
mapreduce
假如数据量巨大,两表的数据是以文件的形式存储在 HDFS 中, 需要用 MapReduce 程 序来实现以下 SQL 查询运算
cwl_java
2019-12-26
292
0
大数据-Shuffle过程
mapreduce
map 阶段处理的数据如何传递给 reduce 阶段,是 MapReduce 框架中最关键的一个流 程,这个流程就叫 shuffle
cwl_java
2019-12-26
3.5K
0
大数据-ReduceTask工作机制和ReduceTask并行度
mapreduce
Reduce 大致分为 copy、sort、reduce 三个阶段,重点在前两个阶段。copy 阶段包含一 个 eventFetcher 来获取已完成的 map 列表,由 Fetcher 线程去 copy 数据,在此过程中 会启动两个 merge 线程,分别为 inMemoryMerger 和 onDiskMerger,分别将内存中的 数据 merge 到磁盘和将磁盘中的数据进行 merge。待数据 copy 完成之后,copy 阶段就 完成了,开始进行 sort 阶段,sort 阶段主要是执行 finalMerge 操作,纯粹的 sort 阶段, 完成之后就是 reduce 阶段,调用用户定义的 reduce 函数进行处理
cwl_java
2019-12-26
348
0
大数据-MapTask运行机制
javascript
mapreduce
简单概述:inputFile通过split被逻辑切分为多个split文件,通过Record按行读取内容给 map(用户自己实现的)进行处理,数据被map处理结束之后交给OutputCollector收集 器,对其结果key进行分区(默认使用hash分区),然后写入buffer,每个map task都有 一个内存缓冲区,存储着map的输出结果,当缓冲区快满的时候需要将缓冲区的数据以一 个临时文件的方式存放到磁盘,当整个map task结束后再对磁盘中这个map task产生的所 有临时文件做合并,生成最终的正式输出文件,然后等待reduce task来拉数据
cwl_java
2019-12-26
366
0
大数据-经典案例上行流量倒序排序(递减排序)
mapreduce
分析,以需求一的输出数据作为排序的输入数据,自定义FlowBean,以FlowBean为map输 出的key,以手机号作为Map输出的value,因为MapReduce程序会对Map阶段输出的key 进行排序
cwl_java
2019-12-26
572
0
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
立即发文
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档