腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
大鹅专栏:大数据到机器学习
从大数据计算到机器学习,你需要了解这些。专注于Hadoop生态 Spark 机器学习 深度学习
专栏成员
举报
127
文章
296347
阅读量
47
订阅数
订阅专栏
申请加入专栏
全部文章(127)
机器学习(35)
深度学习(30)
NLP 服务(26)
编程算法(25)
java(22)
python(19)
https(14)
腾讯云 TI 平台(13)
spark(12)
hadoop(12)
http(11)
hbase(11)
云服务器(9)
机器学习平台(9)
人工智能(8)
网络安全(8)
tensorflow(7)
推荐系统(7)
node.js(6)
数据库(6)
大数据解决方案(6)
大数据(6)
kafka(6)
缓存(5)
html(4)
spring(4)
神经网络(4)
TDSQL MySQL 版(4)
大数据处理套件 TBDS(4)
存储(4)
线性回归(4)
模式识别(4)
数据挖掘(3)
vue.js(3)
云数据库 SQL Server(3)
sql(3)
ide(3)
linux(3)
批量计算(3)
文件存储(3)
消息队列 CKafka 版(3)
弹性 MapReduce(3)
网站(3)
jdk(3)
jvm(3)
数据分析(3)
智能推荐平台(3)
javascript(2)
bash(2)
xml(2)
matlab(2)
bash 指令(2)
知识图谱(2)
容器(2)
serverless(2)
游戏(2)
分布式(2)
强化学习(2)
hive(2)
spring boot(2)
决策树(2)
pytorch(2)
rpc(2)
云数据仓库套件 sparkling(2)
jupyter notebook(2)
对象存储(1)
其他(1)
官方文档(1)
腾讯云gme(1)
c++(1)
scala(1)
bootstrap(1)
css(1)
jquery(1)
云数据库 Redis(1)
flask(1)
打包(1)
api(1)
搜索引擎(1)
中文分词(1)
unix(1)
ubuntu(1)
apache(1)
容器镜像服务(1)
GPU 云服务器(1)
容器服务(1)
NAT 网关(1)
消息队列 CMQ 版(1)
腾讯云ide(1)
文字识别(1)
机器翻译(1)
mongodb(1)
图像处理(1)
yarn(1)
云数据仓库 PostgreSQL(1)
kubernetes(1)
图像识别(1)
卷积神经网络(1)
numpy(1)
面向对象编程(1)
zookeeper(1)
keras(1)
二叉树(1)
aop(1)
socket编程(1)
安全(1)
数据处理(1)
windows(1)
安全漏洞(1)
数据结构(1)
nat(1)
对话机器人(1)
轻量应用服务器(1)
es(1)
Elasticsearch Service(1)
流计算 Oceanus(1)
add(1)
alpha(1)
ci(1)
ddl(1)
lines(1)
list(1)
max(1)
min(1)
sum(1)
递归(1)
链表(1)
搜索文章
搜索
搜索
关闭
大数据文件格式对比 Parquet Avro ORC 特点 格式 优劣势
apache
hadoop
存储
hive
数据库
在大数据环境中,有各种各样的数据格式,每个格式各有优缺点。如何使用它为一个特定的用例和特定的数据管道。数据可以存储为可读的格式如JSON或CSV文件,但这并不意味着实际存储数据的最佳方式。
大鹅
2021-06-16
4.8K
0
HIVE 基本概念 数据单元 学习笔记
hive
hadoop
sql
Hive是一个数据仓库基础工具,由Java编写,在Hadoop中用来处理结构化数据,可以把SQL查询转换为一系列在Hadoop集群上运行的作业。
大鹅
2021-06-16
499
0
HDFS 基本概念及常用操作 学习笔记
node.js
存储
hadoop
https
大数据
Hadoop 附带了一个名为 HDFS(Hadoop Distributed File System, Hadoop分布式文件系统)的分布式文件系统,基于 Hadoop 的应用程序使用 HDFS 。HDFS 是专为存储超大数据文件,运行在集群的商品硬件上。它是容错的,可伸缩的,并且非常易于扩展。
大鹅
2021-06-16
485
0
HBASE BufferedMutator 批量写入使用举例与源码解析
hbase
云服务器
弹性 MapReduce
大数据处理套件 TBDS
hadoop
BufferedMutator主要用来异步批量的将数据写入一个hbase表,就像Htable一样。通过Connection获取一个实例。
大鹅
2021-06-04
2.2K
0
Java连接HBase的正确方法及Connection创建步骤与详解
java
hbase
hadoop
HBASE的连接不像其他传统关系型数据库连接需要维护连接池。HBASE连接若使用错误则会导致随时间推移程序创建的TCP连接过多,导致HBASE连接失败。
大鹅
2020-10-29
7.8K
0
Hbase 基础 Rowkey CF 架构 概述 预分区及Rowkey设计 学习笔记
java
hbase
hadoop
HBase类似于数据库的存储层,HBase适用于结构化存储,并且为列式分布式数据库。
大鹅
2020-10-29
1.2K
0
Hadoop HBASE集群运维相关笔记 及hdfs参数设置调优等
java
hadoop
hbase
本篇博客将持续更新一些遇到过的Hadoop大数据集群的问题,包括HBASE HDFS的常见问题及相关的解决方案
大鹅
2020-10-29
978
0
Spark Structured Streaming 使用总结
大数据解决方案
java
spark
hadoop
在大数据时代中我们迫切需要实时应用解决源源不断涌入的数据,然而建立这么一个应用需要解决多个问题:
大鹅
2020-10-29
9K
0
HBASE 技术细节 读取与写入 Region Split与合并介绍
hbase
弹性 MapReduce
hadoop
Hbase Rowkey CF 架构 概述 预分区及Rowkey设计 学习笔记介绍了Region类似于数据库的分片和分区的概念,每个Region负责一小部分Rowkey范围的数据的读写和维护,Region包含了对应的起始行到结束行的所有信息。master将对应的region分配给不同的RergionServer,由RegionSever来提供Region的读写服务和相关的管理工作。
大鹅
2020-07-31
2.1K
0
CentOS集群安装CDH Hadoop环境 操作指引 及Yarn Hbase Spark配置安装
java
hadoop
spark
hbase
此篇博客主要记录集群安装Hadoop环境的流程及配置讲解。这里的IP已换成192.168.0.*
大鹅
2020-06-24
1.5K
0
Spark 基本概念及 jobs stages tasks 等 解释
spark
hadoop
大数据处理套件 TBDS
大数据
大数据解决方案
还有一个是范围的依赖,即RangeDependency,它仅仅被org.apache.spark.rdd.UnionRDD使用。UnionRDD是把多个RDD合成一个RDD,这些RDD是被拼接而成,即每个parent RDD的Partition的相对顺序不会变,只不过每个parent RDD在UnionRDD中的Partition的起始位置不同
大鹅
2019-09-23
1.3K
0
Spark 与 Hadoop 学习笔记 介绍及对比
大数据处理套件 TBDS
大数据解决方案
大数据
spark
hadoop
这篇博客将会简单记录Hadoop与Spark对比,HDFS,MapReduce的基本概念,及Spark架构设计,RDD,运行模式。整理起来一起阅读方便我们理解整个大数据处理框架全局和发展。
大鹅
2019-09-23
1.2K
0
没有更多了
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
立即查看
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档