腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
加米谷大数据
加米谷大数据实战经验分享,大数据项目分享,大数据开发培训等
专栏成员
举报
296
文章
360012
阅读量
61
订阅数
订阅专栏
申请加入专栏
全部文章(296)
大数据(121)
hadoop(53)
spark(39)
数据分析(38)
数据库(37)
机器学习(31)
java(30)
编程算法(30)
存储(29)
python(27)
分布式(25)
sql(22)
mapreduce(22)
人工智能(20)
apache(19)
数据可视化(18)
hive(17)
数据挖掘(16)
hbase(16)
其他(15)
神经网络(15)
深度学习(13)
开源(13)
网络安全(13)
数据处理(11)
https(11)
node.js(8)
github(8)
api(8)
scala(7)
企业(7)
NLP 服务(6)
git(6)
yarn(6)
zookeeper(6)
c++(5)
nosql(5)
网站(5)
javascript(4)
linux(4)
unix(4)
mongodb(4)
数据安全(4)
http(4)
rpc(4)
数据结构(4)
kafka(4)
区块链(3)
云数据库 Redis(3)
TDSQL MySQL 版(3)
缓存(3)
运维(3)
爬虫(3)
决策树(3)
安全(3)
c#(2)
bash(2)
react(2)
云数据库 SQL Server(2)
ide(2)
spring(2)
shell(2)
jvm(2)
监督学习(2)
微服务(2)
sas(2)
Elasticsearch Service(2)
ICP备案(1)
负载均衡(1)
比特币(1)
数字货币(1)
tensorflow(1)
c 语言(1)
php(1)
perl(1)
ruby(1)
.net(1)
bootstrap(1)
angularjs(1)
vue.js(1)
css(1)
matlab(1)
jar(1)
搜索引擎(1)
windows server(1)
负载均衡缓存(1)
文件存储(1)
云数据库 MongoDB(1)
知识图谱(1)
大数据处理套件 TBDS(1)
图像处理(1)
混合云解决方案(1)
vr 视频解决方案(1)
工业物联(1)
容器(1)
serverless(1)
devops(1)
自动化(1)
图像识别(1)
强化学习(1)
erp(1)
yum(1)
numpy(1)
面向对象编程(1)
opencv(1)
hashmap(1)
线性回归(1)
二叉树(1)
selenium(1)
rabbitmq(1)
迁移学习(1)
windows(1)
物联网(1)
系统架构(1)
架构设计(1)
nat(1)
信息流(1)
云计算(1)
任务调度(1)
虚拟化(1)
5g(1)
es(1)
flink(1)
学习方法(1)
TDSQL-C MySQL 版(1)
app(1)
na(1)
工具(1)
工作流(1)
实践(1)
数据科学(1)
搜索文章
搜索
搜索
关闭
10本值得你读的Apache Spark书籍
spark
apache
大数据
数据结构
机器学习
Apache Spark是Apache的开源大数据框架,具有与SQL,流,图处理和机器学习有关的内置模块。它于2010年开源,从一开始就对大数据和相关技术产生了明显影响,因为它很快吸引了250多个组织和超过1000个参与者的关注。拥有众多Apache Spark书籍,很难找到用于自学的最佳书籍。
加米谷大数据
2020-06-02
4.5K
0
0基础转行大数据,2020年须知的十个大数据技术
hadoop
区块链
机器学习
apache
数字时代最先进的技术之一就是大数据技术。大数据不仅仅是个术语。它与机器学习、人工智能、区块链、物联网和增强现实等其他技术密切相关。
加米谷大数据
2020-02-14
488
0
大数据入门须知的51个大数据术语(1)
apache
大数据
编程算法
开源
分布式
本文从最近的大数据指南中创建了一份汇编清单,其中列出了我们认为最重要的相关术语和定义。
加米谷大数据
2020-02-14
619
0
Hadoop的发家简史
hadoop
mapreduce
apache
hbase
说到大数据技术不得不提起Hadoop,今天加米谷大数据就来简单介绍一下Hadoop的简史。
加米谷大数据
2019-06-05
1.6K
0
大数据技术分享:Hadoop的相关工具
hadoop
hive
apache
mapreduce
大数据
Apache的Hadoop项目已几乎与大数据划上了等号。它不断壮大起来,已成为一个完整的生态系统,众多开源工具面向高度扩展的分布式计算。
加米谷大数据
2019-04-19
341
0
大数据技术分享:十大开源的大数据技术
spark
apache
hive
sql
大数据已然成为当今热门的技术之一,开源让越来越多的项目可以直接采用大数据技术,下面就来盘点受欢迎的十大开源的大数据技术。
加米谷大数据
2019-04-19
900
0
大数据处理必备的十大工具
hadoop
hive
apache
sql
开源
Hive是一个建立在Hadoop上的开源数据仓库基础设施,通过Hive可以很容易的进行数据的ETL,对数据进行结构化处理,并对Hadoop上大数据文件进行查询和处理等。 Hive提供了一种简单的类似SQL的查询语言—HiveQL,这为熟悉SQL语言的用户查询数据提供了方便。
加米谷大数据
2019-01-09
2.7K
0
大数据Hadoop入门需要填的坑
hadoop
分布式
hbase
apache
Hadoop是一个由Apache基金会所开发的分布式系统集成架构,用户可以在不了解分布式底层细节情况下,开发分布式程序,充分利用集群的威力来进行高速运算与存储,具有可靠、高效、可伸缩的特点。
加米谷大数据
2019-01-09
444
0
比拼生态和未来,Spark和Flink哪家强?
spark
api
apache
运维
开源
Spark 是最活跃的 Apache 项目之一。Spark 的开源社区一度达到上千的活跃贡献者。最主要推动者是 Databricks,由最初的 Spark 创造者们成立的公司。Spark 因为在引擎方面比 MapReduce 全面占优,经过几年发展和 Hadoop 生态结合较好,已经被广泛视为 Hadoop MapReduce 引擎的取代者。
加米谷大数据
2019-01-09
979
0
容易搞混大数据分析学习的工具
hadoop
mongodb
云数据库 MongoDB
apache
大数据已成为当今企业不可分割的一部分,越来越多的企业纷纷寻找熟悉大数据分析工具的人。他们都期望员工在技术方面体现能力,并展示才华和思维过程。到目前为止流行的所谓的需求技能已经不再了,如果今天还有什么比较大热的技能,那就是大数据分析。
加米谷大数据
2019-01-09
666
0
Impala介绍
apache
sql
hadoop
分布式
大数据
Impala 是一个高性能分析数据库,可针对存储在 Apache Hadoop 集群中的 PB 级数据进行闪电般快速的分布式 SQL 查询。Impala 还是一个现代化,大规模分布式,大规模并行的 C ++ 查询引擎,可以分析,转换和合并来自各种数据源的数据。Impala采用与Hive相同的元数据、SQL语法、ODBC 驱动程序和用户接口(Hue Beeswax),这样在使用CDH产品时,批处理和实时查询的平台是统一的。
加米谷大数据
2018-07-25
1.9K
0
Flume的高可靠,高性能和高扩展性
https
apache
开源
ruby
Flume 是Apache旗下的一款开源、高可靠、高扩展、容易管理、支持客户扩展的数据采集系统。 Flume使用JRuby来构建,所以依赖Java运行环境。
加米谷大数据
2018-07-25
749
0
什么是 Apache Spark?大数据分析平台详解
apache
spark
大数据
分布式
自从 Apache Spark 2009 年在 U.C. Berkeley 的 AMPLab 默默诞生以来,它已经成为这个世界上最重要的分布式大数据框架之一。Spark 可以用多种方式部署,它为 Java、Scala、Python,和 R 编程语言提供了本地绑定,并且支持 SQL、流数据、机器学习,和图处理。你将会发现它被银行、电信公司、游戏公司、政府,和所有如 Apple、Facebook、IBM,和 Microsoft 等主要的科技巨头公司使用。
加米谷大数据
2018-07-25
1.2K
0
【活动回顾】成都理工信科院大数据技术讲座
大数据
spark
apache
开源
活动背景 大数据时代已经到来,从国家到地方政府再到企业,都在致力与发展大数据,大数据也已经影响到我们生活的方方面面。2018年5月16日晚加米谷大数据应邀到成都理工大学信科院进行大数据技术讲座。 活动目的 大数据技术讲座的开展,让学生更深刻的了解什么是大数据,让学生能提早的了解到大数据相关职业,以便在未来的发展方向上提前做好准备。 主讲人 张安文,加米谷大数据创始人,国家大数据标准组成员,Spark Contributor,资深大数据专家,15年互联网IT技术经验,6年大数据项目实战经验,精通大数据领域
加米谷大数据
2018-06-04
444
0
技术分享 | kafka的使用场景以及生态系统
apache
缓存
rabbitmq
kafka的使用场景 今天介绍一些关于Apache kafka 流行的使用场景。这些领域的概述 消息 kafka更好的替换传统的消息系统,消息系统被用于各种场景(解耦数据生产者,缓存未处理的消息,等),与大多数消息系统比较,kafka有更好的吞吐量,内置分区,副本和故障转移,这有利于处理大规模的消息。根据我们的经验,消息往往用于较低的吞吐量,但需要低的端到端延迟,并需要提供强大的耐用性的保证。 在这一领域的kafka比得上传统的消息系统,如的ActiveMQ或RabbitMQ的。 网站活动追踪 kafka
加米谷大数据
2018-04-02
3.7K
0
技术分享 | spark之广播变量设计和实现
spark
apache
spark 广播的方式 spark 历史上采用了两种广播的方式 一种是通过 Http 协议传输数据 一种是通过 Torrent 协议来传输数据 但是最新的 spark 版本中, http 的方式已经废弃了(pr 在此https://github.com/apache/spark/pull/10531), spark 是在 spark 1.1 版本中引入了 TorrentBroadcast, 此后就没有更新 HttpBroadcast 和相关文档了, spark2.0 的时候完全可以删除 HttpBroadc
加米谷大数据
2018-04-02
837
0
技术分享 | Apache Kafka下载与安装启动
apache
scala
zookeeper
壹 下载 注意:别下成源文件了! 带src的是源文件,如: Source download: kafka-0.10.1.0-src.tgz (asc, md5) 你应该下的是: Scala 2.11 - kafka_2.11-0.10.1.0.tgz (asc, md5) 推荐下载scala 2.11版本的 你可以登录Apache kafka 官方下载。 http://kafka.apache.org/downloads.html 贰 安装与启动 kafka的背景知识已经讲了很多了,让我们现在开始实践吧,假
加米谷大数据
2018-04-02
2.3K
0
技术干货 | Hadoop3.0稳定版安装攻略来啦!
apache
hadoop
Apache Hadoop 3.0.0在前一个主要发行版本(hadoop-2.x)中包含了许多重要的增强功能。 这个版本通常是可用的(GA),api稳定性和质量已经到了可以再生成中使用的步骤。 一 概
加米谷大数据
2018-04-02
1.9K
0
技术干货 | hadoop之hdfs安全模式
hadoop
apache
namenode启动时,首先将映像文件(fsimage)载入内存,并中兴编辑日志中的各项操作。一旦在内存中成功建立文件系统元数据的映像,则创建一个新的fsimage文件(该操作不需要借助namenode)和一个空的编辑日志。此时,namenode开始监听RPC和http请求。但是此刻namenode运行在安全模式,即namenode的文件系统对于客户端来说是只读的。(只有访问文件系统元数据的文件系统操作时肯定成功执行的,对于读文件操作,只有集群中当前datanode上的块可用时,才能工作。但文件修改操作,包
加米谷大数据
2018-04-02
1.4K
0
没有更多了
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
立即查看
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档