大数据实战演练-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

大数据实战演练

专栏成员

157

文章

578223

阅读量

60

订阅数

说一说 Ambari 支持 Python3 的最新进展

单元测试大数据 python3 部署操作系统

万众期待，目前 Ambari 社区提交了对 python3 版本的支持，贡献者提供了非常详细的升级说明，呼吁大家根据说明将改动更新到自己本地，进行试用，然后反馈。

2023-09-12

4770

hdp 不更新了，有没有办法将 Apache Hadoop 代替 hdp 并集成到 Ambari 中呢？

apache hadoop 开源大数据

今天咱来聊一聊 Ambari 如何集成 Apache Hadoop 哈，自从 cloudera 公司将 hortonworks 公司收购后，hdp 就不迭代更新了，这对 Apache Ambari 也产生了很大影响，毕竟 Ambari 与 hdp 耦合性很强。

2022-11-17

3.3K1

干货 | 5000字教你如何使用命令行查看应用日志以及YARN应用日志相关参数解析

yarn node.js flink hadoop 大数据

对于从事大数据相关工作的朋友来说，在平时应该会跟 yarn 打过不少交道。像 MapReduce on yarn，Spark on yarn，Flink on yarn 等都是需要将应用运行在 yarn 上面的。但是对于应用运行日志的查看，yarn 却不像寻常服务那样方便，确实是有一些门槛的。而今天，我们就来好好梳理运行在 yarn 上面的应用日志相关参数及查看方式，最后以查看 Flink on yarn 日志示例。

2022-11-17

2.4K0

干货 | YARN 应用日志相关参数解析及如何使用命令行查看应用日志

yarn node.js flink hadoop 大数据

对于从事大数据相关工作的朋友来说，在平时应该会跟 yarn 打过不少交道。像 MapReduce on yarn，Spark on yarn，Flink on yarn 等都是需要将应用运行在 yarn 上面的。但是对于应用运行日志的查看，yarn 却不像寻常服务那样方便，确实是有一些门槛的。而今天，我们就来好好梳理运行在 yarn 上面的应用日志相关参数及查看方式，最后以查看 Flink on yarn 日志示例。

2022-11-17

3.2K0

【史上最全】Hadoop 核心 - HDFS 分布式文件系统详解(上万字建议收藏)

存储大数据缓存 hadoop xml

Hadoop 分布式系统框架中，首要的基础功能就是文件系统，在 Hadoop 中使用 FileSystem 这个抽象类来表示我们的文件系统，这个抽象类下面有很多子实现类，究竟使用哪一种，需要看我们具体的实现类，在我们实际工作中，用到的最多的就是HDFS(分布式文件系统)以及LocalFileSystem(本地文件系统)了。

2022-11-17

9660

数仓面试高频考点--解决hive小文件过多问题

hive sql 大数据 mapreduce node.js

hive 中的小文件肯定是向 hive 表中导入数据时产生，所以先看下向 hive 中导入数据的几种方式

2021-04-07

6570

彻底搞清Flink中的Window（Flink版本1.8）

flink 大数据 processing windows apache

在流处理应用中，数据是连续不断的，因此我们不可能等到所有数据都到了才开始处理。当然我们可以每来一个消息就处理一次，但是有时我们需要做一些聚合类的处理，例如：在过去的1分钟内有多少用户点击了我们的网页。在这种情况下，我们必须定义一个窗口，用来收集最近一分钟内的数据，并对这个窗口内的数据进行计算。

2021-04-07

1.4K0

快手EB级HDFS挑战与实践

大数据 https 网络安全

导读：作为快手内部数据规模和机器规模最大的分布式文件存储系统，HDFS一直伴随着快手业务的飞速发展而快速成长。

2021-04-07

6840

完结撒花 | 全网稀有的Ambari自定义服务集成实战（全）

hadoop 大数据

自从 2020 年开始，我就发觉网上使用 Ambari 的同学多了很多，随着 cloudera 收购 hdp 并进入收费模式，越来越多的企业选择了 Ambari 来管理大数据平台，Ambari 集成第三方服务的需求也就变得越来越常见。

2021-04-07

1.6K0

Java api 远程访问 HDFS HA 通用写法总结，说实话，我之前就是前一种写法的那种人，笑哭~

大数据 xml node.js rpc

今天将自己的程序部署到生产环境中，发现执行 hdfs 相关操作时报错了。原来是测试环境是 nameNode 单节点，生产环境上是 nameNode HA 。

2020-12-16

3.1K0

拜托！这才是分布式系统CAP的正确打开方式！

数据分析大数据分布式数据库 sql

纠结了很久要不要写这一篇，作为分布式系统的核心理论简单说说容易，聊透却很难，转念一想，如果不写这篇，算什么想通透大数据呢！并且这本身就违背了我写作的初衷；加之正好前几天和同事以ZooKeeper的用户行为反推了CAP理论，回过头来细琢磨了下，还蛮有意思的！闲话少絮，我们进入正题！

2020-09-01

7430

HBase 集成 Phoenix 构建二级索引实践

hbase TDSQL MySQL 版专用宿主机 sql 大数据

Phoenix 在 HBase 生态系统中占据了非常重要的地位，本文主要包括以下几方面内容：

2020-02-18

2.1K1

【实战】使用 Kettle 工具将 mysql 数据增量导入到 MongoDB 中

云数据库 SQL Server 大数据 mongodb 云数据库 MongoDB 数据库

1）根据 source 和 db 字段来获取 MongoDB 集合内 business_time 最大值。

2020-02-18

5.4K0

【实战】Kettle自定义jar包供JavaScript使用

jar javascript java 大数据 maven

工具类方法开发完毕后，可通过 mvn clean package -DskipTests 命令进行打包，在 target 目录下，会生成一个 jar 文件。需要将这个 jar 包放到 kettle 的 lib 目录下。如下图所示：

2020-01-17

1.7K0

Sqoop1.4.7实现将Mysql数据与Hadoop3.0数据互相抽取

hive 云数据库 SQL Server hbase TDSQL MySQL 版大数据

将 mysql 数据库中的 hive 数据库中的 ROLES 表数据导入到 HDFS 中的 /tmp/root/111 目录下。执行代码如下：

2019-08-05

2.5K0

HBase应用（一）：数据批量导入说明

TDSQL MySQL 版 hbase mapreduce 大数据 api

前两种方式：需要频繁的与数据所存储的 RegionServer 通信，一次性导入大量数据时，可能占用大量 Regionserver 资源，影响存储在该 Regionserver 上其他表的查询。

2019-06-15

4K0

HBase原理（一）：架构理解

hbase TDSQL MySQL 版大数据存储 zookeeper

Apache HBase 是基于 Hadoop 构建的一个分布式的、可伸缩的海量数据存储系统。常被用来存放一些海量的(通常在TB级别以上)、结构比较简单的数据，如历史订单记录，日志数据，监控 Metrics 数据等等，HBase 提供了简单的基于 Key 值的快速查询能力。

2019-05-28

1.3K0

【生活现场】从洗袜子到HBase存储原理解析

hbase TDSQL MySQL 版大数据 node.js html

小史是一个非科班的程序员，虽然学的是电子专业，但是通过自己的努力成功通过了面试，现在要开始迎接新生活了。

2019-05-14

8200

Kylin集群模式部署（使用同一HBase存储）

nginx hbase TDSQL MySQL 版大数据 hive

本文主要讲解如何部署Kylin集群，采取多个Kylin实例共享HBase存储的模式，如果需要事先了解Kylin基本概念的朋友可以查看《Apache Kylin基本原理及概念》。

2019-04-17

2.2K5

HDFS ACL权限设置

hadoop 大数据 hive

今天主要给大家说一下HDFS文件权限的问题。当一个普通用户去访问HDFS文件时，可能会报Permission denied的错误。那么你会怎么做呢？

2019-03-19

9.7K0

点击加载更多

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态