最新最全的大数据技术体系-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

最新最全的大数据技术体系

专栏成员

751

文章

645023

阅读量

35

订阅数

[已解决]react打包部署

react 打包 yarn hadoop 部署

看你想保留哪一个，我平时node用的多，就把hadoop的yarn改个名字（需要用hadoop时可以用改完名字后的命令或再改回yarn）

2024-05-26

740

[已解决]FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.MoveTask. Unable to

apache hadoop hive exec execution

Failded with exception:unable to move source hdfs://…

2023-11-02

3K0

【大数据实训】基于Hadoop的2019年11月至2020年2月宁波天气数据分析（五）

hadoop 大数据数据分析配置数据

Hadoop 是一个由 Apache 基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。它的目的是从单一的服务器扩展到成千上万的机器，将集群部署在多台机器，每个机器提供本地计算和存储。Hadoop 框架最核心的设计是 HDFS 和 MapReduce。

2023-09-19

2360

【大数据毕设】基于Hadoop的音乐推荐系统论文(三)

hadoop 推荐系统大数据论文系统

本文基于Hadoop技术，设计并实现了一个名为“酷酷音乐网站”的系统，用于音乐资源的存储、管理和推荐。该系统采用Hadoop生态系统中的组件，包括HDFS、MapReduce、HBase和Mahout等，实现了音乐数据的采集、存储和管理，用户行为数据的分析和建模，以及音乐推荐功能的实现。具体而言，该系统使用HBase存储音乐数据和用户行为数据，使用Mahout构建了推荐模型，并将其部署到Hadoop集群上。同时，为了方便用户的使用，该系统实现了一个基于Web的用户交互界面，允许用户搜索音乐、查看推荐结果等。最后，本文对该系统进行了性能测试和评估，结果表明，该系统能够高效地管理音乐数据、准确地推荐音乐，满足了用户的需求。本文的研究对于理解Hadoop技术在音乐推荐系统中的应用具有一定的参考价值。

2023-09-10

1.4K1

假如大数据组件中的动物都变成神奇宝贝，那会变成什么样?

apache hadoop hive hdfs map

Hadoop 是采用了 Map Reduce 的一种分布式的计算框架，它是根据 GFS去开发了 HDFS 分布式文件系统，还有根据 Big Table 开发了 HBase数据存储系统。可以了解到的是，Hadoop 的开源特性成为了分布式计算系统事实上的国际标准。

2023-03-18

3260

2022年Hadoop面试题最全整理，两万字干货分享【建议收藏】

数据安全大数据 hadoop 文件存储

Hadoop 中常问的就三块，第一：分布式存储(HDFS)；第二：分布式计算框架(MapReduce)；第三：资源调度框架(YARN)。

2023-02-01

1K0

工作常用之Yarn详解【五】资源调度与隔离

yarn node.js 访问管理 hadoop

在YARN中，资源管理由ResourceManager和NodeManager共同完成，其中，ResourceManager中的调度器负责资源的分配，而NodeManager则负责资源的供给和隔离。

2022-12-02

1.7K0

大数据成长之路-- hadoop集群的部署(4)退役旧数据节点

hadoop xml 大数据网站

在namenod的cd /export/servers/hadoop-2.6.0-cdh5.14.0/etc/hadoop目录下创建dfs.hosts.exclude文件，并添加需要退役的主机名称 node01执行以下命令

2022-11-30

7420

大数据成长之路-- hadoop集群的部署(3)HDFS新增节点

hadoop 大数据

第六步：node04服务器关机重启并生成公钥与私钥 node04执行以下命令关机重启

2022-11-30

5080

大数据成长之路------hadoop集群的部署(2)Hadoop集群安装部署

hadoop http tcp/ip

7、启动集群 a)格式化集群在第一个节点执行 hadoop namenode -format

2022-11-30

4350

Cloudera Manager环境准备【一】

yum 数据库云数据库 SQL Server sql hadoop

一般而言，一个集群上很少只跑一个业务，大多数情况都是多个业务共享集群，实际上就是共享系统软硬件资源。

2022-11-28

7520

如何使用云容器搭建基于CentOS7的Hadoop2.x伪分布式环境（CSDN开发者云平台使用初体验）

容器云服务器 hadoop 容器服务 java

前不久CSDN联合国内顶级云厂商，共同为开发者提供稳定便宜的云服务，送了学长两张优惠券，一张云容器，一张云主机。恰好最近在学习某硅谷的SeaTunnel课程需要用到主机做实验，使用本地的还需要重头安装VMware，有诸多不便，于是想试试CSDN的云容器服务。

2022-06-13

5040

社交用户画像之集群搭建【二】

虚拟化 DevOps 解决方案 hadoop 运维自动化

得出结论, 如果计算 260G 的数据, 可能和计算 60G 的数据, 所需要的内存一样, Spark 会逐个取数据, 逐个计算, 计算完成后抛弃, 再取下一条

2022-05-31

6740

Kylin的入门实战

hive bash bash 指令 hadoop hbase

1.Kylin 是一款大数据OLAP引擎，由ebay-中国团队研发的，是第一个真正由中国人自己主导、从零开始、自主研发、并成为Apache顶级开源项目

2022-05-12

5950

Hive的基本知识(一)

存储 hive hadoop 文件存储 jdbc

💃 Hive架构 📷 💃Hive 组件用户接口：包括 CLI、JDBC/ODBC、WebGUI。其中，CLI(command line interface)为shell命令行； Hive中的Thrift服务器允许外部客户端通过网络与Hive进行交互，类似于JDBC或ODBC协议。WebGUI是通过浏览器访问Hive。元数据存储：通常是存储在关系数据库如 mysql/derby中。Hive 中的元数据包括表的名字，表的列和分区及其属性，表的属性（是否为外部表等），表的数据所在目录等。 Dri

2022-05-08

3790

❤️hadoop常用命令总结及百万调优❤️

hadoop 大数据 mapreduce yarn bash

以下参数是在用户自己的MR应用程序中配置就可以生效（mapred-default.xml）

2022-05-08

3100

Spark_Day01：Spark 框架概述和Spark 快速入门

spark 虚拟化 hadoop yarn node.js

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-4yHXs6Sp-1627098349792)(/img/image-20210419160056620.png)]

2022-05-08

6040

大数据繁荣生态圈组件之实时大数据Druid小传(一)

压力测试 hadoop 云数据库 SQL Server sql 数据分析

项目中采用的关系型数据库是mysql，那么关系型数据库有哪些优劣势，我们可以参考下面的分析：关系型数据库的优点： 1.基于ACID，支持事务，适合于对安全性和一致性要求高的的数据访问 2.可以进行Join等复杂查询，处理复杂业务逻辑，比如：报表 3.使用方便，通用的SQL语言使得操作关系型数据库非常方便

2022-04-21

3810

今日指数项目之需求调研【三】

存储大数据 hadoop apache 专用宿主机

大数据平台作为底层的基础数据平台，集群规模、计算存储性能将决定流、批的性能指标上限。所以需要考虑整个大数据平台的吞吐量（网络、磁盘IO）、响应速率、计算能力、高并发性、高可用、维护性方便等，以满足多业务场景下，不同应用需求的建设任务，比如多维分析、实时计算、即席查询和数据统计分析等应用功能。本项目大数据平台在建设过程中，将满足如下性能指标： 批处理部分指标： 支持批处理集群批量总写入速度2GB/秒，批量读取速度300MB/秒； 平台支持并发执行300个查询和200个加载任务； 应用查询时间对于数据库的简单数据读取将不超过1~2秒，三个月统计计算查询时间将不超过15秒，复杂查询时间将不超过1分钟； 复杂批处理任务，ETL的处理时间将不超过2个小时； 实时流处理指标： 平台支持接收峰值为每秒100万条+的流数据； 平台能够在峰值条件下，完成2秒内的实时预警，2秒内完成针对当日数据的查询; 平台每日实时处理模块能够累积处理144亿笔（按4小时交易日保持峰值流速计）订单流数据； 平台支持至少50个并发访问/查询当日数据。 应用响应指标： 数仓应用项目离线报表30秒内完成数据响应查询； 实时大屏数据展示5秒内完成数据响应查询； 应用平台支持并发执行500个用户查询请求；

2022-04-11

3230

Kylin 是什么?

hadoop sql apache 大数据 spark

Apache Kylin™是一个开源的、分布式的分析型数据仓库，提供Hadoop/Spark 之上的 SQL 查询接口及多维分析（OLAP）能力以支持超大规模数据，最初由 eBay 开发并贡献至开源社区。它能在亚秒内查询巨大的表。

2022-03-28

6780

点击加载更多

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态