首页
学习
活动
专区
工具
TVP
发布

最新最全的大数据技术体系

专栏作者
717
文章
547557
阅读量
35
订阅数
[已解决]FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.MoveTask. Unable to
Failded with exception:unable to move source hdfs://…
Maynor
2023-11-02
1.5K0
【大数据实训】基于Hadoop的2019年11月至2020年2月宁波天气数据分析(五)
Hadoop 是一个由 Apache 基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。它的目的是从单一的服务器扩展到成千上万的机器,将集群部署在多台机器,每个机器提供本地计算和存储。Hadoop 框架最核心的设计是 HDFS 和 MapReduce。
Maynor
2023-09-19
1690
【大数据毕设】基于Hadoop的音乐推荐系统论文(三)
本文基于Hadoop技术,设计并实现了一个名为“酷酷音乐网站”的系统,用于音乐资源的存储、管理和推荐。该系统采用Hadoop生态系统中的组件,包括HDFS、MapReduce、HBase和Mahout等,实现了音乐数据的采集、存储和管理,用户行为数据的分析和建模,以及音乐推荐功能的实现。具体而言,该系统使用HBase存储音乐数据和用户行为数据,使用Mahout构建了推荐模型,并将其部署到Hadoop集群上。同时,为了方便用户的使用,该系统实现了一个基于Web的用户交互界面,允许用户搜索音乐、查看推荐结果等。最后,本文对该系统进行了性能测试和评估,结果表明,该系统能够高效地管理音乐数据、准确地推荐音乐,满足了用户的需求。本文的研究对于理解Hadoop技术在音乐推荐系统中的应用具有一定的参考价值。
Maynor
2023-09-10
1K1
假如大数据组件中的动物都变成神奇宝贝,那会变成什么样?
Hadoop 是采用了 Map Reduce 的一种分布式的计算框架,它是根据 GFS去开发了 HDFS 分布式文件系统,还有根据 Big Table 开发了 HBase数据存储系统。可以了解到的是,Hadoop 的开源特性成为了分布式计算系统事实上的国际标准。
Maynor
2023-03-18
3020
2022年Hadoop面试题最全整理,两万字干货分享【建议收藏】
Hadoop 中常问的就三块,第一:分布式存储(HDFS);第二:分布式计算框架(MapReduce);第三:资源调度框架(YARN)。
Maynor
2023-02-01
7410
工作常用之Yarn详解【五】资源调度与隔离
在YARN中,资源管理由ResourceManager和NodeManager共同完成,其中,ResourceManager中的调度器负责资源的分配,而NodeManager则负责资源的供给和隔离。
Maynor
2022-12-02
1.2K0
大数据成长之路-- hadoop集群的部署(4)退役旧数据节点
在namenod的cd /export/servers/hadoop-2.6.0-cdh5.14.0/etc/hadoop目录下创建dfs.hosts.exclude文件,并添加需要退役的主机名称 node01执行以下命令
Maynor
2022-11-30
6450
大数据成长之路-- hadoop集群的部署(3)HDFS新增节点
第六步:node04服务器关机重启并生成公钥与私钥 node04执行以下命令关机重启
Maynor
2022-11-30
4550
大数据成长之路------hadoop集群的部署(2)Hadoop集群安装部署
7、启动集群 a)格式化集群 在第一个节点执行 hadoop namenode -format
Maynor
2022-11-30
4160
Cloudera Manager环境准备【一】
一般而言,一个集群上很少只跑一个业务,大多数情况都是多个业务共享集群,实际上就是共享系统软硬件资源。
Maynor
2022-11-28
6980
如何使用云容器搭建基于CentOS7的Hadoop2.x伪分布式环境(CSDN开发者云平台使用初体验)
前不久CSDN联合国内顶级云厂商,共同为开发者提供稳定便宜的云服务,送了学长两张优惠券,一张云容器,一张云主机。恰好最近在学习某硅谷的SeaTunnel课程需要用到主机做实验,使用本地的还需要重头安装VMware,有诸多不便,于是想试试CSDN的云容器服务。
Maynor
2022-06-13
4700
社交用户画像之集群搭建【二】
得出结论, 如果计算 260G 的数据, 可能和计算 60G 的数据, 所需要的内存一样, Spark 会逐个取数据, 逐个计算, 计算完成后抛弃, 再取下一条
Maynor
2022-05-31
6430
Kylin的入门实战
1.Kylin 是一款大数据OLAP引擎,由ebay-中国团队研发的,是第一个真正由中国人自己主导、从零开始、自主研发、并成为Apache顶级开源项目
Maynor
2022-05-12
5480
Hive的基本知识(一)
💃 Hive架构 📷 💃Hive 组件 用户接口:包括 CLI、JDBC/ODBC、WebGUI。其中,CLI(command line interface)为shell命令行; Hive中的Thrift服务器允许外部客户端通过网络与Hive进行交互,类似于JDBC或ODBC协议。WebGUI是 通过浏览器访问Hive。 元数据存储:通常是存储在关系数据库如 mysql/derby中。Hive 中的元数据包括表的名字,表的列和分区及其属性,表的属性(是否为外部表等),表的数据所在目录等。 Dri
Maynor
2022-05-08
3620
❤️hadoop常用命令总结及百万调优❤️
以下参数是在用户自己的MR应用程序中配置就可以生效(mapred-default.xml)
Maynor
2022-05-08
2940
Spark_Day01:Spark 框架概述和Spark 快速入门
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-4yHXs6Sp-1627098349792)(/img/image-20210419160056620.png)]
Maynor
2022-05-08
5740
大数据繁荣生态圈组件之实时大数据Druid小传(一)
项目中采用的关系型数据库是mysql,那么关系型数据库有哪些优劣势,我们可以参考下面的分析: 关系型数据库的优点: 1.基于ACID,支持事务,适合于对安全性和一致性要求高的的数据访问 2.可以进行Join等复杂查询,处理复杂业务逻辑,比如:报表 3.使用方便,通用的SQL语言使得操作关系型数据库非常方便
Maynor
2022-04-21
3320
今日指数项目之需求调研【三】
大数据平台作为底层的基础数据平台,集群规模、计算存储性能将决定流、批的性能指标上限。所以需要考虑整个大数据平台的吞吐量(网络、磁盘IO)、响应速率、计算能力、高并发性、高可用、维护性方便等,以满足多业务场景下,不同应用需求的建设任务,比如多维分析、实时计算、即席查询和数据统计分析等应用功能。 本项目大数据平台在建设过程中,将满足如下性能指标: 批处理部分指标: 支持批处理集群批量总写入速度2GB/秒,批量读取速度300MB/秒; 平台支持并发执行300个查询和200个加载任务; 应用查询时间对于数据库的简单数据读取将不超过1~2秒,三个月统计计算查询时间将不超过15秒,复杂查询时间将不超过1分钟; 复杂批处理任务,ETL的处理时间将不超过2个小时; 实时流处理指标: 平台支持接收峰值为每秒100万条+的流数据; 平台能够在峰值条件下,完成2秒内的实时预警,2秒内完成针对当日数据的查询; 平台每日实时处理模块能够累积处理144亿笔(按4小时交易日保持峰值流速计)订单流数据; 平台支持至少50个并发访问/查询当日数据。 应用响应指标: 数仓应用项目离线报表30秒内完成数据响应查询; 实时大屏数据展示5秒内完成数据响应查询; 应用平台支持并发执行500个用户查询请求;
Maynor
2022-04-11
2930
Kylin 是什么?
Apache Kylin™是一个开源的、分布式的分析型数据仓库,提供Hadoop/Spark 之上的 SQL 查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由 eBay 开发并贡献至开源社区。它能在亚秒内查询巨大的表。
Maynor
2022-03-28
6390
金融+大数据解决方案:银行业
银行业是一个数据驱动的行业,数据也一直是银行信息化的主题词。 随着大数据技术的飞速发展,银行信息化也进入了新的阶段:大数据时代。 银行在大数据技术应用方面具有天然优势:一方面,在业务开展过程中积累了大量有价值的数据,通过运用大数据技术挖掘和分析之后,这些数据将产生巨大的商业价值;另一方面,银行在资金、设备、人才、技术上都具有极大的便利条件,有能力采用大数据的最新技术。建立“金融大数据服务平台”, 可以通过对金融数据的挖掘、分析,创造数据增值价值,提供针对银行的精准营销、风险控制、产品创新、业务体验优化、客户综合管理等多种金融服务。
Maynor
2022-03-28
7390
点击加载更多
社区活动
RAG七天入门训练营
鹅厂大牛手把手带你上手实战,赢鹅厂证书、公仔好礼!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档