腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

about云

专栏作者

216

文章

314939

阅读量

58

订阅数

基于Flink商品实时推荐系统项目【大数据及算法】

TDSQL MySQL 版 hbase 容器镜像服务推荐系统存储

介绍：基于Flink实现的商品实时推荐系统。flink统计商品热度，放入redis缓存，分析日志信息，将画像标签和实时记录放入Hbase。在用户发起推荐请求后，根据用户画像重排序热度榜，并结合协同过滤和标签两个推荐模块为新生成的榜单的每一个产品添加关联产品，最后返回新的用户列表。 1. 系统架构 v2.0 1.1 系统架构 v2.0

2020-07-02

3.1K1

大数据实用组件Hudi--实现管理大型分析数据集在HDFS上的存储

大数据 spark hive hbase TDSQL MySQL 版

问题导读 1.什么是Hudi？ 2.Hudi对HDFS可以实现哪些操作？ 3.Hudi与其它组件对比有哪些特点？前两天我们About云群大佬公司想了解Hudi ，并上线使用。Hudi 或许大家了解的比较少，这里给大家介绍下Hudi这个非常实用和有潜力的组件。 Hudi是在HDFS的基础上，对HDFS的管理和操作。支持在Hadoop上执行upserts/insert/delete操作。这里大家可能觉得比较抽象，那么它到底解决了哪些问题？ Hudi解决了我们那些痛点 1.实时获取新增数据你是否遇到过这样的问题，使用Sqoop获取Mysql日志或则数据，然后将新增数据迁移到Hive或则HDFS。对于新增的数据，有不少公司确实是这么做的，比较高级点的，通过Shell调用Sqoop迁移数据实现自动化，但是这里面有很多的坑和难点，相对来说工作量也不少，那么有没有更好的解决办法那？---Hudi可以解决。Hudi可以实时获取新数据。 2.实时查询、分析对于HDFS数据，我们要查询数据，是需要使用MapReduce的，我们使用MapReduce查询，这几乎是让我们难以接受的，有没有近实时的方案，有没有更好的解决方案--Hudi。什么是Hudi Apache Hudi代表Hadoop Upserts anD Incrementals，管理大型分析数据集在HDFS上的存储。Hudi的主要目的是高效减少摄取过程中的数据延迟。由Uber开发并开源，HDFS上的分析数据集通过两种类型的表提供服务：读优化表（Read Optimized Table）和近实时表（Near-Real-Time Table）。读优化表的主要目的是通过列式存储提供查询性能，而近实时表则提供实时（基于行的存储和列式存储的组合）查询。 Hudi是一个开源Spark库（基于Spark2.x），用于在Hadoop上执行诸如更新，插入和删除之类的操作。它还允许用户仅摄取更改的数据，从而提高查询效率。它可以像任何作业一样进一步水平扩展，并将数据集直接存储在HDFS上。 Hudi的作用上面还是比较抽象的话，接着我们来看下图，更形象的来了解Hudi

2020-01-14

4.7K0

hadoop，hbase，hive，zookeeper整合可行性分析及版本确定【续篇】

zookeeper hbase TDSQL MySQL 版 hadoop hive

问题导读 1.如何确定什么版本是稳定版本？ 2.本文是如何确定各个版本的？ 3.hbase1.x与hive1.x什么情况下是兼容的？前面一篇写过 hadoop,hbase,hive，zooke

2018-03-27

1.4K0

如何通过官网查找hadoop、hbase、hive版本兼容信息

hadoop hbase http TDSQL MySQL 版 hive

问题导读 1.如何查看hbase与hadoop的兼容？ 2.hive是否与所有hadoop兼容？ 3.hadoop2.7.1 hbase1.2.x hive1.2.0是否兼容？打算做一个比较新的版本兼容，版本的兼容是一个问题。那么如何来看是否兼容。最简单的办法： hadoop、hbase、hive、zookeeper版本对应关系续(最新版) 那么我们该如何查看hadoop、hbase、hive他们之间的兼容关系这时候，我们就要去官网了：首先查看hbase: 进入官网 http://h

2018-03-27

5K0

没有更多了

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态