首页
学习
活动
专区
工具
TVP
发布

数据湖

分享有关数据湖、大数据和AI领域的最新洞见和最佳实践
专栏作者
43
文章
63934
阅读量
19
订阅数
Flink初试——对接Kafka
本篇文章我们用 Flink Kafka Connector对接Kafka,实现一个简单的报警业务。我们暂时不去谈论理论,先上手实现这个简单的需求。
soundhearer
2021-01-06
1.8K0
基于大数据技术的开源在线教育项目 二
模拟日志的数据格式如下,详细请参见我的开源项目 https://github.com/SoundHearer/kuaiban
soundhearer
2020-12-18
1.3K0
基于大数据技术的开源在线教育项目 三
本文代码可在开源项目https://github.com/SoundHearer/kuaiban中找到。
soundhearer
2020-12-18
5210
sparkstreaming遇到的问题
这篇文章介绍sparkstreaming对接kafka时遇到的两个offset的问题,首选我们介绍下offset的存储。
soundhearer
2020-12-18
1.4K0
数据仓库实战 1
数据仓库(Data Warehouse),是为企业所有决策制定过程,提供所有系统数据支持的战略集合。通过对数据仓库中数据的分析,可以帮助企业改进业务流程,控制成本,提高产品质量等。
soundhearer
2020-12-18
7010
数据仓库实战 2
首先我们从实时生成的日志文件通过flume采集到kafka中。log日志的格式是app-yyyy-mm-dd.log
soundhearer
2020-12-18
3800
数据仓库实战 3
经过前面那么久的折腾,我们终于可以切入主题了,接下来我们用数仓分层的理论,在Hive中建立数据仓库。
soundhearer
2020-12-18
1.2K0
基于大数据技术的开源在线教育项目
毫无疑问最近几年是在线教育和内容付费的风口期,尤其是今年,大量做教育的公司都获得数额不小的投资。我们不是要去追这个风口,而是因为在线教育的成熟,开始产生巨量有价值的数据,率先采用和融合大数据和AI技术的公司,必将强力推动公司的发展,从而转型成为科技公司。
soundhearer
2020-12-18
1.2K3
数据仓库实战 4
91712 Map-Reduce Framework Map input records=125 Map output records=125 Input split bytes=85 Spilled Records=0 Failed Shuffles=0 Merged Map outputs=0 GC time elapsed (ms)=71 CPU time spent (ms)=1700 Physical memory (bytes) snapshot=259682304 Virtual memory (bytes) snapshot=2850103296 Total committed heap usage (bytes)=235929600 Peak Map Physical memory (bytes)=259682304 Peak Map Virtual memory (bytes)=2850103296 File Input Format Counters Bytes Read=0 File Output Format Counters Bytes Written=2181 20/11/25 11:07:51 INFO mapreduce.ImportJobBase: Transferred 2.1299 KB in 29.0742 seconds (75.0149 bytes/sec) 20/11/25 11:07:51 INFO mapreduce.ImportJobBase: Retrieved 125 records. Warning: /opt/cloudera/parcels/CDH-7.1.3-1.cdh7.1.3.p0.4992530/bin/../lib/sqoop/../accumulo does not exist! Accumulo imports will fail. Please set $ACCUMULO_HOME to the root of your Accumulo installation. SLF4J: Class path contains multiple SLF4J bindings. SLF4J: Found binding in [jar:file:/opt/cloudera/parcels/CDH-7.1.3-1.cdh7.1.3.p0.4992530/jars/slf4j-log4j12-1.7.30.jar!/org/slf4j/impl/StaticLoggerBinder.class] SLF4J: Found binding in [jar:file:/opt/cloudera/parcels/CDH-7.1.3-1.cdh7.1.3.p0.4992530/jars/log4j-slf4j-impl-2.10.0.jar!/org/slf4j/impl/StaticLoggerBinder.class] SLF4J: See http://www.slf4j.org/codes.html#multiple_bindings for an explanation. SLF4J: Actual binding is of type [org.slf4j.impl.Log4jLoggerFactory] 20/11/25 11:07:56 INFO sqoop.Sqoop: Running Sqoop version: 1.4.7.7.1.3.0-100 20/11/25 11:07:56 WARN tool.BaseSqoopTool: Setting your password on the command-line is insecure. Consider using -P instead. 20/11/25 11:07:56 INFO manager.MySQLManager: Preparing to use a MySQL streaming resultset. 20/11/25 11:07:56 INFO tool.CodeGenTool: Beginning code generation 20/11/25 11:07:57 INFO manager.SqlManager: Executing SQL statement: select id, name, category2_id from base_category3 where 1=1 and (1 = 0)
soundhearer
2020-12-18
1.3K0
深入理解HDFS 一
Hadoop的发展至今已经有十余年的历史了,其核心设计HDFS和MapReduce,分别解决了海量数据的存储和计算这两个问题。
soundhearer
2020-10-29
8190
Impala MetaData问题
Impala的核心组件是Impalad,提供查询服务,catalogd缓存和获取元数据,statestored则负责把元数据更新到每个impalad节点上。
soundhearer
2020-10-16
1.3K0
Ranger同步ldap组问题
按照我们之前的配置,在CDH7.1.1上为Ranger集成OpenLDAP认证这边文章中,我们为Ranger集成了OpenLDAP认证,刚开始给Hive、HDFS、HBase授权的时候,没发现有什么毛病,ldap用户都能正常登录和同步。后来使用Ranger API给用户批量授权时,将大量用户放在同一用户组里,比较好管理。这时我们才发现ldap的用户组没有被Ranger同步过来。
soundhearer
2020-10-16
2.8K1
Kudu遇到的问题
kudu已经集成在了CDP runtime中,安装比较简单,选择master和tablet之后,配置数据目录即可
soundhearer
2020-10-16
1.9K0
如何通过Cloudera Manager页面自定义图表
在Cloudera Manager中我么可以看到很多图表,CDH的组件如HDFS、HBase等都有大量的描述CPU、磁盘、作业队列等的图表,这些图表可以通过tsquery语句进行构建,tsquery语言是指从Cloudera Manager时间序列数据存储中检索时间序列数据的语句。
soundhearer
2020-10-16
2K0
安装OpenLDAP和客户端
生产环境中CDH集群需要启用安全认证,在CDH7以后,Ranger被替换成了Ranger,因此启用安全认证的步骤包括:集群安装并启用Kerberos,安装OpenLDAP和客户端,集成sssd和SSH,Hive、impala、hue集成LDAP,Ranger集成LDAP,这几个步骤我们分成几篇文章都有详细的操作。
soundhearer
2020-10-16
2.5K0
MySQL常见问题一
这个错误一般发生在mysql 5.7以及 5.7以上的版本中,其原因是mysql的默认配置中,sql_mode="ONLY_FULL_GROUP_BY" 这个配置严格执行了 'SQL92标准',
soundhearer
2020-10-16
6180
OpenLDAP集成sssd同步用户并集成SSH登录
sssd服务是一个守护进程,该进程可以用来访问多种验证服务器,如LDAP,Kerberos等,并提供授权。SSSD是 介于本地用户和数据存储之间的进程,本地客户端首先连接SSSD,再由SSSD联系外部资源提供者(一台远程服务器) (1)避免了本地每个客户端程序对认证服务器大量连接,所有本地程序仅联系SSSD,由SSSD连接认证服务器或SSSD缓存,有效的降低了负载。 (2)允许离线授权。SSSD可以缓存远程服务器的用户认证身份,这允许在远程认证服务器宕机是,继续成功授权用户访问必要的资源。
soundhearer
2020-10-16
2.4K0
如何通过Cloudera Manager的API获取集群告警信息
告警监控对于一个集群来说,其重要性不言而喻。Cloudera Manager的告警功能非常详尽,CDH集群出现的异常、故障信息等都会及时地出现在CM页面上,通过页面可以快速方便地了解到集群运行性状况。
soundhearer
2020-10-16
2.6K0
安装Grafana并使用Cloudera Manager DataSource
Grafana是一个Go语言编写的开源度量分析与可视化套件,经常被用作基础设施的时间序列数据和应用程序分析的可视化。本文主要讲述如何安装Grafana并使用Cloudera Manager datasource 插件。
soundhearer
2020-10-16
9690
Hive Impala和Hue集成LDAP
重启之前将身份验证后端修改为desktop.auth.backend.AllowFirstUserDjangoBackend
soundhearer
2020-10-16
2.1K0
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档