首页
学习
活动
专区
工具
TVP
发布

大数据最后一公里

专栏作者
20
文章
30641
阅读量
13
订阅数
Maxwell 系列(二)—— 入门(7000字的干货)
创建maxwell用户和maxwell数据库,是maxwell用户会往maxwell数据库写入一些默认配置,具体配置如下
大数据最后一公里
2021-08-05
1.2K0
hive sql(网友1)—— 用户记录去重,两次记录间隔超过90天算新的记录总数及平均年龄
需求 用户记录去重,两次记录间隔超过90天算新的记录——此案例已征求网友同意 建表语句 create table wangyou( uid string, time string ); 数据 insert into wangyou values ("1","2021-01-01"), ("1","2021-02-03"), ("1","2021-04-02"), ("1","2021-05-07"), ("1","2021-07-02"), ("1","2021-08-15"); 实现 se
大数据最后一公里
2021-08-05
1.2K0
Maxwell 系列(一)
maxwell读取MySQL二进制日志并以JSON格式将行更新写入到Kafka,Kinesis或其他流媒体平台。Maxwell的操作开销很低,只需要mysql和一个可写的地方即可。它的常见用例包括ETL,缓存建立/过期,指标收集,搜索索引和服务间通信,Maxwell为您提供了时间来源的一些优势,而无需重新架构整个平台。
大数据最后一公里
2021-08-05
8820
Maxwell 系列(四)—— bootstrap数据全量导入
Maxwell允许您将数据“引导”到流中。这将执行 select * from table和将结果输出到您的流中,从而允许您从头开始播放流来重新创建整个数据集。
大数据最后一公里
2021-08-05
3.7K0
Maxwell 系列(三)—— 使用
1、在上面的说明中动态传参namespace,意思是命名空间 使用动态传参指定前缀,指定前缀测试说明在第2点之后 使用前缀可以将属于个性化定制,自动创建topic时用于区别其他topic名称,这里是为了建立实时数仓,需要以数仓分层标识
大数据最后一公里
2021-08-05
8610
集群搭建篇(ambari+HDP)—— 全网最详细的,没有之一
1、服务器环境1.1 修改主机名称1.2 修改ip地址1.3 linux修改hosts并添加集群主机1.4 windows修改hosts文件并添加集群主机2、免密配置2.1 切换root用户2.2 生成公钥与私钥对2.3 将公钥复制到目标机器,并测试免密登录是否成功2.4 集群其他主机免密配置2.5 异常演示3、关闭防火墙3.1 防火墙设置3.2 设置之后3.3 设置之前4、禁用selinux4.1 selinux介绍4.2 设置selinux5、安装JDK5.1 上传jdk5.2 配置Java环境变量5.3 检查Java环境是否生效6、安装mysql6.1 mysql安装6.2 mysql设置6.3 修改密码6.4 上传驱动7、安装httpd服务7.1 httpd介绍7.1 安装httpd服务7.2 查看httpd服务7.3 tips:网页访问本地文件内容8、安装ntp服务8.1 ntp介绍8.2 安装8.3 修改ntp.conf配置8.4 时钟同步8.5 检查时钟同步效果9、搭建yum环境和创建ambari本地源9.1 安装yum工具9.2 安装9.3 创建repo文件9.4 分发repo文件9.4 生成本地yum源10、安装ambari10.1 在mysql中创建ambari用户和授权10.2 安装ambari10.2 初始化配置10.3 初始化ambari数据库10.4 启动ambari10.5 报错及解决10.6 ambari页面配置步骤10.6.1 第1步 启动安装10.6.2 第2步 输出集群名称10.6.3 第3步 选择版本、选择本地仓库及路径10.6.4 第4步 输入集群节点名称、私钥10.6.5 节点认证10.6.6 选择服务10.6.7 分配主节点10.6.8 分配从节点和客户端10.6.9 自定义服务10.6.10 确认配置10.6.11 安装部署11、启动服务11.1 java权限问题11.2 hive元数据初始化
大数据最后一公里
2021-08-05
1.6K0
hive sql系列(总结)
hive sql系列主打sql,通过案例,从实现到分析,帮助大家找到写sql的快乐
大数据最后一公里
2021-08-05
1.7K0
hive sql(十)—— 编写sql语句实现每班前三名,分数一样并列, 同时求出前三名按名次排序的分差
需求 编写sql语句实现每班前三名,分数一样并列, 同时求出前三名按名次排序的分差 建表语句 create table student( sid string,--学号 cid string,--班级号 score string -- 分数 ) row format delimited fields terminated by '\t' ; 数据 #说明: 数据1具有偶然性,适合不重复的情况,实现可以用扩展部分写法1实现 数据2具有通用性,适合重复数据的情况 #数据1 inser
大数据最后一公里
2021-08-05
7100
hive sql(九)—— 访问/api/user/login接口的top10的ip地址
需求 有一张表,其中一个字段是由时间、接口、ip和其他字段组成的 求11月9号下午14点(14-15点),访问/api/user/login接口的top10的ip地址 建表语句 create table log( log_detail string ) ROW format delimited FIELDS TERMINATED BY "\t" ; 数据 insert overwrite table log values ("2016-11-09 14:22:05 /api/user/login 1
大数据最后一公里
2021-08-05
6440
为什么要知道Hadoop机架感知?
在了解hdfs负载均衡时,需要获取DataNode情况,包括每个DataNode磁盘使用情况,获取到数据不均衡,就要做负载均衡处理。做负载均衡就要考虑热点数据发送到哪里去,集群服务器配置是否相同,机架使用情况等。
大数据最后一公里
2021-08-05
8430
hive sql(八)—— 根据聚合在一起的编码转换成聚合在一起的码值
需求 根据聚合在一起的编码转换成聚合在一起的码值 建表语句 create table wangyou1( codeStr string ) row format delimited fields terminated by '\t' ; 数据 insert overwrite table wangyou1 values ("1,2,3,4"), ("1,2"), ("2,3"), ("2,3,4"); 实现 select t2.codeStr, concat_ws(",",colle
大数据最后一公里
2021-08-05
6960
hive sql(七)—— 查询前20%时间的订单信息
需求 查询前20%时间的订单信息 建表语句 create table business( name string, orderdate string, cost int ) row format delimited fields terminated by '\t' ; 数据 insert overwrite table business values ("jack","2017-01-01",10), ("tony","2017-01-02",15), ("jack","2017-
大数据最后一公里
2021-08-05
1.2K0
hive sql(六)—— 每个用户连续登录最大天数
分析中第3点在hive sql系列(三)中计算连续日活中也用到了日期差值,参考链接:
大数据最后一公里
2021-08-05
2.6K0
hive sql(五)—— 按照时间轴顺序, 发生了状态变化的数据行
https://blog.csdn.net/luo981695830/article/details/111211773
大数据最后一公里
2021-08-05
9520
hive sql(四)—— 所有用户中在今年10月份第一次购买商品的金额
需求 请用sql写出所有用户中在今年10月份第一次购买商品的金额,表order字段: (购买用户:userid, 金额:money, 购买时间:paymenttime(格式:2017-10-01), 订单id:orderid ) 建表语句 create table `order`( userid string, money int, paymenttime string, orderid string ) ROW format delimited FIELDS TERMINATE
大数据最后一公里
2021-08-05
9120
hive sql(三)—— 求所有用户和活跃用户的总数及平均年龄
需求 求所有用户和活跃用户的总数及平均年龄 建表语句 create table user_age( dt string, user_id string, age int ) row format delimited fields terminated by '\t' ; 数据 insert overwrite table user_age values ("2019-02-11","test_1","23"), ("2019-02-11","test_2","19"), ("2019
大数据最后一公里
2021-08-05
9610
hive sql(二)—— 统计每个用户每个月访问量和累计月访问量
每天分享一个sql,帮助大家找到sql的快乐 需求 统计每个用户每个月访问量和累计月访问量 建表语句 CREATE TABLE visit( userId string, visitDate string, visitCount int ) ROW format delimited FIELDS TERMINATED BY "\t" ; 数据 INSERT INTO TABLE visit VALUES ( 'u01', '2017/1/21', 5 ), ( 'u02',
大数据最后一公里
2021-08-05
3.1K0
hive sql(一)
每天分享一个sql,帮助大家找到sql的快乐 需求 找出所有科目成绩都大于某一学科平均成绩的学生 建表语句 create table score( uid string, subject_id string, score int ) row format delimited fields terminated by '\t' ; 数据 insert overwrite table score values ("1001","01",100), ("1001","02",100), (
大数据最后一公里
2021-08-05
7480
datax编译
编译datax0、前置环境1、下载源码2、第一次编译(失败)3、第二次编译(成功)4、编译成功之后5、测试
大数据最后一公里
2021-08-05
2.4K0
mysql数据导入clickhouse
clickhouse准备 本地表 create table student on cluster luopc_mpp_cluster ( id UInt8, name String, age UInt8, create_time Datetime ) engine =ReplicatedMergeTree('/clickhouse/tables/{shard}/student','{replica}') primary key (id) order by (id,a
大数据最后一公里
2021-08-05
3.6K0
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档