首页
学习
活动
专区
工具
TVP
发布

大数据分享

专栏作者
38
文章
37391
阅读量
16
订阅数
JavaSE(三)
​    见名思意,可以变的量。变量就是指用来保存程序中某些特定的值,而且在程序运行期间其值可以发生改变,将其就称之为变量。
wolf
2022-05-13
3880
(十一)安装sqoop
1)下载地址:<u>http://mirrors.hust.edu.cn/apache/sqoop/1.4.6/</u> 2)上传安装包sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz到hadoop102的/opt/software路径中 3)解压sqoop安装包到指定目录,如: tar -zxf sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz -C /opt/module/ 4)解压sqoop安装包到指定目录,如: mv sqoop-1.4.6.bin__hadoop-2.0.4-alpha/ sqoop 5)递归修改目录所属用户 chown shsxt:shsxt sqoop/ -R
wolf
2020-11-24
3510
(十)安装MySQL
1.解压缩:unzip mysql-libs.zip,进入cd mysql-libs,tar -zxf mysql-connector-java-5.1.27.tar.gz
wolf
2020-11-24
3560
(九)回顾
1.生产者压力测试 [shsxt@hadoop002 kafka]$ bin/kafka-producer-perf-test.sh --topic test --record-size 100 --num-records 100000 --throughput -1 --producer-props bootstrap.servers=hadoop002:9092,hadoop003:9092,hadoop004:9092 100000 records sent, 31486.146096 records/sec (3.00 MB/sec), 1374.63 ms avg latency, 1699.00 ms max latency, 1469 ms 50th, 1666 ms 95th, 1694 ms 99th, 1698 ms 99.9th.
wolf
2020-10-28
5530
(四)Hadoop参数调优
dfs.namenode.handler.count=20 * log2(Cluster Size),比如集群规模为8台时,即20*8的对数,此参数设置为60 The number of Namenode RPC server threads that listen to requests from clients. If dfs.namenode.servicerpc-address is not configured then Namenode RPC server threads listen to requests from all nodes. NameNode有一个工作线程池,用来处理不同DataNode的并发心跳以及客户端并发的元数据操作。对于大集群或者有大量客户端的集群来说,通常需要增大参数dfs.namenode.handler.count的默认值10。设置该值的一般原则是将其设置为集群大小的自然对数乘以20,即20logN,N为集群大小。
wolf
2020-09-23
1.1K1
Java端模拟日志数据
import java.io.UnsupportedEncodingException;
wolf
2020-09-23
7460
(五)ZK集群搭建
1.集群规划 在hadoop002、hadoop003和hadoop004三个节点上部署Zookeeper。 2.解压安装 (1)解压Zookeeper安装包到/opt/module/目录下 tar -zxvf zookeeper-3.4.10.tar.gz -C /opt/module/ (2)同步/opt/module/zookeeper-3.4.10目录内容到hadoop003、hadoop004 xsync zookeeper-3.4.10/ 3.配置服务器编号 (1)在/opt/module/zookeeper-3.4.10/这个目录下创建zkData mkdir zkData (2)编辑myid文件 添加myid文件,注意一定要在linux里面创建,在notepad++里面很可能乱码 vi myid 在文件中添加与server对应的编号: 2 (3)拷贝配置好的zookeeper到其他机器上 xsync zkData/ 并分别在hadoop003、hadoop004上修改myid文件中内容为3、4
wolf
2020-09-23
7670
(八)kafka安装搭建
Kafka集群部署 1)解压安装包 tar -zxvf kafka_2.11-0.11.0.0.tgz -C /opt/module/ 2)修改解压后的文件名称 mv kafka_2.11-0.11.0.0/ kafka 3)在/opt/module/kafka目录下创建logs文件夹 mkdir logs 4)修改配置文件 cd config/ vi server.properties
wolf
2020-09-23
3620
(六)日志生成
日志启动 1)代码参数说明 // 参数一:控制发送每条的延时时间,默认是0 Long delay = args.length > 0 ? Long.parseLong(args[0]) : 0L;
wolf
2020-09-23
5860
(七)Flume搭建、组成与测试
服务器hadoop002 服务器hadoop003 服务器hadoop004
wolf
2020-09-23
8360
Oracle数据库 表连接与表设计
select deptno,e.ename,d.dname from emp e natural join dept d;
wolf
2020-09-21
2.1K0
(九)HQL手写题(2)
请用sql写出所有用户中在今年10月份第一次购买商品的金额,表ordertable字段(购买用户:userid,金额:money,购买时间:paymenttime(格式:2017-10-01),订单id:orderid) 1)建表 create table ordertable( userid string, money int, paymenttime string, orderid string) row format delimited fields terminated by '\t'; 2)查询出 select userid, min(paymenttime) paymenttime from ordertable where date_format(paymenttime,'yyyy-MM')='2017-10' group by userid;t1
wolf
2020-09-21
4070
(四)Java读写文件,合并成新的文件
AppCrashed participate__recharge_activity participate_activity
wolf
2020-09-21
8520
(八)HQL手写题(1)
表结构:uid,subject_id,score 求:找出所有科目成绩都大于某一学科平均成绩的学生 数据集如下 1001 01 90 1001 02 90 1001 03 90 1002 01 85 1002 02 85 1002 03 70 1003 01 70 1003 02 70 1003 03 85 1)建表语句 create table score( uid string, subject_id string, score int) row format delimited fields terminated by '\t'; 2)求出每个学科平均成绩 select uid, score, avg(score) over(partition by subject_id) avg_score from score;t1 3)根据是否大于平均成绩记录flag,大于则记为0否则记为1 select uid, if(score>avg_score,0,1) flag from t1;t2 4)根据学生id进行分组统计flag的和,和为0则是所有学科都大于平均成绩 select uid from t2 group by uid having sum(flag)=0; 5)最终SQL select uid from (select uid, if(score>avg_score,0,1) flag from (select uid, score, avg(score) over(partition by subject_id) avg_score from score)t1)t2 group by uid having sum(flag)=0;
wolf
2020-09-21
5630
css基础
如一个div元素可以添加多个样式,一个样式可以重复添加在一个元素上,以优先级最高|最近的为主
wolf
2020-09-21
1.3K0
(三)HDFS配置多目录与支持LZO压缩
3)增加磁盘后,保证每个目录数据均衡 开启数据均衡命令: bin/start-balancer.sh –threshold 10 对于参数10,代表的是集群中各个节点的磁盘空间利用率相差不超过10%,可根据实际情况进行调整。 停止数据均衡命令: bin/stop-balancer.sh 实时的通信检测,也会浪费一定资源,因此调配过后就可以关闭了。
wolf
2020-09-21
8690
(二)Hadoop集群配置安装
NameNode、ResourceManager、SecondaryNameNode三者分别放在三个节点上,因为都要占用内存的资源,不要重复出现在一个节点上。
wolf
2020-09-21
7590
(一)Centos7安装搭建集群环境
链接:https://pan.baidu.com/s/1A4zs_oY6vstDLcJaEkC63w 提取码:y8y8
wolf
2020-09-21
4430
Navicat Premium12.1.25.0版本 使用注册机生成注册码,无效之后的解决方法
But 点击左下的Generate,将激活码激活之后,再次打开navicat12.1.25.0任然提示需要去官网购买。
wolf
2020-09-20
3.6K0
番外:Ubuntu虚拟机,帐户密码忘记并修改
3.将recovery nomodeset,改成quiet splash rw init=/bin/bash 然后按F10, 启动
wolf
2020-09-20
2.3K0
点击加载更多
社区活动
RAG七天入门训练营
鹅厂大牛手把手带你上手实战
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档