金色的九月,即将开启收获的篇章。
一早醒来,魔都湛蓝的天空,暑气未消的阳光,一扫前几日狂风暴雨的阴霾。品着自己煮的咖啡,吃上一口朱家角寄来的苏荷月饼,人生真赞!
这个礼拜将32G内存和M.2 SSD都买好了,虽有些小波折,但硬件基本到位,安装好,可以干点活了。很多朋友也已经看到我在B站UP的视频了,学习必须要舍得投资!
SQL人是大数据时代最得便宜的优势群体,因为10分钟内,我们就可以体验一把 Hadoop 实战。
不信?你瞧好!
首先,再强调一次,硬件必须过关:
大内存,SSD 上齐!
接着,第一步,我们到 Cloudera 下载一个 CDH 镜像虚拟机:
https://downloads.cloudera.com/demo_vm/vmware/cloudera-quickstart-vm-5.13.0-0-vmware.zip
使用迅雷下载,大概不到5分钟即可。
配置虚拟机的内存和CPU:
启动虚拟机!
第二步:将MySQL中的数据,导入 Hive:
[cloudera@quickstart Desktop]$ sqoop import-all-tables \
> -m 1 \
> --connect jdbc:mysql://quickstart:3306/retail_db \
> --username =retail_dba \
> --password=cloudera \
> --compression-codec=snappy \
> --as-parquetfile \
> --warehouse-dir=/usr/hive/warehouse \
> --hive-import
Hive名义上是个数据仓库,但后台存储还是靠 Hadoop HDFS.
通过HDFS命令可以看到,一个HDFS目录就是一张Hive的表:
[cloudera@quickstart lib]$ hadoop fs -ls /user/hive/warehouse/orders
Found 3 items
drwxr-xr-x - cloudera supergroup 0 2019-09-06 23:32 /user/hive/warehouse/orders/.metadata
drwxr-xr-x - cloudera supergroup 0 2019-09-06 23:33 /user/hive/warehouse/orders/.signals
-rw-r--r-- 1 cloudera supergroup 488257 2019-09-06 23:33 /user/hive/warehouse/orders/b8af7a93-c493-4a41-a8ef-8254360ac632.parquet
最后一步,我们SQL人会大吼一声的事情来了:
打开 Hue 服务地址:
http://192.168.159.129:8888
登录之后,写上一条我们常用的分组求解订单量排名前10的 SQL:
select c.category_name, count(order_item_quantity) as count
from order_items oi
inner join products p on oi.order_item_product_id = p.product_id
inner join categories c on c.category_id = p.product_category_id
group by c.category_name
order by count desc
limit 10;
分分钟,所见即所得,且根据维度任意切片,变着图形供你使唤
10分钟,恭喜你,成功入门大数据开发