前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >SQL人的优势:实战大数据开发10分钟入门

SQL人的优势:实战大数据开发10分钟入门

作者头像
Lenis
发布2019-12-25 16:04:58
5950
发布2019-12-25 16:04:58
举报
文章被收录于专栏:有关SQL有关SQL

金色的九月,即将开启收获的篇章。

一早醒来,魔都湛蓝的天空,暑气未消的阳光,一扫前几日狂风暴雨的阴霾。品着自己煮的咖啡,吃上一口朱家角寄来的苏荷月饼,人生真赞!

这个礼拜将32G内存和M.2 SSD都买好了,虽有些小波折,但硬件基本到位,安装好,可以干点活了。很多朋友也已经看到我在B站UP的视频了,学习必须要舍得投资!

SQL人是大数据时代最得便宜的优势群体,因为10分钟内,我们就可以体验一把 Hadoop 实战。

不信?你瞧好!

首先,再强调一次,硬件必须过关:

大内存,SSD 上齐!

接着,第一步,我们到 Cloudera 下载一个 CDH 镜像虚拟机:

https://downloads.cloudera.com/demo_vm/vmware/cloudera-quickstart-vm-5.13.0-0-vmware.zip

使用迅雷下载,大概不到5分钟即可。

配置虚拟机的内存和CPU:

启动虚拟机!

第二步:将MySQL中的数据,导入 Hive:

代码语言:javascript
复制


[cloudera@quickstart Desktop]$ sqoop import-all-tables \
> -m 1 \
> --connect jdbc:mysql://quickstart:3306/retail_db \
> --username =retail_dba \
> --password=cloudera \
> --compression-codec=snappy \
> --as-parquetfile \
> --warehouse-dir=/usr/hive/warehouse \
> --hive-import

Hive名义上是个数据仓库,但后台存储还是靠 Hadoop HDFS.

通过HDFS命令可以看到,一个HDFS目录就是一张Hive的表:

代码语言:javascript
复制
[cloudera@quickstart lib]$ hadoop fs -ls /user/hive/warehouse/orders
Found 3 items
drwxr-xr-x   - cloudera supergroup          0 2019-09-06 23:32 /user/hive/warehouse/orders/.metadata
drwxr-xr-x   - cloudera supergroup          0 2019-09-06 23:33 /user/hive/warehouse/orders/.signals
-rw-r--r--   1 cloudera supergroup     488257 2019-09-06 23:33 /user/hive/warehouse/orders/b8af7a93-c493-4a41-a8ef-8254360ac632.parquet

最后一步,我们SQL人会大吼一声的事情来了:

打开 Hue 服务地址:

http://192.168.159.129:8888

登录之后,写上一条我们常用的分组求解订单量排名前10的 SQL:

代码语言:javascript
复制
select c.category_name, count(order_item_quantity) as count
from order_items oi
inner join products p on oi.order_item_product_id = p.product_id
inner join categories c on c.category_id = p.product_category_id
group by c.category_name
order by count desc
limit 10;

分分钟,所见即所得,且根据维度任意切片,变着图形供你使唤

10分钟,恭喜你,成功入门大数据开发

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-09-08,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 有关SQL 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
对象存储
对象存储(Cloud Object Storage,COS)是由腾讯云推出的无目录层次结构、无数据格式限制,可容纳海量数据且支持 HTTP/HTTPS 协议访问的分布式存储服务。腾讯云 COS 的存储桶空间无容量上限,无需分区管理,适用于 CDN 数据分发、数据万象处理或大数据计算与分析的数据湖等多种场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档