Hive使用的一些经验小结:

  1. hive的建表是有分隔符这一说的,但是如果你的文件比较特殊,可能攘括了各式各样的符号,选择一个或者多分隔符就可能会有问题了。这时候,为了保证数据不被修改,可以考虑ORC file这一个数据格式。具体的介绍如下:https://orc.apache.org/
  2. 如果在应用中大量使用了transform这种数据交互方式,建议使用set timeout=0这种形式,防止应用程序尚未处理完数据,但是map等待的时间到了,误以为这个map失败了重启,kill掉重启。
  3. Hive在服务器性能不够好时,可能需要经常修改参数调整heap的量级,防止内存溢出,控制在80%左右比较合理,不建议自己主动调整map和reduce个数,因为mapReduce启动是一个很繁重的过程。
  4. hive在文件加载时,不要直接插入文件夹,这样的话,如果文件格式没有选择好,极有可能出现各种莫名的bug。
  5. 另外,一个很重要的一点,sql语句一定要注意写上转义符号。
  6. null在hive底层默认是用'\N'来存储的,transform里面\n分割
  7. 尽量使用子查询,少用笛卡尔积,内部格式建议用字符串,数值就用数值,否则大小比较会出问题
  8. double在hive是浮点型带.号,虽然看起来是整数。
  9. set hive.map.aggr=true这是group by的优化,但是优化效果没有那么明显
  10. Count Distinct请先查出distinct之后再count
  11. 在需要表统计信息时,可以考虑hive的元数据库。
  12. set hive.stats.autogather =true; set hive.stats.column.autogather = true;可以实现一般的统计信息整理。

本文分享自微信公众号 - 鸿的学习笔记(shujuxuexizhilu)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2017-07-11

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏微信公众号:小白课代表

不只是软件,在线也可以免费下载百度文库了。

不管是学生,还是职场员工,下载各种文档几乎是不可避免的,各种XXX.docx,XXX.pptx更是家常便饭,人们最常用的就是百度文库,豆丁文库,道客巴巴这些下载...

44530
来自专栏web前端教室

你可以从面试中学到什么?

讲一下我对面试的一些。。。“偏见”,哈哈,熟悉我的同学们一定要批判的读接下来的内容哈。

12200
来自专栏前端桃园

知识体系解决迷茫的你

最近在星球里群里都有小伙伴说道自己对未来的路比较迷茫,一旦闲下来就不知道自己改干啥,今天我这篇文章就是让你觉得一天给你 25 个小时你都不够用,觉得睡觉都是浪费...

21640
来自专栏FSociety

SQL中GROUP BY用法示例

GROUP BY我们可以先从字面上来理解,GROUP表示分组,BY后面写字段名,就表示根据哪个字段进行分组,如果有用Excel比较多的话,GROUP BY比较类...

5.2K20
来自专栏haifeiWu与他朋友们的专栏

复杂业务下向Mysql导入30万条数据代码优化的踩坑记录

从毕业到现在第一次接触到超过30万条数据导入MySQL的场景(有点low),就是在顺丰公司接入我司EMM产品时需要将AD中的员工数据导入MySQL中,因此楼主负...

29740
来自专栏钱塘大数据

中国互联网协会发布:《2018中国互联网发展报告》

在2018中国互联网大会闭幕论坛上,中国互联网协会正式发布《中国互联网发展报告2018》(以下简称《报告》)。《中国互联网发展报告》是由中国互联网协会与中国互联...

13550
来自专栏Ken的杂谈

【系统设置】CentOS 修改机器名

18030
来自专栏腾讯NEXT学位

今天我就说三句话

11620
来自专栏钱塘大数据

理工男图解零维到十维空间,烧脑已过度,受不了啦!

让我们从一个点开始,和我们几何意义上的点一样,它没有大小、没有维度。它只是被想象出来的、作为标志一个位置的点。它什么也没有,空间、时间通通不存在,这就是零维度。

33330
来自专栏腾讯大讲堂的专栏

白底黑字or黑底白字,眼睛更喜欢哪一个?

12310

扫码关注云+社区

领取腾讯云代金券

年度创作总结 领取年终奖励