专栏首页大神带我来搬砖分布式数据存储系统kudu使用总结

分布式数据存储系统kudu使用总结

Kudu是Cloudera开源的新型列式存储系统,专门为了对快速变化的数据进行快速的分析。 在国内,小米神策都已经采用了kudu。 我们使用了kudu 1.3.0版本存储用户行为数据,现在已经使用了一段时间。 首先它的插入性能还是不错的,设置足够的内存以后,插入速度轻轻松松就达到了百万条每秒。 查询速度还算中规中矩,用spark SQL或者impala在上面都有不错的查询速度,至少比hbase快多了,当然前提是要合理设置range分区,让每次的查询进行提前剪枝。 当然在使用过程中遇到了几个小坑,希望大家能够避免

  1. kudu有个设置项authn_token_validity_seconds,默认值是7天,也就是说它的client不能保持长连接......我第一次看见数据库客户端不能保持长连接的.
  2. scanner得到的RowResult,随着scanner继续调用next方法,RowResult里面的值是会发生变化的。但是它的RowResult不是每次生成新的,而是每次返回同一个。所以如果把每次的RowResult放到一个集合中,最后发现数据都一样。这个思路同事普遍认为和正常程序员思路不一样。
  3. 它的客户端缓存了过多的数据。在一个client中open一个table以后,如果数据库的schema在外界发生了变化,从这个client上进行的数据操作,会由于schema不正确而无法操作.比如另一个client添加了一个列,前一个client插入有新添加的列时,会报错说新添加的列找不到。这样如果多个client并发操作一个table就会有schema同步的问题。
  4. 安装时会要求CPU支持sse4.2指令集。这个指令集倒不是特别新,但是很多时候我们的服务器是虚拟机,有的虚拟机CPU没有这个指令集,因此无法使用kudu 5 如果频繁删除创建table,会造成master和tablet server元数据不一致造成问题。比如删除一个table之后,master认为table已经删了,但是tablet server并不会马上删除该表的所有tablet,而是在一段时间内删除,如果所有tablet完全删除之前创建一个同名的table,master和tablet server就会很长时间内不能正常工作。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • Spring mvc中统一对ResponseBody进行封装

    在一个前后端分离的项目中,需要对后端RestController里返回的ResponseBody进行统一的封装,让所有的API结果的都是json对象,带有是否成...

    大神带我来搬砖
  • 从技术面试官的角度谈谈简历和面试那些事儿

    公司组织过多次校园招聘和社会招聘,忝为首席架构师(因为项目组就一个架构师~~人工摊手),我也多次作为技术面试官参与面试,所以也谈谈面试中那些事儿。 简历 简历...

    大神带我来搬砖
  • 想搞大数据??你这样是自寻死路!!

    近日来,家住北京市朝阳区的程序员诸葛建国非常郁闷,因为他的公司审时度势,附庸风雅,牵强附会的上了一套大数据系统,可谓麻雀虽小五脏俱全,包括了: 分布式文件系统H...

    大神带我来搬砖
  • 写给想从事大数据的Java程序员

    回想自己做开发的这么多年,我获得了很多,技术能力、培训、出国、大公司的,还记得刚刚出来第一年那段时间,太多东西不懂的,我都是一切听从老大的安排,敲敲代码,看看数...

    Java高级架构
  • SAP ERP和CRM里的long text模型

    Both CRM and ERP are using the same text model and API for text management. For...

    Jerry Wang
  • Discourse 数据分发

    我们可能希望 Discourse 能够使用 RSS 或者 json 格式对数据对外进行发布和传输。

    HoneyMoose
  • Discourse 数据分发

    我们可能希望 Discourse 能够使用 RSS 或者 json 格式对数据对外进行发布和传输。

    HoneyMoose
  • 力扣227——227. 基本计算器 II

    字符串表达式仅包含非负整数,+, - ,*,/ 四种运算符和空格 。整数除法仅保留整数部分。

    健程之道
  • CentOS下对shell脚本加密的二种方法

     版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/sinat_37757403/article/details...

    拓荒者
  • 联合多数据集分析也能像这篇文章简单发3+

    Alternative splicing related genetic variants contribute to bladder cancer risk与...

    科研菌

扫码关注云+社区

领取腾讯云代金券