开源大数据索引项目hive-solr

github地址:https://github.com/qindongliang/hive-solr 欢迎大家fork和使用 关于这个项目的介绍,请参考散仙前面的文章: http://qindongliang.iteye.com/blog/2283862 最新更新: (1)添加了对solrcloud集群的支持 (2)修复了在反序列时对于hive中null列和空值的处理bug (3)优化了在构建索引时对于null值和空值的忽略 一些测试: 数据量:约一千二百万,8个字段,其中一个是大文本,2个是分词字段,索引前数据体积约20G 索引总耗时:约15分钟 索引后体积:每个shard约6G,共约18G Hive:限制最大并发map数为30个,怕影响Hbase服务,注意使用Hive建完索引后,需要手动commit一次,使内存索引flush到磁盘上 批处理:每个map里面10万数据,批量处理提交一次,不commit,这个值根据情况设定,太大了容易solrcloud容易丢数据,太小了会影响速度 solrcloud集群版本为5.1使用3台机器,每台一个shard,无副本,jetty的内存给了10G CPU:24核,注意大文本分词字段非常耗cpu solr的jvm参数调整: (1) 调大 SurvivorRatio 区占比,降低survivor区的内存空间 (2)调小NewRatio区占比,增大新生代的内存空间 (3)调大永久代MaxPermSize内存至256M (4)调整MaxTenuringThreshold=0 ,使大对象加速进入老年代,避免在survivor和eden区来回拷贝,使用YGC次数变多 其他参数还是默认配置 solr服务端配置: (1)关闭自动commit (2)设置ramBufferSizeMB为1000 ,约等1G (3)设置maxBufferedDocs等-1,禁用maxBufferDocs (4)设置mergeFactor为100

回复关键词:索引,可查看这个项目的介绍

原文发布于微信公众号 - 我是攻城师(woshigcs)

原文发表时间:2016-05-06

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏架构师之路

InnoDB并发如此高,原因竟然在这?

《InnoDB行锁,如何锁住一条不存在的记录?》埋了一个坑,没想到评论反响剧烈,大家都希望深挖下去。原计划写写InnoDB的锁结束这个case,既然呼声这么高,...

19330
来自专栏杨建荣的学习笔记

MySQL 8.0初体验

从决定安装MySQL 8.0到开始行动,也就不到一个小时的时间,一个小时的时间能干些啥呢,来简单体验下8.0,官网上能看到这个丰富的表情包。

19140
来自专栏文渊之博

SQL Server中的锁的简单学习

简介     在SQL Server中,每一个查询都会找到最短路径实现自己的目标。如果数据库只接受一个连接一次只执行一个查询。那么查询当然是要多快好省的完成工作...

31550
来自专栏做全栈攻城狮

C#(Net)软件开发常用工具汇总,提高你的开发效率

作为C#语言官方的开发工具,VS的强大只有在多种语言开发工具使用之后,你才会明白VS的强大之处。可谓神器。其中,开发工具尽量选择版本高的。数据库尽量选择版本低的...

25120
来自专栏DHUtoBUAA

Python读取SQLite文件数据

  近日在做项目时,意外听说有一种SQLite的数据库,相比自己之前使用的SQL Service甚是轻便,在对数据完整性、并发性要求不高的场景下可以尝试!   ...

72690
来自专栏「3306 Pai」社区

海豚 VS 大象 功能对比

MySQL为多线程架构后台有多个线程处理内部操作例如:刷脏、Undo purge、checkpoint等,整体上MySQL分为两层Server/存储引擎。存储引...

33530
来自专栏数据和云

YH6:Oracle Sharding 知识库

简单来说,Oracle的Sharding技术就是通过分区(Partioning)技术的扩展来实现的。以前一个表的分区可以存在于不同的表空间,现在可以存在于不同的...

31070
来自专栏小L的魔法馆

MySql修改WordPress密码

43160
来自专栏MYSQL轻松学

Mysql5.5&Mysql5.6&Mysql5.7特性

Mysql5.5 特性,相对于Mysql5.1 性能提升 默认InnoDB plugin引擎。具有提交、回滚和crash恢复功能、ACID兼容。 行级锁(一致性...

53250
来自专栏小文章

使用mysql事务不同场景导致的死锁问题以及解决方法

MySQL各存储引擎使用了三种级别的锁定机制:table-level(表级锁定),row-level(行级锁定)和page-level(页级...

20840

扫码关注云+社区

领取腾讯云代金券