,所以总体来说画像表应该较为稀疏
大部分标签使用ID进行匹配查找,定位到用户标签再找到用户群体
进行聚合统计的需求较多
需要数据库可以按key查询,聚合统计查询,以及多条件组合查询...随着数据量不断增加,树从插入性能就下架了
4.二号选手:Hbase
HBase是一个高可靠、高性能、面向列、可伸缩的分布式数据库,参考谷歌的BigTable后使用java语言进行了实现。..., 所以如果某一单元数据为 Null 则不存, 所以 HBase 适合存储比较稀疏的表
5.用户画像储存选型
对上面所提到的数据库再进行一次总结:
MySQL
随着数据的增多, 插入性能递减
查找延迟低...Hbase
从存储形式上来看, 选 HBase, HBase 是 KV 型数据库, 是不需要提前预设 Schema 的, 添加新的标签时候比较方便
从使用方式上来看, 选 MySQL 似乎更好, 但是...HBase 也可以, 因为并没有太多复杂查询
从写入方式上来看, 选 HBase, 因为画像的数据一般量也不小, HBase 可以存储海量数据, 而 MySQL 不太适合集群部署
总结:
最终选择的方案为