,所以总体来说画像表应该较为稀疏
大部分标签使用ID进行匹配查找,定位到用户标签再找到用户群体
进行聚合统计的需求较多
需要数据库可以按key查询,聚合统计查询,以及多条件组合查询...MySQL存在的问题:
插入性能会随着树的复杂度而递减
数据多的话会导致树变得很宽,这个时候插入数据就复杂度就变高了
随着数据量不断增加,树从插入性能就下架了
4.二号选手:Hbase
HBase是一个高可靠..., 所以如果某一单元数据为 Null 则不存, 所以 HBase 适合存储比较稀疏的表
5.用户画像储存选型
对上面所提到的数据库再进行一次总结:
MySQL
随着数据的增多, 插入性能递减
查找延迟低...Hbase
从存储形式上来看, 选 HBase, HBase 是 KV 型数据库, 是不需要提前预设 Schema 的, 添加新的标签时候比较方便
从使用方式上来看, 选 MySQL 似乎更好, 但是...HBase 也可以, 因为并没有太多复杂查询
从写入方式上来看, 选 HBase, 因为画像的数据一般量也不小, HBase 可以存储海量数据, 而 MySQL 不太适合集群部署
总结:
最终选择的方案为