虽然画像数据是浓缩精简后的核心数据,但在很多人群圈选场景中依赖行为明细数据,比如运营人员希望找出2022-08-15 10:00:00到2022-08-15 12:00:00之间通过手机客户端点赞了某篇文章的用户...HOW: 行为发生的方式,比如点击、分享、评论等操作,还包括当时使用的操作系统、网络类型等。WHAT: 行为关联的相关内容,比如点赞的文章ID,评论的视频ID,分享的直播ID等。...其中action_type和action_content只简单记录了行为类型和关联到的文章ID,其也可以通过JSON字符串的方式存储更多相关信息,比如操作时的网络类型、操作系统、App版本,文章的分类、...其中通过action_time严格限制了行为发生时间,通过operation_page限定了通过客户端操作。...行为明细数据包含时间属性,可以计算出每一个用户按时间排序后的行为序列,基于该序列可以实现行为序列圈选。比如圈选出点赞文章后又分享文章的用户,找到收藏商品后最终购买了商品的用户。
用户可以根据实际需求选择适合的导入方式,以快速完成数据迁移和导入操作。...构建 OneID基于用户各个业务线之间点和边的关系,我们会将用户在不同业务线中的信息全部抽取出来,放入一张大表里面进行 Union All 操作。...,而这就可能会涉及十几张表的 Join 操作。...客群圈选在架构 1.0 中,客群服务先生成动态 SQL,然后将其传输到 Impala 中进行客群圈选。完成圈选后,结果集需被重新读取回客群服务,并由其上传到对象存储中。...这一连串的操作使得数据处理链路相对冗长,影响了整体效率。
在传统商业决策中,有多少资源因“目标人群”画像模糊而被浪费?多少营销活动因缺乏精准人群触达而效果不佳?多少市场调研因无法获取核心客群画像数据,导致策略偏离实际?...这些问题的背后,都指向同一核心痛点——我们对目标区域内“人群”不熟悉。过去,洞察区域人群多依赖经验、直觉或小范围调研,如同雾里看花,难以全面把握真实画像。...此外,你还能选择10类人群,获取其11类画像数据,涵盖基础画像(如年龄、性别)和各种偏好画像(如消费、兴趣),全面覆盖人群分析所需维度。...API获取指南及应用案例这个API主要来源是一个新上线的数据开放平台,提供很多人群、客流类 API(人群热力图、人群画像、客流趋势、客流画像等),比较小众,但包含的API还是很实用的。...若您的业务也需构建人群画像、区域洞察或客流分析等能力,“区域人群画像分布API”将是理想选择。
上图这里患者是业务工人好理解,因为组织是慢性病患者人群,但医生是业务工人就不是太好理解。...或者我是不是可以这样理解:对于以目标人群为研究对象的用例,在实现这个用例的序列图中,与目标人群代表交互的人都可以理解为业务工人(而不用管这个人可能是存在于业务执行者组织里的人),与它交互的非人智能系统都可以理解为业务实体...UMLChina潘加宇 2019-5-24 6:33 零件是可以共享的 医院机构是组织,医生是医院使用的的零件 患者人群也是组织,医生是患者使用的零件 再对比 医院机构是组织,支付宝是医院使用的零件 患者人群也是组织
业务运营靠经验:一般精准营销平台强调基于标签圈人的能力,什么样的用户适合推什么样的产品,提供什么样的服务,靠运营同学人工操作,基于经验或数据分析,确定特定场景下的人群标签条件,圈选后进行后续营销动作。...明确了人群需求后,数据的流程主要包括: 数据源准备: 圈选目标人群所需要的标签数据从哪里来?...火车票订单、酒店订单、红包卡券数据 标签生产: 按照场景人群逻辑,清洗加工标签 人群圈选: 以标签为限定条件,从全量用户中过滤圈选出目标人群 用户触达: 将用户数据传输到营销通道,对用户进行触达 效果评估...标签列表 标签生产 (3)场景管理 运营场景的构建是将业务运营动作拆解成数据标签、人群圈选需求,基于标签和判断条件,将用户划分成一个个精细化的人群包,不同人群承接差异化的运营策略。...(4)人群画像 不同人群的用户画像构成是怎么样的,不同特征的用户,对运营转化的效果是否相同呢?人群画像的应用价值一是人群圈选过程中确定是否满足运营需求,二是事后效果分析时,不同特征用户进行对比分析。
应用结果:运营人员只需要在画像平台创建一次人群,在Push侧仅需要配置每天的推送素材,通过系统间接口调用减少了人工操作步骤,极大地降低了人力成本。2....应用方式:调研人员通过画像平台LBS人群圈选功能找到了几所高校附近出现过的用户,并结合用户年龄段等标签提高了用户圈选的精确度。生成人群之后,私信平台可以通过接口拉取人群数据并进行私信推送。...以此类推,针对特定场合如医院、公园、电影院、旅游景点都可以进行精细化的人群圈选。3....应用方式:在画像平台上通过规则圈选创建女性用户人群A,通过文件导入的方式创建黑产用户人群B,通过组合人群的方式创建人群A与B的差集人群C。...应用方式:外呼团队在画像平台上创建外呼人群,并借助人群拆分功能将该人群按照25%、25%、25%、25%的比例拆分为4个子人群,在外呼平台导入4个子人群并配置不同的话术进行外呼操作。
基于规则圈选创建人群:画像平台底层存在大量的画像标签,可以直接基于标签间的交、并、差操作进行人群圈选,比如圈选出常住省是北京且性别为男性的用户;最近一个月送礼次数超过5次且爱好军事的用户;常住省是天津或者上海...规则人群圈选是一种最常见、简单且易理解的人群圈选方式,图2-6展示了规则人群圈选的功能示意图,可以基于已有属性和用户行为数据进行人群创建。...通过组合创建人群:基于已有人群进行交、并、差操作可以构建组合人群,比如对于已经构建成功的A、B两个人群可以通过交并差操作构建新的人群C。组合人群可以对各类人群进行上层组合,满足了更加多元的圈选需求。...基于行为明细的人群圈选:行为圈选是基于用户的行为明细数据进行圈选,其数据粒度较细且与时间紧密相关,基于这一特点,可以实现行为次数统计和行为序列圈选。...上面是几种常见的人群圈选方式,但是不同场景下对于人群圈选方式的要求不同,下面再介绍两种特殊场景下的人群圈选方式。 人群LookALike:人群LookALike是借助算法能力实现人群的放大与缩小。
基于这种单表结构,可以很容易筛选出满足条件的用户,比如找到所有常住省为山东的男性用户;人群分析功能可以基于表中的指定标签列进行聚合操作来实现,比如统计所有省份的用户分布情况。...但很多场景并不关注与时间相关的明细行为数据,比如DMP平台中人群圈选大部分都是使用离线标签,用户模型比较符合此类场景。 为什么要把标签数据汇总到一张宽表中?...Android手机上的UC浏览器通过WiFi网络进行的操作。...基于用户-行为模型,可以结合用户属性类标签和行为标签实现更加复杂的人群圈选和分析功能,比如圈选出3月1日到3月24日之间,平均在线时长超过1000秒的河南省男性用户;针对给定人群,分析其从3月15日到3...基于行为明细数据可以实现更加细致的人群圈选和分析功能,比如圈选出3月1日到3月7日,中午12:00到14:00之间,使用Android系统进行登录的河南省女性用户;筛选出3月24日登录2小时之内发生了点赞行为的用户
规则圈选是按照指定条件从画像数据中找到满足要求的用户并沉淀为人群的一种常见的人群创建方式。所谓的规则就是条件的组合,比如北京市男性用户,最近一周平均在线时长介于2到10分钟之间的中老年用户。...人群创建引擎读取到规则人群配置信息后,首先判断是否适合通过BitMap实现人群圈选,如果适合,可以获取标签的BitMap在内存中进行交、并、差操作;不适合BitMap实现的可以兜底通过ClickHouse...画像宽表进行人群筛选,其实现逻辑是将人群圈选条件转变为SQL语句,借助ClickHouse引擎查询出所有满足条件的UserId并构建人群;当ClickHouse执行异常时会再次兜底从Hive表中筛选用户...,同理,人群圈选条件最终转换为Hive SQL语句并最终将执行结果构建为人群。...基于BitMap进行人群圈选主要分为两步,第一步是从ClickHouse中读取标签BitMap,第二步是在内存中进行BitMap的交并差运算,其实现语句如下所示。
平台为业务人员提供海量标签,支持快速圈选目标人群,同时提供精细化人群画像洞察能力,联动多渠道进行推送,并支持人群效果的数据查看,助力业务人员进行全链路用户运营。...画像平台的工作要点一是产品服务、二是营销应用,不仅是画像能力建设起来,也要让业务上知道怎么用,并且用起来效果好。...04 用户画像平台能力 在平台建设层面,自如用户画像平台能力包含人群圈选,人群洞察、人群营销、营销效果分析,支持全链路定向用户营销。...人群圈选:通过人群圈选可进行精细化用户分层,而用户分层是个性化营销的基础。画像平台支持标签组合、分群组合以及 ID 数据上传 3 种方式,适应营销人员在不同场景下的圈选需求。...人群营销:支持 push/短信/优惠券等方式进行定向用户营销,例如圈选北京 7 日活跃用户,推送中秋礼包活动,进行节日关怀;圈选解约业主,通过短信活动触达,进行业主召回;自如的人群包对接至家服 CRM
3、业务实现 在搭建了人群圈选引擎之后,我们重点改造了我们的消息推送系统,作为人群精细化运营的一个重要落地点。 3.1 闲鱼消息推送简介 消息推送(PUSH)是信息触达用户最快捷的手段。...但是临时性的、需要立刻发送、紧急的PUSH任务,就需要BI同学介入,每个PUSH任务平均约需要占用BI同学半天的开发时间,且操作上也比较麻烦。...实时计算层:根据人群的筛选条件,从用户大宽表中,查询符合的用户数量和用户ID列表,为应用系统提供服务。 人群圈选前台系统:提供可视化的操作界面。...闲鱼PUSH系统:从人群圈选前台系统中获取人群对应的where条件,再从实时计算层,分页获取用户列表,给用户发送PUSH。在实现过程中,我们重点解决了分页查询的性能问题。...人群圈选系统为闲鱼精细化用户运营提供了强有力的底层能力支撑。同时,圈选人群,也可以应用到其他的业务场景,比如首页焦点图定投等需要分层用户运营的场景,为闲鱼业务提供了很大的优化空间。
使用画像宽表圈人的逻辑是从明细数据中找到满足条件的用户并最终构建人群,而使用BitMap进行圈人会对用户进行预聚合,在人群圈选时直接使用聚合后的结果进行计算。...首先将指定标签值下的所有用户聚合后生成BitMap,然后基于这些BitMap执行交、并、差操作实现人群筛选。图5-8展示了基于宽表和BitMap进行人群圈选的功能示意图,两种方式最终产出的人群相同。...BitMap特殊的数据结构决定了其适合做用户聚合并应用到人群圈选场景下。...多个RoaringBitMap可以在内存中直接进行交、并、差操作,最终实现人群的创建。...业界一般使用混合模式,优先通过BitMap进行人群创建,不适用的场景下兜底使用画像宽表进行人群圈选。采用混合模式要考虑对齐画像宽表和BitMap的标签时间,这增加了工程的实现复杂度。
本节主要介绍人群创建所依赖的画像宽表的生成方式。为什么要创建画像宽表?基于原始的标签数据表进行人群圈选有什么问题?如何生成画像宽表?针对这些问题本节会给出详细解答。...当用户圈选需求涉及任意N天的用户行为时,只能通过存储历史标签数据来解决。 支持跨时间的人群分析。...画像宽表存储 画像宽表数据存储在Hive表中,可以通过Hive SQL执行人群圈选操作,由于其依赖Hadoop生态下的数据引擎执行,其执行时间通常在几分钟到几十分钟不等。...如果画像平台用户对于人群圈选的速度没有要求,直接基于Hive表进行计算是可行的。...ClickHouse也比较擅长做宽表分析,基于这一特点可以把其作为Hive表的“缓存”使用,从而满足人群圈选和人群分析的提速。
标签口径不一致:用户画像、精准营销平台人群圈选、算法特征都会涉及到用户或商品标签,各个系统存在标签同义不同值、同值不同义的问题,导致标签复用度低、重复建设带来的成名和资源浪费,这也是中台要重点解决的问题...业务运营靠经验:一般精准营销平台强调基于标签圈人的能力,什么样的用户适合推什么样的产品,提供什么样的服务,靠运营同学人工操作,基于经验或数据分析,确定特定场景下的人群标签条件,圈选后进行后续营销动作。...产品、运营 二、怎么做?...提供基于标签圈人的能力,精准圈定目标人群进行分析或数据输出 功能要点:人群列表,新增人群流程(圈选、excel等自定义上传、SQL语句)、人群画像、人群输出(接口或场景配置) (4)场景管理 目标:对接营销...若公司已有相应组件,可接入复用 三、做的怎么样? 经过项目推进后平台顺利上线投产使用,那该如何评价产品是否成功?
画像应用:提供基础标签分析及针对特定人群的标签分析,另外还提供人群圈选跟踪分析及线上应用等。...怎么设计能节省存储同时加速查询是重点考虑的问题之一。...性别标签:男 -> 男性用户人群包,女 →女性用户人群包。 平台行为数据是指官方进行上报的行为数据,例如访问、分享等行为数据,使用者不需要进行任何埋点等操作。...对标签对应的人群转成 Bitmap 方式处理,用户的不同规则到最后都会转成针 Bitmap 的交并差补集操作。...4.4 人群跟踪应用 4.4.1 人群跟踪分析 在按照用户规则圈选出人群后,统一对人群进行常用指标(如活跃、交易等指标)的跟踪。
画像数据存储引擎是为了提高人群圈选速度,直接基于底层大数据原始表做人群圈选性能较差,需要借助画像数据存储引擎提高人群生产效率。...本节提到的技术选型主要偏重存储层涉及的画像引擎及画像分析相关技术方案,对应到功能层面上的人群圈选和画像分析功能。 阿里达摩盘是阿里妈妈广告投放平台,该平台可以进行人群圈选并应用于后续广告投放环节。...美团和滴滴的实现方案比较相似,在人群圈选中主要使用的是Elasticsearch和Spark引擎,Elasticsearch可以快速找到筛选逻辑比较简单的人群,当涉及复杂的圈选逻辑时可以降级为Spark...百度内部用户画像相关圈选和分析基本都是基于Doris实现的。知乎的画像圈选也借助了Doris,并把Spark作为一些特殊业务场景下人群圈选的计算引擎。...最近几年ClickHouse比较流行,今日头条DMP以及CDP均通过ClickHouse实现了人群圈选,借助ClickHouse的BitMap实现了人群圈选的提速;快手DMP在人群圈选场景下也借助ClickHouse
,"dynamic_partition.enable"="true",...);03人群圈选与异构组合查询基于上述提到了三种存储模型,我们构建了以位图计算为核心的异构组合计算体系,并将其作用于整个人群圈选的场景...WHERE条件F--新人群条件))t;04数据导入货拉拉画像服务的实时标签/人群点查主要采用HBase与Redis相结合的方式,Doris主要承担人群圈选、人群洞察、行为分析等任务。...场景:用户人群圈选、用户画像分析。...02人群位图表读取优化人群位图结果集通过BITMAP存储于人群表中,读取人群位图数据主要用于人群圈选、人群分析,并将整个结果集推送至下游。...此读取方式适用于人群圈选场景,将位图全量读取至服务内存后,高峰期每分钟可轻松处理几十甚至上百个人群。
产品需求是基于这张宽表可以实现人群圈选功能:用户通过可视化的页面选择标签并配置筛选条件,系统可以快速找到满足条件的用户并生成人群。...ClickHouse作为缓存随着人群创建数目的增加,完全基于Hive表圈选人群的问题逐渐暴露出来:当人群集中创建时其产出效率较低。...ClickHouse主要应用在OLAP场景下,工程上考虑将作为Hive表的“缓存”来加速人群圈选的速度。人群圈选的初衷是找到所有满足条件的用户,可以把用户筛选语句直接交由ClickHouse引擎执行。...如图9-7所示,人群圈选功能的实现已经从单纯的Hive查询转变为ClickHouse查询优先、失败后Hive兜底的方式,人群圈选速度提升明显,人群产出时间从几十分钟降低到几分钟。...ClickHouse支持基于BitMap的人群创建,可以将画像宽表中的数据转换成不同标签的BitMap数据,灌入ClickHouse中之后可以借助BitMap的交并差操作实现人群创建。
缺乏规范:没有统一的标签体系建设规范,导致数据源接入和标签配置需要平台人员手动操作,效率低下。...2.2 整体框架系统整体架构从下到上可以分为三个层级,依次为标签生产、人群圈选、人群应用。...2.2.2 人群圈选:在构建人群圈选系统时,提供多样化的创建方式是满足不同业务需求的关键。...EQUAL=一个参数圈选场景DSL描述和sql生成:改造之后人群圈选平均耗时为30s左右,效率提升120%。...技术稳定性与性能得益于对算法和数据处理流程的不断优化,在人群圈选方面,成功率达到了99.9%,针对不同规模的数据集,圈选耗时如下:千万级人群:离线标签,在Clickhouse数据库的支持下,圈选耗时小于