规则圈选是按照指定条件从画像数据中找到满足要求的用户并沉淀为人群的一种常见的人群创建方式。所谓的规则就是条件的组合,比如北京市男性用户,最近一周平均在线时长介于2到10分钟之间的中老年用户。...筛选北京市男性用户的需求可以通过画像平台可视化页面表达出来,其圈选配置最终通过接口传递到平台服务端并存储在数据库MySQL中。...Hive表中的人群数据主要用于离线数据分析场景,很多业务使用人群之后需要通过人群结果表进行效果分析。图5-13展示了人群结果表的表结构设计,人群crowd_id作为分区键,分区下包含该人群所有用户。...每一个人群最终都会存储在Hive表和OSS中,但是不同人群创建方式优先产出的人群存储类型不同,所以画像平台需要支持Hive和OSS之间数据的相互转换。...----本文节选自《用户画像:平台构建与业务实践》,转载请注明出处。
导入人群是将外部数据导入画像平台构建人群,主要有3种实现方式:文件导入、Hive表导入和SQL导入。...文件导入是将TXT、CSV等格式的文件导入画像平台;Hive表导入是指定源Hive表及导入字段,将满足条件的源表数据导入画像平台;SQL导入是Hive表导入的延伸,用户可以自由编写SQL语句,其运行结果最终导入画像平台...导入人群是画像平台最常用的人群创建方式之一,其实现了将各类数据源沉淀为人群的功能,支持更灵活的人群创建方式,拓展了画像平台数据范围。...比如运营人员将某次活动中表现良好的用户导入画像平台并构建成人群,后续可以进行广告投放或者人群分析;数据分析师离线统计出了一批高价值用户,导入平台构建人群后可以直接提供给业务使用。...---- 本文节选自《用户画像:平台构建与业务实践》,转载请注明出处。
圈选对军事感兴趣的人群并用于Push应用背景:运营人员每天会整理当前俄乌冲突热门事件并通过Push推送给对军事感兴趣的用户,刚开始主要通过手动的方式在画像平台创建人群,然后导入到Push平台进行推送。...应用方式:调研人员通过画像平台LBS人群圈选功能找到了几所高校附近出现过的用户,并结合用户年龄段等标签提高了用户圈选的精确度。生成人群之后,私信平台可以通过接口拉取人群数据并进行私信推送。...基于组合人群赠送优惠券应用背景:三八妇女节当天电商平台会给女性用户赠送商品优惠券,主要通过画像平台的规则圈选找出所有女性用户并构建人群,当用户位于人群中时则赠送优惠券。...应用方式:在画像平台上通过规则圈选创建女性用户人群A,通过文件导入的方式创建黑产用户人群B,通过组合人群的方式创建人群A与B的差集人群C。...应用方式:外呼团队在画像平台上创建外呼人群,并借助人群拆分功能将该人群按照25%、25%、25%、25%的比例拆分为4个子人群,在外呼平台导入4个子人群并配置不同的话术进行外呼操作。
规则圈选中所使用的画像标签数据是离线计算出来的,大部分在计算过程中剔除了很多明细信息,仅保留了最关键的画像内容,即某日某用户的标签值。...虽然画像数据是浓缩精简后的核心数据,但在很多人群圈选场景中依赖行为明细数据,比如运营人员希望找出2022-08-15 10:00:00到2022-08-15 12:00:00之间通过手机客户端点赞了某篇文章的用户...在行为明细圈选时可以结合画像标签数据一起使用,比如找到在某时间段通过手机客户端点赞了某篇文章的北京市男性用户,可以直接关联画像宽表进行计算。...----本文节选自《用户画像:平台构建与业务实践》,转载请注明出处。
、二级分类、关键字、topic、阅读来源 negative 负画像(不喜欢),其他字段的含义与正画像一样 update_time 更新时间 cityCode或city 城市编码 3、相似人群画像也存在...batch_num, platform, profile_collection): # type: (list, int) -> dict """ :return: 平台基础画像...:param platform: 平台 :return: 基础画像字典表 :param profile_collection: 数据库集合...:param platform:平台 :param sim_users_profile_array: 从mongodb中查出来的相似人群的画像 :param sim_users_dic...: 相似人群的相似度字典表 :return: 相似人群画像字典表 """ cluster_profile_rs = {} for sim_user_obj in sim_users_profile_array
人群画像分析是对已经创建完成的人群进行画像分析,目的是从不同角度更深入地认识人群用户并挖掘其人群特点。...人群分布分析偏重人群画像标签值的占比分析,比如人群中男女占比分别为60%和40%;人群指标分析主要针对可量化的标签进行分析,比如人群的平均在线时长、平均点赞次数等;人群下钻分析是在某一画像分析维度的基础上再次基于其他画像维度进行分析...人群分布分析只能对人群进行最直观的画像分析,比如性别和常住省的占比分布。如果业务需要查看该人群中所有男性用户的常住省分布情况,那么需要深入到男性用户中进行更深层的画像分析。...人群对比分析人群对比分析通过对比两个人群的画像分析结果,可以找出人群间的主要差异。...图6-7展示了两个人群进行人群对比分析的功能示意图,图中展示了性别和常住省下的所有TGI数值,其中女性和河南省具有显著差异。----本文节选自《用户画像:平台构建与业务实践》,转载请注明出处。
此外,你还能选择10类人群,获取其11类画像数据,涵盖基础画像(如年龄、性别)和各种偏好画像(如消费、兴趣),全面覆盖人群分析所需维度。...此类区域人群画像与客流分析API在市场中较为稀缺,接下来重点介绍如何获取并接入该能力。...API获取指南及应用案例这个API主要来源是一个新上线的数据开放平台,提供很多人群、客流类 API(人群热力图、人群画像、客流趋势、客流画像等),比较小众,但包含的API还是很实用的。...注册与在线免费体验1、登录及刻开放平台,打开能力中心页面的“泛客流”栏目,找到“区域人群画像分布API”;2、查看API详情与套餐,或直接参阅开发文档,了解调用规则与接入方法。...若您的业务也需构建人群画像、区域洞察或客流分析等能力,“区域人群画像分布API”将是理想选择。
简单直接的解决思路实现上述需求的核心是构建如下SQL语句并找到所有满足条件的UserId,其中WHERE条件是什么取决于用户在画像平台上的标签选择和筛选配置。...crowd_iduser_idctime1001001数据写入时间戳1011002数据写入时间戳1021003数据写入时间戳1031004数据写入时间戳1041005数据写入时间戳.........当人群应用到第三方平台时...为了解决这个问题引入了BitMap(Java代码中使用的是RoaringBitmap),可以将人群中的所有UserId存储到BitMap并持久化存储到阿里云OSS中,通过BitMap和第三方平台之间进行人群数据交互可以实现秒级完成...ClickHouse支持基于BitMap的人群创建,可以将画像宽表中的数据转换成不同标签的BitMap数据,灌入ClickHouse中之后可以借助BitMap的交并差操作实现人群创建。...图9-8展示了基于BitMap进行人群圈选的实现逻辑。本文节选自《用户画像:平台构建与业务实践》,转载请注明出处。
通过分散表创建人群将造成标签数据表的权限申请、审批、变更流程异常繁琐 画像平台作为一个“用户”申请所有标签数据表权限来构建一张宽表,普通用户创建人群的过程只与宽表交互,避免了用户直接申请所有上游数据表权限的问题...支持跨时间的人群分析。有了标签历史数据便可以实现跨时间的人群分析,比如分析北京市男性用户在过去半个月的平均在线时长变化,基于画像宽表可以快速计算出分析结果。 兼容单日期分区。...如果画像平台用户对于人群圈选的速度没有要求,直接基于Hive表进行计算是可行的。...ClickHouse也比较擅长做宽表分析,基于这一特点可以把其作为Hive表的“缓存”使用,从而满足人群圈选和人群分析的提速。...---- 本文节选自《用户画像:平台构建与业务实践》,转载请注明出处。
上文提到了使用画像宽表可以便捷的创建人群,本文介绍人群创建所依赖的另外一种数据组织形式:标签BitMap。...使用画像宽表圈人的逻辑是从明细数据中找到满足条件的用户并最终构建人群,而使用BitMap进行圈人会对用户进行预聚合,在人群圈选时直接使用聚合后的结果进行计算。...BitMap以上特点都非常适合存储人群数据,也决定了其在画像平台的广泛使用。基于Hive标签数据表可以生成BitMap,图5-10展示了性别和常住省标签生成BitMap的示意图。...业界一般使用混合模式,优先通过BitMap进行人群创建,不适用的场景下兜底使用画像宽表进行人群圈选。采用混合模式要考虑对齐画像宽表和BitMap的标签时间,这增加了工程的实现复杂度。...----本文节选自《用户画像:平台构建与业务实践》,转载请注明出处。
大数据技术与架构 点击右侧关注,大数据开发领域最强公众号! 大数据真好玩 点击右侧关注,大数据真好玩! 版权声明: 本文为大数据技术与架构整理,原作者独家授权。...
公司市场部门要做人群客流调研做分析,到处找人群客流统计数据和画像数据,哪用那么麻烦?直接找相关API接口啊,分分钟获取数据。给市场同事搞定人群客流数据后,顺便写写分享出来,有相同需求的可以试试。...API中可选择10类人群、11类人群画像数据,涵盖基础画像(如年龄、性别)和各种偏好画像(如消费、兴趣),不同人群不同画像,满足多样人群分析需求,应用面挺广。...】便有8大类人群画像数据,囊括年龄、性别、职业等多维度,数据类型很丰富,就不一一展开,想了解具体参数去平台体验获取。...API免费体验及接入指南注册与在线免费体验1、在开放平台能力中心页面找到“泛客流”栏目,找到区域人群画像分布API,点击查看详情;2、进入详情页便能申请API接口的测试次数,有特殊需求也可以找官方。...回到今天推荐的核心API:“区域人群画像分布”,API接口设计简洁易用,开发者可以快速集成到系统中,以下是关键步骤:1.注册与认证登录平台控制台,获取区域人群画像接口API Key,用于后续接口调用;2
关于用户画像的概念,数据相关从业人员应该都知道。用户画像的应用场景很广泛,比如精细化运营、数据分析与挖掘、精准营销、搜索和广告的个性化定向推送等。...用户画像的分析核心一个是对用户建模打标签,关于这,之前宝器在内部交流群分享了一份个人学习的资料,大家都觉得真香,今天把全部内容共享出来供大家自行下载阅读。...主要目录: 1、用户画像应用场景 2、产品层面的宏观分析维度 3、用户画像标签类型 4、用户画像项目开发流程 5、数据仓库介绍 6、用户画像数据质量管理 7、常见需要开发的用户画像相关模型 8、用户行为标签表实际开发案例
在《当推荐系统遇上用户画像:你的画像是怎么来的?》一文中,我们介绍了怎么通过TF-IDF的方式得到用户的画像。而在本文中,我们来聊一下在搜索、推荐、计算广告系统中“画像是怎么用的?”。...而在数字营销的过程中,运营人员或者数据分析同学也是在根据已有的经验,通过用户画像的方式,扩展与历史转化人群相似的人群。比如,通过性别、年龄等筛选出化妆品的受众人群等。显然,这种方式有些粗糙。...图片引用来自参考资料1 Lookalike相似人群拓展方法主要有以下几种方式, 利用用户画像进行显式人群拓展:根据种子用户的标签(地理、兴趣、行为、品牌偏好等),利用相同标签找到目标人群; 利用机器学习模型进行隐式人群拓展...:广告主的种子用户做为正样本,广告平台中有海量的非种子用户,也有大量的广告投放历史数据可以做为负样本,训练机器学习模型,然后用模型对所有候选对象进行筛选; 利用社交图结构的相似人群拓展:核心就是通过Graph...而Lookalike技术通过大数据分析和复杂模型学习归纳高质量人群的人口特征,然后在更大的流量范围内,寻找具有类似人口特征的人,从而实现目标的转化。
欢迎大家跟我一起走进数据分析的世界,一起学习! 感兴趣的朋友可以关注我或者我的数据分析专栏,里面有许多优质的文章跟大家分享哦。 ---- 提问:大家觉得成绩的高低都和哪些因素有关呢?...学生成绩分析 3.1 学生整体成绩分布 3.2 不同学科成绩间的关联度以及不同学生人群擅长科目 3.3 高分学生人群画像 3.3.1 父母学历 3.3.2 学生性别 结束语 import pandas...import chisquare from scipy.stats import chi2_contingency import numpy as np 1.项目介绍 1.1 项目介绍 本文数据集来自竞赛平台...3.3 高分学生人群画像 3.3.1 父母学历 下面我们分析高分(均分高于90分)考生的画像,首先我们探究高分与父母受教育程度间的关系。...推荐关注的专栏 机器学习:分享机器学习实战项目和常用模型讲解 数据分析:分享数据分析实战项目和常用技能整理 往期内容回顾 学习Python全套代码【超详细】Python入门、核心语法
01 PPT预览
需求背景 目前标签平台的技术需求大体归纳如下: 1.灵活可扩展的标签创建规则或者人群分群规则: 我们需要有非常灵活可扩展的标签的规则定义和分组分群。...2.支持亿级用户技术的标签生产:在技术设计考虑系统未来发展,能够支持相对较大的用户技术的标签生产,需要对计算或者存储方面要求较高,对于系统架构来说,平台的伸缩和适应性都要求相对高一些。...技术方案设计 标签平台是一个中间层的服务,为前台提供的是数据支持。另外一方面标签平台的加工,依赖底层的基础数据平台的原始数据。包含: 1....2.2 标签表查询 当宽表构建完成后,通常基于标签组合进行人群筛选,除了常规对使用频率高的标签列建立索引或者索引表外,还可以使用bitmap进行人群优化。例如: ①....将标签值对应的人群构建Roaring Bitmap; ②.人群筛选时,先通过bitmap的交并差运算得到过来的bitmap; ③.
人群画像的经典构成要素 人群画像从字面理解,是把人群的情况用数据的方式描绘出来。人群画像和个体画像并不完全相同。千万不要混为一谈。 给个体画像,指描述不同个人的过程。...人群画像与个体画像有强关联,人群画像必须基于对个体的画像,但却高于个体的画像,体现为人群作为一个集群的整体特征。...例如,iPod生产商的人群画像显然是针对听音乐感兴趣的人,NB运动鞋厂则想对运动时尚人群画像。 人群画像与个体画像相似之处在于,两者都是对人的描述。...第一个是一切的前提,第二个是基础,第三个是对前者的组合、抽象、分析和加以利用。 后面我们将逐一详细看看这三个组成部分究竟有何玄机。...(作者:宋星,网站分析在中国创始人,WAW中国创始人。)
为什么需要用户画像 用户画像的核心工作是为用户打标签,打标答的重要目的之一是为了让人能够理解并且方便计算机处理,如可以做分类统计:喜欢红酒的用户有多少?喜欢红酒的人群中,男、女比例是多少?...这也使得用户画像模型具备实际意义,能够较好的满足业务需求。如:判断用户偏好。短文本,每个标签通常只表示一种含义,标签本身无需再做过多文本分析等预处理工作,这为利用机器提取标准化信息提供了便利。...制定标签规则,并能够通过标签快速读出其中的信息,机器方便做标答提取、聚合分析。所以,用户画像,即:用户标签,向我们展示了一种朴素、简洁的方法用于描述用户信息。...数据源分析 构建用户画像的数据来源于所有用户相关的数据。对于用户相关数据的分类,引入一种重要的分类思想:封闭性的分类方式。...目标分析 用户画像的目标是通过分析用户行为,最终为每个用户打上标签,以及该标签的权重。
明白了这一点,也就触摸到了人群定向的天花板–不可能百分之百精准。 如何从广泛的受众中提炼目标人群呢? 正是依靠受众行为分析。...下面我们以易传媒的广告投放算法为例,浅析一下怎样由预先标注的关键词标签,一步步建立完整的受众行为分析模型,挖掘出具有相似行为特征的人群,提炼人群的属性特征,最终进行最合适的广告投放的。...人群定向投放 作为人群定向广告正式投放前的最后一步,受众聚类和结构化的人群分类将进行匹配映射。这种映射是利用二者标签集合的重合度来实现的。...易传媒持续大量的实践统计结果表明这套受众行为分析方法使得人群定向的精准度相比于原始的分类标签法提高了30%以上。...并且,易传媒在所有涉及受众行为分析的产品中都已推广这一技术方法,包括防作弊监控和人群自然属性分析等。通过搭建这样的统一分析平台,能将所有采集到的受众信息最大限度地整合利用起来,产生规模效应。