首页
学习
活动
专区
工具
TVP
发布

张叔叔讲互联网

针对青少年、想了解学习互联网知识的人,通过通俗易懂的语言讲述互联网常识。21世纪,互联网知识人人都要
专栏作者
61
文章
38512
阅读量
21
订阅数
人群判存服务是如何实现的
人群判存服务也被称为判定服务,即判断用户是否在指定的人群中。判存服务在业务中的使用也比较广泛,比如运营人员在画像平台上圈选了“游戏高转化”人群,对于人群中的用户需要在客户端上显示游戏入口从而引导用户进入游戏宣传页并下载应用,该需求可以通过人群判存服务来实现。当用户进入到客户端指定页面后可以调用判存服务,传入当前用户UserID并判断是否在“游戏高转化”人群中,客户端根据返回结果控制是否展示游戏入口。
张叔叔讲互联网
2023-10-24
2960
人群数据如何对外输出
人群创建成功后会存储在Hive表和OSS中,画像平台用户有时需要拉取人群数据并应用到一些业务中。比如用户希望在Push平台上针对指定人群下的所有用户推送消息,此时可以使用画像平台接口拉取人群数据;在七夕活动中,运营人员投放使用了多个人群,为了分析不同人群的转化效果,此时需要将人群结果的Hive表提供给数据分析师使用。综上可知,人群数据对外输出方式主要分为两种:Hive表和服务接口。
张叔叔讲互联网
2023-10-23
1220
画像平台人群创建方式-明细行为圈选
规则圈选中所使用的画像标签数据是离线计算出来的,大部分在计算过程中剔除了很多明细信息,仅保留了最关键的画像内容,即某日某用户的标签值。虽然画像数据是浓缩精简后的核心数据,但在很多人群圈选场景中依赖行为明细数据,比如运营人员希望找出2022-08-15 10:00:00到2022-08-15 12:00:00之间通过手机客户端点赞了某篇文章的用户,此时只有使用行为明细数据才能找到满足条件的用户。行为明细数据主要包含五大要素:
张叔叔讲互联网
2023-10-21
3540
画像平台人群创建方式-导入人群创建
导入人群是将外部数据导入画像平台构建人群,主要有3种实现方式:文件导入、Hive表导入和SQL导入。文件导入是将TXT、CSV等格式的文件导入画像平台;Hive表导入是指定源Hive表及导入字段,将满足条件的源表数据导入画像平台;SQL导入是Hive表导入的延伸,用户可以自由编写SQL语句,其运行结果最终导入画像平台。图5-20展示了3种导入人群的可视化配置页面。
张叔叔讲互联网
2023-10-19
1760
画像平台人群创建方式-规则人群创建
规则圈选是按照指定条件从画像数据中找到满足要求的用户并沉淀为人群的一种常见的人群创建方式。所谓的规则就是条件的组合,比如北京市男性用户,最近一周平均在线时长介于2到10分钟之间的中老年用户。规则圈选的实现依赖画像宽表数据或者BitMap数据,其实现逻辑如图5-12所示。
张叔叔讲互联网
2023-10-18
2500
人群创建的基础:画像标签BitMap
​上文提到了使用画像宽表可以便捷的创建人群,本文介绍人群创建所依赖的另外一种数据组织形式:标签BitMap。
张叔叔讲互联网
2023-10-17
5520
人群创建的基础:画像宽表
​本节主要介绍人群创建所依赖的画像宽表的生成方式。为什么要创建画像宽表?基于原始的标签数据表进行人群圈选有什么问题?如何生成画像宽表?针对这些问题本节会给出详细解答。
张叔叔讲互联网
2023-10-16
3960
一文读懂:什么是ID-Mapping
​以用户实体为例,可以表示该实体的ID类型包括UserId,DeviceId,IMEI等,不同ID可以获取到的阶段、生命周期均不相同。DeviceId伴随着用户的整个生命周期,但是同一用户使用不同设备时DeviceId不同,即使同一设备DeviceId也有可能因为刷机、重启等产生变动。UserId是用户登录之后系统分配的唯一标识,即使不同的设备只要UserId相同就会识别为一个用户,但UserId只能在登录后获取到,所以会损失用户登录前的行为数据。单独使用DeviceId或者UserId都不能完整地表达一个用户,如果可以将不同ID进行关联映射并最终通过唯一的ID标识用户,那么可以构建出一套统一的、完整的用户实体数据。ID-Mapping主要用于解决上述问题。
张叔叔讲互联网
2023-10-15
2770
什么是画像平台实时预测服务?
在标签查询服务中,T日所灌入的是T-1日的离线标签数据,其面临的主要问题是:无法获取当日新增用户的标签数据。标签实时预测服务支持实时挖掘用户的标签值,可以覆盖新增用户标签查询,从而弥补离线标签数据缺失从而提高标签覆盖率。
张叔叔讲互联网
2023-10-13
1430
什么是标签元数据查询服务
标签元数据查询服务即通过服务化的方式提供标签元数据查询能力。其中标签基本信息、标签分类信息和标签值统计信息是使用较多且需要服务化的数据,其他元数据因为服务化使用场景较少,在本节中不做介绍。
张叔叔讲互联网
2023-10-12
1610
画像标签查询服务介绍及其实现方案
表4-1展示了用户常住省标签的Hive表结构及数据示例,其中p_date表示标签的数据日期,user_id代表的用户实体ID,province代表用户的常住省。大部分标签与省份标签一样存储在Hive表中,其属性包括用户实体ID、标签信息以及标签时间信息。
张叔叔讲互联网
2023-10-11
2210
如何实现画像标签的数据质量监控
保证标签数据质量是画像平台建设不可或缺的一个重要环节,只有保证产出高质量的标签,画像平台上的功能才有价值,这也是人群圈选准确性和画像分析结论有效性的前提和基础。如何通过工程化的方式评估一个标签的质量?表3-13展示了评价标签质量的主要检测维度。
张叔叔讲互联网
2023-10-10
3110
用户画像的标签是如何生成的
本节将结合实际案例介绍各类画像标签的生产方式。离线标签将分别介绍统计类标签、规则类标签和导入类标签,实时标签和挖掘类标签也会结合示例做简要介绍,本节部分环节给出了核心Hive SQL语句及Java代码示例。
张叔叔讲互联网
2023-10-09
3930
画像标签分类及体系
本文首先介绍标签包含哪些常见实体类型以及ID类型,即标签的主体包含什么,用什么ID表达;其次详细介绍了几种标签的分类方法:按生产方式划分、按时效性划分以及按标签所属维度划分。
张叔叔讲互联网
2023-10-07
4510
画像平台常见的3种数据模型
画像数据对于画像平台无疑是非常重要的,按什么样的数据模型存储画像数据直接影响了上层画像平台所能支持的功能范围,本文内容主要介绍3种常见的画像数据模型及其适用的平台功能。
张叔叔讲互联网
2023-10-06
3300
画像平台常见架构及技术选型
画像平台功能具有相似性,其技术架构也可以抽象出统一的模式,本节内容主要介绍画像平台常见的技术架构。为了加强读者对技术选型的认识,本节还会介绍几个互联网公司在画像类平台上的技术选型方案。
张叔叔讲互联网
2023-10-05
4520
画像平台主要功能
为了高效地使用画像标签,需要对标签进行统筹管理。标签管理最基本的功能是对标签进行增删改查操作,其中新增标签的方式多种多样;其次是围绕标签数据的信息管理,其中包括标签的分类、标签值分布以及标签生产调度信息等。
张叔叔讲互联网
2023-10-04
3690
OLAP是什么及其发展历程
画像数据的产出、画像平台工程化实现都会涉及OLAP技术领域,本节先介绍一下OLAP是什么以及相关技术的发展历程。
张叔叔讲互联网
2023-10-02
3670
画像平台的重要性
我第一次知道用户画像是在学习数据挖掘的某节课堂上,当时对画像只有一个概念上的认识;工作后接触到了画像平台,当时第一反应是在平台上查询一下自己的画像信息,发现查询结果非常准确,自此对于平台背后的画像技术产生了很大的兴趣;在之后工作中有幸参与了画像平台的建设工作,对于用户画像的认识更加真切。
张叔叔讲互联网
2023-10-01
2650
初中信息技术教材内容总结,为什么编程教育是未来?
前面已经通过八篇文章将江苏初中信息技术和浙江初中信息技术的内容介绍了一下,有兴趣的可以关注公众号并查看之前的文章列表。
张叔叔讲互联网
2018-10-29
5130
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档