前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >纵向联邦学习技术在汽车增换购业务中的应用与实践

纵向联邦学习技术在汽车增换购业务中的应用与实践

作者头像
Henry Zhang
发布2023-04-04 08:46:38
6770
发布2023-04-04 08:46:38
举报
文章被收录于专栏:亨利笔记

题图摄于香港

由于微信公众号更改显示规则,请点击上面“亨利笔记”,再点击右上角”...",选择“设为星标”,以免错过更新。

(转发FATE开源社区的文章)

很荣幸为大家带来一篇亚信科技的精彩投稿。随着联邦学习技术的迭代,逐步在多个场景落地,其中以营销推广、金融风控为典型代表。该文章将通过实践案例,与大家分享纵向联邦学习技术在汽车增换购业务中的应用与实践。文章包括方案设计、案例实践过程、以及效果总结等非常细致的内容。

文章由亚信科技(中国)有限公司AISWare AI² FL产品经理吴珺撰写,感谢亚信科技及文章作者对社区的支持。以下是文章详细内容~

一、背景介绍

我国汽车行业经过十几年的高速发展,随着人口红利逐渐消失和中国经济转型,汽车产业已由增量市场逐渐转向存量市场竞争,增换购用户比例逐年上升,保客增换购将逐渐成为市场主导。据统计,增量市场中,新能源汽车销量占比最高,个人消费的崛起成为推动新能源汽车销量增长的主力。

在车企数字化转型加速、数据应用安全要求加强的多重因素推动下,传统车企正在寻求安全可信的创新营销路径。

汽车增换购业务的营销活动包括:营销线索挖掘、营销内容投放、营销效果反馈等,这些活动通常在汽车增换购营销模型的指导下展开。以往传统的汽车增换购模型基于车企自有数据进行建设,存在客户信息实时性和准确性难以保证、数据维度不够全面、数据样本体量不足等局限,导致模型精度不足、跟进营销效率低下,造成营销人力浪费并错失商机。

二、 方案设计

1

总体目标

基于以上背景,某车企通过寻找外部数据进行跨域合作赋能,在保障各方数据隐私安全的前提下,帮助该企业识别有增换购高意向需求客户,联动其营销业务板块满足增换购业务需求。

结合增换购业务场景需求理解及模型构建要求,运营商大数据相比于互联网 公司数据、行业垂直媒体数据等,具有规模大、维度全、样本分布均衡、实时性强、真实准确、线上线下能闭环等优势,能够有效发挥数据互补作用,非常适合用于增换购模型优化。

整合双方的行业数据优势,持续实时对增换购客户的意向度及意向车型进行模型推理及预测,最终促进增换购业务的精准营销。

2

面临的挑战

  • 数据量级差距悬殊:运营商侧数据集样本数量超过10亿,需要在保证双方数据隐私安全前提下,短时间内获得双方用户交集。
  • 特征数量多:特征数量1000+,当特征数量较多时,会增加模型过拟合的风险、降低模型收敛速度,也会影响模型的可解释性;对训练效率提出挑战。
  • 正负样本不均衡:营销活动的转化路径包括客户意向评估、营销线索下发、客户触达、下单、成交等环节,最终成功转化的客户(正样本)占比较低,导致正负样本分布不平衡。

3

解决路径

结合业务场景特点,探索出以下解决路径,主要包括以下步骤:

4

技术选型

目前,市面上主流开源学习框架已有数十家,其中,FATE项目使用多方安全计算 (MPC) 以及同态加密 (HE) 技术构建底层安全计算协议,以此支持不同种类的机器学习的安全计算,包括逻辑回归、基于树的算法、深度学习和迁移学习等,通过数据“可用不可见、相逢不相识”达到更高的安全性;同时,能够覆盖横向、纵向、迁移学习等多个场景,算法种类丰富;并且该开源社区具有较高活跃度和开放的合作生态。

亚信科技作为领先的“数智化全栈能力提供商”,积极推动通信行业与垂直行业的数据价值共享与优势互补;从安全性、灵活性、工程化能力等角度综合考量后,将FATE框架作为亚信科技联邦学习平台的技术架构组成之一;同时,为客户提供跨行业协作的快速复制能力,在作为生产级工具的基础上,基于对通信领域的业务积累及数据理解,通过开箱即用的场景化模板和灵活轻量的部署能力,实现跨域协作应用的横向拓展。通过全栈安全体系、多维度的高可用设计、端到端的全流程管控和可插拔式平台架构,构建数据价值安全共享的整体解决方案;创新性地打造“运营商+”跨域协作新模式,促进跨行业数智化转型。

三、案例实践过程

1

数据准备

双方分别准备数据资源,在数据不做共享交换的前提下,进行内外数据联合建模,进一步丰富完善增换购画像,为精准营销提供有力支撑,进而实现流程优化,提升客户体验。车企接入会员、产品、回厂等相关数据;运营商侧从用户基础属性、社交偏好、消费偏好、金融属性、职住属性、汽车行业相关标签、用户终端相关标签等维度扩充特征空间。

2

隐私求交

数据提供方样本量超过10亿,发起方提供百万级正样本和负样本。由于双方数据量级差异非常悬殊,属于非平衡条件下隐私求交。因此,采取数据集即时抽取、求交任务定时调度的方式进行周期隐私求交,以提高数据对齐效率。

双方通过加密算法对双方ID进行匹配运算以获得重叠样本ID,以保障双方数据安全。加密对齐只需两方进行通信,无需协调方C参与;加密对齐过程只传输ID;流程如下:

3

数据资源提升

  • 数据规则及标准:基于项目实际需求建立一套符合自身实际,涵盖定义、操作、应用多层次数据的标准化体系。通过一体化全流程的数据治理体系,保障数据质量。
  • 数据置信度:从数据容量、数据质量、特征选择以及算法选择及调试等多方面保障可信度。
  • 数据维度提升:采用维度建模法,按维度表、事实表来构建数据仓库、数据集市,极大提升数据仓库的处理能力,紧紧围绕业务模型,直观反映业务问题。
  • 标签维度提升:根据存量DNA特征标签,逐列分布与全量客户分布进行自动比对,删除缺陷序列,结合智能算法进行筛选,形成某一特征用户的可扩展、动态性的特征图谱。围绕业务需求搭建符合业务场景逻辑的标签体系。

4

数据预处理

  • 数据预处理:通过数据质量分析发现原始数据中是否存在脏数据,并基于一定的规则进行数据清洗。
  • 数据探索分析:通过可视化分析数据及变量间相互关系,并确认相关系数;并进一步通过特征选择对变量进行分类和标记。特征提取结果通过向量化进行再加工,以增强特征表现能力,降低学习难度。

5

模型构建

基于XX车企样本数据结合运营商侧数据,利用联邦学习平台的可视化交互式模型编排功能,通过由底向上的流程进行模型建设,包括子模型选择、标签构建、样本对齐、联邦统计、联邦特征工程、联邦训练、模型评价、模型优化、模型选择九个步骤,构建目标模型。

基于汽车增换购的具体业务需求,结合模型业务场景,从车企、运营商建设的模型库中选择业务相关性强的子模型,进行模型标签数据构建。

6

模型调优

基于模型评价指标设计,模型调优围绕提升AUC、Recall、Precision等指标展开,具体如下:

  • 特征优化:包括特征衍生、特征组合、特征权重、特征转换、特征监控。
  • 算法参数优化: ▫训练过程影响类参数:调整子模型数、决策树深度、迭代次数、学习率等参数,优化变训练过程,从而提高整体模型性能。 ▫子模型影响类参数:调整最大树深度、分裂条件等参数,优化子模型的性能,从而提高整体模型的性能。
  • 曲线优化: ▫学习曲线:通过调整训练集的大小,绘制模型训练集和交叉验证集上的准确率,以观察模型在新数据上的表现,进而判断模型方差是否存在方差过高或偏高的情况。 ▫验证曲线:比较不同算法参数设置下模型的准确率。
  • 模型泛化能力提升: ▫ 进一步优化特征,去除区分能力弱的特征,提高模型泛化能力。

四、效果总结

本案例通过纵向联邦学习技术,有效整合双方的行业数据优势,持续实时对增换购客户的意向度及意向车型进行模型推理及预测,基于真实样本的推理结果,模型表现出较好的预测能力,增换购营销中的领券率、到店率、有效线索占比等关键指标均表现出明显提升,实现了营销活动的闭环评估,最终促进增换购业务的精准营销。具体成效如下:

  • 跨行业数据融合分析:融合XX车企自有数据及XX运营商全国运营商大数据,搭建增换购意向度模型及增换购意向车型两大模型;其中,XX运营商侧涉及13亿数据及千余个模型标签的分析及建模。
  • 增换购用户输出:基于真实样本的推理结果,模型表现出较好的预测能力,共计输出增换购意向客户10万+、输出增换购意向车型分析10万+,支撑XX车企进行应用触达等。
  • 营销效果提升:增换购营销中的到店率、领券率、有效线索占比均得到明显提升,实现了营销活动的闭环评估,最终促进增换购业务的精准营销。
  • 电信行业联邦知识沉淀:基于运营商+汽车跨域合作的知识沉淀,将联邦协作知识提炼为可通用、可迁移的模板,结合亚信科技联邦学习平台提供的低门槛、开放普惠的FL开发与服务能力,实现联合建模能力在行业间低门槛落地,并转化为可观测、可量化的业务价值,实现应用场景的快速复制。

五、未来展望

随着我国汽车消费市场由增量市场变为存量市场,增换购将成为拉动汽车增量消费的重要引擎,对于消费者偏好的精准洞察、营销线索的精细化投放,对于广大汽车厂商而言具有重要意义。未来,亚信科技将继续联合运营商进行安全可信的创新营销路径探索,为传统企业提供数据价值合规共享新模式,提升跨行业数据运营效率,为数据要素流通提供更多场景化落地方案。

亚信科技联邦学习平台,面向各行业联邦学习需求,提供低门槛、可视化的企业级联邦建模和推理,支撑联邦学习模型在企业之间快速落地。未来,亚信科技将,从可信、安全、可控角度提升全流程保障能力;在可靠性、可用性方面提升平台工程化能力;从易用性、开放性角度进一步降低使用门槛和部署成本;积极参与开源生态建设,在技术领先性、行业最佳实践等方面持续演进,共同促进数据要素的可信安全流通。


要想了解联邦学习、隐私计算、云原生和区块链等技术原理,请立即长按以下二维码,关注本公众号亨利笔记 ( henglibiji ),以免错过更新。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-03-10,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 亨利笔记 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
联邦学习
联邦学习(Federated Learning,FELE)是一种打破数据孤岛、释放 AI 应用潜能的分布式机器学习技术,能够让联邦学习各参与方在不披露底层数据和底层数据加密(混淆)形态的前提下,通过交换加密的机器学习中间结果实现联合建模。该产品兼顾AI应用与隐私保护,开放合作,协同性高,充分释放大数据生产力,广泛适用于金融、消费互联网等行业的业务创新场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档