前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【论文阅读】Hierarchical knowledge graph learning enabled socioeconomic indicator prediction in location-b

【论文阅读】Hierarchical knowledge graph learning enabled socioeconomic indicator prediction in location-b

作者头像
EmoryHuang
发布2023-05-18 09:59:59
3140
发布2023-05-18 09:59:59
举报
文章被收录于专栏:EmoryHuang's BlogEmoryHuang's Blog

【论文阅读】Hierarchical knowledge graph learning enabled socioeconomic indicator prediction in location-based social network

Metadata

authors:: Zhilun Zhou, Yu Liu, Jingtao Ding, Depeng Jin, Yong Li container:: Proceedings of the ACM web conference 2023 year:: 2023 DOI:: 10.1145/3543507.3583239 rating:: ⭐⭐⭐⭐ share:: true comment:: 基于LBSN构建知识图谱,分别学习全局知识和领域分层知识


前言

WWW 2023 的一篇论文:Hierarchical knowledge graph learning enabled socioeconomic indicator prediction in location-based social network

文章利用location-based social networks(LBSNs)以及知识图谱来进行社会经济指标预测,虽然任务不同,但LBSN数据集以及知识图谱的使用可以学习参考。

问题描述

定义 1 (LBSN Data):LBSN数据集DLBSN\mathcal{D}_{LBSN}DLBSN​由空间数据、属性数据和移动性数据等多源数据组成。具体来说,空间数据包含了空间信息,如POI的地理坐标和边界。属性数据包括POI品牌、类别和其他属性信息。移动性数据可以是移动设备或出租车旅行的移动性记录,反应LBSN用户的移动轨迹。

定义 2 (Knowledge Graph):一个知识图谱KG可以定义为G=(E,R,F)\mathcal{G}=(\mathcal{E},\mathcal{R},\mathcal{F})G=(E,R,F),分别表示实体集合,关系集合以及事实集合。每一个事实可以表示为一个三元组(h,r,t)(h,r,t)(h,r,t),其中h,r∈E,r∈Rh,r\in\mathcal{E},r\in\mathcal{R}h,r∈E,r∈R分别表示头尾实体以及连接的关系。此外,每一个实体都有一个实体类型,通过映射函数ϕ:E→A\phi:\mathcal{E}\rightarrow\mathcal{A}ϕ:E→A确定,其中A\mathcal{A}A表示预定义的实体类型集合。KG schema 描述了KG的高级结构,它显示了实体的类型和实体类型之间的关系。

定义 3 (LBSN Socioeconomic Indicator Prediction)给定LBSN数据集DLBSN\mathcal{D}_{LBSN}DLBSN​以及LBSN中的地点集合SL={L1,L2,⋯ ,Ln}\mathcal{S}_L=\{L_1,L_2,\cdots,L_n\}SL​={L1​,L2​,⋯,Ln​},学习一个映射函数f:SL→VIf:\mathcal{S_L}\rightarrow\mathcal{V_I}f:SL​→VI​,其中VI\mathcal{V_I}VI​是社会经济指标的价值集合I∈II\in\mathcal{I}I∈I,即,预测LBSN中各个地点的社会经济指标的价值。这里I\mathcal{I}I指的是一组社会经济指标,它们衡量一个地区的社会经济情况,如人口、收入水平、教育水平等。

OverView

LBSN社会经济指标预测方法是位置表示学习,其旨在学习用于地点的低维嵌入向量。有效嵌入可以表征位置的各种属性,以帮助预测社会经济指标。例如,在工作日早上具有大量流出移动性和傍晚具有大量流入移动性的地点可能是城市中的住宅区,这表明由基于位置设备生成的移动性流数据可以反映地点功能。

现有工作不足:

  1. 大多数现有工作使用多视角图嵌入技术来模拟移动性、空间邻近性和LBSNs功能等多个因素。然而,这些工作在最终聚合过程中只考虑了位置,忽略了LBSNs中的其他元素,导致缺乏语义信息。例如,地点的功能很大程度上由其中的POI和类别所反映,而现有的研究并没有将这些元素纳入图中。
  2. 现有的研究未能从全局视角考虑LBSN中的知识。在LBSN中各种各样的知识深深地交织在一起,例如,在工作日早晨可能会有大量从居住区到工作区域流动,这表明LBSN 的移动性知识与其功能知识相关联。

论文提出了一种基于知识图谱的分层学习框架来解决LBSN中异构数据建模的挑战。

  1. 首先,论文构建了一个基于位置的知识图谱(LBKG),包括空间知识、功能知识、移动性知识和业务知识等各种LBSN中的知识。
  2. 其次,论文提出了一个分层KG学习框架来整合LB-SNs中的全局和领域知识。
  3. 最后,论文设计了一个多样化领域专业化融合模块来融合各种类型的领域专业化信息。

Methods

Framework

LBKG Construction

论文将与社会经济指标相关的LBSN知识(即空间知识、功能知识、移动性知识和商业知识)纳入LBKG中。

Spatiality knowledge

对于每个位置,论文选择最近的位置,并计算它们之间的距离以及人口差异(以对数尺度测量)。论文使用关系 “BorderBy” 将共享同一边界部分的位置链接起来, “NearBy” 关系将距离小于阈值的位置链接起来。BorderBy 和 _NearBy_描述了不同尺度下位置之间的邻近性知识,进一步丰富了空间知识。

Function knowledge

为了评估功能和社会经济指标之间的相关性,论文计算位置之间的功能相似度,即POI类别分布的余弦相似度。将每个POI作为实体并使用 “LocateAt” 关系将其链接到所在位置。使用 “CoCheckin” 关系描述POIs之间的地理影响。添加POI类别作为实体,并使用 “CateOf” 关系将每个POI与其所属类别链接。此外,计算每对位置的功能相似度,并使用 “SimilarFunc” 关系将每个位置与最相似的k个位置链接。

Mobility knowledge

通过聚合移动数据,得到了每两个位置之间的流动量,论文发现具有大型流动转换的地点往往具有较小的人口差异。具体而言,对于每个位置LLL,根据位置LLL的流出量选择流出量最大的前kkk个位置,并以关系 “LargeFlowTo” 将LLL与这些地点连接。同样地,根据以LLL为目标地点的移动入流量选择前kkk个位置,并以关系"LargeFlowFrom" 连接。

Business knowledge

考虑到商业知识在LBSN中与地点的社会经济地位相关,论文将商业区域实体作为LBKG中的核心活动区域,并通过 “ProvideService” 和 “BelongTo” 关系分别将其与位置和POI相连。此外,具有相同品牌且空间接近的POI之间通过关系 “Competitive” 进行链接以模拟它们之间的竞争关系。

Hierarchical Knowledge Distillation

Global Knowledge Distillation

为了从LBKG中提取全局知识,在实验中,论文采用了R-GCN模型[2]作为编码器,具体来说,实体eie_iei​在第(l+1)(l+1)(l+1)层的聚合可以表示为:

ei(l+1)=σ(∑r∈R∑j∈NirWr(l)ej(l)+W0(l)ei(l))\mathbf{e}_i^{(l+1)} = \sigma(\sum_{r\in\mathcal{R}}\sum_{j\in\mathcal{N}_i^r} W_r^{(l)}\mathbf{e}_j^{(l)} + W_0^{(l)}\mathbf{e}_i^{(l)}) ei(l+1)​=σ(r∈R∑​j∈Nir​∑​Wr(l)​ej(l)​+W0(l)​ei(l)​)

其中ei(l)\mathbf{e}_i^{(l)}ei(l)​表示实体eie_iei​在R-GCN第lll层的嵌入表示,Nir\mathcal{N}_i^rNir​表示与实体eie_iei​通过关系rrr相关联的实体集合,Wr(l),W0(l)W_r^{(l)}, W_0^{(l)}Wr(l)​,W0(l)​为可学习参数矩阵。

Domain Knowledge Distillation

不同的知识需要在不同层次上考虑,因为功能相似的位置可能在地理上相距很远。因此,LBKG提取了几个子图来捕捉LBSN中的领域知识。

  • Spatiality sub-KG:利用关系 NearByBorderBy 获取空间知识
  • Function sub-KG:提取 locations,POIs和Categories节点以及它们之间的关系
  • Mobility sub-KG:利用关系 LargeFlowToLargeFlowFrom 获取转移知识
  • Business sub-KG:利用关系 BelongToProvideServiceCompetitive 获取商业知识

由于不同的知识可能对社会经济指标的预测有不同的贡献,论文进一步采用了知识融合模块[3]来自适应地融合知识。具体来说,{G1,G2,⋯ ,GM}\{G_1,G_2,\cdots,G_M\}{G1​,G2​,⋯,GM​}表示sub-KGs集合,计算每个子kg的重要性为:

wGk=1∣SL∣∑j∈SLq⊤tanh⁡(WejGk+b)w_{G_k} = \frac{1}{\vert\mathcal{S_L}\vert} \sum_{j\in\mathcal{S_L}} q^\top \tanh(W\mathbf{e}_j^{G_k} + b) wGk​​=∣SL​∣1​j∈SL​∑​q⊤tanh(WejGk​​+b)

其中SL\mathcal{S_L}SL​为地点集合,ejGk\mathbf{e}_j^{G_k}ejGk​​表示地点LjL_jLj​在子图sub-KG GkG_kGk​的嵌入表示,qqq为注意力向量。每个子图的权重通过下式计算:

βGk=exp⁡(wGk)∑j=1Mexp⁡(wGj)\beta^{G_k} = \frac{\exp(w_{G_k})}{\sum_{j=1}^M \exp(w_{G_j})} βGk​=∑j=1M​exp(wGj​​)exp(wGk​​)​

最后进行子图融合:

ejsub=∑j=1MβGkejGk\mathbf{e}_j^{sub} = \sum_{j=1}^M \beta^{G_k}\mathbf{e}_j^{G_k} ejsub​=j=1∑M​βGk​ejGk​​

Framework Optimization

为更好地保留知识图谱中的语义知识和位置相似性,论文设计了知识图谱补全损失来捕捉高层次的KG事实可信度,并使用位置损失来保持低层次的位置相似性。

KG Completion Loss

为了更好地学习LBKG中的全局知识,在使用全局知识编码器后,使用评分函数 DistMult 来计算LBKG中每个三元组(h,r,t)(h,r,t)(h,r,t)的合理性:

ϕ(h,r,t)=(eh⊙er)⊤et\phi(h,r,t) = (\mathbf{e}_h\odot\mathbf{e}_r)^\top \mathbf{e}_t ϕ(h,r,t)=(eh​⊙er​)⊤et​

修改之后的交叉熵损失函数如下:

LKG=∑(h,r,t)∈F−log⁡exp⁡(ϕ(h,r,t))∑t′∈Eexp⁡(ϕ(h,r,t′))\mathcal{L}_{KG} = \sum_{(h,r,t)\in\mathcal{F}} -\log\frac{\exp(\phi(h,r,t))}{\sum_{t'\in\mathcal{E}}\exp(\phi(h,r,t'))} LKG​=(h,r,t)∈F∑​−log∑t′∈E​exp(ϕ(h,r,t′))exp(ϕ(h,r,t))​

Location Loss

此外,论文也设计了位置损失来捕获位置的相似性。论文首先将全局知识和领域知识进行融合efuse=eKG+esub\mathbf{e}^{fuse} = \mathbf{e}^{KG} + \mathbf{e}^{sub}efuse=eKG+esub,并计算概率分布:

p^(Lj∣Li)=exp⁡(eifuse⊤ejfuse)∑k=1nexp⁡(eifuse⊤ekfuse)\hat{p}(L_j \vert L_i) = \frac{\exp({\mathbf{e}_i^{fuse}}^\top\mathbf{e}_j^{fuse})}{\sum_{k=1}^n \exp({\mathbf{e}_i^{fuse}}^\top\mathbf{e}_k^{fuse})} p^​(Lj​∣Li​)=∑k=1n​exp(eifuse​⊤ekfuse​)exp(eifuse​⊤ejfuse​)​

对数损失函数如下:

Lloc=∑(Li,Lj)∈M−log⁡p^(Lj∣Li)\mathcal{L}_{loc} = \sum_{(L_i,L_j)\in\mathcal{M}} -\log \hat{p}(L_j \vert L_i) Lloc​=(Li​,Lj​)∈M∑​−logp^​(Lj​∣Li​)

最后的损失函数为:

L=λLKG+(1−λ)Lloc\mathcal{L} = \lambda\mathcal{L}_{KG} + (1-\lambda)\mathcal{L}_{loc} L=λLKG​+(1−λ)Lloc​

其中λ\lambdaλ为超参数。

论文得到了位置嵌入eKG\mathbf{e}^{KG}eKG和esub\mathbf{e}^{sub}esub进行连接,并将其输入回归模型进行社会经济指标预测。

实验

Datasets

Result

Ablation Study

Result Visualization

总结

论文主要采用知识图谱来学习LBSN知识,并分别学习全局知识和领域分层知识。主体的模型采用了R-GCN,聚合模型本身并没有进行什么创新。论文主要的亮点还是对于LBSN数据的处理以及知识图片的构建,还有就是领域分层知识的提取。

参考资料

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2023-05-16,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 【论文阅读】Hierarchical knowledge graph learning enabled socioeconomic indicator prediction in location-based social network
    • 前言
      • 问题描述
        • OverView
          • Methods
            • Framework
            • LBKG Construction
            • Hierarchical Knowledge Distillation
            • Framework Optimization
          • 实验
            • Datasets
            • Result
            • Ablation Study
            • Result Visualization
          • 总结
            • 参考资料
            相关产品与服务
            灰盒安全测试
            腾讯知识图谱(Tencent Knowledge Graph,TKG)是一个集成图数据库、图计算引擎和图可视化分析的一站式平台。支持抽取和融合异构数据,支持千亿级节点关系的存储和计算,支持规则匹配、机器学习、图嵌入等图数据挖掘算法,拥有丰富的图数据渲染和展现的可视化方案。
            领券
            问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档