前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >[python案例]金融知识图谱构建流程

[python案例]金融知识图谱构建流程

作者头像
机器学习AI算法工程
发布2020-04-26 15:35:09
2.1K0
发布2020-04-26 15:35:09
举报

小型金融知识图谱构流程示范

存储方式

  1. 基于RDF的存储
  2. 基于图数据库的存储

AI项目体验地址 https://loveai.tech

知识图谱构建流程

1.数据获取

(1)股票基本信息

(2)股票Top10股东信息

(3)股票概念信息

(4)股票公告信息

(5)财经新闻信息(该数据集已获取但需进一步处理,未存入图数据库)

(6)概念信息

(7)股票价格信息

2.数据预处理

(1)基本信息存在空值

(2)股东信息存在重复数据

(3)CSV文件格式更改为UTF-8格式

(4)计算股票对数收益

(5)保留股票价格交易日为242(众数)&计算皮尔逊相关系数

3.数据存储

(1)明确实体&关系

(2)使用py2neo交互neo4j创建节点和关系

4.数据可视化查询

(1)基于Crypher语言

5.相关应用

(1)中心度算法(Centralities)

(2)社区检测算法(Community detection)

(3)路径搜索算法(Path finding)

(4)相似性算法(Similarity)

(5)链接预测(Link Prediction)

数据获取

数据预处理

数据交互(Sample)

数据可视化查询

查询与“平安银行”相关信息(所属概念板块、发布公告、属于深股通/沪股通、股东信息)

插入股票间相关系数之后,显示与“平安银行”所有相关信息

查询“平安银行”与“万科A”的对数收益的相关系数

导入已开源的图算法(仅简单的统计算法)

(1)下载graph-algorithms-algo-3.5.4.0.jar复制到对应数据库的plugin文件夹下

(2)修改数据库目录下的conf中neo4j.conf,添加dbms.security.procedures.unrestricted=algo.*

链路预测算法

使用neo4j附带的图算法,其中链路预测部分主要基于判断相邻的两个节点之间的亲密程度作为评判标准

其他算法

中心度算法(Centralities):

(1)PageRank (页面排名)

(2)ArticleRank

(3)Betweenness Centrality (中介中心度)

(4)Closeness Centrality (接近中心度)

(5)Harmonic Centrality

社区检测算法(Community detection):

(1)Louvain (鲁汶算法)

(2)Label Propagation (标签传播)

(3)Connected Components (连通组件)

(4)Strongly Connected Components (强连通组件)

(5)Triangle Counting / Clustering Coefficient (三角计数/聚类系数)

路径搜索算法(Path finding):

(1)Minimum Weight Spanning Tree (最小权重生成树)

(2)Shortest Path (最短路径)

(3)Single Source Shortest Path (单源最短路径)

(4)All Pairs Shortest Path (全顶点对最短路径)

(5)A*

(6)Yen’s K-shortest paths

(7)Random Walk (随机漫步)

相似性算法(Similarity):

(1)Jaccard Similarity (Jaccard相似度)

(2)Cosine Similarity (余弦相似度)

(3)Pearson Similarity (Pearson相似度)

(4)Euclidean Distance (欧氏距离)

(5)Overlap Similarity (重叠相似度)

链接预测(Link Prediction):

(1)Adamic Adar

(2)Common Neighbors

(3)Preferential Attachment

(4)Resource Allocation

(5)Same Community

(6)Total Neighbors

预处理算法(Preprocessing):

(1)One Hot Encoding

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-04-24,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器学习AI算法工程 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 小型金融知识图谱构流程示范
相关产品与服务
对象存储
对象存储(Cloud Object Storage,COS)是由腾讯云推出的无目录层次结构、无数据格式限制,可容纳海量数据且支持 HTTP/HTTPS 协议访问的分布式存储服务。腾讯云 COS 的存储桶空间无容量上限,无需分区管理,适用于 CDN 数据分发、数据万象处理或大数据计算与分析的数据湖等多种场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档