知识存储模型通常有关系数据库、三元组、图数据库RDBMS(关系数据库)适用于体量比较小的知识储存,尤其是定向的行业领域的知识图谱而言RDF(三元组)刻画和描述网页表征的内容,实现相对统一的标准规范Graph DBMS(图数据库) 单机、集群 体量较大的知识存储选择原则:是否所有的事物都作为实体放入到知识图谱中去
视数据需求而定:对于不需要进行关系延伸计算的数据不放入图谱,这些数据可使用适应的存储并与知识图谱中实体作链接;对于结构固定、实体属性信息丰富的实体类,使用其它数据库存储更能体现优势 【数据思维】
在现实应用中,还有一些不适合放入知识图谱中的数据(日志,事件,需要频繁统计、计算)
使用其它的存储和计算框架进行存储和处理,同时实现与知识图谱中数据的链接【No Size Fits All】
关系型数据库关系型数据库:三元组表三元组表(S,P,O)对象、对象的属性、对象的取值
问题:大量自连接操作的开销巨大(内容大的时候表会很大,读取一个对象的多个属性大量自连接操作)
关系型数据库:属性表属性表:属性相似的主语聚为一张表
好处:RDF灵活性,问题:属性未定查询
关系型数据库:垂直分割垂直分割:以谓语划分三元组表
问题:大量数据表、删除属性代价大
RDF三元组:Resource Description FrameworkDRF结构:资源、属性、属性值资源:是可拥有URI的任何事物属性:是拥有名称的资源属性值:是某个属性的值http://www.w3school.com.cn/rdf/rdf_rules.asp图数据库结点、结点与结点之间的关系、结点有属性
RDF数据库发展趋势:MarkLogic、Jena(Apache开源)https://db-engines.com/en/ranking/rdf+store图数据库发展趋势:Neo4j、Microsoft Azure Cosmos DB图数据库排名:https://db-engines.com/en/ranking/graph+dbms
Jena+protegeNeo4j: 嵌入式、基于磁盘、可视化的图数据库https://neo4j.com桌面版、服务器版、驱动程序 社区版、企业版Titan: 分布式图形数据库 基于java开源应用 多用于工业
领取专属 10元无门槛券
私享最新 技术干货