现在我正在构建一个中国股票的知识图谱,并想要构建一个新闻推荐系统。并且我想使用TransE算法来实现实体嵌入和关系嵌入。但是我没有数据集,并且不清楚如何使用我自己的知识图谱构建数据集?
发布于 2019-10-02 01:50:46
一个开始就是使用维基数据中的数据。它有一些关于中国公司的信息(我想你指的是在中国证券交易所上市的公司)。例如,https://www.wikidata.org/wiki/Q831445显示有关中石化的信息。
来自维基数据的数据可以从API、https://dumps.wikimedia.org/wikidatawiki/上的大型转储文件或https://query.wikidata.org/上的SPARQL端点下载。
您可以使用SPARQL查询获取在深圳证券交易所上市的公司列表:
SELECT
?company ?companyLabel
?industry ?industryLabel
{
?company wdt:P414 wd:Q517750 .
OPTIONAL { ?company wdt:P452 ?industry }
SERVICE wikibase:label { bd:serviceParam wikibase:language "[AUTO_LANGUAGE],en,zh". }
}
这个结果也可以在https://w.wiki/9DM上找到。这个结果可以通过修改查询来扩展,并且可以以各种格式下载。使用DESCRIBE SPARQL关键字,您可以获得可能对TransE算法有用的三重格式,例如,结果为https://w.wiki/9DN的DESCRIBE wd:Q831445
。
可以处理大型转储文件,并使用Gensim的Word2Vec生成嵌入的知识图,请参阅https://arxiv.org/abs/1710.04099上的"Wembedder:维基数据实体嵌入web服务“。您可以使用Wembedder webapp探索这种方法的一个结果,例如,https://tools.wmflabs.org/wembedder/most-similar/Q51747在嵌入了中国国际航空公司的知识图谱中显示“最相似”查询的结果
https://stackoverflow.com/questions/56963129
复制相似问题