编译 | Arno
来源 | github 【磐创AI导读】:本系列文章为大家介绍了如何使用特定领域的文档构建知识图谱。想要获取更多的机器学习、深度学习资源,欢迎大家点击上方蓝字关注我们的公众号:磐创AI。
在任何业务中,word文档都是很常见的,它们以原始文本、表格和图像的形式包含信息,所有这些都包含重要的事实。此代码模式[1]中使用的数据来自维基百科的两篇文章。第一个摘自肿瘤学家Suresh H. Advani的维基百科页面,第二个摘自关于肿瘤学的维基百科页面。这些文件被压缩为archive.zip文件[2]。
在下面的图中,有一个关于肿瘤学家Suresh H. Advani的文本信息出现在word文档中,还有一个表格包括他曾获多个机构颁发的奖项。
在这个代码模式中,我们解决了从word文档中的文本和表格中提取知识的问题。然后从提取的知识中构建知识图谱,使知识具有可查询性。
而从word文档中提取知识过程中的遇到一些挑战主要为以下两个方面:
在此模式中我们采用以下方法克服遇到的这些挑战:
两全其美的方法--同时使用基于训练和规则的方法从文档中提取知识。
在这个模式中,我们将演示:
是什么让这个代码模式具有价值:
此代码模式旨在帮助开发人员、数据科学家为非结构化数据提供结构。这可以显著地帮助他们进行分析,并将数据用于进一步处理以获得更好的见解。
此外,你可以通过视频[6]观看知识图谱的构建过程.
按照以下步骤设置和运行此代码模式,下面将详细描述这些步骤。
创建IBM云服务[7]并将其命名为wdc-NLU-service。
New project
并选择Data Science
创建一个新项目。
Create
。Object Storage
服务和Watson Machine Learning
服务将在你的IBM Cloud帐户中创建。选择免费存储类型以避免收费。
Overview
面板中,点击右上角的Add to project
并选择Notebook
资源类型。
From URL
选项卡。(步骤1)名称
和可选项描述。(步骤2)Notebook URL
下提供以下URL: https://raw.githubusercontent.com/IBM/build-knowledge-base-with-domain-specific-documents/master/notebooks/knowledge_graph.ipynb。(步骤3)Runtime
运行环境,选择Python 3.5。(步骤4)
Create
按钮。Assets
选项卡的Notebook
部分。Cell > Run All
运行notebook,或者使用play按钮自顶向下一次运行单元格。将数据和配置上传到notebook上:
Overview
面板中,单击右上角的Add to project
并选择Data
资源类型。
Load
选项卡上。(步骤1)browse
选项。在你的机器上定位到archive.zip
、config_relations.txt
和config_classification.txt
文件的位置,并将它们上传。(没有标记步骤)Files
选项卡。(步骤2)注意:可以使用你自己的数据和配置文件。如果使用自己的配置文件,请确保符合
config_classification.txt
文件中给出的JSON结构。
当我们浏览notebook时,我们首先要做的是:
config_classification.txt
和config_relations.txt
)已经被加载进来config_classification.txt
文件进行扩展,关系使用config_relationships.txt
文件进行扩展。相关链接:
[1]: https://github.com/IBM/build-knowledge-base-with-domain-specific-documents
[2]: https://github.com/IBM/build-knowledge-base-with-domain-specific-documents/tree/master/data
[3]: https://developer.ibm.com/patterns/extend-watson-text-classification/
[4]: https://developer.ibm.com/code/patterns/watson-document-correlation/
[5]: https://github.com/IBM/watson-document-co-relation
[6]: https://www.youtube.com/watch?v=lC2-h2ac_Jg&feature=youtu.be
[7]: https://cloud.ibm.com/catalog/services/natural-language-understanding