前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >ChemDataExtractor:从PDF、HTM、文本等中提取化学数据

ChemDataExtractor:从PDF、HTM、文本等中提取化学数据

原创
作者头像
DrugAI
修改2021-01-28 10:07:13
2.5K0
修改2021-01-28 10:07:13
举报
文章被收录于专栏:DrugAI

ChemDataExtractor简介

ChemDataExtractor是一种从科学文档中自动提取化学信息的工具。给它一篇期刊文章,它将从文本中提取化学名称、属性和光谱,以便将它们导入数据库或电子表格。

ChemDataExtractor官网

ChemDataExtractor特点

自然语言处理

ChemDataExtractor使用最先进的自然语言处理算法来解释构成大多数科学文档的英语语言文本。诸如条件随机字段的机器学习方法与自定义词典和基于规则的解析语法结合使用以从每个句子中提取有价值的信息。

化学智能

通过整体处理每个文档,ChemDataExtractor能够解析数据相互依赖性,例如确定不同的名称和标识符何时引用相同的化合物。因此,它生成一个完整的化合物记录,其中包含文档中每个唯一化学实体的标识符、属性和光谱。

表处理

大量重要数据被锁定在文档表中。ChemDataExtractor提供专门的解析器,从表中提取数据并将其与文档其余部分的信息集成。

开源

ChemDataExtractor可作为开源python包提供,您可以免费下载和使用。

ChemDataExtractor安装

通过conda或者pip安装ChemDataExtractor

代码语言:javascript
复制
conda install -c chemdataextractor chemdataextractor或pip install ChemDataExtractor

测试ChemDataExtractor

代码语言:javascript
复制
ipython from chemdataextractor import Documentdoc = Document('UV-vis spectrum of 5,10,15,20-Tetra(4-carboxyphenyl)porphyrin in Tetrahydrofuran (THF).')


参考资料:

http://chemdataextractor.org/

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • ChemDataExtractor特点
    • 自然语言处理
      • 化学智能
        • 表处理
          • 开源
          • ChemDataExtractor安装
          • 测试ChemDataExtractor
          相关产品与服务
          NLP 服务
          NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
          领券
          问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档