通过使用easyPubMed &大量搜索,我成功地从单一的公开记录中提取了从属关系数据(我对R仍然非常陌生)。数据的问题是,它只报告了一部分关联信息,我假设这是由于非标准化字符串中的各种类型的信息造成的。我的代码如下:
#PubMed query via easyPubMed using the URL
我编写了一个脚本,使用python模块BeautifulSoup从网页中获取xml。这个网页包含描述使用基因组数据的项目的信息,我想提取所有PUBMED ID (来自这个项目的出版物的唯一ID号)。BeautifulSoup模块包含一些命令,它们在这个汤中搜索感兴趣的文本,但据我所知,它们都以标记或正在搜索的文本作为输入。首先,python模块(python早期版本中</e