使用Python从NCBI页面(JS)提取表格

使用Python从NCBI页面(JS)提取表格的方法有多种，以下是一种常见的方法：

首先，需要安装Python的相关库，如requests、beautifulsoup4和pandas。可以使用以下命令安装：pip install requests beautifulsoup4 pandas
导入所需的库：import requests from bs4 import BeautifulSoup import pandas as pd
发送HTTP请求获取NCBI页面的内容：url = "NCBI页面的URL" response = requests.get(url)
使用BeautifulSoup解析页面内容，并找到包含表格的HTML元素：soup = BeautifulSoup(response.text, "html.parser") table = soup.find("table")
使用pandas的read_html函数将表格转换为DataFrame对象：df = pd.read_html(str(table))[0]
可以对DataFrame对象进行进一步的处理和分析，如数据清洗、筛选等：# 示例：删除含有空值的行 df = df.dropna()
最后，可以将DataFrame对象保存为Excel或CSV文件，或进行其他操作：df.to_excel("提取的表格.xlsx", index=False)

这种方法适用于从NCBI页面提取表格数据，可以根据实际情况进行适当的调整和扩展。对于更复杂的页面，可能需要使用其他库或方法进行解析和提取。腾讯云提供了多种云计算产品，如云服务器、云数据库、云存储等，可以根据具体需求选择相应的产品。

使用Python从NCBI页面(JS)提取表格

、、

你好，我需要从NCBI网页的蛋白质页面提取特征表。页面示例如下：我正在用Python3.x编写脚本，使用BeautifulSoup包来获取页面的html。问题是，如果我下载这个页面的html源代码，我不能得到特征表-特征表是由javascript生成的吗？有没有办法，如何调用脚本，自己生成特征表？或者任何其他方法如何从页面中提取所需的数据？

浏览 6提问于2016-12-17得票数 0

回答已采纳

2回答

在R中从网站上抓取表格

、

我尝试使用R：从以下链接中提取表 url <- "https://pubchem.ncbi.nlm.nih.gov/compound/1983#section=DrugBank-Interactionssignature ‘"NULL"’XML content does not seem to be XML: 'https://p

浏览 2提问于2017-05-04得票数 1

1回答

我正在尝试用python抓取pubmed，并获取一篇文章被引用的所有论文的pubmed ID。例如，这篇文章(ID: 11825149) 有一个链接到所有引用它的文章的页面：，问题是它有200多个链接，但每页只显示20个链接。无法通过url访问“下一页”链接。有没有办法打开“发送到”选项，或者用python查看下一页的内容？= urlopen('http://www.ncbi.nlm.nih.gov/pubmedlinkname=pubmed_pubmed_citedin&f

浏览 0提问于2013-05-25得票数 2

回答已采纳

2回答

如何使用python从浏览器中提取网页内容

、、

我试图提取在这个网站"“上的数据。当我使用urllib提取内容时，我可以在右键单击浏览器后选择“查看页面源”来提取数据，但我想要的是实际序列'atggctgaga tgaaaaacct gtggtgcgct ataacccgga.‘。通过右键单击浏览器并选择“检查元素”(而不是通过“查看页面源”)来提取可见的内容。我使用的代码是respo

浏览 3提问于2015-10-05得票数 0

回答已采纳

2回答

如何通过编程将GI号直接映射到HGNC基因名？

、、

此外，我不得不只使用自由软件。我最熟悉Python和Perl，尽管我可以使用R和Java，最后也可以使用其他任何东西(Ruby、MATLAB、Tcl等)。 (这个员额的其余部分对这个问题并不重要。到最后，它变得越来越技术性；这些内容只对熟悉NCBI的eutils接口的人有意义。)一种可能是从网页中为每个GI编号()刮取HGNC id，但是这些页面使用JavaScript加载它们的内容，这使它们超出了我的web抓取能力。我能想到的最好是2跳映射:<em

浏览 4提问于2013-08-12得票数 0

1回答

带整数的Java URLConnection问题

、

我使用的是URL和URLConnection包。我正试图从网页中得到一个特定的数字--在这个页面上，我想要文章总数(16428篇)。它在页面顶部写着：“结果:16428中的1到20”，当我手动查看页面源时，我可以找到这个。但是，当我试图使用java连接从页面源获取这个号码时，由于某种原因，它得到的数字是"863399“而不是"16428”。代码： URL connection = new URL("http:&#x

浏览 3提问于2011-10-27得票数 1

1回答

使用.replace()删除除表格以外的页面内容

、、、、

我一直在尝试从通过.ajax()加载的页面(queue.htm)中提取一个表。我想使用.replace(正则表达式)来删除我需要的表之外的所有其他东西，但我不知道具体怎么做。to extract table from data }我以前试过使用.load("queue.htm #tableId)从页面中只获取

浏览 17提问于2016-09-20得票数 0

回答已采纳

2回答

利用蛋白质的基因标识检索DNA序列

、、、

我使用Biopython试图检索与蛋白质对应的DNA序列，我有一个GI(71743840)，从NCBI页面这是非常容易的，我只需要寻找参考。我的问题是在python中编写代码时，使用ncbi获取实用程序，我无法找到一种方法来检索任何可以帮助我进入DNA的字段。

浏览 2提问于2014-11-04得票数 1

回答已采纳

1回答

将PDF中的文本提取为JSON或XML或其他格式？

、、

我试图从PDF中提取数据，价格，信息和数字(我有超过10000个PDF，所以网站的免费试用将不起作用)。下面是我得到的一个PDF示例：我用Python语言(这类任务的初学者，还有Python语言)和几个包(如PyPDF2、pdfx等等)尝试过，但我只能得到这样的文本所以可以提取价格，数字和信息，但我有不同的pdf格式，所以不可能只使用文本和一些算法来提取信息。我想以垂直方式读取它，并转换以XML/JS

浏览 2提问于2019-01-01得票数 0

3回答

从FTP python读取缓冲区中的文件

、、、

我正在尝试从FTP服务器读取文件。该文件是一个.gz文件。我想知道我是否可以在套接字打开时对此文件执行操作。我试图遵循和上的两个StackOverflow问题中提到的内容，但没有成功。我知道如何提取数据/处理下载的文件，但我不确定是否可以即时完成。有没有一种方法可以连接到站点，获取缓冲区中的数据，可能进行一些数据提取和退出？StringIO时，我得到了这个错误：>>> from StringIO import StringIO >&g

浏览 0提问于2013-09-13得票数 13

回答已采纳

2回答

如何使用google脚本和crbug提取问题数据

使用google，我想连接到crbug，即，并提取数据。请告诉我如何使用google脚本连接到这个url并提取数据。

浏览 3提问于2014-07-02得票数 1

回答已采纳

5回答

Python从动态javascript页面中提取数据

、、

我必须从以下网站的表格中提取数据：当我点击GO时，我会得到一个动态追加到页面上的表格。我希望将这些数据从页面导出到csv文件(我知道如何处理)，但源代码不包含任何数据点。我尝试过查看javascript代码，当我在表生成后检查元素时，我得到了数据点，但不是在源代码中。我正在使用Python

浏览 0提问于2013-07-30得票数 2

2回答

使用perl的LWP输出读取网页与下载的html页面不同。

、、、

我尝试在NCBI中访问和使用不同的页面，例如我做错了什么吗？我应该再用一种工具吗？\n"; my $URL='http://www.ncbi.nlm.nih.gov/nucc

浏览 1提问于2014-05-05得票数 0

回答已采纳

1回答

python机械化follow_link失败

、、

我正在尝试通过脚本访问NCBI图像搜索页面()上的搜索结果。我想给它输入一个搜索词，报告所有的结果，然后进入下一个搜索词。要做到这一点，我需要在第一个页面之后进入结果页面，所以我尝试使用python机械化来完成：browser=mechanize.Browser() page1=browser.open('http://www.ncbi.nlm.nih.gov/images?

浏览 2提问于2011-05-03得票数 3

回答已采纳

1回答

使用python3指定下载文件的放置路径

、

我正在使用一个名为ete3的python包，在此过程中，我需要使用以下命令下载一个巨大的数据库： from ete3 import NCBITaxancbi.update_taxonomy_database下面是包含该包的所有信息的页面：http://etetoolkit.org/docs/latest/tutorial/tutorial_ncbitaxonomy.html#id1

浏览 16提问于2019-02-21得票数 1

2回答

有没有办法用python把.pdf转换成.csv？

、

我目前正在尝试tabula-py，但我在提取pdf数据时尝试的所有文档示例都导致了以下错误: returned non-zero exit status 1。因此，我很好奇是否有其他方法可以使用python将pdf表格中的数据转换为csv文件。

浏览 0提问于2020-05-24得票数 0

2回答

使用AngularJS将值推送到webform输入文本框

我已经使用Angular JS创建了一个搜索，其中我从一个JSON文件中提取数据，并将其显示在页面上的一个表格中，该页面运行良好。表行和表列是由Angular ng-repeat创建的。在表格下面添加了一个webform，它有几个字段(这是简单的html/css/js webform)。我希望一旦表行被点击，从表列中提取数据并将其推入webform输入文本框中。

浏览 16提问于2017-03-04得票数 0

2回答

PyPDF2 :提取目录/大纲及其页码

、、、

我正在尝试提取目录/大纲从PDF和他们的页码使用Python (PyPDF2)，我知道reader.outlines，但它没有返回正确的页码。例如，第一部分不应该从第10页开始，我是不是漏掉了什么？有没有人有别的选择？我尝试过PyMupdf、Tabula和getDestinationPageNumber方法，但没有成功。提前谢谢你。

浏览 90提问于2021-07-16得票数 1

回答已采纳

1回答

如何从python上的.CEL文件中提取数据表？

、

我从www.ncbi.nlm.nih.gov/sites/GDSbrowser下载了一个.CEL文件。需要从文件中提取数据的numpy数组。我从Bio.Affy库导入了CelFile： with open('Myfile.CEL') as f: print(c) 这不会显示任何数据集！有关于如何使用CelFile的想法吗？谢谢。

浏览 18提问于2019-05-07得票数 1

1回答