Python -从复杂的HTML中自动抓取表格_VBA HTML表格抓取-特定于复杂表格的原始数据_我可以在Python中从html文件中抓取表格吗？ - 腾讯云开发者社区

python、html、excel、web-scraping、beautifulsoup

我正在尝试自动从网站上的每个表格中抓取所有数据，并将每个表格输出到excel中的选项卡中。我一直在使用https://www.thepythoncode.com/article/convert-html-tables-into-csv-files-in-python、https://towardsdatascience.c

浏览 24提问于2020-04-16得票数 0

2回答

从PDF抓取数据到CSV？Python vs PHP？

php、python、pdf、screen-scraping

我每天都要手工编译一大堆报告，这需要很长时间，所以我想把整个过程自动化。我将从(1) HTML，(2) CSV/XLS，(3) PDF中抓取数据。我主要是用PHP从CSV/HTML中抓取数据，想知道在PHP中有没有什么可靠的库或从PDF抓取表格数据的方法？我也刚刚开始学习Python，并且发现尝试使用PDFMiner和Scra

浏览 1提问于2011-09-09得票数 5

回答已采纳

2回答

基于日期抓取表数据

python、web-scraping、beautifulsoup、screen-scraping

我正在尝试抓取kurs事务的表从2015-2020年，但问题是默认日期和我选择的日期之间的链接仍然是相同的。那么我如何告诉python从2015-2020(20-11-15-20-11-20)抓取数据呢？我对python和python3的使用非常陌生。/www.bi.go.id/id/moneter/informasi-kurs/

浏览 0提问于2020-11-24得票数 0

2回答

所以我想从这个url加载所有格式化的数据：转换成r，这样我就可以过滤掉其中的一些。一旦我得到它，我知道如何正确地过滤它，但我不能将它“注入”到R中。如果url以".txt“或".csv”结尾，我已经看到了许多拉取数据的方法，但是如果这个url不是以文件类型结尾，那么我知道如何获取它的唯一方法就是拉出html，但是我得到...所有的html。有几种选择可以将文件下载为.csv并以这种方式注入它，但如果我做得足够好，我觉得我应该知道如何直接从<

浏览 3提问于2016-04-07得票数 0

1回答

如何在没有分页请求和美观的情况下抓取页面？

python、beautifulsoup、python-requests

我正在抓取web (使用Python请求和漂亮的汤)，我需要浏览项目列表中的所有页面，但我需要单击下一页，到目前为止，代码只返回代码中的第50行import requestscontent = antenas.content table = soup.find_all(name='table

浏览 2提问于2021-02-23得票数 0

4回答

有没有一种语言对于web抓取来说是“完美的”呢？

php、python、ruby、web-scraping

我已经使用了3种语言进行Web抓取- Ruby，PHP和Python，老实说，它们似乎都不适合这项任务。Python有一个非常差的机械化库。我对它有很多问题，但仍然无法解决。它的电子表格库也差不多，因为它不

浏览 0提问于2010-08-12得票数 7

1回答

从网页中提取主题/关键字

python、web-scraping、keyword

我正在寻找一个系统，以提取主题或简单的关键字从一个网页，只有从指定的网页，没有跟随所包含的链接。要分析的页面属于不同的站点，特别是我想分析一个人在Facebook上共享的链接，并从这些页面中提取主题或简单的关键字。非常感谢。

浏览 5提问于2014-04-11得票数 0

1回答

抓取url不变的分页表

web-scraping、beautifulsoup、python-requests、pagination

我正在尝试从下面的网页中抓取表格中的：它显示了前25个结果，但对于其余的结果，您需要单击next按钮来查看它们。我有一个python脚本，其中我使用请求和漂亮的汤来抓取表格，但只能从HTML中直接抓取前25个结果。我对此完全是新手，经过一些谷歌搜索，我仍然不能想出如何从所有页面中检索所有数据。问题是，当选择新的结果页面时，U

浏览 26提问于2021-05-25得票数 1

1回答

如何使用.NET将静态html表格转换为excel表格

javascript、c#、html、asp.net、excel

我有一个项目，其中的一部分是将一个html表转换为excel文件。表中的字段将是静态的。我使用的是visual studio 2015版

浏览 0提问于2017-09-20得票数 0

1回答

从Excel导出数据的有效解释方法

excel、export

我的公司与合作伙伴公司合作。合作伙伴业务有一个我们可以使用web表单访问的数据库。我们必须做每小时/每天的指标报告，这涉及到导出数据&复制/粘贴到google工作表中，然后得到我们的数字。我的问题是，如果后台访问数据库被拒绝，有没有更有效的方法来获取这些数据。理想情况下，我想做我自己的查询，但由于我没有访问权限，我在网页上运行查询，导出到excel，然后将数据复制粘贴到google表格中，

浏览 1提问于2018-03-14得票数 0

1回答

如何在Python中使用Selenium为amazon搜索页面找到正确的“布局”？

python、python-3.x、selenium、web-scraping、selenium-chromedriver

我正在使用Python3.5从amazon.com中抓取一些产品信息。在自动化“搜索-抓取信息”过程中，我发现当页面布局发生变化时，它就会中断。目前，我知道两个不同的布局，我希望有一个如果条件的表格： #do something... #do something differently... el

浏览 3提问于2018-08-01得票数 0

回答已采纳

2回答

有没有办法从另一个网页上的HTML表格中提取数据？

html

我很好奇，是否有一种方法可以让计算机读取这些数据，并将其输入到计算机程序中，这样你就可以使用这些数据。例如，如果我可以访问ESPN的网站，查看联赛排名并将记录发送到我的代码，我想这是可能的。我知道有些网站有你可以使用的API，但我会使用它的网站没有…

浏览 1提问于2016-07-07得票数 0

1回答

如何通过python向服务器提交表单并从服务器获取csv文件？

python、asp.net、csv、post、web-scraping

我需要提交一个表格到服务器，并从服务器获得csv文件通过互联网与python。到目前为止，我总是选择项目和日期，然后单击按钮。然后，当显示文件保存对话框时，我从服务器保留csv文件。我想用python自动完成这些手工工作。我研究过python和web<em

浏览 0提问于2014-07-23得票数 1

1回答

Mongodb显示文本而不是HTML

python、html、mongodb

我用Pandas从一个用Python语言写的网站上抓取了一个表格，把它转换成超文本标记语言(df.to_html())，然后插入到Mongodb中。它在Mongodb中存储如下表{‘==> _html_table’：‘...’}In the Mongodb 然后，当我使用Flask和pymongo检索数据并将其显示在我的网站上时，它显示的是文本而不是表格。有没有什么函数可以把文本(从

浏览 16提问于2020-08-24得票数 0

回答已采纳

7回答

用Python进行屏幕抓取

python、screen-scraping、htmlunit、pycurl

Python有提供JavaScript支持的屏幕抓取库吗？我一直在使用pycurl来处理简单的HTML请求，对于需要JavaScript支持的更复杂的请求，使用了Java的HtmlUnit。理想情况下，我希望能够从Python中完成所有事情，但我还没有遇到任何允许我这样做的库。它们存在吗？

浏览 8提问于2010-02-03得票数 14

回答已采纳

2回答

在Windows下每5分钟运行一次python脚本

python

我有一个简单的python脚本，从html页面抓取一些数据，并将结果写出到一个csv文件。如何在Windows下自动执行抓取，即每五分钟启动一次。谢谢彼得

浏览 0提问于2015-01-29得票数 3

回答已采纳

2回答

如何使用python从网站的搜索栏中提取数据？

python、beautifulsoup

我想从一个包含许多医生和医院名称的网站中提取数据，我想做一些评估，所以我决定使用搜索栏，但不幸的是，似乎无法得到我想要的结果！ r = requests.get(url) soup = BeautifulSoup(r.content, 'html.parser

浏览 3提问于2018-06-11得票数 2

回答已采纳

2回答

如果没有类或id属性，如何使用bs4 4/python在一组嵌套表中找到所需的表？

python、web-scraping、beautifulsoup、screen-scraping

我有以下复杂的HTML结构，我必须从这个结构中解析嵌套的表，并从我想要的表中抓取。页面上有很多表格。我很安静，想不出怎样才能到达那张有数据可刮的桌子。这是页面的URL。

浏览 5提问于2013-11-20得票数 0

回答已采纳

1回答

使用Mechanize将HTML注入页面

javascript、python、html、web-scraping、mechanize

我正在写一个网页抓取程序，以便从网站上获得我的成绩。我使用Mechanize登录页面并导航到我要抓取的区域。不幸的是，页面使用Javascript对页面进行加密(可能是为了阻止我抓取)。我找到了解密脚本并移植到了Python。它起作用了，我用它从页面中提取加密的字符串，当我转换它时，它变成了HTML中的一个表。那么，为了达到我的观点，有没有什么方法可以把H

浏览 3提问于2013-01-14得票数 1

回答已采纳

1回答

使用Nokogiri抓取网站

ruby、ruby-on-rails-3、css-selectors、nokogiri、web-scraping

我正在使用Nokogiri抓取一个网站，当我试图从表格中抓取一个字段时遇到了一个问题。我使用来查找表格的CSS选择器。我正在从抓取数据。query_type=queryCarrierSnapshot&query_param=USDOT&query_string=#{self.dot}#Inspections"

浏览 1提问于2011-12-07得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云