python中的HTML表格抓取-在某些页面上查找表格时出现问题_在HTML表格的单元格中显示两个图像时出现问题 - 腾讯云开发者社区

python、html、web-scraping、beautifulsoup

我正在尝试从这个网站上的价格表中提取数据：https://www.letsrecycle.com/prices/textiles/textile-prices-2012/ 我无法同时使用read_html我尝试过使用不同的解析器，但没有任何帮助。我的代码的相关部分如下： import pandas as pdimport requests from bs4 import BeautifulSou

浏览 15提问于2020-07-22得票数 1

回答已采纳

2回答

如何使用文本html字符串来抓取一个没有id的表？

python、html、html-table、beautifulsoup、screen-scraping

我要抓取的表格没有特定的表格id，表格的高度/宽度级别与同一页面上的其他表格匹配，但文字html字符串是唯一的：那么&qu

浏览 1提问于2017-09-17得票数 1

1回答

抓取大型且复杂的PDF表格

python、r、excel、pdf-scraping

出于我自己病态的好奇心，我一直试图从PDF中提取一些关于2020年加州选举结果的数据。我需要抓取出现在许多页面上的许多表格。在某些情况下，行将继续到下一页，其他页面上也会出现其他列。我已经包含了一个例子的链接。我对R很满意，但是如果Python更适合抓取的话，我也可以使用Python。不过，我还没有找到很多资源来说明如何处理添加到两种语言<em

浏览 3提问于2020-12-07得票数 0

1回答

从coinmarketcap中抓取历史数据

r、web-scraping、tidyverse、rvest

我一般不会从web上抓取表格，但由于某些原因，当我试图从下一页抓取历史数据时，我无法选择想要的表格。这是链接和我的代码 library(tidyverse) url <-read_html("https://coinmarketcap.com/currencies/bitcoin/historical-data/

浏览 85提问于2020-11-10得票数 1

回答已采纳

1回答

在页面上显示‘表’时找不到该表

python、beautifulsoup

我正在试着抓取一页。HTML元素： <table id="stock_ret_data" class="table table-bordered aria-describedby="stock_ret_data_info" style="width: 1115px;">

浏览 2提问于2020-08-26得票数 3

回答已采纳

1回答

无法使用简单Html Dom (PHP)找到并抓取某些Div

web-scraping、simple-html-dom

我试着把中间那张桌子刮掉，这是我唯一需要的东西，也是我唯一不能从那里得到的东西。经过几次尝试，我创建了这个小代码，它刮掉了所有的html div，请告诉我我做错了什么，以及你的想法。谢谢!(在底部:此页面中我正在寻找的部分的图片)include_once("simple_html_dom.php"); $link = 'http://www.oddsportal.c

浏览 4提问于2017-06-09得票数 0

1回答

打印时HTML将表格推送到下一页

html、css

我有这个完整的html页面，作为打印模板使用。在此页面上有一个带边框的表格。我已经在bage_break_inside中添加了:避免在实际可以放在下一页时获得半切单元格。现在的问题是，当表格从接近尾部开始时，这将在1页上，然后表格被拉伸，下一个单元格在下一页上。但既然它在底部，最好将它完全推到下一页</

浏览 5提问于2017-03-01得票数 0

1回答

如何用美汤抓取多页搜索结果

python、web-scraping、beautifulsoup

使用以下url：我已尝试更改开始日期和结束日期，但无济于事。当我用漂亮的汤刮的时候，我只能刮掉第一页的结果，然后刮就停止了。我在抓取(在本例中)全部85页</e

浏览 8提问于2020-02-26得票数 0

回答已采纳

1回答

使用内部滚动条滚动

python-3.x、selenium-chromedriver

我有一个网站，我正在抓取，需要滚动水平(到最右边)和垂直(到最底部)的一个网页上的表格。我使用的是Python3、Selenium和Chrome Driver。我可以抓取表格数据，但它只能抓取我网页上可见的内容。当我检查网页时，我找不到任何滚动信息。通过在线搜索，我看到了使用Selenium进行滚动的各种方法，甚至可以通过xpath查找，然后以这种方式进行滚动。到

浏览 0提问于2019-10-26得票数 1

2回答

Python -如何在URL中不分页地刮分页

python-3.x、web-scraping

如何使用URL访问下一页，内容如下：我知道如何使用刮取库(BS4、Selenium)，但我不知道如何抓取这样的站点。我一直在玩谷歌Chrome开发工具，但没有成功。我知道pubmed有API，但是API不返回我需要的信息(天气文章是否可以免费下载)。像Python这样的抓取站点通常的工作流程是什么？

浏览 0提问于2019-07-05得票数 0

回答已采纳

2回答

如何在Python中从网站抓取和迭代表

python、beautifulsoup

我试图在Python语言中抓取和迭代一个表，然后将其输入到一个pandas DataFrame中，但我甚至在使用BeautifulSoup查找表时都遇到了麻烦。这是我通常做的事情，但在源代码中似乎没有表格。我该如何拉出这个页面上的主表？markets.ft.com/data/director-dealings' site = requests.get(

浏览 21提问于2020-11-07得票数 0

1回答

使用find在python中抓取单个html表

python、html、web-scraping、beautifulsoup

我是python的新手，正在尝试从网页上抓取一个表格。我已经通过Chrome中的"inspect“访问了html。= uReq(my_url)uClient.close() page_soup = soup(page_html, "html.parser") 页

浏览 0提问于2017-11-16得票数 0

1回答

Parsehub网站元素仅在特定日期显示

json、parsehub

我正在使用Parsehub从某个网站的某些页面中抓取某些数据到google电子表格中。我遇到的问题是，某个html元素只在特定的日期显示，我想知道是否有一种方法来设置它，所以Parsehub检查元素，并在什么时候显示它将它刮到google工作表中。我想得到的元素是每支球队的运动赔率或class=“比赛-奇数_文本匹配-奇数__文本-主场”。这里

浏览 4提问于2021-05-09得票数 1

1回答

如何使用TCPDF在HTML2PDF中强制新表在页面末尾启动时跳转到新页

php、tcpdf、html2pdf

我正在使用SPIPU ()生成一个包含多页的HTML2PDF文档，它使用TCPDF库。我使用表格来显示PDF中的内容，有些表格从页面的末尾开始，一页中只有表格标题行，其余的表格内容在新页面上。在这种情况下，如何强制表格在新页面上开始？有没有什么办法，我可以检查一个页面是否不能容纳超过1行<em

浏览 26提问于2021-07-08得票数 0

1回答

使用IE的“通过电子邮件发送页面”选项发送页面上特定div的内容

css、internet-explorer、media

我有一个隐藏了div的页面，里面有一些内容。我想能够只发送这个隐藏的div的内容，没有其他的页面上与“发送电子邮件页面”选项，如果IE。我该怎么做呢？对于此目的，是否有任何特定的css支持，就像我们打印文档的打印介质类型一样？

浏览 1提问于2012-09-13得票数 1

回答已采纳

2回答

如何在angularjs中导出表中的整个数据，包括所有分页数据？

angularjs、ngtable、plunker

下面我给出了我的代码，不知何故，我的不工作，但我能够在我的本地代码库上进行导出。

浏览 5提问于2014-12-01得票数 2

回答已采纳

1回答

使用xml2抓取web表的前两列

r、xml2

我一直在努力在R中使用xml包，我需要一些帮助来用xml2抓取一些格式良好的表。我要抓取的第一页表格的url是。在一些页面上，我想要第二个和第三个表，但在其他页面上，我想要第一个和第二个表。一个常见的思路是，我希望所有'caption‘标签包括文本'that meet’的表格都被抓取并存储

浏览 1提问于2016-02-06得票数 0

2回答

Selenium和BeautifulSoup不能获取所有HTML内容

python、html、selenium、web-scraping、beautifulsoup

我正在抓取https://lngconnection.cheniere.com/#/ccpl上标有"Capacity : Operationally - Evening“的底部表格我可以得到所有的HTML，当我美化()打印HTML时，一切都会显示出来，但当我发出命令查找所需的特定信息时，解析器找不到它。cc_content = soup(cc_html, '

浏览 41提问于2020-06-30得票数 0

回答已采纳

1回答

Python抓取xpath不适用于特定站点/表

python、python-2.7、xpath、urllib2、lxml

我在尝试从url的表中抓取数据时遇到问题： t = uol.read()tr_nodes = html.xpath(".table/tbody/tr") td_content = [[td.text for td in tr.xpath('td')]

浏览 0提问于2014-01-18得票数 0

1回答

iTextSharp -将多个A4文档合并成双面A3小册子

c#、itextsharp

我有一个PDF表格，是4 x A4页。我使用iTextSharp完成字段。对这部分很在行。 A3 Front ----- turn over ----> A3 Back第2页、第3页、第4

浏览 0提问于2014-08-15得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云