在python中从嵌套的URL中抓取和解析表_如何在python中从<td>表中抓取url_从表中抓取python中的Web - 腾讯云开发者社区

、

我正在学习Python和BeautifulSoup如何从网络上抓取数据，并读取超文本标记语言表格。我可以将它读入Open Office，它显示的是表#11。似乎BeautifulSoup是首选，但是谁能告诉我如何获取特定的表和所有行？我已经看过模块文档了，但是我不能理解它。我在网上找到的许多例子似乎都超出了我的需要。

浏览 1提问于2010-01-06得票数 24

回答已采纳

3回答

Python错误：'NoneType‘对象没有使用Beautiful Soup的属性'find_all’

、、

我在运行一些网络抓取代码时遇到了问题。要从一系列链接中抓取信息，如下所示： http://www2.congreso.gob.pe/Sicr/TraDocEstProc/CLProLey2006.nsf/ec97fee42a2412d5052578bb001539ee/89045fe8ae896e2e0525751c005544cd?OpenDocument 我正在尝试从表中抓取某些元素，但收到以下错误： Python Error: 'NoneType' object has no attribute 'find_all' 我知道这与它实际上没有找到表有关，因

浏览 44提问于2020-04-18得票数 1

回答已采纳

1回答

具有多个表的时间表Web抓取(Python)

、、、、

我只是在找一些关于python web抓取的信息。我正在尝试从时间表中获取所有数据，我想让课程与其开始的时间联系起来。查看html，有多个表(表中的表)。我计划将Google App Engine与Python (或许也包括BeautifulSoup )一起使用。对最好的方法有什么建议吗？谢谢更新：我已经设法使用以下代码从表中提取了所需的数据： import urllib from lxml import etree import StringIO url = "http://ttcache.dcu.ie/Reporting/Individual;Locations;id;lg

浏览 0提问于2013-03-15得票数 1

回答已采纳

2回答

动态获取urls的python抓取

、、

我是数据抓取领域的新手，之前使用python进行web和桌面应用程序开发。我只是在想，如果有任何方法可以从页面中获取urls，然后查看它的具体信息，如电话号码，地址等。目前我使用的是BeautifulSoup和built方法，其中我将urls作为方法的一个参数。我正在抓取的网站很大，真的很难为每个页面传递特定的url。有什么建议可以让它变得更快、更自驱动吗？提前谢谢。

浏览 1提问于2011-04-22得票数 2

回答已采纳

1回答

为从另一个爬行器抓取的start_requests提供URL值

、、

我完全是python和scrapy的新手。我正在尝试创建一个抓取器，它将首先清除URL，获取所有要抓取的URL，并将URL值逐个获取到另一个抓取器，然后获取实际所需的数据。到目前为止，我有两个独立的爬行器获取这些值并将其保存到一个文本文件中。然后第二个爬虫从文本文件中抓取URL。但是，有没有办法让第一个爬行器调用第二个爬行器，一个接一个地提供URL，而不是将其存储在外部文件中，并在URL获取结束后手动触发它？在这方面的任何帮助都将非常感谢。

浏览 29提问于2019-03-07得票数 0

回答已采纳

1回答

如何使用Python解析这个HTML表？

、、

我正在尝试用Python2.7创建一个抓取脚本。请求是可以的，但是我很难用Beautiful soup来解析这个表。我已经尝试了很多，在论坛上搜索了很多，但对我来说都不起作用，这是我第一次这样做。代码如下： import requests, os from bs4 import BeautifulSoup url='http://fse.vdkruijssen.eu/ferrylist.php' params={'selectplane':'Cessna 208 Caravan','submit':'&#

浏览 10提问于2017-02-07得票数 1

回答已采纳

1回答

用Python/BS4 4抓取表

、、

我试图用和Python2.7从BS4中抓取"Team“表。不管我怎么接近它， url = 'http://www.pro-football-reference.com/boxscores/201602070den.htm' page = requests.get(url) soup = BeautifulSoup(page.text, "html5lib") table=soup.findAll('table', {'id':"team_stats", "class":"stats_

浏览 5提问于2016-07-25得票数 1

回答已采纳

6回答

在Python中读取和运行数学表达式

使用Python，我将如何读入(从字符串、文件或url)数学表达式(1 +1是一个好的开始)并执行它？除了抓取字符串、文件或url之外，我不知道从哪里开始。

浏览 13提问于2008-12-30得票数 5

回答已采纳

1回答

减少创建BeautifulSoup对象时的开销

、

我对网络抓取和使用Python语言中的BeautifulSoup库非常陌生，所以我遇到了这个问题:我必须从大量的网页中下载和抓取内容，下载它们不是问题，但是当我为每个页面创建一个BeautifulSoup对象(为了解析它)时，我的程序变得非常慢。我在问您，是否有一种方法可以减少这种开销，并且可能避免为我要分析的每个新页面创建一个不同的全新BeautifulSoup对象。下面是我执行的代码： for action in actions[:100]: #Here I download the pages I need curr_url = base_url

浏览 0提问于2020-10-08得票数 0

3回答

如何使用Python Pandas Lib设置For循环来读取URL列表并抓取数据

、

这是我的第一个Python脚本。我目前正在尝试从多个url中抓取嵌入到HTML表中的数据，这些url位于一个名为url-list.txt的文件中。我已经成功地使用Python的Panda库从一个页面中抓取了所需的数据，然而，我正在尝试执行一个简单的for循环，从url-list.txt文件中加载每个url，以便从剩余的100个左右的url中抓取数据。这是我到目前为止所得到的。您可以看到我在for循环中的尝试被注释掉了。任何帮助都将不胜感激。 import bs4 as bs import urllib.request import pandas as pd #url_list = "

浏览 4提问于2019-06-08得票数 0

2回答

一个网站有一个URL列表，我需要写一个循环来访问每个URL并抓取两个表

、、、

最后，我试图在R中从几个不同的URL中(在同一个父站点内)刮表。首先，我想我必须从的“季后赛系列”中抓取单个游戏链接--该链接表的xpath为//*@id="all_all_playoffs“。然后，我想从每一个单独的游戏链接中抓取表格(看起来如下：) --我想要的表格是每个队的“基本方块得分统计”。 (我打算重复几年，所以输入每个URL--就像我下面所做的那样-不是很有效) 到目前为止，我只能弄清楚如何一次从一个url (或一个游戏)中抓取表： games <- c("201705190BOS","201705190BOS","201

浏览 1提问于2017-11-07得票数 0

回答已采纳

1回答

Scrapy响应不包含使用xpath的URL中的所有表

、

我在使用Python3.7中的Scrapy抓取URL (")“中的所有表页脚时遇到了问题。我可以看到第一个表(id=pitching_standard)，但是其他表(如batting_standard和standard_fielding )没有出现在响应中。代码如下： class BaseballRefSpider(scrapy.Spider): name = "baseball" def start_requests(self): allowed_domains = ["baseball-reference.com"]

浏览 2提问于2022-01-06得票数 0

2回答

使用Enlive重新抓取数据

、

我尝试创建从HTML页面抓取和标记的函数，我将其URL提供给一个函数，这是正常工作的。我得到了<h3>和<table>元素的序列，当我试图使用select函数从结果序列中只提取table或h3标签时，我得到()，或者如果我试图映射我得到的标签(nil ...)。你能帮我解决这个问题吗，或者解释一下我做错了什么？代码如下： (ns Test2 (:require [net.cgrand.enlive-html :as html]) (:require [clojure.string :as string])) (defn get-page

浏览 0提问于2011-10-18得票数 2

回答已采纳

2回答

抓取蜘蛛从链接中随机抓取数据为什么？

、

首先，我从网站上抓取了所有的硬币链接，并要求那些链接。但是scrapy没有串行地请求从链接list.after请求这些链接抓取数据成功，但当保存到csv文件时，它使一个完整的抓取项目后每一次都是一个空行。我期待它将从链接列表中串行请求，它不会使任何空白row.how我能做到吗？我使用的是python 3.6和scrapy版本1.5.1 我的代码： import scrapy class MarketSpider(scrapy.Spider): name = 'market' allowed_domains = ['coinmarketcap.com

浏览 3提问于2018-12-02得票数 0

2回答

使用R-我想从网站中提取一些像数据一样的表格

、、、、

我在从一个网站上抓取数据时遇到了一些问题。我对网络抓取没有太多的经验。我的计划是使用R从以下网站刮取一些数据：更确切地说，我想列出一些制裁的国家名单。 library(XML) url <- paste0("https://www.fatf-gafi.org/countries/") source <- readLines(url, encoding = "UTF-8") parsed_doc <- htmlParse(source, encoding = "UTF-8") 但这不会显示预期的信息，因为它不是在表下

浏览 1提问于2022-06-02得票数 0

回答已采纳

1回答

从Web抓取/RSS呈现的相关URL列中抓取数据

、、

我正在从一个网站抓取数据，每个项目都有一个相关的文档URL。我想从该文档中抓取数据，单击链接后可用的是HTML格式。现在，我一直在使用Google Sheets to ImportFeed来填充基本的列。有没有下一步我可以做的，进入每个URL，从文档中抓取元素，并用它们填充Google工作表？我之所以使用RSS提要(而不是python和BS )，是因为它们实际上提供了RSS提要。我已经找过了，但没有找到一个与我的问题特别匹配的问题。

浏览 1提问于2017-06-22得票数 0

1回答

抓取网页中的某些数据

我们正在创建一个脚本。本质上，用户输入一个表单字段:3358928 OnSubmit ajax，访问下面的页面，附加用户输入到url的数字字符串。在该url上，是名和姓。我们该如何抓取名字和姓氏，并将其与我们的形式相呼应。从本质上讲，问题是从页面抓取而来的。感谢您的帮助。

浏览 2提问于2010-11-13得票数 0

回答已采纳

2回答

如何理解scrapy.Request中的回调函数？

、、

我正在使用Python第二版阅读Web抓取，并希望使用Scrapy模块从网页中抓取信息。我从文档中获得以下信息：回调(可调用)-该函数将以该请求的响应(一旦下载)作为其第一个参数来调用。有关更多信息，请参见将其他数据传递给下面的回调函数。如果请求没有指定回调，那么将使用蜘蛛的parse()方法。注意，如果在处理过程中引发异常，则将调用errback。我的理解是：传入url并重新定位，就像在请求模块中一样。 resp = requests.get(url) 传递用于数据解析的resp 解析(Resp) 问题是：我没看到resp是从哪里传入的为什

浏览 4提问于2020-07-04得票数 0

回答已采纳

1回答

指示Python使用urllib2单击按钮

、、、、

我正在使用python中的urllib2和BeautifulSoup编写一个web刮刀，并正在寻找一种方法来指示python单击页面上的一个按钮，该按钮用于读取HTML源代码。下面的脚本片段从csv文件中读取URL，用于从指定的网页中抓取数据，但中间步骤是单击从csv提供的URL中读取的网页上存在的"submit“按钮。 for line in triplines: FromTo = line.split(",") From = FromTo[0].strip() print(From) To = FromTo[1].strip()

浏览 2提问于2014-07-02得票数 0

1回答

如何从承载HTML之外的表数据的网站中刮表？

、、、、

我正在尝试从这个表URL：中抓取表数据在之前的测试中，我使用了以下Python包:从bs4导入BeautifulSoup导入请求导入mysql.connector作为pd从sqlalchemy导入create_engine 但是这个url的HTML不包含表数据，而是从外部数据库中提取数据。有人能告诉我用这种HTML设置使用python脚本来抓取表数据的正确方向吗？我试着用我以前刮过的方法做一次盲刮。 from bs4 import BeautifulSoup import requests import mysql.connector import pandas as pd

浏览 3提问于2022-04-02得票数 -1

回答已采纳

1回答

从python中的表中抓取数据

、、

我对python很陌生，在做了一些教程之后，一些关于抓取的内容，我一直在自己尝试一些简单的抓取。使用BeautifulSoup，我设法从所有东西都有标签的网页中获取数据，但没有它们，我的工作就很糟糕。我试图从：http://www.bancochile.cl/cgi-bin/cgi_mone?pagina=变体人/mon_tasa/cgi_蒙尼获得美元汇率 📷 我想要的值用黄色突出显示。经过多次尝试和错误，我设法获得美元汇率，但我认为必须有一个更好的方法。 import requests from bs4 import BeautifulSoup page = requests.get(

浏览 0提问于2017-03-30得票数 3

回答已采纳

2回答

如何使用URL获取Python中的.csv数据

、、、

第一步-温柔点！我开始学习Python，并希望从网页()中的表中获取信息给熊猫。我正在使用Google，从研究中我了解到这个过程与'web抓取‘有关，将HTML提交给.CSV。欢迎任何想法。值得注意的是，由于工作的安全性，我无法下载更多的软件，这限制了我的工作。谢谢。

浏览 9提问于2022-04-13得票数 -1

1回答

如何从web中抓取数据并读取表中的所有数据

我正在尝试从web中抓取数据，特别是从具有不同过滤器和页面的表中抓取数据，并且我有以下代码： library (rvest) url.colombia.compra <- "https://colombiacompra.gov.co/tienda-virtual-del-estado-colombiano/ordenes-compra?&number_order=&state=&entity=&tool=IAD%20Software%20I%20-%20Microsoft&date_to = & date_from = "

浏览 5提问于2021-07-21得票数 0

回答已采纳

1回答

如何让django项目点击url的特定标签

、

我正在开发一个使用python和Django的网页抓取代码。我已经提供了所需的url，并且已经获取了数据。但是在url上有一个标签，上面写着“显示更多结果”。如何让我Django项目点击url上的“显示更多结果”选项卡并立即获取新的结果。我已经使用Beautiful Soup库来进行web抓取/

浏览 16提问于2021-04-15得票数 0

1回答

用Django/Python从网站上抓取图像的有效方法

、、

首先，我想我还是有点像Django/Python。我在一个允许用户输入URL的项目中，该站点从该页面中抓取内容并返回一定大小的图像和页面标题标记，这样用户就可以选择他们想要在其配置文件上使用的图像。我认为这是一个相当标准的场景。我使用Selenium (无头Chrome浏览器)获取目标页面内容，使用python来确定文件大小，然后使用Django视图将其全部释放到模板中。然后，我将其编码成这样一种方式，即用户选择的图像将被本地下载和存储。然而，我严重怀疑它的可伸缩性，因为它目前只是在本地运行，我非常担心如果有很多用户同时运行，这将如何处理。每次提出一个听起来不高效率的请求时，我都会启动无头铬

浏览 0提问于2018-05-09得票数 1

回答已采纳

4回答

simplexml可以用来浏览html吗？

、、、

我想在不使用正则表达式的情况下从表中抓取数据。我喜欢使用simplexml解析RSS提要，我想知道它是否可以用来从另一个页面抓取表。例如：使用curl或简单的file_get_contents()抓取页面；然后使用simplexml抓取内容？

浏览 0提问于2011-07-09得票数 20

回答已采纳

2回答

如何用Python编写一个简单的爬虫？

、、

我已经试着写这个爬虫几个星期了，但是没有成功。对我来说，用Python编写代码的最佳方式是什么： 1)初始url：http://www.whitecase.com/Attorneys/List.aspx?LastName=A 2)从初始url中选取以下正则表达式的url： hxs.select('//td[@class="altRow"][1]/a/@href').re('/.a\w+') [u'/cabel', u'/jacevedo', u'/jacuna', u'/aadler'

浏览 0提问于2009-11-27得票数 1

回答已采纳

2回答

基于日期抓取表数据

、、、

我正在尝试抓取kurs事务的表从2015-2020年，但问题是默认日期和我选择的日期之间的链接仍然是相同的。那么我如何告诉python从2015-2020(20-11-15-20-11-20)抓取数据呢？我对python和python3的使用非常陌生。 import requests from bs4 import BeautifulSoup import pandas as pd headers={ "User-Agent":"Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Ch

浏览 0提问于2020-11-24得票数 0

1回答

如何在PhpMyAdmin中组织CSV的Twitter数据

、、、

我正在开发一个应用程序，在这个应用程序中，我需要在MySQL数据库中存储一个Tweet集合以及诸如tweets、Tweet日期、语言和用户名等属性。这是我想要的图像：为此，我在python中创建了一个程序，该程序可以在Twitter上以JSON文件的形式收集100+ tweet。然后，我使用Microsoft将JSON文件转换为CSV文件。在此之后，我将CSV文件作为一个表导入到PHPMyAdmin中，得到了以下结果： (10行x185列)。上面的问题是，一些tweet有更多的数据，如媒体，这导致数据扩展到多列。我如何快速地清理这个表，使我只在表中有我想要的属性？我需要重新抓取Pyt

浏览 3提问于2017-11-15得票数 0

回答已采纳

1回答

没有在url的所有表中读取的R抓取包。

、、、

我正在尝试从以下链接中抓取一些表：“”，从我尝试的许多方法/包中可以看出，我认为R没有在整个url中读取。以下是我所做的几次尝试： a <- getURL(url) tabs <- readHTMLTable(a, stringsAsFactors = T) 和 x <- read_html(url) y <- html_nodes(x,xpath= '//*[@id="div_home_snap_counts"]') 我已经成功地使用这两种方法在前两个表中阅读了，但是在那之后，无论我是使用xpath还是css，我都不能在其他表中阅读。有

浏览 1提问于2019-07-13得票数 2

回答已采纳

3回答

为什么只读取网页中的前两行html表？

、、、

我试图从网页上的html表中抓取数据。我尝试了几种基于这里发布的答案的不同方法，但总是有一个问题:结果大致与我所期望的一样，但只适用于表的前两行。我对html和漂亮的汤几乎没有经验，但是从url中的表的html文件中，我看不到前两行和表的其余部分之间有什么区别。有人能帮我找出我做错了什么吗？ import numpy import pandas as pd import urllib from bs4 import BeautifulSoup url = 'http://www.astronomy.ohio-state.edu/asassn/transients.html'

浏览 5提问于2020-12-14得票数 0

回答已采纳

1回答

如何从Sky扫描器中获取数据？

、

我是Python新手，有人要求从www.skyscanner.net获取动态数据。有人能指导我这样做吗？ import requests import lxml.html as lh url = 'http://www.skyscanner.net/transport/flights/sin/lhr/131231/140220/' response = requests.post(url) tree = lh.document_fromstring(response.content) print(tree); 我所做的就是在URL中找到模式，并尝试从那里抓取。然而，没有成

浏览 1提问于2013-11-18得票数 0

1回答

如何用python更改复选框值

、

我对python和web抓取等都很陌生，但是我在读书的时候尝试学习，但现在我被困住了。我已经成功地使用python和BeautifulSoup从一个有很多复选框的页面抓取了一个类似的web表单。我想要做的是将这些复选框中的一些从选中更改为未选中或相反。但不知道从这里到底该往哪里走。选中的复选框的输出如下所示： <div class="checkbox"> <label> <input checked="checked" name="Permissions" type="chec

浏览 1提问于2019-10-21得票数 0

1回答

从多个页面中抓取表格

、

我想从网站上抓取数据。这个表扩展到多个页面上，但是url没有像page=3这样的东西，所以我不能遍历各个页面来获取数据。有没有其他方法可以像这样抓取数据，而不会在不同的页面上循环？如何从python访问不同的页面来抓取数据？

浏览 19提问于2018-03-04得票数 0

3回答

使用哪个正则表达式从HTML文本中提取一些单词？

我很难构建一个正则表达式来从HTML文本中抓取一些单词。假设我有以下内容： <p style="padding-left :12px">SOME_TEXT_I_WANT</p><p>SOME_OTHER_TEXT</p> *SOME_TEXT_I_WANT*和*SOME_OTHER_TEXT*可以是像“一些随机文本”这样的一堆单词，也可以是像"<strong>SOME BOLD TEXT</strong>“这样的HTML文本。我的目标是用一个正则表达式提取这些文本。

浏览 0提问于2010-12-07得票数 1

回答已采纳

2回答

如何下载使用python推送到浏览器的文件？

、、

我想用python下载一个zip文件。使用这种类型的url，只需使用urllib2.urlopen并将其写在本地文件中，这就非常简单了。但在我的例子中，我有这样一种url：，下载是在表单验证之后启动的。在我的例子中，我想把它部署在heroku上，这样我就不能使用用C++构建的spynner，这可能会很有用。此下载是在使用scrapy进行抓取之后启动的。从浏览器下载效果很好，我得到了一个很好的zip文件和它的名字。使用python，我只能得到html和头文件数据... 有没有办法在python中从这种类型的url中获取文件？

浏览 1提问于2013-04-12得票数 3

回答已采纳

2回答

从以流方式加载数据的网站中抓取from数据

、、

我正在尝试为我的一个项目使用python从FEC.gov网站上获取一些数据。通常我使用python、mechanize和beautifulsoup来进行抓取。我已经能够弄清楚大多数问题，但似乎无法绕过一个问题。看起来好像数据流入了表中，而mechanize.Browser()只是停止监听。所以问题来了:如果你访问 ...你得到了前500名贡献者，他们的姓氏以A开头，并且已经向候选人P80003338捐款……但是，如果在url中使用browser.open()，则只能得到前5行。我猜这是因为mechanize没有让页面在.read()执行之前完全加载。我试着在.open()和.read()

浏览 1提问于2012-02-25得票数 0

回答已采纳

1回答

解析HTML，'ValueError: stat: path too long for Windows‘

、、

我正在尝试从纽约证券交易所的网站上抓取数据，网址是： nyse = http://www1.nyse.com/about/listed/IPO_Index.html 使用请求，我可以像这样设置我的请求： page = requests.get(nyse) soup = BeautifulSoup(page.text) tables = soup.findAll('table') test = pandas.io.html.read_html(str(tables)) 然而，我一直收到这个错误 'ValueError: stat:路径对于Windows太长‘ 我不知道如

浏览 4提问于2014-07-30得票数 2

1回答

使用Mechanize将HTML注入页面

、、、、

我正在写一个网页抓取程序，以便从网站上获得我的成绩。我使用Mechanize登录页面并导航到我要抓取的区域。不幸的是，页面使用Javascript对页面进行加密(可能是为了阻止我抓取)。我找到了解密脚本并移植到了Python。它起作用了，我用它从页面中提取加密的字符串，当我转换它时，它变成了HTML中的一个表。那么，为了达到我的观点，有没有什么方法可以把HTML重新注入到页面中，并使用mechanize来使用表格上的链接来获得我的成绩？谢谢你的帮助！编辑:我也有很好的汤，如果有帮助的话。

浏览 3提问于2013-01-14得票数 1

回答已采纳

1回答

如何使用Python从Jquery表中抓取

、、、、

我正试着从这个中抓取前十项。我正在使用Python Selenium/BeautifulSoup。该表似乎正在使用jquery脚本进行加载。我是诚实的困惑，从哪里开始，因为教程和指南是不匹配的这个网站。他们中的很多人说，检查元素中的Network来查找XHR数据。然而，这个网站在XHR选项卡中没有任何值加载，而是在JS选项卡中。我找到了URl https://www.anime-planet.com/dist/3p/jquery.min.js?t=1657108207的请求，但这似乎对我没有任何帮助。我是不是想得太多了，应该直接从html中抓取吗？如有任何建议，将不胜感激。

浏览 5提问于2022-09-13得票数 1

回答已采纳

1回答

用Python和Beautiful进行数据抓取

、、、

我目前正在用Python & Beautiful做我的第一步，以便从俄罗斯统计网站抓取数据。看看这里关于Stack溢出的不同示例，我认为代码是正确的，但是我的简单查询不会从这个站点返回任何内容。在执行代码时，我的Python命令行仍然是空白的，但也不会返回错误。这里怎么了？我的(非常简单的)代码： from bs4 import BeautifulSoup import urllib2 url = "http://www.gks.ru/bgd/free/B00_25/IssWWW.exe/Stg/d000/000715.HTM" page = urllib2.ur

浏览 2提问于2016-01-16得票数 0

回答已采纳

3回答

web抓取工具或库，可自动查找未设置规则的文本内容

、、、

是否有web抓取工具或库可以自动检测重复的HTML块并抓取块中的文本内容，从而消除了人工输入规则- CSS选择器或xpath来查找内容的需要？这是基于这样的假设:现代内容网站是由PHP或Python等服务器端语言动态生成的。内容几乎总是由模板中的for循环呈现，因此总是可以找到重复的HTML块。举个例子： <div id="content"> <div class="blog entry"> <div class="title"> <h1>1st post</h2&

浏览 3提问于2012-07-25得票数 0

1回答

从添加到按钮按下的html中抓取网页

、、、

我试图从有一个巨大表的页面中抓取数据，该表将100个条目显示为默认值。底部有一个select/选项，允许您将条目更改为200或全部。如何在刮表之前将selecter设置为All，因为我希望从所有条目中抓取，而不仅仅是前100项。我使用node.js/JavaScript从页面中抓取。

浏览 1提问于2016-10-17得票数 0

回答已采纳

1回答

pdf文件中表格内容的剪贴画

、、

我正在使用python对pdf文件中的表格进行web抓取。有人能建议我一个好的模块来获取唯一需要的表我已经尝试了pypdf，pdf2html，ocr，slate，但都不起作用谢谢

浏览 0提问于2012-06-07得票数 0

1回答

不返回所有的表

、、、、

我想试着从.This网站中抓取所有的表，我使用的是pd.read_html()，它只返回3个表，但我希望我的脚本能返回所有的表。我的脚本： import pandas as pd url = "https://aws.pro-football-reference.com/teams/mia/2000.htm" df = pd.read_html(url) len(df) 输出： 3 我特别想要这张桌子：如何使用pd.read_html()获取所有表

浏览 0提问于2020-06-25得票数 0

2回答

从PDF抓取数据到CSV？Python vs PHP？

、、、

我每天都要手工编译一大堆报告，这需要很长时间，所以我想把整个过程自动化。我将从(1) HTML，(2) CSV/XLS，(3) PDF中抓取数据。我主要是用PHP从CSV/HTML中抓取数据，想知道在PHP中有没有什么可靠的库或从PDF抓取表格数据的方法？我也刚刚开始学习Python，并且发现尝试使用PDFMiner和Scrapy来做这件事可能是个好主意。这样会更好吗？或者还有其他选择吗？请让我知道。谢谢!

浏览 1提问于2011-09-09得票数 5

回答已采纳

1回答

如何使用scrapy抓取内层url？

、

我在看一些在线视频的时候创建了一个抓取蜘蛛。它从网站上抓取个人资料url。我想扩展这一点，以报废数据，如地址，姓名，电话，网站网址从每个配置文件网址抓取。我在考虑创建分离的刮板。一个用于抓取配置文件url。以及从抓取的第一url中抓取数据的第二个url。有没有其他的解决方案？这是我的爬虫，它抓取配置文件的urls。 # -*- coding: utf-8 -*- import scrapy from ..items import ...scraperItem class SpiderSpider(scrapy.Spider): name = 'spider'

浏览 22提问于2019-04-14得票数 1

回答已采纳

1回答

在python中流式传输来自s3的gzipped文件

、、、

您好，我正在做一个有趣的项目与常见的抓取数据，我有一个子集的最新抓取warc文件路径从here 所以基本上我有一个像https://commoncrawl.s3.amazonaws.com/crawl-data/CC-MAIN-2020-45/segments/1603107863364.0/warc/CC-MAIN-20201019145901-20201019175901-00000.warc.gz这样的url ( warc路径中的第一个url )，我在请求流中是这样的： s = requests.Session() resp = s.get(url, headers=headers,

浏览 12提问于2020-11-30得票数 0

回答已采纳

1回答

Python是否有可能进入每个产品页面并刮取数据？

、、

我对python和web抓取很陌生，我想知道是否有可能用刮伤从产品页面中抓取。示例:我在amazon.com上搜索监视器，我希望scrapy转到每个产品页面并从那里刮取，而不是只是从搜索结果页面中抓取数据。我读过一些关于xpath的文章，但我不确定是否可以使用这个方法，而且我发现的所有其他资源似乎都在使用其他东西，比如漂亮的汤等等。我正确地拥有了一个从搜索结果页面中抓取的刮擦项目，但是我想将它改进为从产品页面中刮取。编辑：以下是我根据您的建议修改的spider.py： class TestSpiderSpider(scrapy.Spider): name = 'testscra

浏览 3提问于2020-11-10得票数 0

回答已采纳

10回答

使用Python进行Web抓取

、、、

我目前正在尝试抓取一个HTML格式相当差的网站(通常缺少结束标记，没有使用类或it，因此很难直接转到您想要的元素，等等)。到目前为止，我使用BeautifulSoup已经取得了一些成功，但偶尔(尽管很少)，我会遇到一个页面，在这个页面上，BeautifulSoup创建的HTML树与(例如) Firefox或Webkit略有不同。虽然这是可以理解的，因为HTML的格式使这种模棱两可，如果我能够得到与Firefox或Webkit生成的相同的解析树，我将能够更容易地解析事物。问题通常是这样的:网站打开一个<b>标签两次，当BeautifulSoup看到第二个<b>标签时，它会

浏览 3提问于2010-03-08得票数 9

回答已采纳