如何使用python请求、BeautifulSoup和/或scrapy或selenium抓取混淆的网页内容_如何使用Python和BeautifulSoup或Pandas从Finviz.com中抓取最大赢家和最大输家的表行？ - 腾讯云开发者社区

、、

我可以使用GET parameter抓取推特内容，并在BeautifulSoup中解析数据，但现在所有的网站似乎都混淆了HTML元素。 https://www.twitter.com/search?q=donald%20trump&src=typed_query&f=user 这是我用来获取名为"Donald Trump“的多个用户的加入日期。python和美丽的汤 op_dat

浏览 28提问于2020-01-30得票数 0

3回答

用python刮网站

、、、、

我试图在网上刮一个网站，以获取价格和标题从它。我已经看过多个教程和博客，最常见的库是漂亮汤和scrapy。如果有一种方法可以在不使用任何第三方库(如beautifulsoup和scrapy )的情况下抓取一个网站，那么就可以使用beautifulsoup。It can use builtin libraries请推荐我一个博客、文章或教程，这样我就能学到

浏览 1提问于2020-06-09得票数 1

回答已采纳

9回答

BeautifulSoup和Scrapy crawler有什么区别？

、、、

我想做一个网站，显示亚马逊和易趣产品价格的比较。其中哪一个会工作得更好?为什么？我对BeautifulSoup比较熟悉，但对Scrapy crawler不太熟悉。

浏览 323提问于2013-10-30得票数 146

回答已采纳

2回答

访问web元素的最快方法

、

在我的当前版本中，我只是使用selenium并以这种方式查找web元素。这看起来很慢，也许是因为它加载了整个网站。(只是一个本地托管的面板)。有人知道一个更好的方法来做这件事，也许没有一个自动浏览器？对于任何想知道的人来说，我试图找到两个元素，并且没有api等等，所以我假设我不能通过python中的请求库来完成这个任务。

浏览 0提问于2018-06-15得票数 1

回答已采纳

2回答

BeautifulSoup不会从网页中提取所有表单

、、、、

我希望从一个给定的网站使用Python3和BeautifulSoup提取所有表单。下面是一个执行此操作的示例，但无法提取所有表单：from bs4 import BeautifulSoup for form in forms: print('\n\

浏览 0提问于2017-03-27得票数 2

1回答

到这个HTML中隐藏的详细页面的链接在哪里？

、

我在看下面的县法院记录：在该显示图像的顶部，您可以看到生成以下内容的搜索工具的URL： https://www.evaultla.com/Subscriptions/Search/ascension但是，如果您将图像中的代码与上面粘贴的代码进行比较，您会发现它们并不相同。内容似乎是相同的，但有些属性以不同的顺序出现。例如，在第一个div标记中，属性data-ref=&quo

浏览 12提问于2022-06-24得票数 0

回答已采纳

6回答

使用/lxml抓取所有链接

、、、、

我试图从这个网站的所有链接，当我这样做，我得到一个意想不到的结果。我发现发生这种事是因为javascript。data = urllib2.urlopen(url)#print data l = link.get('

浏览 4提问于2014-04-17得票数 1

回答已采纳

1回答

使用scrapy splash对抓取速度有显著影响吗？

、、、、

到目前为止，我一直在使用scrapy和编写自定义类来处理使用ajax的网站。但是，如果我使用scrapy-splash，据我所知，它会在javascript之后抓取呈现的html，爬虫的速度会受到严重影响吗？使用scrapy抓取一个普通的html页面所需的时间与使用scrapy-splash<

浏览 3提问于2018-04-18得票数 12

回答已采纳

1回答

Web抓取:像Chrome一样更新数据？

、、、、

我在Python中遇到的所有关于web抓取的文章都引用了BeautifulSoup和Selenium作为从网页中检索HTML和JavaScript内容的主要工具。然而，我还没有找到一种方法来自动更新从同一网页接收的数据，而不需要向它发送新的请求。在Python中是不是不可能做你在Google Chrome中会做

浏览 9提问于2020-02-17得票数 0

回答已采纳

2回答

在web服务器上使用java内容的抓取

、、

我想从一个显然使用javascript生成表的站点(这个站点是oddsportal.com)中抓取内容。我看到Scrapy无法加载动态内容，我阅读selenium可以处理它，但我计划使用web服务器。有什么方法可以解析这个站点或获取动态请求并使用scrapy解析它吗？例如，我想从这个页面导入完整的表，包括标题、匹配名和赔率。

浏览 3提问于2016-01-28得票数 1

回答已采纳

1回答

抓取Python蜘蛛无法使用LinkExtractor或手动请求()找到链接

、、、

(这部分以一种基本的方式起作用)from scrapy.contrib.spiders import CrawlSpider, Rule from scrapy.http.request import Request我的回调函

浏览 0提问于2014-09-02得票数 1

回答已采纳

3回答

scrapy能像Selenium一样控制和显示浏览器吗？

、、

当我使用Selenium时，我可以看到浏览器GUI，是否可以使用scrapy或严格基于scrapy命令行？

浏览 4提问于2015-11-03得票数 1

回答已采纳

1回答

即使xpath在chrome.Why中是正确的，Scrapy shell也会给出一个空列表的输出？

、

在Scrapy shell上执行fetch(url)fetch(r) response.xpathclass='c2prKC']/div/div/div/div[@class='c16H9d&

浏览 1提问于2020-07-24得票数 1

1回答

从报纸到txt的剥落

、

我对抓取有点陌生，我需要为一份工作提取一些报纸信息，我尝试过一些教程，但没有一个像我预期的那样有效，目标是获取一个给定的url，提取关于前4个ou 5主题的信息(当我们点击链接时的内部信息)。我试着浏览链接，首先，我失败了，输出是空的，显示0爬行页面。import scrapy name = 'blogspider' start_urls = [&#

浏览 1提问于2017-05-03得票数 0

回答已采纳

6回答

任何Python替代Selenium以编程方式登录到需要JavaScript登录的网站？

、、

我正在写一个小的私人应用，每天自动登录我的网上银行，并下载最新的交易。我把它写成Django应用程序，所以我在Python中工作。我的网上银行似乎没有JavaScript就不能工作--我认为它使用JavaScript分配某种类型的会话ID。通过httplib获取登录页面给了我一个页面，告诉我JavaScript是必需的。虽然它是为测试web应用程序而设计的，但我认为它可以完成这项工作，所以我想知道是否有比测试更通用的

浏览 3提问于2010-01-24得票数 19

回答已采纳

1回答

使用Scrapy和selenium抓取网站

、、

我打算用Scrapy在上抓取html内容。我想先进入ntry.com，然后单击一个名为的锚点转到 <div id="wrap"> <div id="

浏览 2提问于2016-11-26得票数 0

2回答

抓取动态超文本标记语言(YouTube注释)

、、、、

有了Beautiful Soup和Request Library，我可以抓取超文本标记语言的内容，但不能抓取JavaScript或AJAX调用的内容。import requests

浏览 1提问于2017-11-01得票数 3

1回答

使用Python进行Web抓取，而无需加载整个页面

、、、

我刚用Python开始了几个web抓取项目。我目前使用lxml，Beautiful Soup和requests模块来抓取网页。我需要知道是否有任何方法可以只从网站获得我们需要的数据，而不是加载整个页面。requests模块执行GET请求并接收整个，bs4，lxml只过滤数据。我尝试过Selenium，但这也打开了浏览器，这不太适合工业项目。我对scrapy和splash一无所知。我也不是在寻找AP

浏览 28提问于2021-11-13得票数 0

回答已采纳

1回答

用Python3 (Scrapy，BS4)抓取网站确实会产生不完整的数据。找不到原因

、、

不久前，我用BS4设置了一个网络抓取器，每天记录一瓶威士忌的价值。请求包含完整的网站，并且提取了正确的值。我还包括了一个

浏览 4提问于2020-10-22得票数 0

1回答

尝试在vscode调试控制台中执行scrapy FormResponse

、、、

我正在尝试学习如何使用python scrapy，我想知道我是否可以从vscode调试控制台手动请求网站。通常情况下，我会使用python请求和BeautifulSoup来获取网站html，并且我会键入以下内容 resp = requests.get(website) 在vscode中直接进入调试控制台。从那里我可以向网站发出更多的请求，而不需要重新启动调试器。然而，当我使

浏览 23提问于2021-11-01得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云