尝试使用python3和Beautiful Soup为戴尔驱动程序创建网络抓取器

、、

我正在建立一个网络抓取项目使用python与美丽的汤和请求模块，问题是我想要抓取的网站有一个加载页面(完全不同于主页)，然后它将我重定向到主页。我怎么能等到页面加载完成，然后从主页上抓取数据呢？我知道Selenium可以处理这些类型的网站，但网站必须使用web驱动程序启动，这是我不希望在我的项目中使用的原因，这就是为什么我使用Beautiful Soup和requests模块。到目前为止，我的代码如下。 from bs4 import BeautifulSoup import requests import time source = requests.get(url).text prin

浏览 15提问于2020-10-25得票数 0

1回答

使用python 3的web抓取教程？

、、

我正在尝试学习python 3.x，这样我就可以抓取网站了。人们推荐我使用Beautiful Soup4或lxml.html。有人能告诉我Python3.x的BeautifulSoup教程或示例的正确方向吗？谢谢你的帮助。

浏览 0提问于2013-05-28得票数 5

回答已采纳

3回答

美丽的汤在使用get_text ()后不能使用

、

我正在做网络抓取，我只想从任何网站的文本，所以我使用的Beautiful Soup。最初，我发现get_text()方法也返回了JavaScript代码，因此为了避免遇到应该使用extract()方法的问题，现在我遇到了一个奇怪的问题，在提取script和style标记之后，Beautiful Soup甚至在新的` `html中都无法识别它的主体。我先说清楚我在做这件事 soup = BeautifulSoup(HTMLRawData, 'html.parser') print(soup.body) 在这里，print语句打印了所有的html数据，但当我这样做时 soup =

浏览 20提问于2015-07-05得票数 3

回答已采纳

1回答

可以在web应用程序中使用Selenium吗？

我正在建立一个在Django的网站，将从一些网站抓取数据，这样人们就可以进入该网站，设置自定义数据过滤器，并查看抓取的数据在友好的格式。问题是requests和beautiful soup模块不足以满足抓取目的，因为我还需要一些自动化操作(加载javascript或单击按钮)。由于Selenium要求下载webdriver并将其放入路径中，是否可以在web应用程序中使用它？比如在某个地方托管webdriver？我也对Selenium以外的解决方案持开放态度，如果有的话。

浏览 3提问于2018-07-01得票数 1

1回答

我能用selenium webdriver读取浏览器的url吗？

、、、

我在beautiful Soup4 and Selenium webdriver中使用python2.7。现在，在我的webautomation脚本中，我将打开链接或URL并进入主页。现在我需要单击一些anchor Labels来浏览其他页面。我到目前为止都是这样做的。现在，当我要转到一个新页面时，我需要从浏览器获取新的URL，因为我需要传递用于网页抓取的Beautiful Soup4。所以现在我关心的是如何以动态的方式获得这样的URL？如果有建议，请多多指教！

浏览 0提问于2013-01-05得票数 8

回答已采纳

2回答

有没有办法使用Selenium of Beautiful Soup得到2015-2020年间每年1月份的“这个家”的Z值？

、、、、

从下面的链接中，我希望能够抓取数据。然而，当我使用Beautiful Soup时，我在html中找不到它，并且Beautiful soup不起作用。此外，我想也许我可以使用selenium来抓取这些数据，但我也找不到这些内容。你知道我会如何使用selenium或Beautiful Soup来获得2015-2020年间每年1月的“这个家”的Z估计值吗？提前感谢您的帮助。我正在使用Python。

浏览 0提问于2020-08-17得票数 1

1回答

Python 3.6美丽的汤-在Web抓取过程中获取嵌入式视频URL的麻烦

、、、、

我正在尝试抓取一个网页，并使用Python3.6中的Beautiful Soup和requests模块检索网页上嵌入的视频的URL。当我在Chrome中查看网页上的超文本标记语言时，我可以看到视频的.mp4链接。但是当我使用requests和Beautiful Soup获取页面时，我找不到"video“节点。我知道视频窗口是一个嵌套的HTML文档。特别是，我想要抓取这个网页- http://videolectures.net/icml2015_liang_language_understanding/，并使用Beautiful Soup和requests模块获得视频链接- http:

浏览 25提问于2020-08-26得票数 4

1回答

如何使用Python解析这个HTML表？

、、

我正在尝试用Python2.7创建一个抓取脚本。请求是可以的，但是我很难用Beautiful soup来解析这个表。我已经尝试了很多，在论坛上搜索了很多，但对我来说都不起作用，这是我第一次这样做。代码如下： import requests, os from bs4 import BeautifulSoup url='http://fse.vdkruijssen.eu/ferrylist.php' params={'selectplane':'Cessna 208 Caravan','submit':'&#

浏览 10提问于2017-02-07得票数 1

回答已采纳

2回答

UserWarning:未安装soupsieve包。不能使用CSS选择器

、

嘿，伙计们，我需要你们的帮助，我在网络抓取领域迈出了我的第一步。当我试图关注youtube上的一个网络抓取教程视频时，我收到了这样的警告。我已经安装了soupsieve和BeautifulSoup (pip install等)，我甚至从我正在抓取的网站上得到了正确的结果，但仍然得到了这个恼人的警告，我该怎么办？我使用的是python 3，pycharm。 from urllib.request import urlopen as uReq`enter code here`; from bs4 import BeautifulSoup as soup; my_url = 'https:

浏览 0提问于2019-05-15得票数 2

3回答

没有名为“bs4”错误的模块

、、

我计划做网络刮擦，但我似乎被困在第一步。 import urllib.request from bs4 import beautifulSoup wiki = "https://en.wikipedia.org/wiki/List_of_state_and_union_territory_capitals_in_India" page = urllib.urlopen(wiki) soup = BeautifulSoup(page) print(soup.prettify()) 我写这行只是为了测试，但是它显示了一个错误 Traceback (most recent c

浏览 1提问于2018-01-29得票数 4

回答已采纳

1回答

Python/Beautiful Soup:根据用户输入从网站抓取特定信息

、、

我正在尝试创建一个简单的网络抓取程序，从一个网站上拉出基于用户输入的咖啡馆列表。当特定的郊区被定义时，我已经能够弄清楚如何做，但我正在试图弄清楚如何做，以便程序在进入不同的郊区时自动抓取网站的其他部分以获取咖啡馆名称。我该怎么做呢？到目前为止，这是我的代码，感谢所有人，因为我是Python的新手，解释为什么事情可以/不能工作真的很有帮助。再次感谢 #import stuff to open and scrape websites from urllib.request import urlopen from bs4 import BeautifulSoup #open url url

浏览 12提问于2020-06-30得票数 0

回答已采纳

1回答

如何刮-跨度咏叹调-隐藏=“真”-文本

、、、

我正在尝试使用selenium和漂亮的soupe进行网络抓取，但是我无法获得selenium来找到我需要的元素并返回文本。以下是html： <span class="t-14 t-normal"> <span aria-hidden="true">Crédit Agricole CIB · Full-time</span><span class="visually-hidden">Crédit A

浏览 9提问于2022-10-25得票数 0

回答已采纳

4回答

在div类中查找值

、

我正在解析一个网站，在那里我遇到了一些类似的东西： <div class = "class-name" data-fmid="somenumber"> 使用beautiful soup，如何提取somenumber？我目前正在获取与class-name相关的元素： soup.find_all('div', {'class':'classname'}) 但不确定如何获得"somenumber“。我使用的是beautifulsoup，对网络抓取来说还是个新手。

浏览 41提问于2019-03-10得票数 1

回答已采纳

2回答

在Python中将抓取的数据存储到文本文件中

、

我可以使用Beautifulsoup抓取数据，现在我希望生成一个文件，其中包含我使用Beautiful Soup抓取的所有数据。 file = open("copy.txt", "w") data = soup.get_text() data file.write(soup.get_text()) file.close() 我在文本文件中看不到所有的标签和全部内容。有关于如何实现它的想法吗？

浏览 0提问于2019-12-28得票数 1

4回答

Ruby的美丽汤最接近的等价物是什么？

、、

我喜欢Python中的Beautiful Soup抓取库。它就是这样的。在Ruby中有类似的东西吗？

浏览 9提问于2009-03-12得票数 15

回答已采纳

1回答

Selenium仍然使用以前的页面状态，即使在单击页面上的按钮之后。如何更新浏览器状态/HTML代码？

、、、、

我正在使用python从一个结合了selenium和Beautiful Soup的网站上获取一些数据。这个页面有一些按钮，您可以单击这些按钮来更改表中显示的数据，但这都是由页面中的javascript处理的。页面url不会更改。Selenium在加载时成功地在页面上呈现了javascript，但是它继续使用以前的状态(在单击之前)，因此，它抓取相同的数据而不是新数据。我尝试遵循上给出的解决方案，但它似乎总是超时，并且不会使状态变得陈旧。我尝试手动等待10秒，使用time.sleep让它等待状态可能在一段时间内刷新。我曾尝试使用WebDriverWait等待，直到旧页面变得陈旧。我已经尝试在s

浏览 38提问于2019-03-30得票数 1

回答已采纳

3回答

用于web抓取的Selenium与BeautifulSoup

、、、

我正在使用Python从一个网站上抓取内容。首先，我在Python上使用了BeautifulSoup和Mechanize，但我看到网站上有一个通过JavaScript创建内容的按钮，所以我决定使用Selenium。既然我可以通过像driver.find_element_by_xpath这样的方法使用Selenium查找元素并获取它们的内容，那么当我可以使用Selenium做任何事情时，还有什么理由使用BeautifulSoup呢？在本例中，我需要使用Selenium来单击JavaScript按钮，所以使用Selenium进行解析更好，还是应该同时使用Selenium和Beautiful S

浏览 1提问于2013-07-03得票数 53

回答已采纳

1回答

在Python中存储抓取的数据以进行分析的最佳方式

、、、

我正在使用python和Beautiful Soup从网络上抓取足球运动员的统计数据。我将从多个来源抓取，每个来源将有关于每个玩家的各种变量，包括字符串，整数和布尔值。例如球员姓名、选拔位置、职业碗选秀权(y/n)。最终，我想将这些数据放入数据挖掘工具或分析工具中，以便发现趋势。这将需要是可搜索的，我将需要能够添加数据到一个球员的信息时，我从一个不同的顺序从一个新的来源。我应该使用什么技术来存储数据，这样我才能最好地添加数据并在以后分析它？

浏览 3提问于2016-07-29得票数 1

3回答

Python网站使用“soup.findall”抓取所有标签

、、

我刚刚开始接触Python，正如许多人所做的一样，我从一个web抓取示例开始尝试这种语言。我尝试的是收集任何特定标签类型的内容，并将其作为列表返回。为此，我使用BeautifulSoup和请求。这个测试使用的站点是一个名为“Staxel”的小游戏的博客。我可以让我的代码使用soup.find和print输出标签的第一次出现，但是当我将代码更改为下面的代码时，我会收到关于将列表打印为固定变量的警告。有人能说明一下我该用什么吗？ # import libraries import requests import ssl from bs4 import BeautifulSoup # set

浏览 0提问于2019-02-06得票数 1

回答已采纳

1回答

美丽的汤-在文档的两个部分之间进行搜索

是否可以只对页面上两个字符串之间包含的内容运行Beautiful Soup？在反复遇到使用Yahoo Pipes进行截屏的限制后，我开始使用Beautiful Soup，部分原因是Scraperwiki上提供了托管版本。 Yahoo Pipes中的HTML Import块的一个方便之处在于，它允许您标识开始字符串和结束字符串，因此可以将抓取限制在页面的特定区域。我在Beautiful soup中找到了一种从/from/中抓取特定字符串的方法： def scrapeFrom(soup,txt,el,attr=''): `start=soup.find(text=txt)`

浏览 0提问于2010-11-04得票数 1

3回答

、、

我正在尝试创建一个网络抓取器，以便从他们的网站上获取有关戴尔驱动程序的信息。显然，它在他们的网站上使用java将驱动程序的数据加载到网页上。我在从网页中获取驱动程序信息时遇到困难。这就是我到目前为止拼凑出来的东西。 from bs4 import BeautifulSoup import urllib.request import json resp = urllib.request.urlopen("https://www.dell.com/support/home/en-us/product-support/product/precision-15-5520-laptop/dr

浏览 25提问于2020-10-27得票数 0

回答已采纳

1回答

如何在jsp/servlet中调用python脚本？

、、、

我正在尝试从我的jsp servlet调用一段python代码来进行屏幕抓取(使用Beautiful Soup)。或者，如果可以直接从HTML调用它，它也可以工作。查看了几个线程，但无法获得任何解决方案。我想要的是给python程序一些参数，让它做一些屏幕碎片处理，并以某种方式将结果返回给jsp。

浏览 2提问于2013-05-17得票数 0

4回答

使用PHP或Python的PHP抓取技术

、、

我需要刮大约100个网站，在他们提供的内容非常相似。我的第一个疑问。应该可以写一个通用的脚本来抓取所有的100个网站或在抓取技术中只可能为特定的网站编写脚本。(愚蠢的问题。)我想我应该问一下哪种可能性更容易。为每个网站编写100个不同的脚本是很难的。第二项质询。我的主要语言是PHP，但在Stackoverflow上搜索此处后，我发现Python中的"Beautiful Soup“是最高级的爬行器之一。应该可以在PHP中调用Python中的"Beautiful Soup“吗？或者用Python编写所有的脚本会更好？给我一些关于我该怎么做的线索。对不起，我的英语不好。诚挚

浏览 2提问于2011-01-03得票数 3

2回答

美丽的汤Youtube订阅者

、、

我使用Python with Requests和Beautiful Soup来尝试使用以下代码返回某些Youtube频道的订阅者数量： import requests from bs4 import BeautifulSoup request = requests.get("https://www.youtube.com/channel/UCFIjVWFZ__KhtTXHDJ7vgng") content = request.content soup = BeautifulSoup(content, "html.parser") element = soup

浏览 0提问于2018-03-14得票数 2

1回答

BeautifulSoup HTMLParseError.这有什么问题吗？

、

这是我的代码： from bs4 import BeautifulSoup as BS import urllib2 url = "http://services.runescape.com/m=news/recruit-a-friend-for-free-membership-and-xp" res = urllib2.urlopen(url) soup = BS(res.read()) other_content = soup.find_all('div',{'class':'Content'})[0] print other

浏览 3提问于2012-12-20得票数 4

回答已采纳

1回答

使用Python的WebScraping :请求导入错误

、

我开始在网络上抓取“世界”。这是我的代码： import urllib import urllib.request from bs4 import BeautifulSoup theurl = "https://twitter.com/realdonaldtrump"; thepage = urllib.request.urlopen(theurl) soup = BeautifulSoup(thepage,"html.parser") print (soup.title) 当我尝试运行代码时，出现以下错误： Traceback (most recent c

浏览 0提问于2019-12-04得票数 0

1回答

如何识别这个div标签？

、、

我正在网络上抓取UpWork求职建议，并找到了包含所有招聘信息的div标签，它的开始标签看起来像这样： <div data-job-list-responsive="" data-ng-if="isInitialRequestComplete && !(isSavedJobsTabAvailable && isSavedJobsTab())" class="ng-scope"> #bunch of section objects for each job proposal <\div>

浏览 17提问于2021-06-09得票数 0

1回答

无法使用BeautifulSoup获取youtube视频urls

、、、

我是python和网络抓取的新手。我正在尝试获取作为搜索结果出现的视频的URL列表。我试过了： import requests from bs4 import BeautifulSoup as bs search_term = "python" page = requests.get("https://www.youtube.com/results?search_query=" + search_term) soup = bs(page.content, 'html.parser') vids = soup.findAll('a&

浏览 60提问于2021-05-09得票数 0

回答已采纳

1回答

使用BS4的Python语言中的WebScraping -获取动态生成的列表

、、

我需要抓取这个列表中的“最佳编码训练营”列表：https://www.switchup.org/rankings/best-coding-bootcamps 我的任务是应该可以使用Beautiful Soup (而不是Selenium)，然而，当我尝试这样做时，结果HTML不会返回训练营的列表，而是返回一个似乎是类的空元素：我的问题是，您认为只有使用Beautiful Soup才能检索到这些内容，而不需要求助于Selenium吗？如果需要Selenium，那么执行此操作的简单代码是什么？到目前为止，代码非常简单： from bs4 import BeautifulSoup impo

浏览 6提问于2019-12-08得票数 1

回答已采纳

1回答

BeautifulSoup脚本中的Python索引错误

、、、、

我正在写一个小的Python抓取脚本，它使用urllib3库从网站上提取一些价格数据，并在Beautiful Soup库中解析这些数据，这样我就可以找到合适的类来保存我感兴趣的数据，然后将这些数据插入到字典列表中，供我稍后在应用程序中使用。我在邮政编码列表中迭代了一个项目，然后为该项目中的每个(键)创建一个字符串，以构建我的http.request的URL，该URL存储在变量priceurl中。然后，通过BeautifulSoup解析价格and并将其存储在soup变量中。然后，我在soup变量中对我感兴趣的html类执行findAll，并将结果存储在links变量中。最后，我尝试将我感兴趣

浏览 6提问于2017-08-25得票数 0

1回答

、、、

我逐渐熟悉了Beautiful Soup和Pandas的Dataframe，但我似乎无法将两者结合起来。 import urllib.request from bs4 import BeautifulSoup import pandas as pd connection = urllib.request.urlopen('http://www.carfolio.com/specifications/models/?man=557') soup = BeautifulSoup(connection, "html.parser", from_encoding=

浏览 0提问于2015-09-02得票数 2

2回答

美丽的汤在一个网站上返回空列表，但在另一个网站上有效

、、

我目前正在通过“用Python自动化无聊的东西”来学习Python。我现在正在做Web抓取部分。我写的代码可以从一个网站上获取产品的价格。然而，当我稍微修改我的代码以在另一个网站上工作时，它似乎不起作用，并且Beautiful Soup从CSS返回一个空列表。这是我的工作代码。 import bs4, requests, re def getPrice(productUrl): res = requests.get(productUrl) res.raise_for_status() soup = bs4.BeautifulSoup(res.text,

浏览 13提问于2019-06-24得票数 0

回答已采纳

2回答

Wb抓取-- find_all不会产生任何值

、

我使用漂亮的soup4进行网页抓取，但是find_all('tables')没有结果。下面是我的代码： #import the library used to query a website import urllib.request #specify the url wiki="https://en.wikipedia.org/wiki/List_of_state_and_union_territory_capitals_in_India" #Query the website and return the html to the variable

浏览 0提问于2017-08-12得票数 0

2回答

在Python 3中，抓取隐藏在标签中的网页上的所有文本

、、

我需要抓取一个网页()，但我遇到了一个问题--我需要在首页显示的文本绝对隐藏在许多不同的格式化标记中。我知道如何使用Beautiful Soup抓取常规页面，但这并不能满足我的需要(例如，文本丢失，一些标签通过...) import requests from bs4 import BeautifulSoup from collections import Counter urls = ['https://www304.americanexpress.com/credit-card/compare'] with open('thisisanew.txt'

浏览 1提问于2014-09-09得票数 0

1回答

当url保持不变时抓取多个页面(但给出了一个ajax响应)

、、、、

我正在尝试通过网络抓取Goodreads.com上某本书的所有评论。 url= https://www.goodreads.com/book/show/320.One_Hundred_Years_of_Solitude?ac=1&from_search=true 这对于使用python和Beautiful Soup的第一页来说是非常成功的，但我的问题是试图抓取随后的评论页面。我遇到了问题，因为生成的每个新页面都有相同的url (所以我只得到了第1页的评论)。当我检查html时，新页面似乎是通过ajax请求生成的。 <a class="previous_page"

浏览 8提问于2017-07-21得票数 3

2回答

Web使用漂亮汤在Python中抓取论坛帖子，而lxml无法获得所有的帖子

、、、

我遇到了一个让我发疯的问题。我是一个网络抓取新手，我正在通过尝试刮一个论坛帖子的内容来练习网络抓取，也就是人们所做的实际文章。我已经将文章隔离到我认为包含的文本中，即div id="post message_ 2793649“(参见附件Screenshot_1以获得更好的html表示)。上面的例子只是许多帖子中的一个。每个帖子都有自己的唯一标识号，但其余的作为div id="post_message_是一致的。以下是我目前被困的原因 import requests from bs4 import BeautifulSoup import lxml r = requests

浏览 4提问于2016-08-03得票数 1

回答已采纳