寻找一个更好的解决方案来抓取多个网页与美丽的汤 - 腾讯云开发者社区

python、web-scraping、beautifulsoup

我正在做一个网页抓取，以提取一些文本使用美丽的汤。我正在成功地从网页中提取所需的文本，但我的新要求是与文本一起提取文档中文本实际开始和结束的偏移量/位置。有没有可能使用漂亮的汤或任何有用的软件包来实现这一点？请提供您的想法和建议... 谢谢

浏览 5提问于2016-06-08得票数 2

5回答

正在寻找关于web抓取项目最佳实践的好教程的推荐吗？

python、ruby、screen-scraping、beautifulsoup、hpricot

我需要做一个相当广泛的项目，涉及网络抓取，并正在考虑使用Hpricot或美丽的汤(即Ruby或Python)。有没有人看到过他们认为在这个主题上特别好的教程，可以帮助我从正确的角度开始这个项目？

浏览 0提问于2009-03-26得票数 4

3回答

我正在尝试使用beautifulsoup4来解析一系列用XHTML语言编写的网页。我假设为了获得最好的结果，我应该使用xml解析器，据我所知美丽汤唯一支持的解析器是lxml。然而，当我尝试按照漂亮的run文档运行以下代码时： import requests from bs4 import BeautifulSoup r = requests.get(‘hereiswhereiputmyurl’) soup = BeautifulSoup(r.content, ‘xml’) 它会导致以下错误： FeatureNotFound: Couldn't find a tree builde

浏览 2提问于2016-07-28得票数 6

1回答

利用find_partial_text实现Splinter抓取href

web-scraping、beautifulsoup、splinter

我是新的网页抓取，并试图从一个HTML页面检索一个href使用Splinter和美丽汤。这是我的密码 # hem1 url="https://astrogeology.usgs.gov/search/map/Mars/Viking/cerberus_enhanced" browser.visit(url) hem1=browser.find_link_by_partial_text('Sample').get("href") 这将接收到错误。 AttributeError：“ElementList”对象没有属性“get” 任何帮助都是非常感谢

浏览 3提问于2020-11-18得票数 0

2回答

抓取特定文本的网页(字符串)

python

在stackoverflow上的第一个帖子，所以如果我没有正确发帖，我道歉。我试图抓取网页的信息，只有当一个特定的文本字符串存在。我只是使用了漂亮的汤，但找不到包含我正在寻找的文本的元素。经过更多的研究，我尝试使用selenium，因为我知道一些动态加载的元素在漂亮的汤中是找不到的。到目前为止，我仍然找不到文本字符串。当我检查元素时，文本是可定位的。 TLDR:我想要抓取这个网页的每股价格，因为我可以找到‘公开发行价格’的文本。我不能找到字符串时，我使用美丽的汤或硒，但我可以找到与检查元素()

浏览 0提问于2020-06-06得票数 1

3回答

Regex检查给定字符串是否为相对URL

python、regex

首先，我读过关于如何检查字符串是绝对的还是相对的URL。我的问题是，我需要一个regex来检查给定的字符串是否是一个相对 URL，也就是说，我需要一个regex来检查一个字符串是否以任何协议或双斜杠//开头。事实上，我正在做与美丽汤的网页刮，我想检索所有相关的链接。“美丽汤”使用以下语法： soup.findAll(href=re.compile(REGEX_TO_MATCH_RELATIVE_URL)) 所以我才需要这个。测试用例是 about.html tutorial1/ tutorial1/2.html / /experts/ ../ ../experts/ ../../

浏览 5提问于2015-07-15得票数 2

回答已采纳

2回答

在有漂亮汤的字符串之前获得一个元素

python、string、python-2.7、parsing、beautifulsoup

我正在使用“美丽汤”搜索一组整数值，并生成与名称匹配的这些值的列表。然而，我遇到的问题是，网站对我需要的元素(“列表-条目”)使用了一些非常模糊的类名，这些元素被复制在其他元素中，我不想抓住这些元素。到目前为止，我的代码看起来是： from bs4 import BeautifulSoup as bs import requests url = "http://beautifulnumberssite.com/" html = requests.get(url).text soup = bs(html) names = soup.findAll("h1",

浏览 1提问于2016-12-30得票数 1

回答已采纳

1回答

如何获取打开模式窗口的url

python、web-scraping、beautifulsoup

有了美丽的汤，我就可以访问这个网页的内容：https://www.fiba.basketball/euroleaguewomen/21-22/game/1310/MBA-Moscow-ZVVZ-USK-Praha#tab=shot_chart 在这个网页中，如果你点击场地上的一个点，你就会得到球员和投篮的数据。您可以在下图中看到以下信息： ? 例如，如果我使用Firefox检查此图像，我会在控制台中获得以下代码： ? 正如您所看到的，我们已经获得了显示在模式窗口中的信息。因此，我想知道如何获得此内容的网址，出现在模式窗口或如何使用BeautifulSoup网络抓取此内容？

浏览 34提问于2021-10-14得票数 0

回答已采纳

1回答

对于多个值，以及如何将它们保存到JSON中

python、selenium、beautifulsoup

我用的是硒+美汤。我需要存储我找到的数据，我最初想到的是数组，但现在我认为json可能更好，但我不知道如何从我抓取的数据中编写它。 doc = [] spec = [] for i in range(1, 2): driver.get('https://local.data/doctors/%d' % i) driver.execute_script("$('mark').remove()") time.sleep(3)

浏览 4提问于2018-08-19得票数 0

1回答

如何使用Python抓取特定的ASP.NET页面？

python、asp.net、web-crawler

我想抓取一个ASP.NET网站，但是urls都是一样的，我如何使用python来抓取特定的页面呢？这里是我想爬的网站： (我用的是美丽的汤，urllib和python 3) 我应该得到哪些信息来区分一个页面和另一个页面？

浏览 4提问于2015-08-16得票数 0

回答已采纳

1回答

用于查询控制台的Python？

android、python、google-api

我想从控制台获得我的一个Android应用程序的详细信息(即安装的数量，以及当前的评级)。我最好用Python来做这件事。我不喜欢沿着屏幕抓取/美丽的汤路线，所以我一直在寻找一个相关的API。我还没找到呢。因此，我的问题是：这种基于Python的Google是否存在(如果存在，那么它在哪里？) 如果没有，我还可以使用其他基于Python的库吗？如果不是，人们会推荐什么样的非Python替代方案？

浏览 2提问于2014-04-22得票数 1

1回答

如何利用美汤从div类中抓取内容

python、html、web-scraping、beautifulsoup

这是我想要抓取的html页面的一部分。我正试着用美丽的汤来获得密码的标题和价值。我尝试过很多解决方案，使用find和find_all来获取div中包含的内容，但我不认为有什么问题.有一个我尝试过的例子： titles = soup.find_all("div", {"class": "tabTitle-qQlkPW5Y"}) 你能帮帮我吗？

浏览 5提问于2021-02-25得票数 0

回答已采纳

2回答

Beautifulsoup未返回页面的完整HTML

python、web-scraping、beautifulsoup

我已经在网站上挖掘了一段时间，但我无法找到我的问题的解决方案。我是一个相当新手的网页抓取，并试图简单地从一个网页上提取一些链接使用美丽的汤。 url = "https://www.sofascore.com/pt/futebol/2018-09-18" page = urlopen(url).read() soup = BeautifulSoup(page, "lxml") print(soup) 在最基本的层面上，所有的im尝试做的是访问网站中的特定标签。我可以自己解决剩下的部分，但我正在努力解决的事实是，我正在寻找的标签不在输出中。例如:使用内置的fin

浏览 85提问于2018-10-07得票数 3

回答已采纳

2回答

python中的webscraping :为每个网页复制HTML的特定部分

python、web-scraping、beautifulsoup

我正在使用html请求和美丽的汤(这是新的)的网络摩天大楼工作。对于1个网页(https://www.lookfantastic.com/illamasqua-artistry-palette-experimental/11723920.html)，我试图抓取一个部分，我将复制到其他产品。html看起来像这样： <span class="js-enhanced-ecommerce-data hidden" data-product-title="Illamasqua Expressionist Artistry Palette" data-product

浏览 14提问于2021-04-19得票数 0

回答已采纳

2回答

熊猫网抓取多个网页

python、pandas、web-scraping、beautifulsoup

我正在为以下给定的网站在多个页面上使用“美丽汤”来抓取数据，并且能够做到。我可以使用Pandas抓取多个页面的数据吗？下面是抓取单个页面的代码，并且URL有链接到其他页面，如。 import pandas as pd url = 'http://www.example.org/whats-on/calendar?page=3' dframe = pd.read_html(url,header=0) dframe[0] dframe[0].to_csv('out.csv')

浏览 3提问于2017-11-09得票数 2

回答已采纳

1回答

Python :刮游戏名

python、web、python-requests、screen-scraping、analysis

我在从网页上抓取游戏的名字时遇到了麻烦。它正在返回一个空白数组。一旦名称被刮掉，我希望它被写到一个新创建的文本文件中。我的密码应该在下面。这还远没有完成，但我确信我需要一段时间的条件。 def ScrapeK10(): siteToScrape = 'http://www.kiz10.com/new-games' print '\n[!] Requesting Kiz10..' kizReq = requests.get(siteToScrape) print '\n[!] Scraping Newest Games...' kizTree -

浏览 4提问于2016-10-20得票数 0

回答已采纳

3回答

如何使用漂亮的汤从商店中刮取数据

python、web-scraping、beautifulsoup

我现在是一个学生，我现在学习的是美丽的汤，所以我的讲师就像我一样从商店里收集数据，但是我不能擦拭产品的细节。目前，我正在尝试从中抓取数据。我只想弄清楚产品的名称和价格。有人能告诉我为什么我不能用漂亮汤刮数据吗？这是我的代码： from requests import get from bs4 import BeautifulSoup url = "https://shopee.com.my/shop/13377506/search?page=0&sortBy=sales" response= get (url) soup=BeautifulSoup(response

浏览 2提问于2020-05-28得票数 3

回答已采纳

2回答

Delphi中的网页抓取

delphi、web-scraping

你知道Delphi的网页抓取库吗？就像美丽的汤或者Python的Scrapy？

浏览 1提问于2013-02-05得票数 4

回答已采纳

1回答

使用带有下拉选项的Python请求模块

python、post、beautifulsoup、python-requests

我正试图从这个网页上抓取信息：我想从第一个下拉菜单中选择几个选项，并使用“美丽汤”来获取我需要的信息。首先，我尝试使用漂亮的汤提取不同的选项： import requests from bs4 import BeautifulSoup page = requests.get('https://www.tmea.org/programs/all-state/history') soup = BeautifulSoup(page.text, 'html.parser') body = soup.find(id = 'organization'

浏览 0提问于2019-02-20得票数 3

回答已采纳

2回答

漂亮的汤-用特定的类或文本捕获所有链接。

python、beautifulsoup

我试图捕捉所有相关的链接，从一个美丽的汤网页。我需要的所有链接都有class="btn btn-gray"和文本<a...>More Info<> 提取这些链接的最佳方法是什么？

浏览 5提问于2015-10-01得票数 4

回答已采纳

1回答

在python中写入文件会导致ascii错误。

python、utf-8、ascii

我正在尝试将网页抓取的结果写入html文件。我正在使用美丽汤从网页上刮去链接和文本。然后，当我创建文件并将其写入时，我会得到以下错误： UnicodeEncodeError: 'ascii' codec can't encode characters in position 939-940: ordinal not in range(128) 写入文件的行如下所示： file_object.write(file_content) 当我这样做的时候： file_object.write(file_content.encode('utf-8')) 我没有发现

浏览 1提问于2015-07-05得票数 2

回答已采纳

1回答

美丽的汤找不到这个html

python、python-3.x、web-scraping、beautifulsoup

Python3 -美丽的汤4 我正在尝试解析网站上的天气图：https://www.wunderground.com/forecast/us/ny/new-york-city 但是，当我抓取天气图时，html但漂亮的汤似乎抓住了它周围的一切。我是新来的美丽汤。我认为它无法捕捉到这一点，因为它不能解析他们正在进行的标记，或者因为填充图形的javascript没有加载，或者不能被BS解析(至少我使用它的方式是这样的)。就我的代码而言，它是非常基础的 import requests, bs4 url = 'https://www.wunderground.com/forecast/us

浏览 14提问于2019-04-24得票数 3

回答已采纳

1回答

web抓取，从产品网格中提取href

python、html、web-scraping、beautifulsoup、cloudflare

我正在使用云楼和美丽的汤(我对此是新手)的网络摩天大楼工作。对于1个网页(https://www.feelunique.com/makeup?filter=fh_location=//c1/en_GB/categories%3C{c1_c1c6}/!exclude_countries%3E{gb}/!site_exclude%3E{1}/!brand={a70}/%26special-page=dept_home%26customer-country=GB%26site_id=1%26gender=female%26device=desktop%26site_area=department%

浏览 16提问于2021-04-29得票数 0

1回答

如何使用Python登录亚马逊子公司Audible.com

python-3.x、python-requests

我想要刮声音网站使用Python美丽的汤。有一些数据我无法访问，除非我登录到我的音频帐户。它是Amazon.com的子公司。我一直没有成功。我只想使用Python登录并抓取html。我已经尝试了各种代码，比如这个。有人会认为，在这段代码中简单地替换我的凭据就可以了。

浏览 0提问于2019-02-11得票数 2

2回答

类型错误:结果集不可调用- BeautifulSoup

html、python-3.x、web-scraping、beautifulsoup

我在抓取网页时遇到了问题。我正在努力学习如何做到这一点，但我似乎不能通过一些基础知识。我得到一个错误，"TypeError：'ResultSet‘object is not callable“是我得到的错误。我尝试过很多不同的方法。我最初试图使用"find“而不是"find_all”函数，但我遇到了一个问题，美丽的汤拉入一个非issue。我无法创建一个可以克服该异常的if循环，所以我尝试使用"find_all“。 page = requests.get('https://topworkplaces.com/publication/ocregis

浏览 0提问于2019-05-12得票数 1

1回答

BeautifulSoup更改HTML

python、beautifulsoup、python-requests

我注意到，当我从网页获得HTML与美丽汤，它不知何故改变。这是我用来获取它的代码： from bs4 import BeautifulSoup import requests url ="http://www.basketnews.lt/lygos/59-nacionaline-krepsinio-asociacija/2013/naujienos.html" r = requests.get(url) soup = BeautifulSoup(r.text) print soup 这里是原始HTML的一部分： <a href="/news-73149-valan

浏览 2提问于2014-05-05得票数 3

回答已采纳

7回答

如何下载(！)在python中有正确字符集的网页？

python、character-encoding、screen-scraping、urllib2、urllib

问题当使用python在屏幕上抓取网页时，必须知道页面的字符编码。如果您的字符编码错误，则会使您的输出混乱。人们通常使用一些基本的技术来检测编码。他们要么使用标头中的字符集，要么使用元标记中定义的字符集，要么使用 (它不关心元标记或头)。只使用其中一种技术，有时您将无法获得与浏览器中相同的结果。浏览器是这样做的：元标记总是优先(或xml定义)。当元标记中没有定义字符集时，将使用标头中定义的编码。如果根本没有定义编码，那么就需要进行编码检测。 (嗯.至少我相信大多数浏览器都是这样做的。文档是非常稀少的。我要找的是一个库，它可以像浏览器那样决定页面的字符集。，我确

浏览 9提问于2009-09-30得票数 35

回答已采纳

2回答

用美丽的汤寻找一个属性的碎片

python、html、beautifulsoup、html-parsing

我想使用“美丽汤”来提取任何具有以下格式的内容： div class="dog-a b-cat" 如果我知道"a“和"b”是什么，我就可以得到一个特定的实例，方法如下(假设a=aardvark和b=boy)： soup.find_all("div",class_="dog-aardvark boy-cat") 有什么方法可以用狗和猫以及中间的两个破折号来提取所有的实例(不管在破折号之间有两个单词)？

浏览 3提问于2015-09-27得票数 1

回答已采纳

2回答

不统计文件中的正确字符

python、python-3.x

我有以下代码，它按预期运行，但在计算字符数和最长行的长度时有一些问题。下面是我的代码： def stats(file_name): n_chars = 0 n_words = 0 n_lines = 0 longest_line = 0 with open(file_name) as f: lines = f.readlines() n_lines = len(lines) longest_line = max([len(line) for line in lines]) words = [

浏览 11提问于2018-08-13得票数 0

回答已采纳

1回答

刮检元件与soup.prettify打印输出的比较

python、python-3.x、dictionary、web-scraping、beautifulsoup

适用于以下网站：当我检查任何一个合同月份的元素(如“Sep22”的检查元素)时，我会看到我正在寻找的数据(如9月22日、10月22日等)，最后的价格(本例中为106.93)存储在一个表(类表-bigdata)中。但是，当使用requests + bs4打印soup对象(如print (soup.prettify()时，我看到数据存储在一个名为"contracts“的字典列表中。整个打印输出相当长，但例如，对于第一个条目，它看起来如下所示： “合同”：{“描述”：“Sep22”、"firstTrade":1423458000000、"lastTrade"

浏览 1提问于2022-07-28得票数 0

3回答

如何在python中并行抓取多个html页面？

python、django、multithreading、beautifulsoup、python-multithreading

我正在用Django web框架用Python制作一个网络抓取应用程序。我需要用漂亮的汤库抓取多个查询。下面是我写的代码的快照： for url in websites: r = requests.get(url) soup = BeautifulSoup(r.content) links = soup.find_all("a", {"class":"dev-link"}) 实际上，网页的抓取是按顺序进行的，我想以并行的方式运行它。我对Python中的线程化不是很了解。谁能告诉我，我怎样才能并行抓取？任何帮助都将不胜感激。

浏览 0提问于2017-05-29得票数 2

2回答

从Selenium已经打开的网页中抓取BeautifulSoup

python、selenium、beautifulsoup

我想从不同的网页上抓取一个由Selenium打开的网页。我在一个使用Selenium的网站上输入了一个搜索词，这让我进入了一个新的页面。我的目标是在这个新页面上创建一道汤。但是，汤是从我输入搜索词的前一页创建的。请帮帮我！ from bs4 import BeautifulSoup from selenium import webdriver from selenium.webdriver.common.keys import Keys driver = webdriver.Firefox() driver.get('http://www.ratestar.in/') i

浏览 46提问于2019-01-26得票数 2

回答已采纳

1回答

Python中的美丽汤:用相同的类提取不同的数据

python、class、beautifulsoup

我想通过美丽汤提取不同的数据从相同的网页，但显然所有的数据都与相同的html信息。网页是https://www.ine.es的，我想得到的是: 47.329.981，-0,5和-22,1。我不知道是否有可能有相同的类(唯一不同的是图像)。非常感谢。

浏览 10提问于2020-09-03得票数 1

回答已采纳

1回答

查找包含div和span的路径文本

python、dataframe、beautifulsoup

我是一个Python3的初学者，我正在为一个网站做硒项目我想要的文本位于路径("//div[@class='classname']//span[@class='classname2']).text下但是没有美汤我就不能提炼出来 for i in postsContainer.extract(): soup = bs(i) people.append([soup.find("div",{"class":"classname"}).text]) 但是如果没有//span部分，它就不能工作。我

浏览 0提问于2021-02-10得票数 0

1回答

如何使用asp.net读取BeautifulSoup页面？

python、asp.net、web、web-scraping、beautifulsoup

我正试着用漂亮的汤从网页上抓取一些数据。当我试图将HTML文档转换为一个漂亮的汤对象时，我遇到了一些问题。当我运行代码时 soup = BeautifulSoup(html_doc) 我得到的错误消息是： SyntaxError: Non-ASCII character '\xa9' in file C:/Users/mlee/PycharmProjects/BsTest/htmlparse.py on line 683, but no encoding declared; see http://python.org/dev/peps/pep-0263/ for

浏览 4提问于2015-06-10得票数 1

回答已采纳

2回答

一个网站有没有可能在刮的时候隐藏部分美丽的汤汁呢？

python、web-scraping、web

我遇到了一个问题，当我试图刮一个网站与python包美丽的汤。不知何故，除了我感兴趣的那部分之外，我从它得到了一切。我正在尝试从这个网站的抓取实时数据。我真的得到了除了实时数据之外的每一个部分，我认为它以某种方式连接到了与数据相同的容器中的脚本块。Firefox和Chrome可以很容易地检查这一部分，但美汤不知何故不了解这一点。感谢您的每一条建议！

浏览 15提问于2017-12-21得票数 1

2回答

使用regex捕获和删除开头和结尾的xml打开和关闭标记。

python-3.x、regex、beautifulsoup

我有以下XML： <data xmlns=""> <color>blue green</color> <install>No</install> <days>4</start> </data> 我正在寻找删除''，‘以及从一个美丽的汤元素中删除打开和关闭标签。产出应是： Color: blue green, install: no, days: 4 以下是我尝试过的： new = re.sub(r'(/>)</data>.+', &

浏览 1提问于2020-11-20得票数 0

回答已采纳

3回答

如何使用Beautiful从python代码中获得javascript函数的结果？

javascript、jquery、python、html、web-scraping

我想从一个使用Python中的“美丽汤”的网站上抓取数据。网站根据用户的选择更改下拉菜单的值。在更改下拉菜单的值时没有api调用。仔细看一下，我注意到有一个javascript函数在内部调用，以获取下拉菜单的值。我的问题是下拉菜单的值不在页面源中。它们是通过调用js函数获得的，但是没有api调用，我不能请求那个值。有人能告诉我如何从python代码中调用javascript函数吗？我在用漂亮汤刮网。谢谢

浏览 7提问于2014-04-06得票数 1

回答已采纳

1回答

使用python从维基百科中刮表？

python、pandas、web-scraping、beautifulsoup

我试着从维基百科的页面上抓取表格数据：，我试过使用pd.read_html语法，但它不适用于我试图刮的表(尼泊尔按地区分列的新冠肺炎确诊病例)。我试着用“美丽汤”和“熊猫”来收集数据，但是它不起作用 url = 'https://en.wikipedia.org/wiki/2020_coronavirus_pandemic_in_Nepal' r = requests.get(url) soup = BeautifulSoup(r.text,'html.parser') table = soup.find('table', {'clas

浏览 0提问于2020-04-06得票数 1

回答已采纳

1回答

BS4导入在eclipse中不起作用

python、eclipse

我是python的新手。我想在eclipse中运行python脚本，因为我对此有点适应。我正在尝试导入和运行美丽汤在eclipse oxygen.Import是成功的，但我得到一个错误(未解决的导入汤)与以下code.However美丽汤是工作良好与anaconda.enter图像描述在这里从bs4导入BeautifulSoup as soup

浏览 4提问于2017-12-11得票数 0

1回答

Python urlopen连接已中止- urlopen错误[错误号10053]

python、proxy、mechanize、web-scraping、errno

我有一些代码，使用机械化和美丽汤的网页抓取一些数据。代码在测试机器上运行良好，但生产机器阻塞了连接。我得到的错误是： urlopen error [Errno 10053] An established connection was aborted by the software in your host machine 我已经读过类似的帖子，但我找不到这个确切的错误。我试图抓取的网站是HTTPS，但我也有同样的错误发生在HTTP网站上。我使用的是python 2.6和mechanize 0.2.4。这是由于代理，还是如错误所说，是由于我的本地计算机上的某些原因？我已经为mechanize编

浏览 1提问于2011-03-10得票数 6

回答已采纳

3回答

BeautifulSoup/Python中contains()选择器的查询

jquery、python、web-scraping、beautifulsoup

使用jQuery选择器，您可以选择包含innerText "John“和$("div:contains('John')")的div，这样您就可以在以下文件中匹配第二个<div>： <div>Bill</div> <div>John</div> <div>Joe</div> 我如何在Python的“美丽汤”或其他Python模块中做到这一点？我刚看到提到你可以在lxml中使用CSS选择器。我一定要用这个吗，还是有办法和汤一起吃？背景:要求解析被刮过的网页。

浏览 5提问于2011-12-20得票数 1

回答已采纳

2回答

如何使用相同的标记刮取html数据

python、html、beautifulsoup

我如何提取代理费用，卧室和浴室的信息使用美丽的汤在蟒蛇。这是我正在刮的网页。 <ul class="important-fields"> <li class=""> <span> Agency Fees: </span> <strong> AED 5000 </strong> </li> <li class=""> <span> Bedrooms: </span&

浏览 0提问于2014-02-02得票数 0

回答已采纳

2回答

如何避免使用BeautifulSoup和标头出现403个问题？

python、web-scraping、beautifulsoup、request

我正在使用，request，和美丽汤相结合的方式，在python中开发一个网络抓取程序。不幸的是，我遇到了403个问题(甚至使用头)。这里我的代码： from bs4 import BeautifulSoup from requests import get headers_m = ({'User-Agent': 'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2228.0 Safari/537.36'}) sapo_m =

浏览 3提问于2020-04-26得票数 2

回答已采纳

1回答

让BeautifulSoup输出<br>而不是<br/>

python、html、beautifulsoup

我使用BeautifulSoup 4修改了一些HTML (目前为4.3.2)。当将修改后的汤转换为字符串时，所有br元素都编写为<br/> >>> from bs4 import BeautifulSoup >>> soup = BeautifulSoup('<p>Paragraph containing<br>line break</p>') >>> soup.p <p>Paragraph containing<br/>line break</p

浏览 1提问于2014-12-02得票数 1

回答已采纳

1回答

Beatiful + Python的编码问题

python、parsing、beautifulsoup

我一直在阅读“美丽汤”编码的，尝试用特殊的字符来解析我的html。但是那里的用例与我的不匹配。这个html <p>Kimi Räikkönen</p>是在Kimi RÃ¤ikkÃ¶nen被刮掉后返回的，我的应用程序不能处理这个。当实际的标记中包含unicode (我没有)时，文档指示如何将内容转换为<p>Sacr\xc3\xa9 bleu!</p>到<p>Sacré bleu!</p>。奇怪的是，当我进入soup.original_encoding时，我总是得到None，即使是正常的内容。我试过这里的文档和其他问题中

浏览 1提问于2019-07-29得票数 2

回答已采纳

1回答

谁能用英文写出这段代码的确切含义: soup.find_all("p"，class_=“删除线”)

web-scraping

我想用英语来解释这段代码到底是什么意思。我试过从美丽的汤中学习代码，我得到了提示，但我不能获得信心。 soup.find_all("p", class_="strikeout") 代码说找到所有的标签，这是 ..。还有一些东西

浏览 32提问于2019-08-22得票数 0

2回答

如何使用Python脚本实现web测试的自动化？

python、python-3.x

我的要求很简单：我必须登录我公司的网站转到包含以图表表示的报表/观察的特定页面(PBI报告) 在可用的筛选器中从下拉列表中选择值，单击apply 捕获图表中表示的值/单位将捕获的值与数据库进行比较返回结果我知道如何连接到数据库，运行查询和存储输出，但我是相当新的web测试自动化部分。我也知道我们可以使用RPA框架来自动化Web测试，但是团队不希望有一个独立于现有框架的框架。该图表是嵌入在网页中的PBI视觉效果。我不能分享网页的截图，因为我们不应该在公共论坛上分享。有人能帮助我理解如何使用Python脚本实现上述步骤吗？它能用请求和漂亮的汤模块来完成

浏览 2提问于2022-04-16得票数 -1

2回答

包含多个全文行的python美观汤标记，很难以通用的方式找到。

python、beautifulsoup、parent-child

关于使用漂亮汤从一行中提取文本，有多个问题可以回答，但是，我找不到获得正确文本的解决方案，例如： <div> <div> <span>2</span> <span>bananas</span></div> <div> <span>3</span> <span>oranges</span></div> </div> 泛化以产生产出的： 2 bananas 3 orang

浏览 6提问于2022-06-24得票数 0

2回答

python搜索属性名称

python、web、web-scraping、beautifulsoup

我使用的是web.pattern库，我希望从具有特定类名的网页中提取这些表。下面的代码给了我一个KeyError：'class‘ def get_tables_by_Class(html): dom = web.Element(html) for t in dom.by_tag('table'): if t.attrs['class'] == 'class Name' : tbls = t return tbls 我不知道我在这里做错了什么，我想知道是否有其他方法

浏览 4提问于2015-09-08得票数 0