在网络抓取时跳过不具有相同HTML标记的元素

是指在进行网络数据抓取时，忽略那些不具有相同HTML标记的元素。这通常是为了提高抓取效率和准确性，避免抓取到无关的数据。

具体实现这一功能的方法可以通过以下步骤：

发起网络请求：使用编程语言中的网络请求库，如Python中的requests库，发送HTTP请求到目标网页的URL。
获取网页内容：从HTTP响应中获取网页的HTML内容。
解析HTML：使用HTML解析库，如Python中的BeautifulSoup库，对获取到的HTML进行解析，将其转换为可操作的数据结构，如DOM树。
遍历元素：遍历DOM树中的元素，判断每个元素的HTML标记是否与目标元素相同。
抓取数据：对于具有相同HTML标记的元素，可以提取出需要的数据进行进一步处理或存储。对于不具有相同HTML标记的元素，可以选择跳过或进行其他处理。

在实际应用中，跳过不具有相同HTML标记的元素可以帮助我们更精确地抓取目标数据，提高数据抓取的效率和准确性。这在许多场景下都非常有用，例如网络爬虫、数据挖掘、信息提取等。

腾讯云提供了一系列与云计算相关的产品，其中包括云服务器、云数据库、云存储等。这些产品可以帮助开发者快速搭建和部署云计算环境，提供稳定可靠的基础设施支持。具体推荐的腾讯云产品和产品介绍链接如下：

云服务器（ECS）：提供弹性计算能力，支持多种操作系统和应用场景。详情请参考：腾讯云云服务器
云数据库（CDB）：提供高性能、可扩展的数据库服务，支持多种数据库引擎。详情请参考：腾讯云云数据库
云存储（COS）：提供安全可靠的对象存储服务，适用于各种数据存储和分发场景。详情请参考：腾讯云云存储

请注意，以上推荐的腾讯云产品仅作为示例，实际选择应根据具体需求和场景进行评估和决策。

MS web刮刀返回"&“代替"&”

、

我正在使用Access VBA做一些网络抓取。在大多数地方，它可以很好地抓取表列，但我发现，当存在字符串时，例如 Mon&day，它实际上返回Mon&day。我正在使用IE对象进行web抓取。 Set ie = CreateObject("InternetExplorer.Application") 对于我正在做的单个细胞的抓取： tdRow(subCounter).innerHTML 我知道&是HTML中的一个特殊字符，这可能就是发生这种情况的原因。是否有一种方法可以返回HTML，而不是让VBA进行进一步的解析？

浏览 2提问于2019-12-29得票数 1

回答已采纳

1回答

如何使用getElementsByClassName获取元素？

、、

我正在使用nightmareJS，并试图使用document.getElementsByClassName进行网络抓取，这是代码： import Nightmare from 'nightmare' const nightmare = Nightmare({ show: true }) var name = name nightmare .goto('https://www.amazon.com/') .insert("input[aria-label='Search']", 'impressor

浏览 2提问于2021-09-08得票数 0

回答已采纳

1回答

如何将本地路径替换为href属性中的全局路径，在python中抓取

、、

我试图从这个中抓取一些html代码，现在当我打印所有内容时，一些链接(我只想要“目录”和“打印机友好版本”)在href内有这个字符串："../etc“。当我要打印抓取的代码时，我需要用全局路径替换href的本地路径，这样我就可以点击抓取的链接到达正确的网页。如果请求的操作没有用处，有没有办法在我需要处理的href中写入正确的路径？ #!C:/Python27/python from lxml import etree import requests q = "http://www.dlib.org/dlib/november14/giannakopoulos/11gianna

浏览 0提问于2015-09-15得票数 1

2回答

网站不允许右键单击，web抓取不显示正文标记之间的文本

、、、、

我正在试着用网络抓取网页。但是，网站本身不允许右键单击功能来检查元素或页面源代码。此外，当我打印解析后的html文本时，结果只有body标记，而不显示body标记中的信息。 from selenium import webdriver import bs4 as bs import urllib.request driver = webdriver.Chrome(executable_path=r'PATH') driver.get("website.com") assert "Title" in driver.title sauce =

浏览 19提问于2019-10-02得票数 3

1回答

BeautifulSoup网页刮擦正在运行，但不能打印

、、、

昨天我学习了网络抓取，这里有大量的新程序员。我试图用下面的html代码抓取一个站点： <div id="db_detail_colorways"> <a class="db_colorway_line" href="database_detail_colorway.php? ID=11240&table_name=glasses"> <div class="db_colorway_line_image"><img src=

浏览 6提问于2021-07-08得票数 0

回答已采纳

3回答

使用python抓取此网站

、

我是网络抓取的新手，并试图抓取以下网站：我正在尝试使用python进行抓取。我已经尝试了请求，PhantomJS，selenium chromedriver来获取html。但是我得到的html与我在使用google chrome进行检查时看到的html不匹配。我对抓取非常陌生，对html的了解很少，对JavaScript几乎一无所知。我的主要难题是获得我在google chrome中看到的html，这样我就可以开始抓取了。提前感谢！

浏览 30提问于2018-02-01得票数 0

2回答

如何在网络抓取时获取数字数据？

、、

我对网络抓取完全陌生，所以任何参考网站都会很棒。我对如何获得实际数据感到有点困惑。当我打印(TheText)时，我会得到一堆html代码(这应该是正确的)。我怎样才能从中得到价值呢？我是否需要使用正则表达式来获得实际的数值数据？ def getData(): request = urllib.request.Request("http://www.weather.com/weather/5day/l/USGA0028:1:US") response = urllib.request.urlopen(request) the_page = response

浏览 0提问于2015-06-26得票数 0

回答已采纳

1回答

网络抓取新技术--是否可以使用路径定位css图像？

、、、

我对网络抓取是新的，我甚至缺乏基本的网络抓取/网络选择器的概念。是否可以使用XPath (使用selenium)定位CSS图像？我知道有一种通过xpath定位html图像元素的方法，但我不确定CSS中是否存在这种情况. 谢谢,

浏览 2提问于2013-12-10得票数 0

回答已采纳

2回答

使用非定义标记进行Web抓取

、

我试着开发一个工具来做一些网络抓取，我以前做过使用HTML 的特定网站，但是在这个例子中，我希望用户能够通过选择网站上的文本来指定他想要的信息。我不知道的是，如果用户选择“Product1”，我是否可以得到HTML标记或其他东西，这样我就可以提供算法，以便在整个文档中搜索相同类型的标记？产品1 产品描述价格$0.00

浏览 2提问于2012-07-30得票数 0

4回答

屏幕抓取页面，使用CSS进行布局和formatting...how抓取CSS适用于html？

、、、

我正在开发一个应用程序，用于对外部网页的一小部分进行屏幕抓取(不是整个页面，只是其中的一小部分)。所以我的代码可以很好地抓取html，但我的问题是，我不仅要抓取原始的html，还要抓取用于格式化我提取的页面部分的CSS样式，这样我就可以在新页面上显示它的原始格式完好无损。如果你熟悉firebug，它能够显示哪些CSS样式适用于你突出显示的页面的特定子集，所以如果我能想出一种方法，那么我就可以在新页面上显示内容时使用这些样式。但我不知道该怎么做......

浏览 2提问于2008-11-18得票数 7

回答已采纳

3回答

html元素的XPath

、、

我想用抓取几百个网站，只抓取基本的(标题，元*和正文) html元素。我知道我应该为此使用，并根据调整一些设置。我弄不明白的部分是如何使用xpath创建仅抓取那些基本html元素的规则。我看到的很多教程都涉及到检查元素并找到该元素的css类。这对于body元素来说很好，但是title和meta标记呢？

浏览 2提问于2018-08-22得票数 2

1回答

一个国家的天气，地点bs4

、、

我试图使用这个网站，使用BeautifulSoup4通过打开一个URL来抓取天气数据： quote_page=r"https://www.timeanddate.com/weather/%s/%s/ext" %(country, place) 我对网络抓取方法和BS4还不熟悉，我可以在页面的来源中找到我需要的信息(例如，我们把国家作为印度，在搜索中把城市作为孟买)链接为：如果您看到页面的源代码，就不难使用CTRL+F并找到诸如“湿度”、“露点”和当前天气状况(如果天气晴朗、多雨等)等信息的属性，唯一阻碍我获取这些数据的是我对BS4的了解。您能检查页面源并编写BS4方法来获取

浏览 2提问于2019-03-09得票数 1

回答已采纳

2回答

根据美汤中的内容排除标签

、、

我正在抓取类似于以下内容的html数据： <div class="target-content"> <p id="random1"> "the content of the p" </p> <p id="random2"> "the content of the p" </p> <p> <q class="semi-predictable"&g

浏览 0提问于2016-06-27得票数 5

回答已采纳

1回答

抓取html文本文档

、、

我需要网络抓取一个特定的网站，但它不允许网络抓取(403错误)。我正在考虑复制我需要的网站的html数据，并将其放入txt文档中，这样我就可以把它当做一个网页来抓取。这是可能的吗，还是有更好的方法来做这件事？

浏览 40提问于2018-07-19得票数 -3

回答已采纳

2回答

为什么当我按类搜索时，BeautifulSoup的findAll返回一个空列表？

、、

我正在尝试使用h2标记进行网络抓取，但是BeautifulSoup返回一个空列表。 <h2 class="iCIMS_InfoMsg iCIMS_InfoField_Job"> html=urlopen("https://careersus-endologix.icims.com/jobs/2034/associate-supplier-quality-engineer/job") bs0bj=BeautifulSoup(html,"lxml") nameList=bs0bj.findAll("h2",{"c

浏览 1提问于2019-04-25得票数 2

1回答

第二页不适用于第一页中的代码。

、

我有一个主页，当文档准备就绪时，我已经通过ajax在它上加载了另一个页面，我还有一个按钮，当我单击它时，我会显示一个警告，第二个页面中也有这个按钮。但是当我在那个页面上点击它的时候，代码不起作用了？我该如何解决这个问题？因为我不想在第二页重复js codes？以下是我的第一页代码：首页代码： <html> <head> <script src="https://ajax.googleapis.com/ajax/libs/jquery/3.2.1/jquery.min.js"></script> </head>

浏览 2提问于2017-12-21得票数 5

回答已采纳

1回答

如何从网页中抓取一些数据

、

我对网络抓取有问题。我想做的是：我有一个网站：正如你在页面按钮"Rezervisi“上看到的，当我点击它时，我想要抓取下一个数据：第一个下拉菜单当站点打开新窗口时，其"Volkswagen！1.0“在下拉列表中我要抓取所有汽车，然后在这个名为"Mesto preuzimanja vozila”下拉菜单中我要抓取所有项目，而在名为"Mesto vracanja vozila“的下拉菜单中我要抓取所有项目。这是我尝试在第一个下拉菜单中输入汽车名称的方法： Document doc = Jsoup.connect("https:

浏览 0提问于2019-08-07得票数 0

1回答

为什么当我尝试用Python在网络上刮表时，将文本相乘？

、、、

我试着从一个网站上抓取一个表，一切都很好，没有出错，但是当我在csv中打开它时，我发现有一个多个web抓取: text+table，当我只需要一个我在网络上抓取的表的时候。这张表从53号开始。我不明白。为什么我的代码也在网络上抓取文本，而不仅仅是表呢？我的代码： from bs4 import BeautifulSoup from selenium import webdriver import time import unicodecsv as csv filename = r'output.csv' resultcsv = open(filename, &

浏览 2提问于2017-07-25得票数 1

回答已采纳

1回答

在python中进行Web抓取；输出到excel将返回HTML而不是数据框架

、、

我刚开始学习python和练习网络抓取。我在写一个代码来获取所有的电影名称和连续一年的电影。我将结果转化为一个dataframe，但是当我导出到excel时，它将显示为html代码。提前谢谢。 from bs4 import BeautifulSoup import requests import pandas as pd import numpy as np import os pages=np.arange(1,2,1) pwd = os.getcwd() yify = pd.DataFrame (columns = ['Title', 'Year'])

浏览 6提问于2022-07-28得票数 1

回答已采纳

1回答

访问/查看网页上的表格

、、

我对网络抓取非常陌生，我正在尝试抓取：浏览器: Chrome 我正试着把桌子刮掉，然后用它来做一道美味的汤。当我点击表格时，我不能突出显示表格的html，因此不能继续。我做得对吗？或者我看错了桌子的位置？

浏览 32提问于2021-03-04得票数 0

回答已采纳

2回答

将lxml设置为默认的BeautifulSoup解析器

、、、、

我正在做一个网络抓取项目，在速度上遇到了问题。为了解决这个问题，我想使用lxml而不是html.parser作为BeautifulSoup的解析器。我能够做到这一点： soup = bs4.BeautifulSoup(html, 'lxml') 但我不想每次调用BeautifulSoup时都重复输入'lxml'。有没有一种方法可以让我在程序开始时只使用一次解析器？

浏览 1提问于2015-01-06得票数 22

回答已采纳

4回答

使用C#和.NET框架进行屏幕抓取、Web抓取、Web获取、Web数据提取等

、、、、

我正在开发一个用于网络采集、网络抓取、网络数据提取、屏幕抓取等功能的Microsoft .NET Application in C#，不管你怎么称呼它。对于解析HTML，我尝试合并HTML，但它并不像我想象的那么简单。我已经包括了一些规格和图像，我有到目前为止，并希望得到您的意见，我可以继续下去。基本上，我想做一些类似于Visual开膛手使用的布局，但我不知道他们是如何做到的。有什么想法吗？ Specifications: 我的目标是使一个非常用户友好的点击式应用程序下载数据和图像从网上。我希望使用web浏览器加载HTML页面，并将分析过的数据和图像链接输出到文本框中。用户可以指定需要哪些HT

浏览 6提问于2012-02-28得票数 3

回答已采纳

1回答

Html javascript提交不同形式相同的数据类型，2个按钮

、

好的，这有点让人费解，但基本上，我正在创建一个结账页面，用户可以选择“递送”或“拾取”，一旦选择了它，就会‘解开’相应的表单，一旦填写，就会将数据发送到下一页。问题是，我想在两个表单中使用相同的id，但只需在传递的表单中添加一个地址，但它似乎只会从第一个/最上面的表单中获取数据，即外卖- function Delivery1() { var x = document.getElementById("Pickup"); var y = document.getElementById("Delivery"); var w = document.get

浏览 0提问于2018-07-19得票数 0

回答已采纳

1回答

microsoft band Web call

、

我刚开始为微软乐队开发，但似乎不知道如何拨打外部网络电话。例如抓取网页的html源。到目前为止，我尝试的所有代码都失败了，并出现了相同的错误。编辑:如果有人已经有一个可以工作的演示，那就太好了

浏览 0提问于2015-05-02得票数 0

3回答

在ajax.load()调用完成后显示请求的数据，而不是在调用期间

、、

我的jQuery代码(使用ajax)从本地php脚本(pgiproxy.php)请求数据。此脚本抓取所需的网页。为此，我使用了以下php函数： function grabPage($pageURL) { $homepage = file_get_contents($pageURL); echo $homepage; } 然后，我使用jQuery从返回的数据中提取所需的html代码，并将其插入到名为#BFX的div中，如下所示： $("#btnNewLoadMethod1").click(function(){ $('#temp1').load(

浏览 1提问于2010-05-14得票数 0

回答已采纳

1回答

是否可以将用户定义的overlay网络中的docker容器与外部互联网隔离？

、、

使用docker 1.10中的新网络功能，可以创建隔离的覆盖网络-这非常有效。两个独立网络中的容器无法相互通信。但是，有没有可能拒绝覆盖网络中的容器到达公共互联网？例如，当docker主机连接到互联网时，使ping 8.8.8.8失败。

浏览 1提问于2016-03-02得票数 0

1回答

如何跳过从网站中抓取pdfs的错误url以避免重新运行刮取任务？

、、、

我对网络刮擦很陌生。我已经成功地编写了一段对我的任务和需求有效的代码。以下是可复制的代码： library(tidyverse) library(rvest) library(stringr) library(dplyr) library(xml2) ## scraping hyperlinks page <- read_html("https://www.annualreports.com/Companies?exch=9") raw_list <- page %>% html_nodes(".companyName a") %&g

浏览 5提问于2021-07-27得票数 2

1回答

使用clojure抓取包含动态内容的网页

、

出于学习目的，我尝试使用Clojure从以下中抓取数据。我想知道如何获取"bm_center bm_dataTable“表中的数据。我遇到的挑战是这个表的DOM在这个页面的html源上不可用，因为它是在浏览器中动态生成的。如何获取表格的hml源代码？我对网络编程知之甚少，但我愿意学习。提前感谢您的耐心等待。

浏览 1提问于2012-12-25得票数 0

回答已采纳

1回答

如何使用python从HTML画布中检索数据？

、、

我是网络抓取的新手，对于我正在从事的一个项目，我需要使用Python2.7从交互式图表()中检索一段时间内比特币交易的数据。我发现我想要的所有数据都隐藏在855x455画布中，而不是直接隐藏在html文件中。但是，我可以在Page source中找到新日期形式的数据(“2018年2月18日”)，159333]。为什么会这样呢？我该如何抓取这些数据呢？感谢您的帮助！

浏览 3提问于2018-02-19得票数 1

回答已采纳

2回答

用"<“符号提取元素文本？

、

我正在抓取一个包含温度数据和字段包含"<“和">”符号来描述环境温度的页面。这些都不是在HTML中编码的，所以当我使用选择器提取它们时，元素文本在符号处被截断。正如人们可能预期的那样，这只是"<“符号的一个问题。关于如何绕过这件事的想法？我将抓取的数据作为JSON发布到我的API中，以防事情变得复杂。代码： t = temps.xpath('td[@class="temperature_am"]//p/text()').extract() HTML： <p>Temperatures are normal (&

浏览 1提问于2014-09-15得票数 0

回答已采纳

1回答

Jquery:选择$(这个)的兄弟姐妹

我试图让jquery查看元素何时被更改，然后运行一个包含它的操作，如下所示： $('.row').find('#class').change(function(){ $(this).siblings('#teacher').removeAttr('disabled'); var class_id = $(this).val(); }); 因此，当id为class的输入被更改时，它将得到它的值，然后影响它与id为teacher的同级输入。它们都在<div class="row&#

浏览 0提问于2012-07-19得票数 0

1回答

创建多个simple_html_dom ()对象

、、、

我正在创建一个使用php简单html dom库的网络抓取器。我正在做一个web scraping项目，在一个php页面上，我加载一个html页面用于抓取，在这个项目中，我调用另一个php页面上的函数，该函数也加载一个或多个html页面。问题是我无法加载第二个html页面。下面是我在两个页面上使用的函数，用于加载要抓取的html页面。首页 include ('simple_html_dom.php'); $html = new simple_html_dom (); $html->load_file ( $link ); 首页 $html = new simple_html

浏览 2提问于2011-09-21得票数 0

1回答

除写入JSON外，Selenium实现Try

、、、

我正在做一个网络刮板，并试图构建一些异常，这样当元素不存在时，它就会跳到下一个元素。我抓取了10多个元素，不确定找到异常并转到下一个元素的最佳方法，我知道我可以做一个IF语句或Try/Except。我尝试实现了Try/Except的概念(如下所示)，但我认为我错误地将其用作1。我在打印时遗漏了一些结果(那些不是异常的结果)，2.它正在将错误的数据写入和打印到JSON，而JSON中的结果并不存在-它似乎使用了最后一行的数据(我认为)。对于我正在抓取的所有元素，如果数据不存在，我如何例外地移动到下一个元素？我正在使用的代码如下(简化)： # -*- coding: UTF-8 -*- fr

浏览 0提问于2018-10-22得票数 1

1回答

Newspaper3k的缺点:如何仅抓取文章HTML？Python

、、、、

您好，感谢您的帮助，我一直使用Python和Newspaper3k来抓取网站，但我注意到有些函数是...well的……不起作用。特别是，我只能抓取大约1/10甚至更少的站点的HTML这篇文章。下面是我的代码： from newspaper import Article url = pageurl.com article = Article(url, keep_article_html = True, language ='en') article.download() article.parse() print(article.title + "\n" +

浏览 61提问于2020-07-17得票数 1

回答已采纳

1回答

当您滚动时，我如何从使用javascript加载元素的网页中抓取？

、、、

我的朋友问我是否可以写一个网络抓取脚本从一个特定的网站收集口袋妖怪的数据。我编写了以下代码来呈现javascript，并获得一个特定的类来从网站()收集数据。问题是，当您向下滚动页面时，页面会加载更多条目。有什么办法能从这上面刮下来吗？我对网络抓取是新的，所以我不完全确定这一切是如何工作的。 from requests_html import HTMLSession def getPokemon(link): session = HTMLSession() r = session.get(link) r.html.render() for pokemon

浏览 0提问于2020-02-01得票数 0

回答已采纳

1回答

如何在Scrapy中使用xpath抓取没有类或属性的标记？

、、、

我正在尝试抓取一个html文件，但是标签没有任何class或id。有没有办法在不使用常规的'//*class="blah"/‘格式的情况下获得xpath？

浏览 11提问于2021-03-17得票数 1

回答已采纳

1回答

PHP抓取嵌套页面

、、

我是新来的网络抓取，并需要快速学习工作。我在抓取客户网页时遇到了麻烦，因为我需要获取的内容对主页上的每个记录都是唯一嵌套的(300+时间)，子页面上的一些字段不在标签中，还有一点混乱。获取以下信息的最佳逻辑是什么？(另外，如果有人知道任何更新的、免费的、值得研究的抓取工具，那就太棒了。我能够获取父页面上的所有记录。我只是不知道如何跳过每条记录来访问它的子页面信息，并在移动到父页面的下一行之前抓取它。

浏览 0提问于2011-12-12得票数 0

回答已采纳

2回答

获取Selenium中的NoSuch元素异常

、、

我有一个名为信息的选项卡，.i需要单击信息选项卡。当我在其他场景中尝试使用xpath时，没有找到这样元素异常，相同的xpath适用于具有相同的信息选项卡和相同的html代码的其他场景。请帮我解决这个问题 xpath： xpath=//h3[text()='Information'] HTML： <div class="header" > <h3> <i class="icon icon-openclose"/> Information </h3>

浏览 1提问于2018-02-19得票数 0

5回答

HTML5中的自关闭标记(空元素)

、、

HTML5规范的8.1.2.1开始标记的第6步指出，可能只有一个/字符。我认为这样可以更容易地将XHTML站点迁移到HTML5。最好的做法是什么？例如，如果我使用HTML5 (<!DOCTYPE html>)创建一个网站，我应该做什么？没有斜杠用斜杠如果在所有浏览器上都正确呈现，那么我假设(1)不使用斜杠是可行的，因为它更多的是HTML5。

浏览 8提问于2011-01-14得票数 30

回答已采纳

1回答

使用R.进行网络抓取，我想从网站中提取一些像数据一样的表格

、、、

我在从一个网站上抓取数据时遇到了一些问题。我对网络抓取没有太多的经验。我的计划是使用R从以下网站刮取一些数据：更确切地说，我想从右边提取品牌。到目前为止我的想法是： brands <- read_html('https://www.shipserv.com/supplier/profile/s/w-w-grainger-inc-59787/brands') %>% html_nodes(xpath='/html/body/div[1]/div/div[2]/div[2]/div[2]/div[4]/div/div/div[3]/div/d

浏览 2提问于2021-03-17得票数 0

回答已采纳

1回答

BeautifulSoup4返回错误的超文本标记语言？

、、

我正在尝试使用Beautifulsoup在Indeed.com上通过网络抓取招聘信息。但是，当我抓取URL时，返回的HTML与我在Google Chrome中手动转到URL，然后查看HTML时看到的HTML不同。这会导致我的应用程序获得一些不在我试图抓取的网页上的招聘信息。例如，当我抓取时，我的程序找到以下公司名称： [['Nordic Tech House', 'Beaubi', 'NO COMPANY NAME AVAILABLE', 'National Pen', 'SWEDISH STOCKIN

浏览 0提问于2019-07-10得票数 2

1回答

如何使用<i>在HTML标记上插入背景图像？

、

这个问题对你来说可能很傻，但我之所以问这个问题，是因为我总是看到一些有这个标签的大型商业网站的源代码，我想知道为什么： <a href="https://www.mywebsite.com" title="" target="_blank"><i class="myclass" id="myId"></i></a> 它会显示图像或图标。所以我很好奇，我想知道如何用css在html i标记上插入图像。

浏览 1提问于2015-06-17得票数 3

回答已采纳

3回答

如何仅从网站上刮掉<body>标签

、、、

我在做一个网络爬虫。此时，我抓取了整个内容，然后使用正则表达式删除了<meta>, <script>, <style>和其他标记，得到了正文的内容。然而，我正在尝试优化性能，我想知道是否有一种方法可以只抓取页面的<body>？ namespace WebScraper { public static class KrioScraper { public static string scrapeIt(string siteToScrape) { string HTML

浏览 0提问于2011-08-17得票数 7

回答已采纳

1回答

美丽的汤无法从网站上找到元素

、、、

这是我第一次使用网络抓取，所以请放我一马。我正试着从一个网站上提取"card_tag“。我三次检查卡片标签是否在他们尊敬的标签中，如代码中所示。 import requests from bs4 import BeautifulSoup result = requests.get("https://www.anime-planet.com/users/mistersenpai/anime/dropped") src = result.content soup = BeautifulSoup(src, features="html.parser")

浏览 4提问于2020-03-02得票数 0

回答已采纳

2回答

如何在刮取html页时找到正确的div、class、span？

、、、、

我是网络刮取技术的新手。在阅读了各种Web教程(如和 )之后，我尝试实现web抓取。这些文章是关于亚马逊网络抓取和Netflix网络抓取。还有很多关于Imdb，Rotten番茄和其他的教程。这些教程给我概述了哪些属性需要像class attributes, div tags等。不同的网站有不同的方法来获取这些标签。然而，这些标记是web抓取的基本元素。当我遵循这些教程时，我可以实现这些代码，但是当我试图解析一个不同于上述网站的网站时，我失败了。最近，我在priceline上尝试了代码块。但我只是搞砸了这么多的html代码。我的价格代码 headers = {"User-Agent&#

浏览 5提问于2021-02-22得票数 1

2回答

无法从python中的html页面提取文本

、、

我对网络抓取非常陌生。我读到了关于BeautifulSoup的文章，并试图使用它。但我无法提取具有给定类名“company-desc-and-排序容器”的文本。我甚至不能从html页面中提取标题。这是我尝试过的代码： from BeautifulSoup import BeautifulSoup import requests url= 'http://fortune.com/best-companies/' r = requests.get(url) soup = BeautifulSoup(r.text) #print soup.prettify()[0:10

浏览 5提问于2016-12-20得票数 1

回答已采纳

1回答

西芬妮黑豹号

、、、、

我正在使用Symfony豹进行网络抓取。当谷歌Chrome的版本和Chrome驱动程序89岁时，一切都很好。但是在将这两个版本更新到92之后， $crawler->filter('h1')->html(); 将始终返回空字符串。我想，这个问题与这个方法>html()有关如果你有解决办法，请告诉我好吗？

浏览 1提问于2021-07-23得票数 3

1回答

OWASP消毒剂会产生意想不到的结果

、、

我正在使用OWASP杀菌剂为输入数据做一些清理。下面是我使用的策略 return new HtmlPolicyBuilder() .allowElements("a", "label", "h1", "h2", "h3", "h4", "h5", "h6", "p", "i", "b", "u

浏览 1提问于2020-11-17得票数 0

回答已采纳

2回答

Web抓取最常用的名称

、、、

我被要求在网络上抓取a web page并找到最常见的五个名字。预期的输出应该如下所示 [ ('Anna Pavlovna', 7), ('the prince', 7), ('the Empress', 3), ('Theprince', 3), ('Prince Vasili', 2), ] 我的代码确实计算了最常用的名字，但是输出看起来像这样： [(<span class="green">Anna Pavlovna</spa

浏览 19提问于2019-05-01得票数 2

回答已采纳

2回答

在BeautifulSoup中对特定类进行过滤

、、、、

我用BeautifulSoup做了这样的事情： for name in soup.find_all('div','name'): 当我使用这个过滤器时，我的理解是我将得到所有带有属性或类名name的name标记。但是，我不希望div标记的每个实例都具有属性name。我想要某些实例，其中它们定位在HTML文件的某个子树中。更具体地说，标记<u1 class="list-box mb-3 spacer">...<u1\>中的实例，它比我正在寻找的标记高出两个级别。因此，我的问题是，如何用soup.find_all()编写过滤

浏览 8提问于2017-08-15得票数 0

回答已采纳