使用BeautifulSoup - Issue抓取初始名称相同的不同标签 - 腾讯云开发者社区

、

我是Python编程的初学者，我正在努力学习如何抓取网页。我要做的就是从这个中抓取数据我正在尝试从上面的页面中抓取ISSUE DATE (如果你打开网页，你可以看到ISSUE DATE )。我在这方面遇到了一些问题。这是我为此编写的代码。 import BeautifulSoup import urllib2 url = "http://patft.uspto.gov/netacgi/nph-Parser?Sect1=PTO1&Sect2=HITOFF&d=PALL&p=1&u=%2Fnetahtml%2FPTO%2Fsrchnum.htm&

浏览 0提问于2012-04-10得票数 0

1回答

如何检测网页是否从Python中的Javascript动态呈现？

、、、、

我正在建立一个网络刮板，必须快速检索网页的文本，从HTML只。我使用的是Python、requests和BeautifulSoup。我想要检测网页内容是纯HTML还是从Javascript呈现的。在最后一种情况下，我只会返回一条错误消息，指出无法执行此操作。我知道用于渲染Javascript的无头浏览器，但在这种情况下，我真的只需要以最快的方式检测它，而不必渲染它。检测script标签是不可能的，因为每个网页上都有很多标签，这并不意味着文本内容必须用Javascript呈现。有没有什么我可以在HTML中检查的，它可以准确地告诉我正文内容将从Javascript中呈现出来？谢谢

浏览 0提问于2021-03-12得票数 0

2回答

使用BeautifulSoup抓取产品名称

、、

我正在使用BeautifulSoup (BS4)构建一个抓取器工具，它允许我从位于“h1”标签之间的任何TopShop.com产品页面中提取产品名称。我不明白为什么我写的代码不能工作！ from urllib2 import urlopen from bs4 import BeautifulSoup import re TopShop_URL = raw_input("Enter a TopShop Product URL") ProductPage = urlopen(TopShop_URL).read() soup = BeautifulSoup(ProductPage

浏览 0提问于2013-02-15得票数 0

回答已采纳

2回答

抓取beautifulsoup4时在python字典中存储重复的html标记

、、、、

我正在用Python3.6用BeautifulSoup4抓取一个网站。该页面的某些内容如下所示： <div class="contentContainer"> <p class="contentLabel">Slaapkamer</p> <span class="contentValue">8 m²</span> </div> <div class="contentContainer"> <p class="c

浏览 1提问于2017-11-27得票数 1

3回答

如何抓取具有相同html属性和值的不同内容？

、、、、

我能够从网页中抓取一堆数据，但我正在努力从具有完全相同的属性和值的子部分中提取特定的内容。下面是html： <li class="highlight"> Relationship Issues </li> <li class="highlight"> Depression </li> <li class="highlight"> Spirituality </li>

浏览 31提问于2020-10-23得票数 0

回答已采纳

2回答

搜索结果未出现以进行刮擦

、、、

最近，我一直在学习网络抓取，目的是抓取一些新闻网站。今天我第一次尝试搜索一些搜索结果，但令我惊讶的是，尽管我可以在Google的检查器上找到它们，但它们并没有出现在我的BeautifulSoup对象上。我试过刮这个网站：我注意到链接在div标签下，带有类“gsc-wrapper”，所以我尝试： html = urlopen('https://www.latercera.com/search/?q=camila%20vallejo') bs = BeautifulSoup(html, 'html.parser') bs.find('div',{

浏览 0提问于2018-08-13得票数 0

回答已采纳

1回答

抓取href链接并从这些链接中抓取

、、、

我正在做python抓取，我试图获取href标签之间的所有链接，然后逐个访问，从这些链接中抓取数据。我是一个新手，不知道如何从this.The代码继续： import requests import urllib.request import re from bs4 import BeautifulSoup import csv url = 'https://menupages.com/restaurants/ny-new-york' url1 = 'https://menupages.com' re

浏览 12提问于2019-09-29得票数 0

1回答

普罗米修斯几乎没有使用在Grafana中没有显示的计数器

、、

我有一个很少增加的计数器。它的低频率增加似乎给我们带来了麻烦，因为计数器应该表示的事件在Grafana中没有显示出来，即使我可以在/prometheus端点中看到计数器： my_counter{client="some_label", capture_channel="DESKTOP", instace_name="foo",stage="dev",testRequest="false",validation_issue="INVALID_SELECTION",} 1.0 在Grafana中，这看

浏览 19提问于2020-11-18得票数 2

1回答

Python Web Scraper尝试让程序抓取某个特定位置的数据，而不是整个页面

、、

我浏览了网页，在网上阅读和观看了几个关于如何解决我的问题的指南，但我被卡住了，希望能得到一些意见。我试图建立一个网络刮板，将从刮并购交易部分，并已成功地编写了一个程序，可以刮标题，摘要，日期和链接的文章。然而，我试图解决的问题是，我希望程序仅从标题/文章中抓取摘要，这些标题/文章位于合并和收购列的正下方。当前的程序正在抓取它看到的所有用标签“文章”和属性/类“故事”表示的标题，因此不仅从合并和收购栏目中抓取标题，而且还从市场新闻栏目中抓取标题。一旦机器人开始从市场新闻栏目中抓取标题，我就一直收到属性错误，因为市场新闻栏目没有任何摘要，因此没有文本可拉，导致我的代码终止。我试图用try/exc

浏览 11提问于2020-03-17得票数 1

回答已采纳

1回答

在python中导出多个抓取的文件，从漂亮的汤到cvs文件

、、

我有一个urls的csv列表，我需要将其抓取并组织到csv文件中。我希望每个url中的数据都是csv文件中的一行。我有大约19000个urls需要抓取，但我正在尝试使用少数几个来解决这个问题。我可以抓取文件并在终端中查看它们，但当我将它们导出到csv文件时，只会显示最后一个文件。 urls在csv文件中显示为：我有一种感觉，我的循环做错了什么，但似乎找不到在哪里。任何帮助都将不胜感激！到目前为止，我使用的是以下内容： import urllib from bs4 import BeautifulSoup import csv import re import pandas as pd

浏览 0提问于2016-10-13得票数 0

2回答

在Python中将抓取的数据存储到文本文件中

、

我可以使用Beautifulsoup抓取数据，现在我希望生成一个文件，其中包含我使用Beautiful Soup抓取的所有数据。 file = open("copy.txt", "w") data = soup.get_text() data file.write(soup.get_text()) file.close() 我在文本文件中看不到所有的标签和全部内容。有关于如何实现它的想法吗？

浏览 0提问于2019-12-28得票数 1

1回答

美丽的汤不会刮掉任何元素

、、

嗨，我试着抓取以下网站：我想刮一下价格和以下元素的“href”： <span class=" fl-price--sale "> <meta itemprop="priceCurrency" content="GBP"> <meta itemprop="price" content="84.99"><span>£ 84,99</span> </span> 而这个(href)： <a href="https://w

浏览 4提问于2020-09-28得票数 1

回答已采纳

2回答

无法从DuckDuckGo搜索结果中抓取链接

、、、

我想从DuckDuckGo搜索结果中抓取第一个链接。我写了下面的代码： import requests from bs4 import BeautifulSoup class Bse: def currentPrice(self,symbol): headers = { "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10.15; rv:84.0) Gecko/20100101 Firefox/84.0" }

浏览 6提问于2021-04-02得票数 0

10回答

使用Python进行Web抓取

、、、

我目前正在尝试抓取一个HTML格式相当差的网站(通常缺少结束标记，没有使用类或it，因此很难直接转到您想要的元素，等等)。到目前为止，我使用BeautifulSoup已经取得了一些成功，但偶尔(尽管很少)，我会遇到一个页面，在这个页面上，BeautifulSoup创建的HTML树与(例如) Firefox或Webkit略有不同。虽然这是可以理解的，因为HTML的格式使这种模棱两可，如果我能够得到与Firefox或Webkit生成的相同的解析树，我将能够更容易地解析事物。问题通常是这样的:网站打开一个<b>标签两次，当BeautifulSoup看到第二个<b>标签时，它会

浏览 3提问于2010-03-08得票数 9

回答已采纳

1回答

如何限制BeautifulSoup发现的元素的数量？

、

当使用BeautifulSoup抓取网页时，是否有一种方法可以限制find方法家族找到的元素数量。例如，如果我只想要前5个标签，我可以使用BeautifulSoup做这个吗？

浏览 1提问于2020-06-09得票数 2

回答已采纳

2回答

抓取位于同一标题/类下的多个锚标记

、、

我正试图从IMDB中抓取顶级集数据，并提取节目名称和该集的名称。然而，我面临的问题是，节目名称和节目名称都是锚标签，在相同的标题下。以下是代码： url = "https://www.imdb.com/search/title/?title_type=tv_episode&num_votes=1000,&sort=user_rating,desc&ref_=adv_prv" response = requests.get(url) soup = BeautifulSoup(response.content, 'html.parser')

浏览 4提问于2022-02-17得票数 0

回答已采纳

2回答

从列表和字典中进行Web抓取

、、、

我一直在尝试用python来抓取一个网站。我想从标签中抓取数据，但我不知道怎么做。里面有两个列表，然后好像有一本字典 import requests from bs4 import BeautifulSoup page = requests.get('https://www.daraz.pk/smartphones/nokia/?spm=a2a0e.searchlistcategory.card.2.323e5fc3B8mWd8&from' '=onesearch_category_3') # print(pa

浏览 26提问于2019-08-25得票数 1

1回答

如何使用bs4从网站获取表格数据

、

我试图用bs4抓取一个网站，里面有一个表，但我得到的内容元素并不像我从inspect得到的那样完整。我在里面找不到标签<tr>和<td>。如何获取该站点的完整内容，尤其是表格的标记？下面是我的代码： from bs4 import BeautifulSoup import requests link = requests.get("https://pemilu2019.kpu.go.id/#/ppwp/hitung-suara/", verify = False) src = link.content soup = BeautifulSoup(sr

浏览 62提问于2019-04-24得票数 1

回答已采纳

2回答

不能从网站上刮掉一些"div“标签

、、

我正在尝试从这个页面中抓取职位：。可能是个新手的问题，但事实证明，我可以得到某些标签，而其他标签似乎是无法触及的，例如： from urllib.request import urlopen from bs4 import BeautifulSoup html = urlopen("https://www.fl.ru/projects/") bsObj = BeautifulSoup(html, "lxml") textTags = bsObj.findAll("div", class_="b-post__txt ") pr

浏览 0提问于2018-06-29得票数 1

回答已采纳

1回答

解决“现有连接被远程主机强制关闭”的问题

、、

我正在从JAMA上的文章中抓取元数据。我已经使用相同代码的细微变化在其他几种健康/医学期刊上完成了相同的任务，并且能够获得我需要的数据。然而，在使用JAMA时，我得到的却是这样的错误消息："ConnectionResetError: WinError 10054 An existing connection I closed by the remote host“。通过谷歌搜索错误消息，我怀疑这可能是JAMA试图防止拒绝服务攻击。我不认为这是速率限制，因为我一开始甚至还不能从JAMA检索数据。作为参考，我在下面粘贴了我的代码。 import requests import ur

浏览 0提问于2019-07-10得票数 0

1回答

使用硒时不完整的BeautifulSoup擦伤

、、、

我正在尝试抓取Backcountry.com评论部分。该网站使用一个动态加载更多部分，即网址不会改变，当你想要加载更多的评论。我使用Selenium webdriver来与加载更多评论的按钮进行交互，并使用BeautifulSoup来抓取评论。我能够成功地与load more按钮进行交互，并加载所有可用的评论。在您尝试加载更多按钮之前，我还能够抓取出现的初始评论。总而言之:我可以与load more按钮交互，我可以抓取可用的初始评论，但我不能在加载所有评论之后抓取所有可用的评论。我试着改变html标签，看看是否有什么不同。我已经尝试增加睡眠时间，以防刮板没有足够的时间来完成它的工作。

浏览 15提问于2019-05-11得票数 2

1回答

如何获得python中div标记中存在的标记？

、、

我正在使用python抓取一个网站。我想在div标记中获得一个链接，其中有两个标签，如下所示： <div id="main_category"> <div class="tit1"><a href="#" onclick="ExpandStage(1);"><strong>Phase 1</strong><br />April 15 - 19</a></div> <ul id="phase1">

浏览 3提问于2016-02-24得票数 0

回答已采纳

1回答

如何在多个页面上抓取链接标题并通过指定的标签

、

我很难弄清楚如何使用BeautifulSoup来抓取页面上所有的100个链接标题，因为它是在"a href =.“下。我已经尝试了下面的代码，但它返回一个空白。 from bs4 import BeautifulSoup from urllib.request import urlopen import bs4 url = 'https://www150.statcan.gc.ca/n1/en/type/data?count=100' page = urlopen(url) soup = bs4.BeautifulSoup(page,'html.parser

浏览 17提问于2020-06-02得票数 0

回答已采纳

1回答

如何从网站中提取想要的内容？

、、

我正在做一个使用python和漂亮汤的网络抓取项目。我想导航1000+的网址，并提取发布月份的那个特定的问题。到目前为止，我已经尝试了以下代码，但是它会导致一个错误。我对网络刮擦有点陌生。 from bs4 import BeautifulSoup import requests page = requests.get("https://academic.oup.com/cesifo/issue/64/3?browseBy=volume") thread.sleep(5) soup = BeautifulSoup(page.content, 'html.parser

浏览 0提问于2019-08-11得票数 0

回答已采纳

2回答

Python -从图像(alt标记)中刮取文本

、

我一直在使用BeautifulSoup成功地从网站上抓取一些信息，但是我在从图片/链接中抓取"alt“标签时遇到了问题。下面是我迄今为止使用的代码： import requests from bs4 import BeautifulSoup page = "https://www.transfermarkt.com/fc-porto/startseite/verein/720?saison_id=2017" tree = requests.get(page) soup = BeautifulSoup(page.content, 'html.parser

浏览 1提问于2020-04-24得票数 2

回答已采纳

1回答

用美丽汤抓取动态网站的问题

、、、

我想从网站上抓取犯罪新闻文章，但汤对象不返回所需的div标签，有人能给我原因吗？ import requests from bs4 import BeautifulSoup page = requests.get("https://www.nst.com.my/news/crime-courts?page=1") soup = BeautifulSoup(page.text, 'html.parser') print(soup)

浏览 1提问于2021-12-29得票数 0

1回答

在Morningstar上无法使用Beautiful Soup找到桌子

、、

我正试着用BeautifulSoup来抓取晨星财经。由于某些原因，我甚至找不到包含财务数据的表。我尝试过使用div标签和table标签。两个都不走运。 from urllib.request import urlopen as uReq from bs4 import BeautifulSoup as soup urls= [ 'http://financials.morningstar.com/ratios/r.html?t=AAPL&region=usa&culture=en-US' ] for url in urls: try:

浏览 11提问于2019-06-21得票数 1

4回答

当元素确实存在时，BeautifulSoup返回none

、、、

我是个网络刮刮新手，一直在用BeautifulSoup来刮每天的抵押贷款利率。然而，我尝试抓取的许多服务商站点都返回'none‘或一个空列表。我试图抓取的标签确实存在，我只是不明白为什么会发生这种情况。下面是一个例子。 html=urlopen('https://www.popular.com/en/mortgages/') bs0bj=BeautifulSoup(html, 'html.parser'); rate=bs0bj.find('span', {'class':'text-md text-popula

浏览 47提问于2017-11-04得票数 0

回答已采纳

3回答

在没有Twitter API的情况下根据Hashtag抓取历史推文

、、、、

我有一个网络爬行器，给出一个标签，将返回带有该标签的推文。我遇到的问题是，当我向twitter请求获取标签时，我只收到了大约20条tweet。我使用请求来发出请求并抓取页面源代码，其中只包含20条tweet。我相信twitter一次只渲染几个tweet，但我想知道是否有一种方法，可以在不使用twitter api的情况下，获得比最初在页面上呈现的更多的tweet。我当前发出请求的代码如下所示： import requests from bs4 import BeautifulSoup def find_hashtags(hashtag): r = requests.get(

浏览 0提问于2017-06-13得票数 0

2回答

将网络报废的数据写入CSV

、、、

有了下面的代码，我可以从两个网站抓取产品信息。我的目标是将被刮掉的数据写入CSV，其中A列用于类“标签”，B列用于类“值” 有人能帮我达到预期的结果吗？ from bs4 import BeautifulSoup import requests import pandas as pd url_list = ["https://21shares.com/product/abtc", "https://21shares.com/product/aeth/"] for link in url_list: r = requests.get(link)

浏览 9提问于2022-02-16得票数 -1

回答已采纳

1回答

使用BeautifulSoup从HTML文件中删除元素

、、

我对网络抓取的世界非常陌生，我正在尝试从一个网站上抓取鞋子的名字。当我在网站上使用inspect时，有一个div标签，基本上整个网页都在里面，但当我打印出html代码时，div标签完全是空的！下面是我当前的代码： from bs4 import BeautifulSoup import requests import time def findShoeNames(): html_file = requests.get('https://www.goat.com/sneakers/brand/air-jordan').text soup = BeautifulSo

浏览 41提问于2021-09-23得票数 1

回答已采纳

2回答

Webscraping HTML-包括所有链接内的标记

、、、

我正在使用Python3.5的BeautifulSoup，并且我试图抓取所有h-tags的网站(所以所有的h1、h2..等等)。我的问题是让程序在网站上打开其他链接来抓取它们的标签。因此，假设我有一个网站，它有一个导航菜单，其中包含一些链接，这些链接贯穿整个网站，并且都包含某种类型的h标记。我该如何抓取我所选网站上的所有内容呢？这是我到目前为止用来抓取特定url中的h1-tag的代码： import requests from bs4 import BeautifulSoup url = "http://dsv.su.se/en/research" r = reques

浏览 0提问于2016-04-19得票数 2

1回答

为什么BeautifulSoup不抓取整个网页呢？

、、

前提:我对Python和web抓取完全陌生。我正在尝试抓取这个页面上的品牌数据：https://www.interbrand.com/best-brands/best-global-brands/2018/ranking/，但BeautifulSoup只提取到某个点的html。在html中似乎没有什么奇怪的，因为在BeautifulSoup提取之前有五个几乎相等的标签，没有任何问题。我已经尝试使用三种不同的解析器(内置解析器、lxml和html5lib)，但总是得到相同的结果。代码如下： import requests page = requests.get("https://w

浏览 11提问于2019-05-07得票数 4

2回答

Python刮刀无法刮动img src

、、、、

我无法从www.kissmanga.com网站上抓取图片。我使用的是Python3和RequestandBeautiful外地库。刮过的图像标签为空白"src“。 SRC： from bs4 import BeautifulSoup import requests scraper = cfscrape.create_scraper() url = "http://kissmanga.com/Manga/Bleach/Bleach-634--Friend-004?id=235206" response = requests.get(url) soup2 = Bea

浏览 3提问于2015-07-15得票数 1

回答已采纳

1回答

如何从网页上的特定部分中提取链接

、、

我对网络抓取是个新手，对我目前的情况有点困惑。有没有办法从html检查器中提取所有部分的链接(我用红色圈出的地方)，它看起来像是在"performance-section“类下面，也在"heading”类下面。我的想法是从“性能部分”开始，最后到达"a“标签href以获得链接。 ? ? 我尝试使用下面的代码，但它给我的结果是“无”。我停在这里，因为如果我在得到"a“标签之前就已经没有得到任何东西，那么我认为继续下去是没有意义的。 import requests import urllib.request from bs4 import Beautifu

浏览 28提问于2021-10-02得票数 0

回答已采纳

1回答

在Python中提取XML标记字符串的有效方法

、、、、

我的任务是抓取一个kml文件，提取1个标签值，然后在geojson中将其发送到Mongo。我将以二进制请求对象的形式获取文件。 doc = requests.get(file).content #returning a XML tree. 我的问题是找到从标签中获取值的“最佳”方法。考虑到我有多个源需要按分钟扫描，所以即使一次运行可能不会花那么长时间，它也会累积起来(要知道实际的文件导入成本将比任何提取过程都要高)。我尝试过的方法是BeautifulSoup、切片和正则表达式。它们都工作得很好，但我希望得到一些关于替代方案和/或利弊的意见。 def extractsubstr

浏览 0提问于2016-11-14得票数 0

2回答

Clojure等同于Python的lxml库吗？

、、、

我正在寻找与Python的lxml库等效的Clojure/Java。我过去曾大量使用它来解析各种html (作为BeautifulSoup的替代品)，而且能够使用同样的elementtree api for xml也很棒--真的是一个值得信赖的朋友！有人能推荐一个类似的Java/Clojure库吗？关于lxml lxml是一个基于libxml2的xml和html处理库。它可以很好地处理损坏的html页面，因此非常适合屏幕抓取任务。它还实现了xpath，因此ElementTree /html结构被表示为一个树对象，完全支持xpath和CSS选择器等。它也有一些非常方便的实用功能，比如

浏览 2提问于2009-10-14得票数 10

回答已采纳

1回答

如何使用Python从url中获取html？

、、、

我正在尝试跟随学习网络抓取。因为我使用的是Python3，所以我一直在尝试使用urllib而不是urllib2来尝试正确地请求URL： from urllib import request # tried import urllib # tried import urllib.request url = "http://www.bloomberg.com/quote/SPX:IND" raw_html = request.urlopen(url) 似乎没有什么东西能正确打开URL，我会得到这样的错误： urllib.error.URLError: <urlopen er

浏览 1提问于2019-05-21得票数 0

2回答

删除python中的span标记

、

我是一个新手，在使用BeautifulSoup从页面抓取html后，移除跨度标签有困难。尝试使用"del links‘’span‘，但返回相同的结果。使用getText()的一些尝试也失败了。很明显我做错了应该很容易的事情。帮助？ from bs4 import BeautifulSoup import urllib.request import re url = urllib.request.urlopen("http://www.python.org") content = url.read() soup = BeautifulSoup(content) for l

浏览 2提问于2013-06-12得票数 1

1回答

beautifulSoup中attrMap与attrs的区别

、

我想知道中的attrMap和attrs有什么不同？更具体地说，哪些标签有attrs，哪些标签有attrMap >>> soup = BeautifulSoup.BeautifulSoup(source) >>> tag = soup.find(name='input') >>> dict(tag.attrs)['type'] u'text' >>> tag.attrMap['type'] Traceback (most recent call last):

浏览 2提问于2012-01-13得票数 3

回答已采纳

1回答

简单的if语句不能准确地检查两个值是否相同

、、

我正在尝试从一个网站上抓取一些文章标题。我不想在运行我的程序时包含“编辑器的注释”，但由于某些原因，这非常简单，如果最后两行上的语句不起作用，并且仍然打印出编辑器的注释，则应该很容易。怎么了？ import requests from bs4 import BeautifulSoup page = requests.get("https://www.cambridge.org/core/journals/american-political-science-review/issue/4061249B1054342207CEF9C50AEC68C5") soup = Bea

浏览 5提问于2020-07-11得票数 0

回答已采纳

2回答

如何用BeautifulSoup访问标签的属性值

、、

我正在使用BeautifulSoup和请求进行网络抓取。我知道如何在标记之间提取属性，但是如果我想要的是标签下面的数字'4.31'，知道如何获得它吗？ <div class="starRating" title="4.31"> <svg ... </svg> </div> 我试过： soup.find('div',{'class':'starRating'}) soup.find('title') 所以数字基本上就是标签..。

浏览 5提问于2019-12-28得票数 1

回答已采纳

2回答

美汤找不到大部分的标签

、

我正在尝试抓取这个页面https://ntrs.nasa.gov/search。我使用下面的代码，当有更多的标签时，Beautiful soup只找到了3个标签。我尝试过使用html5lib、lxml和HTML解析器，但它们都不起作用。你能告诉我有什么问题吗？ import requests import urllib.request import time from bs4 import BeautifulSoup # Set the URL url = 'https://ntrs.nasa.gov/search' # Connect to the URL respo

浏览 22提问于2021-06-18得票数 0

回答已采纳

1回答

BeautifulSoup找不到任何<a>标记

、

我正在尝试抓取这里的网站：。使用如下代码： from bs4 import BeautifulSoup import urllib.request html = urllib.request.urlopen("ftp://ftp.sec.gov/edgar/daily-index/") soup = BeautifulSoup(line, "lxml") soup.a # or soup.find_all('a') neither of them works #return None. 请帮帮忙，我真的很沮丧。我怀疑是标签导致了问题。站点的超

浏览 1提问于2012-07-11得票数 2

回答已采纳

2回答

BeautifulSoup不抓取动态内容

、、、

我的问题是，我想从这个页面获取相关链接：如果我检查Chrome或Safari中的元素，我可以看到<div id="outer_related_articles">和列出的所有文章。如果我试图用BeautifulSoup抓取它，它将抓取页面和除相关文章以外的所有内容。到目前为止，我的情况如下： import urllib2 from bs4 import BeautifulSoup url = "http://support.apple.com/kb/TS1538" response = urllib2.urlopen(url) soup = Be

浏览 2提问于2013-04-07得票数 1

1回答

在python中使用BeautifulSoup选择多个标记项

、、

我有下一个html： <html> <body> ... </article> <article class="issue"> <div class="issue-nr">#39</div> <div class="issue-date"> <time datetime="2018-04-29T07:30:02+01:00">Apr 29, 2018</time> </div> <div class=

浏览 2提问于2018-11-24得票数 0

2回答

使用Beautiful Soup在Web上浏览链接

、、

我正在尝试抓取一个博客"“，并抓取其中的所有链接，以在每个抓取的链接中查找与人工智能相关的信息。博客遵循一个模式-它有多个RSS提要，每个提要在UI中都有一个称为"Site“的属性。我需要获取"Site“属性中的所有链接。例如: aitrends.com，sciecedaily.com/...在代码中，主div有一个叫做"rss-block“的类，它有另一个叫做" data”的嵌套类，每个数据都有几个标记和标签中有。href中的值提供了要爬行的链接。我们需要在每个通过抓取上述结构找到的链接中查找与AI相关的文章。我已经尝试了以下代码的各种变体，但

浏览 21提问于2019-08-11得票数 1

回答已采纳

1回答

无法使用python 3.7中的漂亮汤获取文章内容

、、

我正在用python3.7中的漂亮汤做web抓取。下面的代码成功地抓取了日期、标题、标签，但没有抓取文章的内容。取而代之的是什么也不给。 import time import requests from bs4 import BeautifulSoup from bs4.element import Tag url = 'https://www.thehindu.com/search/?q=cybersecurity&order=DESC&sort=publishdate&ct=text&page={}' pages = 32 for page

浏览 24提问于2019-06-24得票数 0

回答已采纳

2回答

BeautifulSoup找不到标签

、

我正在抓取一个网页来收集一份财富500强公司的名单。但是，当我运行这段代码时，BeautifulSoup找不到<div class="rt-tr-group" role="rowgroup">标记。 import requests from bs4 import BeautifulSoup url = r'https://fortune.com/fortune500/2019/search/' page = requests.get(url) soup = BeautifulSoup(page.content, 'lxml

浏览 39提问于2020-07-03得票数 0

2回答

网络抓取，Python和BeautifulSoup，如何存储输出

、

我正在尝试使用网络抓取方法为获取一些温度和降水数据(他们有一个应用程序接口，但我必须在我的项目中使用网络抓取方法) 我的问题是在抓取之后我不知道如何存储我的数据。下面是我的代码示例： import urllib2 from bs4 import BeautifulSoup url = "http://www.wunderground.com/history/airport/KBUF/2014/5/25/DailyHistory.html" soup = BeautifulSoup(urllib2.urlopen(url).read() #Mean Temperature

浏览 1提问于2014-05-26得票数 0