使用BeautifulSoup进行web抓取时，无法显示标签中的文本_无法对div中的文本进行web抓取_使用Python和Beautifulsoup进行web抓取(在类似Ubuntu的Linux中) - 腾讯云开发者社区

python、web-scraping、beautifulsoup

我想要从网页中抓取日期，而日期的文本(脚本标记之后)是由JavaScript注入的:我想只使用Beautifulsoup来抓取它，而不是使用selenium <div class="row"> <span class="LName"><a target="_blank" href="http://google.com">[me too]</a></span> <script language="Javascript" type=&#

浏览 50提问于2020-06-29得票数 2

回答已采纳

1回答

替换标签后<br>后的文本消失br

python、beautifulsoup、bs4

我正在从网站上抓取一些数据，在使用BeautifulSoup (bs4)时遇到了问题。我需要获取一些元素的文本，由任何东西(逗号、空格等)分隔。这使我能够按显示顺序拆分文本。 bs4.element.Tag的text属性提供文本内容。问题是，我会将文本连接起来，即使中间有一个<br>。我无法区分OneTwo是一个单词/句子还是多个。我使用find_all查找所有的<br>标记，并用逗号,替换它们，这样我就可以用它来分割文本了。但是，替换br标签似乎会删除br标签后面的文本。下面是一些重现这个问题的代码： from bs4 import BeautifulSoup

浏览 1提问于2016-08-04得票数 0

2回答

不能从网站上刮掉一些"div“标签

python、html、screen-scraping

我正在尝试从这个页面中抓取职位：。可能是个新手的问题，但事实证明，我可以得到某些标签，而其他标签似乎是无法触及的，例如： from urllib.request import urlopen from bs4 import BeautifulSoup html = urlopen("https://www.fl.ru/projects/") bsObj = BeautifulSoup(html, "lxml") textTags = bsObj.findAll("div", class_="b-post__txt ") pr

浏览 0提问于2018-06-29得票数 1

回答已采纳

4回答

解析网站上的HTML以进行抓取

python、html、scrape

我无法正确解析此网站上的html：我想提取行"Latitude 34°02'48.57"，经度117°02'09.16“。虽然这显示在页面源代码(web开发人员工具)的第862行中，但当我通过BeautifulSoup解析时，它不会显示出来。使用lxml解析器也不会产生预期的结果。 import requests import re from bs4 import BeautifulSoup page = requests.get('https://nwis.waterdata.usgs.gov/usa/nwis/gwlevels/?site_no=

浏览 0提问于2017-09-26得票数 1

1回答

变量抓取返回的是{{ BeautifulSoup }}，而不是页面上显示的文本

python-3.x、beautifulsoup、screen-scraping

我正在尝试从一个网站上抓取一些数据，使用BeautifulSoup，我得到的文本似乎是Django标签，例如{{ ResultLink }}，而不是我在查看页面源代码时可以看到的实际URL。我该如何检索显示在页面上的文本呢？这在BeautifulSoup中是可能的吗？我的代码是： req = session.get(url, headers=headers) bsObj = BeautifulSoup(req.text, 'html.parser') if bsObj.find("div", {"id" : {&#

浏览 14提问于2019-04-16得票数 1

回答已采纳

1回答

Web通过python抓取问题，不能读取html文件吗？

python-3.x、web-scraping、beautifulsoup

web抓取Python已经有一段时间了，最近我遇到了这个问题。BeautifulSoup似乎无法读取html文件。例如，我正试着从这个网站上抓取这是我的密码 from bs4 import BeautifulSoup import requests url_episode = 'https://www.thetvdb.com/series/initial-d/episodes/4889010' print(url_episode) getdetail_episode = requests.get(url_episode) soup = BeautifulSoup(getde

浏览 1提问于2020-04-06得票数 0

2回答

在Python 3中，抓取隐藏在标签中的网页上的所有文本

python-3.x、beautifulsoup、scrapy

我需要抓取一个网页()，但我遇到了一个问题--我需要在首页显示的文本绝对隐藏在许多不同的格式化标记中。我知道如何使用Beautiful Soup抓取常规页面，但这并不能满足我的需要(例如，文本丢失，一些标签通过...) import requests from bs4 import BeautifulSoup from collections import Counter urls = ['https://www304.americanexpress.com/credit-card/compare'] with open('thisisanew.txt'

浏览 1提问于2014-09-09得票数 0

2回答

Python Web抓取没有得到所有的HTML

python、html、web-scraping、beautifulsoup

我对Python中的web抓取非常陌生，现在正在使用BeautifulSoup进行解析。一旦我有了超文本标记语言数据，我就试图访问"< div id=“根目录”>.< /div>“下的内容，但如果我在实际网站上单击”检查“，我将无法获得显示的所有超文本标记语言。我如何访问该网页，或者这是网站阻止我访问网页上的信息的方式？如果这没有意义，我要说的是有“。在div中，而不是让我看到更多子类别(当我单击网页上的inspect时，我会看到)。这是我美丽的汤码。 from urllib.request import urlopen as uReq from bs4 i

浏览 2提问于2020-07-13得票数 0

1回答

Beautiful / urllib不读取某些HTML标记

python-3.x、web-scraping、beautifulsoup、urllib

我最近开始使用美汤。为了练习，我试着抓取this website。有一些div标签似乎无法被抓取器访问，甚至URL阅读器似乎也无法读取这些div标签。超文本标记语言并没有表明它正在使用JavaScript来处理未被读取的部分，所以理论上我假设Selenium是不需要的。具体地说，名为"ajaxTarget“的ID下的div标记才是问题所在。下面的代码返回了一些元素，但是这个特定标签下的大多数div标签都没有被读取。 from urllib.request import Request, urlopen from bs4 import BeautifulSoup def main(

浏览 12提问于2019-03-13得票数 1

回答已采纳

2回答

Python -从图像(alt标记)中刮取文本

python、web-scraping

我一直在使用BeautifulSoup成功地从网站上抓取一些信息，但是我在从图片/链接中抓取"alt“标签时遇到了问题。下面是我迄今为止使用的代码： import requests from bs4 import BeautifulSoup page = "https://www.transfermarkt.com/fc-porto/startseite/verein/720?saison_id=2017" tree = requests.get(page) soup = BeautifulSoup(page.content, 'html.parser

浏览 1提问于2020-04-24得票数 2

回答已采纳

1回答

使用BeautifulSoup时，从html中移除开始和结束标记。

python、html、parsing、web-scraping、beautifulsoup

在使用BeautifulSoup从中刮取数据时，我遇到了一个问题。我以前在Bballreference上使用过BeautifulSoup，所以我对正在发生的事情有些困惑(当然，我是一个相当大的菜鸟，所以请容忍我)。我试着从上抓取球队赛季的数据，从一开始就遇到麻烦： from bs4 import BeautifulSoup import requests web_response = requests.get('https://www.basketball-reference.com/leagues/NBA_2020.html').text soup = Beautiful

浏览 5提问于2020-06-01得票数 1

回答已采纳

10回答

使用Python进行Web抓取

python、firefox、webkit、web-scraping

我目前正在尝试抓取一个HTML格式相当差的网站(通常缺少结束标记，没有使用类或it，因此很难直接转到您想要的元素，等等)。到目前为止，我使用BeautifulSoup已经取得了一些成功，但偶尔(尽管很少)，我会遇到一个页面，在这个页面上，BeautifulSoup创建的HTML树与(例如) Firefox或Webkit略有不同。虽然这是可以理解的，因为HTML的格式使这种模棱两可，如果我能够得到与Firefox或Webkit生成的相同的解析树，我将能够更容易地解析事物。问题通常是这样的:网站打开一个<b>标签两次，当BeautifulSoup看到第二个<b>标签时，它会

浏览 3提问于2010-03-08得票数 9

回答已采纳

1回答

无法使用Python的Beautiful Soup从特定的span标签中提取文本

python、html、xml、beautifulsoup

我目前正在抓取this website来构建一个汽车数据集，并且我有一个公式，可以在抓取的同时循环遍历网站的每个页面。然而，我无法提取我需要的文本，使其工作。下面的代码片段是我试图抓取的标记。我需要得到网站上的车辆数量。 <span class="d-none d-sm-inline">166 Vehicles</span> This image shows the site's element that I am trying to scrape 下面是我用来抓取该元素的代码： # Packages import pandas as pd

浏览 67提问于2021-02-06得票数 2

回答已采纳

1回答

如何从lxml数据字符串中筛选出正确的单词，并使用beatiful外地

python、web-scraping、beautifulsoup、lxml

嗨，guyz，我在这里介绍了包含大量html数据(单个字符串)的字符串。 from bs4 import BeautifulSoup import requests import bs4 url = "any randome url" html = requests.get(url).text soup = BeautifulSoup(html,'lxml') web_page=soup.get_text().strip() print(web_page.lower()) 其中一些词的输出就像 conditionstravel for conditions &a

浏览 0提问于2020-07-02得票数 1

回答已采纳

1回答

如何在美丽的汤中引入容错

python、beautifulsoup

我对尽可能快地抓取许多不同的网站感兴趣。URL可能存在大量的web抓取问题；例如，它们可能引用文件而不是站点，或者它们可能根本没有指向任何真实的内容。我一直未能解决的问题是，当BeautifulSoup挂起或由于某种原因而失败并没有退出时，该怎么办。如果html解析在X秒后似乎无法完成，则需要有一种方法来停止它。这似乎非常重要，但似乎我不是唯一一个，这个网站似乎提供了最相关的信息：。因此，考虑到在某个时间结束后很难终止挂起的进程(如BeautifulSoup(文本))，我该怎么办？

浏览 2提问于2014-12-24得票数 2

回答已采纳

2回答

提取标记内的所有内容，但不提取标记本身

python、web-scraping、beautifulsoup

我正在使用BeautifulSoup从网站抓取文本，但我只需要用于组织的<p>标记。但是，我不能使用text.findAll('p')，因为还有其他我不需要的<p>标记。我想要的文本都被包装在一个标记中(假设是body)，但是当我解析它时，它也需要包含该标记。 link = requests.get('link') text = bs4.BeautifulSoup(link.text, 'html.parser').find('body') 如何删除body标签？

浏览 6提问于2017-02-02得票数 1

1回答

查找包含特定文本的HTML标记

python、html、regex、web-scraping、beautifulsoup

我正在使用BeautifulSoup和Python进行web抓取。例如，我有以下html文本 <body> <h5 class="h-bar"> <b class="caret"></b> Model 11111 Set Item </h5> </body> 现在，我正在尝试查找文本中包含单词"Set Item“的任何标记。我尝试了以下几种方法： soup.find_all('h5', text=&#

浏览 3提问于2014-03-30得票数 0

1回答

使用BeautifulSoup从HTML文件中删除元素

python、html、beautifulsoup

我对网络抓取的世界非常陌生，我正在尝试从一个网站上抓取鞋子的名字。当我在网站上使用inspect时，有一个div标签，基本上整个网页都在里面，但当我打印出html代码时，div标签完全是空的！下面是我当前的代码： from bs4 import BeautifulSoup import requests import time def findShoeNames(): html_file = requests.get('https://www.goat.com/sneakers/brand/air-jordan').text soup = BeautifulSo

浏览 41提问于2021-09-23得票数 1

回答已采纳

1回答

使用Python中的美观汤从元素中获取文本值

python、beautifulsoup

我正在制作python脚本，它从在线站点获取文本数据。这是一个简单的web抓取脚本，语言只是python。我不使用硒，只使用漂亮的汤。而且我可以从<p>或<div>，甚至<h>和<a>中抓取文本，但是当我试图从<td>获取文本时，代码不起作用。下面我分享了我的代码。 from threading import Thread from bs4 import BeautifulSoup from lxml import etree detailPage = requests

浏览 5提问于2021-07-16得票数 1

回答已采纳

2回答

Python:从TD标记中打印特定的文本行

python、parsing、iteration、beautifulsoup

我相信这是一个简单的问题。我正在解析一个网站，我试图在标签之间获得特定的文本。文本将== revoked，Active，Default I am using Python。我已经能够打印出所有的内部文本结果，但我还无法在web上找到针对特定文本的良好解决方案。以下是我的代码 from BeautifulSoup import BeautifulSoup import urllib2 import re url = urllib2.urlopen("Some URL") content = url.read() soup = BeautifulSoup(content) for

浏览 0提问于2013-05-28得票数 0

回答已采纳

1回答

如何从Beautiful Soup中的嵌套标签中提取文本？

python、html、google-chrome、beautifulsoup

我希望网络抓取谷歌的结果，并希望获得出现的第一块信息。如何指定要从中提取文本的特定HTML路径？ import requests import lxml from bs4 import BeautifulSoup city = "Potomac" suffix = "Weather" query = city + " " + suffix url = "https://www.google.com/search?q=" + query # Now have the best URL for a city results =

浏览 0提问于2019-06-25得票数 0

1回答

无法获取所有标签/文本使用Python Beautifulsoup抓取网站

python、beautifulsoup

我遇到问题的项目涉及到使用Python和包"Beautifulsoup“来抓取网站(www.iasg.com)。我是Python的初学者，尽管我以前已经在MATLAB中进行过专家级别的编程(如果算数的话)。我不确定我现在的问题是不是因为: 1.我没有正确地登录到我想要浏览的站点，还是2.该站点的代码很糟糕，所以Beautifulsoup无法浏览所有的标签发生了什么:我尝试使用下面的代码在中隐藏TD标记中的所有文本当查看Beautifulsoup抓取的内容时，很明显它没有包含所有的标签；要么是因为它没有正确地登录，要么是因为标签根本不在那里。 import mechanize im

浏览 1提问于2014-08-13得票数 0

2回答

python为什么BeautifulSoup4打印5次？

python、python-3.x、beautifulsoup

我正在尝试使用BeautifulSoup 4在python中进行一些web抓取。我正在设法榨取一个公务员的薪水。我成功地做到了这一点，但结果被返回了5次，我不知道为什么。这是我正在抓取的网站：https://data.richmond.com/salaries/2018/state/university-of-virginia/tony-bennett 下面是我的代码示例： import requests from bs4 import BeautifulSoup source = requests.get(f'https://data.richmond.com/salar

浏览 18提问于2020-02-01得票数 0

回答已采纳

1回答

连接不同div标记中的文本时不使用空格

python、html、python-3.x、web-scraping、beautifulsoup

我已经抓取了html文件的一部分，并将其转换为BeautifulSoup对象。我想要获取它的文本内容，但是当有相邻的div标签时，它们的连接没有空格，这很烦人，对我来说听起来也不合理。例如： BeautifulSoup('<div>Hello</div><div>World</div>').get_text() 这会给你HelloWorld，而不是Hello World之类的东西。我怎么才能修复它？

浏览 17提问于2017-08-09得票数 1

回答已采纳

1回答

从网页中抓取pdfs

python、web-scraping、beautifulsoup

我想从丹麦公司登记册(csv登记册)下载一家公司的所有财务报告。一个例子就是Chr。汉森控股公司在下面的链接：具体地说，我想下载标签"Regnskaber“(=Financial )下的所有PDF。我以前没有使用Python进行with抓取的经验。我试过使用BeautifulSoup，但考虑到我的不存在的经验，我无法找到从响应中搜索的正确方法。下面是我尝试过的内容，但是没有打印任何数据(即它没有找到任何pdfs)。 from urllib.parse import urljoin from bs4 import BeautifulSoup web_page = "htt

浏览 4提问于2020-03-28得票数 3

回答已采纳

1回答

访问HTML注释中的标记

python、html、web-scraping、beautifulsoup

我已经通过BS4熟悉了使用Python进行web抓取的过程。我还没有找到嵌入在注释中的DOM标记的解决方案。例如，当试图从.html页面()获取数据时，检查页面上的表显示： <div class='table_outer_container"> ... </div> 我通常可以用BeautifulSoup抓取。但是，当我查看实际的页面源时，上述表被包含在注释标记中：  我一直无法找到通过BS

浏览 0提问于2018-12-11得票数 0

回答已采纳

1回答

我想使用python在html中插入文本。

python、html、beautifulsoup、tags、translators

我是一个python开发人员，还在学习，我想在抓取概念上得到一些帮助，我只想告诉你我想要什么。下面是html代码。包含不同的标签，如"em“、p和span。类是不同的，命名为obisnuit和obisnuit2。 html1="""<p class="text_obisnuit2">Best 3 developers.</p> <p class="text_obisnuit">There are best three types of web developers in wor

浏览 22提问于2021-06-03得票数 0

1回答

为什么BeautifulSoup不抓取整个网页呢？

python、web-scraping、beautifulsoup

前提:我对Python和web抓取完全陌生。我正在尝试抓取这个页面上的品牌数据：https://www.interbrand.com/best-brands/best-global-brands/2018/ranking/，但BeautifulSoup只提取到某个点的html。在html中似乎没有什么奇怪的，因为在BeautifulSoup提取之前有五个几乎相等的标签，没有任何问题。我已经尝试使用三种不同的解析器(内置解析器、lxml和html5lib)，但总是得到相同的结果。代码如下： import requests page = requests.get("https://w

浏览 11提问于2019-05-07得票数 4

1回答

在python中清除抓取的文本

python、web-scraping、nlp

我是python的新手，刚刚开始学习使用漂亮的汤(在Jupyter notebook中)进行web抓取。我从古腾堡项目上刮了一本书，想做翻译。然而，在清理文本时遇到了困难，随后进行了翻译。我想去掉抓取文本开头的东西(颜色{e.g.BODY: Black；background:白色；....)然后使用google API翻译整个文本。将会对这两方面的帮助/建议表示感谢。到目前为止，我的代码是管道转换代码不起作用，并返回以下错误"WriteError: Errno 32 Broken below.The“ #Store url url = 'https://www.gutenb

浏览 0提问于2021-05-12得票数 1

2回答

我正在尝试通过网络抓取http://angel.co/bloomfire

python、python-3.x、web-scraping、beautifulsoup、python-requests

我正在尝试从一个网站中抓取数据 import requests from bs4 import BeautifulSoup res = requests.get('https://angel.co/pen-io') soup = BeautifulSoup(res.content, 'html.parser') print(soup.prettify()) 这将打印标题标签为“找不到页面- 404 - AngelList”。在not浏览器中，网站运行良好，但其源代码与我的python脚本的输出不同。我还将selenium与phantomjs一起使用，但它显示了

浏览 1提问于2017-09-06得票数 1

1回答

如何解决导出为csv文件(python)时出现的unicode错误

python、csv、beautifulsoup、jupyter-notebook、export-to-csv

我正在尝试使用python从web抓取中导出文本。但是，结果显示： > UnicodeEncodeError Traceback (most recent call last) in () 71 > 'ranking_title': ranking_title, ---> 72 'ranking_category': > ranking_category}) 73 > > ~\Anaconda3\lib\csv.py in writerow(self, rowdict) 154 def > writerow(self,

浏览 1提问于2018-09-09得票数 1

1回答

Python web抓取带有过滤器的表

python、python-3.x、web-scraping、python-requests

在网页抓取表格时，我遇到了提取文本的困难，我认为页面上的过滤器是罪魁祸首。我尝试隔离所有的"tr“和"th”元素，但似乎无法将底层文本放入Python中。我做错了什么？我的代码： from bs4 import BeautifulSoup import requests page_link ='https://www.ersteliga.hu/stats#/players/1945/regular/points' page = requests.get(page_link) html = page.content soup = BeautifulSoup(

浏览 15提问于2019-10-25得票数 1

回答已采纳

0回答

通过BeautifulSoup找到音节的个数？

python、html、beautifulsoup

我是编程新手，目前正在尝试学习python。我的目标是使用网络抓取，或者更具体地说，BeautifulSoup在dictionary.com上抓取单词的音节，作为更大代码的一部分。这是我到目前为止所知道的： def count_syllables(keyword): url = 'http://dictionary.com/browse/{}'.format(keyword) web_object = requests.get(url) text = web_object.text text = text.encode('utf-8

浏览 3提问于2017-06-09得票数 0

回答已采纳

1回答

需要一些帮助来识别HTML标记，这将允许我提取所有相关的标题、链接和img。

python、html、web-scraping、beautifulsoup、request

我使用请求库访问网站，使用BeautifulSoup解析html，.I希望我的刮刀能够从网站的链接和图像URL中抓取至少4个标题。我知道它是HTML标签，我没有找到哪个标签。我已经上传了我迄今所做的事情。代码显示第一个标题、URL、标题链接。 from bs4 import BeautifulSoup import requests #user agent to facilitates end-user interaction with web content** headers = [''Mozilla/5.0 (Windows NT 10.0; Win64; x64)

浏览 3提问于2021-06-17得票数 0

回答已采纳

1回答

抓取h2标签的Wolfram Alpha

html、web-scraping、beautifulsoup

我目前正在尝试登录，并找到包含文本“市场数据”的h2标签。我使用BeautifulSoup通过查找所有h2标签并检查h2.text中的“市场数据”来完成此操作。然而，问题是这个url文本的soup版本不包含任何h2标签。这与我点击“检查元素”并在Chrome中找到h2s时形成了鲜明对比。为什么我做汤的时候看不到h2s (url.text)？这是不是意味着它不是一个静态页面或者别的什么？那么我如何抓取这个h2标签呢？

浏览 11提问于2017-03-13得票数 1

回答已采纳

1回答

如何在点击更多按钮后抓取网站数据

python、selenium、web-scraping、beautifulsoup

我正在尝试使用BS4 + selenium学习web抓取。网站链接为评论文本具有更大的跨度，单击该跨度时，使用AJAX将更多的文本加载到同一div中。但是我的代码在selenium单击More按钮之前输出了评论文本。如何使用selenium等待抓取更多按钮 from selenium import webdriver from bs4 import BeautifulSoup def openUrl(link): driver = webdriver.Firefox() driver.get(link) elem1 = driver.find_ele

浏览 4提问于2017-06-20得票数 0

2回答

为什么代码不能抓取HTML类中的任何内容？

python、html、web-scraping、beautifulsoup、scrapy

在inspect期间，我可以看到内容位于类article-wrap中，如截图中突出显示的那样：但是当我尝试抓取其中的文本内容时，我什么也得不到：为什么会这样呢？我是否指定了错误的类？如果是，我需要指定哪个类？要知道应该指定哪个类(或标签、或div等)，最简单的方法是什么？代码如下： import requests links = open("article links.txt", "r") for a in links: page = requests.get(a) soup = BeautifulSoup(page

浏览 2提问于2018-05-23得票数 0

2回答

用漂亮的汤解析<br>标签

html、web-scraping、beautifulsoup、tags、web-crawler

我正在抓取一个网站，标签是： <div class="content" <p> "C Space" <br> "802 white avenue" <br> "xyz 123" <br> "Lima" </p> 当我使用下面的命令来获取文本时： html=urlopen("something") bsOb

浏览 3提问于2017-04-27得票数 3

1回答

在Python中打印selenium webelement的HTML文本

python、selenium、beautifulsoup、web-scraping、urllib2

我正在使用Python中的Selenium webdriver进行web抓取项目。如何打印selenium.WebElement的HTML文本？我打算使用BeautifulSoup来解析HTML以提取感兴趣的数据。谢谢

浏览 19提问于2011-11-30得票数 5

回答已采纳

2回答

Python使用BeautifulSoup抓取，如何将两个<p>文本合并成一个列表元素

html、python-3.x、beautifulsoup

我使用BeautifulSoup进行web抓取，将结果放到列表中，html显示如下： <p class="attrgroup"> <span><b>2013 Volkswagen Passat</b></span> <br> </p> <p class="attrgroup"> <span>condition: <b>excellent</b></

浏览 0提问于2018-09-01得票数 0

回答已采纳

1回答

使用python代码从IEEEXplore网站提取DOI

python、extract、ieee、doi

无法从网页中提取字段数据，这不是常见的web抓取问题。它也与javascript相关联。我也尝试了python-request，但是无法解决这个问题。我正在尝试从网页中提取doi。doi位于javascript中。我能够读懂页面，代码一直运行到{print(Soup)}。当我试图提取DOI值(在给定代码中，示例网页的doi如下：“doi”：“10.1109/LAwr2014.2364296”)时，我想打印“10.1109/LAwr2014.2364296”，这是从网页中提取的。 import urllib from bs4 import BeautifulSoup web_page = &#

浏览 4提问于2019-02-09得票数 0

2回答

get_text不适用于div标记

python、html、python-3.x、beautifulsoup

我正在抓取这个网站：我想知道代币销售结束的日期，也就是“2月14日”。它存储在一个div标签中，类为“sale date”。然而，当我在这个div标签上调用".get_text“时，我得到的结果是： <bound method Tag.get_text of <div class="sale-date">14 February</div>> 下面是我的代码： from bs4 import BeautifulSoup import requests page = requests.get("https://icodrops

浏览 102提问于2018-06-09得票数 0

回答已采纳

0回答

Python BeautifulSoup找不到表ID

python、html、beautifulsoup

我在使用BeautifulSoup抓取表时遇到了一些问题。以下是我的代码 from urllib.request import urlopen from bs4 import BeautifulSoup site = "http://www.sports-reference.com/cbb/schools/clemson/2014.html" page = urlopen(site) soup = BeautifulSoup(page,"html.parser") stats = soup.find('table', id = 't

浏览 4提问于2017-06-08得票数 1

回答已采纳

2回答

当web在Python中搜索表时，返回一个空表。

python

我需要通过使用Python中的BeautifulSoup库进行web抓取，从网站抓取一个表。来自URL https://www.nytimes.com/interactive/2021/world/covid-vaccinations-tracker.html 当我运行这段代码时，我得到了一个空表： import requests from bs4 import BeautifulSoup # vaacineProgressResponse = requests.get("https://www.nytimes.com/interactive/2021/world/covid-vacc

浏览 0提问于2021-04-18得票数 3

回答已采纳

3回答

如何在C#中获取网页中的所有显示文本

c#、html

嗨，我在C#中从事数据抓取应用程序的工作。实际上，我想要得到所有的显示文本，而不是html标签。这是我的代码 HtmlWeb web = new HtmlWeb(); HtmlAgilityPack.HtmlDocument doc = web. Load(@"http://dawateislami.net/books/bookslibrary.do#!section:bookDetail_521.tr"); string str = doc.DocumentNode.InnerText; 这个内部的html也返回了一些标签和脚本，但是我只想得到对用户可见的显示文

浏览 0提问于2013-10-26得票数 4

5回答

使用python进行Web抓取数据？

python、html、web-scraping、beautifulsoup

我刚刚开始学习使用Python进行web抓取。然而，我已经遇到了一些问题。我的目标是从fishbase.org ()网上抓取不同金枪鱼物种的名称问题是:我无法提取所有的物种名称。这就是我到目前为止所知道的： import urllib2 from bs4 import BeautifulSoup fish_url = 'http://www.fishbase.org/ComNames/CommonNameSearchList.php?CommonName=Tuna' page = urllib2.urlopen(fish_url) soup = BeautifulSo

浏览 0提问于2012-03-05得票数 5

1回答

Python请求Select()方法-选择'pre‘元素

python、beautifulsoup、python-requests

使用Requests和BeautifulSoup抓取网页。似乎无法使用select()方法来获取下面HTML中显示的文本。 <head><style type="text/css"></style></head> <body> <pre style="word-wrap: break-word; white-space: pre-wrap;">{ "salePrice": 299.99 }</pre> </body>

浏览 1提问于2015-08-01得票数 1

1回答

如何修复“未定义的businessObject”

python-3.x、object、web-scraping、beautifulsoup、runtime-error

我是Python和web抓取的新手。为了练习，我只是尝试从一个网站的HTML标签中提取一些商业名称。但是，代码没有运行，而是抛出了一个“对象未定义”错误。 from bs4 import BeautifulSoup import requests url = 'https://marketplace.akc.org/groomers/?location=Michigan&page=1' response = requests.get(url, timeout = 5) content = BeautifulSoup(response.content, "html

浏览 0提问于2019-08-01得票数 0

2回答

使用python抓取AJAX电子商务站点

python、ajax、web、beautifulsoup、screen-scraping

我在使用BeautifulSoup抓取电子商务网站时遇到了问题。我做了一些谷歌搜索，但我仍然无法解决问题。请参阅图片： Chrome F12： Result：这里是我试图刮的网站："“ 问题：当我试图打开Google (F12)上的检查元素时，我可以看到产品的名称、价格等。但是当我运行python程序时，我无法在python结果中得到相同的代码和标记。在googling之后，我发现这个网站使用AJAX查询来获取数据。任何人都可以通过抓取AJAX站点来帮助我获得这些产品的数据。我想用在表格中显示数据。我的代码： import requests f

浏览 0提问于2019-01-28得票数 2

回答已采纳

2回答

WebScraping一张表不适用于

python、web、web-scraping、beautifulsoup、python-requests

我只是从web抓取开始，想尝试从这个中抓取表，但是当我开始查找表的类时，它不工作，而是显示了None 以下是我的守则： from bs4 import BeautifulSoup import requests import json url = 'https://www.nseindia.com/market-data/top-gainers-loosers' headers = {'User-agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_6) AppleWebKit/537.36 (KHT

浏览 7提问于2021-04-02得票数 0

回答已采纳