使用Beautiful Soup访问网站主页上的所有元素

、、

我想从这个网站上摘录一些新闻： soup = BeautifulSoup(response.content, 'html.parser')title = soup.select("header h1") print

浏览 12提问于2020-11-12得票数 0

1回答

Python Web抓取:通过加载页面抓取页面

、、

我正在建立一个网络抓取项目使用python与美丽的汤和请求模块，问题是我想要抓取的网站有一个加载页面(完全不同于主页)，然后它将我重定向到主页。我怎么能等到页面加载完成，然后从主页上抓取数据呢？我知道Selenium可以处理这些类型的网站，但网站必须使用web驱动程序启动，这是我不希望在我的项目中使用的原因，这就是为什么我<em

浏览 15提问于2020-10-25得票数 0

2回答

我使用下面的代码为SERP做一些SEO，但是当我尝试读取href属性时，我得到了显示页面中其他有线URL的不正确结果，但没有显示预期的结果。我的密码怎么了？q=beautiful+soup&rlz=1C1GCEB_enIN922IN922&oq=beautiful+soup&aqs=chrome..69i57j69i60l3.2455j0j7&sourceid=chrome&ie=UTF-8" r =

浏览 5提问于2021-11-16得票数 0

回答已采纳

3回答

美丽的汤在使用get_text ()后不能使用

、

我正在做网络抓取，我只想从任何网站的文本，所以我使用的Beautiful Soup。最初，我发现get_text()方法也返回了JavaScript代码，因此为了避免遇到应该使用extract()方法的问题，现在我遇到了一个奇怪的问题，在提取script和style标记之后，Beautiful我先说清楚我在做这件事 soup = BeautifulSoup(HTMLRawData, 'ht

浏览 20提问于2015-07-05得票数 3

回答已采纳

1回答

未在美汤中找到<span>标记内的元素

、、、

我曾经尝试过在Python中使用Beautiful Soup从网站抓取数据。当我检查网站本身时，我看到了以下内容：但是当我用美汤的时候，我看到的是：就好像出于安全和保护的目的我认为它是一个动

浏览 1提问于2015-11-07得票数 2

1回答

使用Python和Beautiful Soup解析HTML时，jsl标记不显示

、、、、

一点背景(我在编程方面是超级新手，请耐心听我说)：<jsl jstcache="79"></jsl> 我假设这与

浏览 0提问于2015-08-18得票数 2

2回答

解析Beautiful Soup上具有相同类的所有元素

、、

我想知道你的建议，如何优化我的代码。更准确地说，我希望解析具有这个类“value-decrease”的所有元素。r = requests.get(url, headers=HEADERS, params=params) soup= BeautifulSoup(html, 'html.parser') items = soup.find_all('div

浏览 37提问于2020-04-18得票数 1

回答已采纳

1回答

推文中图片的URL

我有一个列表，其中包含许多推文的URL，例如这个列表中每个推文的https://twitter.com/EmilBakke/status/1264250412120649729。format=jpg&name=small)提取到URL列表中，然后将图像从图像URL下载到我的本地计算机。理想情况下，图像的文件名应该是图像链接到的tweet ID。我没有使用Twitter API来获取tweet URL列表，因此我不能使用</

浏览 11提问于2020-07-05得票数 0

4回答

在div类中查找值

、

我正在解析一个网站，在那里我遇到了一些类似的东西： <div class = "class-name" data-fmid="somenumber"> 使用beautiful soup，如何提取somenumber我目前正在获取与class-name相关的元素： soup.find_all('div', {'class':'classname'}) 但不确

浏览 41提问于2019-03-10得票数 1

回答已采纳

4回答

使用PHP或Python的PHP抓取技术

、、

我需要刮大约100个网站，在他们提供的内容非常相似。第二项质询。我的主要语言是PHP，但在Stackoverflow上搜索此处后，我发现Python中的"

浏览 2提问于2011-01-03得票数 3

1回答

为什么BeautifulSoup不从网页中提取所有的HTML？

、、、、

我试图从这个网站上提取文本：。这个网站有一些用英语和旁遮普语(一种印度语)逐行翻译的古老经文.它是一个非常好的平行语料库。我已经成功地在一个单独的文本文件中提取了所有的英文译文。这是检查元素屏幕截图：(突出显示的文本是翻译的旁遮普语) 在屏幕截图1中，属于class=lang_16的突出显示的文本没有在包含所有HTML的soup对象中列出。=

浏览 2提问于2016-10-10得票数 2

回答已采纳

2回答

如何从Beautiful* Soup获取URL？*

、、、、

我是Python的新手，正在尝试编写一个爬行程序；我想使用Beautiful Soup从BBC新闻中抓取一些数据。 <span>World</span> 在href = '&#

浏览 2提问于2016-05-03得票数 3

2回答

如果要用python抓取图像，如何在Python中选择<div data- image =‘.“”>

、、、

我正在使用Python从一个网站上抓取一些图片。来自该网站的所有图像都使用<div data-image="https://......">进行存储。如何使用Python(Beautiful Soup 4)下载图片？非常感谢!

浏览 36提问于2020-08-12得票数 0

1回答

解析源代码(Python)方法:漂亮的汤，lxml，html5lib的区别？

、、、

我一直在研究一些解析器，似乎Beautiful Soup，lxml，html5lib是最受欢迎的。从这个网站上看，lxml似乎是最常用和最快的，而Beautiful Soup速度较慢，但会导致更多的错误和变化。我对Beautiful Soup文档、和像BeautifulSoup(markup，"lxml")或BeautifulSoup(markup，html5lib)这样的命令感

浏览 0提问于2012-06-08得票数 1

1回答

基于动态内容和隐藏数据表的Selenium Web抓取

、、、、

真的需要这个社区的帮助！html=browser.execute_script('return document.body.innerHTML')然而，我后来发现，如果我在使用</em

浏览 15提问于2018-02-14得票数 2

1回答

理解HTML元素在美汤中选择日期

、

我正在写一些代码，它将定位收益报告的发布日期。我遇到了一个问题，我无法使用Beautiful Soup选择特定的日期。) 您能否帮助我找到需要放入select()函数中以选择该信息的正确的HTML元素是什么？也可以解释为什么你选择HTML元素来做这件事？我试过了： elems = soup.select('sidebar-recent__even

浏览 17提问于2020-02-22得票数 0

3回答

用于web抓取的Selenium与BeautifulSoup

、、、

我正在使用Python从一个网站上抓取内容。首先，我在Python上使用了BeautifulSoup和Mechanize，但我看到网站上有一个通过JavaScript创建内容的按钮，所以我决定使用Selenium。既然我可以通过像driver.find_element_by_xpath这样的方法使用Selenium查找元素并获取它们的内容，那么当我可以使用Selenium做任何事情

浏览 1提问于2013-07-03得票数 53

回答已采纳

3回答

Python 3.2美丽汤替代方案

、、

我做了一个研究，发现非常优秀，因为我可以解析所有文档，创建dom对象，迭代，提取属性等(类似于JQuery)。但是我使用的是Python3.2，并且没有稳定的版本(我想根本没有，我在他们的主页上看到的只有3.1 )。所以我需要一些作为好的替代品。

浏览 1提问于2011-11-08得票数 4

回答已采纳

1回答

使用Beuatiful Soup匹配标题中的特定文本

、、、、

基本上，我想找到包含某些关键术语的所有链接。在我的例子中，我想要的这些链接的标题是这样的: abc...(普通文本)，dce...(普通文本)，...我想把所有包含"(common text)“的链接放到列表中。我得到了代码工作，我知道如何找到所有的链接。但是，我将链接转换为字符串以找到"(common text)“。我知道这不是一个好的实践，而且我不确定如何使用</em

浏览 17提问于2021-01-03得票数 0

回答已采纳

2回答

美汤找不到桌子

、

我正在尝试用Python和Beautiful Soup从网页上的一个表格中收集一些数据。然而，当我从页面中进行选择时，我得到的结果与在浏览器中得到的结果不同。具体地说，这些表完全缺失。以下是Firefox开发工具检查器中表格的屏幕截图： ? 这是我从Beautiful Soup得到的输出： ? 我尝试过使用urllib而不是request，也尝试过使用不同的<

浏览 15提问于2020-04-25得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Python Web抓取:通过加载页面抓取页面

漂亮汤还错了href值

美丽的汤在使用get_text ()后不能使用

未在美汤中找到<span>标记内的元素

使用Python和Beautiful Soup解析HTML时，jsl标记不显示

解析Beautiful Soup上具有相同类的所有元素

推文中图片的URL

在div类中查找值

使用PHP或Python的PHP抓取技术

为什么BeautifulSoup不从网页中提取所有的HTML？

如何从Beautiful* Soup获取URL？*

如果要用python抓取图像，如何在Python中选择<div data- image =‘.“”>

解析源代码(Python)方法:漂亮的汤，lxml，html5lib的区别？

基于动态内容和隐藏数据表的Selenium Web抓取

理解HTML元素在美汤中选择日期

用于web抓取的Selenium与BeautifulSoup

Python 3.2美丽汤替代方案

使用Beuatiful Soup匹配标题中的特定文本

美汤找不到桌子

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐