为什么这段Beautiful Soup代码不能获得目标数据？

这段Beautiful Soup代码不能获得目标数据的可能原因有以下几点：

网页结构变化：如果目标网页的结构发生了变化，例如标签名、类名或ID发生了改变，那么代码中的选择器可能无法正确定位到目标数据。
网页动态加载：如果目标数据是通过JavaScript动态加载的，而不是在初始HTML中静态存在的，那么使用Beautiful Soup无法直接获取到这部分数据。可以考虑使用Selenium等工具模拟浏览器行为来获取动态加载的数据。
网页登录或权限限制：如果目标网页需要登录或具有访问权限限制，那么需要在代码中添加相应的登录或授权逻辑，以确保能够正常访问目标数据。
网页反爬虫机制：有些网站会设置反爬虫机制，例如通过验证码、IP封禁等方式阻止爬虫程序的访问。如果遇到这种情况，需要分析网站的反爬虫机制，并在代码中添加相应的处理逻辑。

针对以上可能的原因，可以尝试以下解决方案：

检查网页结构：使用开发者工具或浏览器插件查看目标网页的HTML结构，确认选择器是否正确定位到目标数据。
分析网页加载方式：观察目标数据是否是通过JavaScript动态加载的，如果是，可以考虑使用Selenium等工具模拟浏览器行为来获取数据。
处理登录或权限限制：如果目标网页需要登录或具有访问权限限制，可以在代码中添加登录逻辑或使用相应的授权方式，确保能够正常访问目标数据。
处理反爬虫机制：如果遇到网页反爬虫机制，可以尝试使用代理IP、设置请求头、延时请求等方式规避反爬虫机制。

需要注意的是，以上解决方案仅供参考，具体情况需要根据实际网页和代码进行调试和优化。

为什么这段Beautiful Soup代码不能获得目标数据？

python、web-scraping、beautifulsoup、edgar

我正在尝试使用Beautiful Soup来抓取EDGAR上10K秒备案的Properties部分中的文本。我可以获得Properties部分的标题，然后沿着父节点向上移动，但是从那里开始，next_sibling方法不会识别下一个兄弟节点(在本例中，我相信它包含了该部分中的第一段文本)。有人能告诉我为什么这不起作用/如何修复吗？代码： import requests url = 'https://www

浏览 24提问于2020-10-22得票数 0

回答已采纳

1回答

为什么这段Beautiful Soup代码不能解析我的目标文本？

python、web-scraping、beautifulsoup、edgar

当我运行下面的代码时，我得到了IndexError 'list index out of range‘，但我不明白为什么，因为文本"PROPERTIES“似乎在一个'p’标记内。doc=/Archives/edgar/data/1318605/000156459020004475/tsla-10k_20191231.htm' soup = BeautifulSoup(requests.get(url).content, 'lxml&

浏览 16提问于2020-10-20得票数 0

回答已采纳

2回答

BeautifulSoup可以访问字符串索引，但我的程序不能

python、python-2.7、beautifulsoup

当我看到这一点时，我很困惑，因为我以为你不能把字符串放入任何类型的索引中。geturl = soup = bs(geturl, "html.parser") pri

浏览 2提问于2018-05-24得票数 0

2回答

漂亮汤还错了href值

python、beautifulsoup、python-requests、href

我使用下面的代码为SERP做一些SEO，但是当我尝试读取href属性时，我得到了显示页面中其他有线URL的不正确结果，但没有显示预期的结果。我的密码怎么了？q=beautiful+soup&rlz=1C1GCEB_enIN922IN922&oq=beautiful+soup&aqs=chrome..69i57j69i60l3.2455j0j7&sourceid=chrome&ie=UTF-8"webPage =

浏览 5提问于2021-11-16得票数 0

回答已采纳

1回答

解析源代码(Python)方法:漂亮的汤，lxml，html5lib的区别？

python、parsing、beautifulsoup、lxml

我一直在研究一些解析器，似乎Beautiful Soup，lxml，html5lib是最受欢迎的。从这个网站上看，lxml似乎是最常用和最快的，而Beautiful Soup速度较慢，但会导致更多的错误和变化。我对Beautiful Soup文档、和像BeautifulSoup(markup，"lxml")或BeautifulSoup(markup，html5lib)这样的命令感到有点困惑。在这种情况下，它是否同时使用Beautiful So

浏览 0提问于2012-06-08得票数 1

1回答

BeautifulSoup HTMLParseError.这有什么问题吗？

python、beautifulsoup

This is not a bug in Beautiful Soup.The best solution is to install an external parser (lxml or html5lib), and use Beautiful Soup with thatThis is not a bug in Beautiful Soup.Library/Python/2.7/site-packages/bs4/builder&#

浏览 3提问于2012-12-20得票数 4

回答已采纳

1回答

并非所有从Beautifulsoup find_all方法返回的HTML元素

python、html、beautifulsoup

尝试使用Beautiful soup从website.However中提取数据当我使用find_all函数时，我只得到目标元素( li )的一个子集，所以在本例中，不是获得24个li项，而是只返回12个**示例代码**import requestsurl = 'https://www.tomford.com/beauty/lips&#x

浏览 14提问于2021-03-08得票数 1

回答已采纳

1回答

美丽汤找到嵌套的div

python、parsing、beautifulsoup

我正试图解析一个类似于Python->Beautiful 的网页 soup= BeautifulSoup(data)print(res) 但结果是空的- []

浏览 0提问于2018-11-18得票数 1

回答已采纳

3回答

美丽的汤在使用get_text ()后不能使用

python、beautifulsoup

我正在做网络抓取，我只想从任何网站的文本，所以我使用的Beautiful Soup。最初，我发现get_text()方法也返回了JavaScript代码，因此为了避免遇到应该使用extract()方法的问题，现在我遇到了一个奇怪的问题，在提取script和style标记之后，BeautifulSoup甚至在新的` `html中都无法识别它的主体。我先说清楚我在做这件事p

浏览 20提问于2015-07-05得票数 3

回答已采纳

3回答

同时迭代列表的偶数项和奇数项

python、for-loop、itertools

我有一个项目列表(这是用Beautiful Soup提取的HTML表格行)，我需要迭代该列表，并为每次循环运行获得偶数和奇数元素(我的意思是索引)。我的代码如下所示： #do something with top如何让这段代码不那么难看？

浏览 2提问于2009-06-10得票数 4

回答已采纳

1回答

使用Python抓取NFL.com梦幻足球投影

python、beautifulsoup、python-requests

我希望使用Python的Beautiful Soup和requests库将上的数据收集到一个简单的熊猫数据框架中。我使用了以下代码：req = requests.get(a)我的目标是逐周收集

浏览 10提问于2018-08-10得票数 1

回答已采纳

1回答

嵌入式视频获取url

python、video、kodi

我正在尝试使用Beautiful Soup和Python 2.7.6中的requests模块来检索网页上嵌入的视频的url。我检查了chrome中的html，我可以看到视频的url，但是当我使用request和Beautiful Soup获得页面时，我找不到" video“节点。从源代码上看，视频窗口看起来像是一个嵌套的html文档。我已经找遍了，也找不到为什么我找不到这个。如果有人能给我指出正确的方向，我将不胜感激。谢谢。

浏览 0提问于2016-11-16得票数 0

2回答

美丽的汤:从没有id的<ul>访问<li>元素

python、html-parsing、web-scraping、beautifulsoup

我正在试着从这个中抓取那些过生日的人hdr = {'User-Agent': 'Mozilla/5.0'}req = urllib2.Request(site,headers=hdr) soup</em

浏览 0提问于2013-07-17得票数 2

回答已采纳

1回答

如何将javascript值从网页加载到python中？

javascript、python-3.x

当我检查网页上的代码时，我可以看到html和javascript。我已经使用Beautiful Soup来导入和解析html，但是有一大段是用javascript编写的，它从可编程逻辑控制器(PLC)中提取变量。在我用Beautiful Soup加载和解析之后，我找不到python中的数据--只有html代码。 PLC正在被网页直接读取，我看到实时值在我面前更新，但我不能直接导入它们。屏幕截图显示的是inspect窗口中的代码。假设我

浏览 3提问于2019-03-13得票数 0

1回答

为什么我无法使用BeautifulSoup获取标记

html、beautifulsoup

==> 以下是我的代码。有什么问题吗？我遗漏了什么？code=005490')# I can'

浏览 0提问于2016-08-07得票数 1

2回答

BeautifulSoup没有给我Unicode

python、unicode、character-encoding、beautifulsoup

我正在使用Beautiful soup来收集数据。BS文档指出BS应该始终返回Unicode，但我似乎无法获得Unicode。这是一个代码片段from libs.BeautifulSoup import BeautifulSoup url= BeautifulSoup(data) print 'Encoding of souped up HTML : %s', soup.origi

浏览 2提问于2010-07-07得票数 4

2回答

蟒蛇，美汤，WebScraping，熊猫，数据帧

python、html、pandas、beautifulsoup

我逐渐熟悉了Beautiful Soup和Pandas的Dataframe，但我似乎无法将两者结合起来。man=557') href_tag = soup.find_all(span="detail&qu

浏览 0提问于2015-09-02得票数 2

2回答

使用Beautiful* Soup获取源代码中的完整URL*

python

我正在看一些源代码，我偶然发现了这段代码现在在源代码中的链接是蓝色的，当你点击它时，它会带你到图片所在的完整URL，我知道如何使用Beautiful Soup在Python中获取源代码中显示的内容我想知道如何获得一

浏览 1提问于2013-07-31得票数 10

1回答

在漂亮的汤中展开，不要去掉所有的标签

python、html、python-3.x、web-scraping、beautifulsoup

下面的代码提供了如下所示的HTML代码：from bs4 import BeautifulSoup pageSource = urlopen(url).read() savSoup = BeautifulSoup(pageSource, "html.parser") # extract data

浏览 0提问于2016-03-22得票数 0

1回答

BeautifulSoup不会删除i元素

python、beautifulsoup、web-crawler

我正在学习如何使用html解析和操作beautiful soup，如下所示：import urllib2parsed = urllib2.urlopen( req ) for elem in soup<

浏览 4提问于2016-07-31得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

为什么这段Beautiful Soup代码不能获得目标数据？

相关·内容

为什么这段Beautiful Soup代码不能获得目标数据？

为什么这段Beautiful Soup代码不能解析我的目标文本？

BeautifulSoup可以访问字符串索引，但我的程序不能

漂亮汤还错了href值

解析源代码(Python)方法:漂亮的汤，lxml，html5lib的区别？

BeautifulSoup HTMLParseError.这有什么问题吗？

并非所有从Beautifulsoup find_all方法返回的HTML元素

美丽汤找到嵌套的div

美丽的汤在使用get_text ()后不能使用

同时迭代列表的偶数项和奇数项

使用Python抓取NFL.com梦幻足球投影

嵌入式视频获取url

美丽的汤:从没有id的<ul>访问<li>元素

如何将javascript值从网页加载到python中？

为什么我无法使用BeautifulSoup获取标记

BeautifulSoup没有给我Unicode

蟒蛇，美汤，WebScraping，熊猫，数据帧

使用Beautiful* Soup获取源代码中的完整URL*

在漂亮的汤中展开，不要去掉所有的标签

BeautifulSoup不会删除i元素

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐