Python: BeautifulSoup并不总是获取所有文本数据

、

我正在尝试使用BeautifulSoup从一个网站获取数据。<li class="x-block-grid-item"> <h3 style="margin: 0 0letter-spacing: 0.05em;line-height: 1">Resolu

浏览 18提问于2018-01-31得票数 1

回答已采纳

1回答

使用python无头浏览器获取html响应

、、、

我需要首先获得网站认证，直接到搜索页面，设置搜索参数，发出html请求，其中包括一些值通过post发送，获取响应作为html解析要下载的内容并下载它。

浏览 17提问于2017-07-26得票数 0

回答已采纳

3回答

从HTML中读取头内容

、、

我需要在python的小脚本。需要读取web文件中的自定义块。# -*- coding: utf-8 -*-response

浏览 1提问于2010-12-20得票数 2

回答已采纳

1回答

Python:BeautifulSoup使用FindAll获取所有文本数据

、、

我试图下载网页的所有标题，但它们都有相同的类，所以当我只使用find过滤时，我只得到第一个。使用FindAll方法显然应该获得具有相同类的所有文本，然后我应该能够按特定的一个进行过滤，但是使用FindAll方法我总是得到一个响应错误，我肯定是做错了。Mozilla/5.0'} page3 = urlopen(request3) soup3 = BeautifulSoup

浏览 2提问于2020-07-31得票数 1

3回答

如何使用BeautifulSoup从特定表中获取所有行？

、

我正在学习Python和BeautifulSoup如何从网络上抓取数据，并读取超文本标记语言表格。我可以将它读入Open Office，它显示的是表#11。似乎BeautifulSoup是首选，但是谁能告诉我如何获取特定的表和所有行？我已经看过模块文档了，但是我不能理解它。我在网上找到的许多例子似乎都超出了我的需要。

浏览 1提问于2010-01-06得票数 24

回答已采纳

3回答

ANSI、ASCII、Unicode和编码与Python混淆

、、

我很高兴地使用了BeautifulSoup，我还使用了一个文本文件作为我的Python脚本的输入参数。然后我遇到了著名的"UnicodeEncodeError“错误。在我的文本编辑器(Notepad++)上使用什么编码？安西？UTF-8？将字符串解码为ASCII码似乎并不总是有效的(我猜字符串使用的是来自BeautifulSoup的不同编码)。编辑:阅读BeautifulSoup的文档，它说它只使用unicode，但我仍然收到Unicode

浏览 2提问于2010-07-24得票数 0

7回答

Python/BeautifulSoup -如何从元素中删除所有标签？

、

如何才能简单地从BeautifulSoup中找到的元素中剥离所有标记？

浏览 1提问于2013-04-25得票数 88

2回答

AttributeError：“”LXMLTreeBuilder“”对象在使用BeautifulSoup时没有特性“”DEFAULT_NSMAPS_INVERTED“”

、、

我试图通过在python中使用BeautifulSoup从URL中获取一些数据，但是当我运行最后一个命令时，我总是收到这个错误，告诉我'LXMLTreeBuilder下面是我的代码：from bs4 import BeautifulSoupurl = 'https://

浏览 28提问于2019-08-01得票数 0

2回答

美丽的汤:获取子节点的内容

、

我有以下python代码： html = urllib2.urlopen(urlToCheck).read() soup = BeautifulSoup(html)&

浏览 1提问于2010-10-21得票数 1

回答已采纳

1回答

避免使用优美汤和urllib.request下载图片

、、、

我使用BeautifulSoup ('lxml'解析器)和urllib.request.urlopen()从一个网站获取文本信息。但是，当我在Acitivity中查看网络部分时，我看到python下载了很多数据。这意味着不仅文本被下载，而且图像也被下载。在使用BeautifulSoup进行网络抓取时，有可能避免下载图片吗？

浏览 2提问于2016-04-03得票数 0

回答已采纳

1回答

尝试使用python解析html时重定向到主页

、、、、

from urllib.request import urlopenimport requests page = requests.get(url)soup = BeautifulSoup(data, "html.parser") 我尝试使用此代码从获取</e

浏览 0提问于2016-11-02得票数 0

1回答

美丽的汤不能获取所有的html

、、、

我是一个新的刮板和python，我已经写了一个代码来刮网页，import requests url = 'http://www.hl.co.uk/funds/fund-discounts,-prices--and--factsheets&#x

浏览 38提问于2018-07-16得票数 0

1回答

使用Python抓取Ajax

、、、、

我正在尝试获取这个网站的表中的数据，该表在页面加载后通过jquery更新(我有权限)：我知道我可以通过专有的“屏幕刮板”软件获得

浏览 2提问于2012-05-04得票数 3

回答已采纳

1回答

如何用BS4从标签外提取文本

、

我正在浏览一堆维基百科的网页，以获取有关二战的统计数据。from bs4 import BeautifulSoupdf=pandas.read_csv("links.csv") links=

浏览 0提问于2019-04-25得票数 2

回答已采纳

1回答

在一个HTML标记中嵌套的整个网站破坏Python刮板

、、、、

我正在尝试创建一个Python，它从互联网上获取数据并将其转换为表，然后作为.csv文件导出。我正在尝试让这个程序工作的示例网站是：我本来打算使用BeautifulSoup库来实现这一点，但当我意识到感兴趣的网页的整个文本都嵌套在一个标记中时，我就撞到了墙上，如下面的图片所示。当我使用findAll函数在文本中找到这些列标题时，打印结果时会返回整个文本块，因为所有文本都是在一个<p></p>标记之间

浏览 4提问于2021-12-24得票数 2

1回答

使用Python中的美观汤从元素中获取文本值

、

我正在制作python脚本，它从在线站点获取文本数据。这是一个简单的web抓取脚本，语言只是python。我不使用硒，只使用漂亮的汤。而且我可以从<p>或<div>，甚至<h>和<a>中抓取文本，但是当我试图从<td>获取文本时，代码不起作用。下面我分享了我的代码。from threading import Thread from bs4 import Beautifu

浏览 5提问于2021-07-16得票数 1

回答已采纳

4回答

Python:数据对象或类

、、

我喜欢所有用于抓取网站的python库，我只是为了好玩而尝试使用BeautifulSoup和IMDB。我的问题是，当一个类只包含数据，而可能几乎没有行为时，我应该只使用字典吗？在其他语言中创建类型将帮助您强制执行某些限制，并且由于类型检查，IDE将帮助您编程，但在python中情况并不总是如此，所

浏览 0提问于2012-10-06得票数 6

2回答

使用BeautifulSoup* get_text或findAll(text=True)时无法获得可见文本*

、、

我正在尝试使用bs4和python3.4.1从网页中提取可见文本。为此，我从汤中提取所有脚本和样式元素，然后继续从剩余的html中获取文本。soup= BeautifulSou

浏览 5提问于2016-02-04得票数 0

回答已采纳

1回答

抓取维基百科文章中的所有标题和纯文本

、、

在Python中，我将如何获取维基百科文章中的所有标题和平面文本，比如：。我目前的代码是： #Amount of documents

浏览 4提问于2016-11-02得票数 1

回答已采纳

1回答

Python库可从任意网页中刮取格式化文本

、、、

我正在用Python做一个项目，其中包括：尽管NLP要想成功，需要提取文本，因为它是在浏览器中可视化地呈现的--这并不总是与源代码上的格式一致，也就是说，段落中的文本有时被分解成几个不同的元素( -> )，这些元素将所有的抓取

浏览 0提问于2019-03-27得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

使用python无头浏览器获取html响应

从HTML中读取头内容

Python:BeautifulSoup使用FindAll获取所有文本数据

如何使用BeautifulSoup从特定表中获取所有行？

ANSI、ASCII、Unicode和编码与Python混淆

Python/BeautifulSoup -如何从元素中删除所有标签？

AttributeError：“”LXMLTreeBuilder“”对象在使用BeautifulSoup时没有特性“”DEFAULT_NSMAPS_INVERTED“”

美丽的汤:获取子节点的内容

避免使用优美汤和urllib.request下载图片

尝试使用python解析html时重定向到主页

美丽的汤不能获取所有的html

使用Python抓取Ajax

如何用BS4从标签外提取文本

在一个HTML标记中嵌套的整个网站破坏Python刮板

使用Python中的美观汤从元素中获取文本值

Python:数据对象或类

使用BeautifulSoup* get_text或findAll(text=True)时无法获得可见文本*

抓取维基百科文章中的所有标题和纯文本

Python库可从任意网页中刮取格式化文本

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐