BeautifulSoup正在尝试从列表中删除HTML数据

文章/答案/技术大牛

发布

2回答

python、html、beautifulsoup

如上所述，我试图从打印输出中删除超文本标记语言，只得到文本和我的dividing |和-。我得到了span信息以及我想要删除的其他信息。页面架构保持不变，这就是打印列表中的项目保持不变的原因。想知道清理输出的最简单方法是什么。aInfo = driver.current_url src = data.text soup = BeautifulSoup(src, "htm

浏览 5提问于2021-02-06得票数 0

回答已采纳

1回答

美汤去掉底部的页码

python、list、beautifulsoup

我正在尝试删除此html中的页码。如果您查看列表texts，它似乎遵循'\n','number','\n'模式。我能用BeautifulSoup做到这点吗？如果不是，我如何从列表中删除该模式？import requestsfrom bs4.element imp

浏览 12提问于2018-08-24得票数 0

回答已采纳

2回答

我正在写一个网页刮刀，返回一个链接列表的文章在一个网页。链接中有日期(例如：从2019年8月(08)开始)。我想从我的列表中删除不符合给定日期参数的链接。我的匹配功能不起作用，我也不知道为什么。我可以从15:21开始循环浏览链接列表并打印出来。这将返回正确的值。所以我不认为这是一个指数问题。我认为这是一个匹配的问题。from urllib.request import urlopen from bs4 import BeautifulSoup<

浏览 2提问于2019-09-04得票数 0

回答已采纳

1回答

为什么无法使用Jupyterlab中的BeautifulSoup4解析本地文件

python、beautifulsoup、jupyter-lab

我正在遵循一个网络教程，尝试使用BeautifulSoup4从Jupyterlab中的html文件(存储在我的本地PC上)中提取数据，如下所示： from bs4 import BeautifulSoupwith open ('simple.html') as html_file: simple = BeautifulSoup('html_fi

浏览 19提问于2020-10-03得票数 1

回答已采纳

1回答

如何使用BeautifulSoup将抓取列表转换为dataframe？

python、list、dataframe

我正在从这个网站上搜集数据：https://en.wikipedia.org/wiki/List_of_postal_codes_of_Canada:_M。使用BeautifulSoup，并且必须以包含三列的表格格式显示它:邮政编码、自治市、邻居。我希望将抓取列表从列表转换为数据帧，这样我就可以删除一些行，并对数据帧进行进一步的操作。pandas as pd import numpy as

浏览 37提问于2019-05-03得票数 0

1回答

属性错误-使用WebDriver.在Python中抓取页面.？

python、beautifulsoup

我正在努力完善这个使用Chrome WebDriver刮页的网络刮刀。它目前一直在第74行中断：使用错误代码： from BeautifulSoup import BeautifulSoup from datetime import date

浏览 3提问于2017-11-07得票数 0

回答已采纳

1回答

使用标记来提取表数据

python-2.7、beautifulsoup

在python中，我尝试从HTML文件中获取一个表，然后将这些表属性存储在一个列表中，这样我就可以在已更改的表数据中进行比较。我能够使用机器自动下载ID\Password登录后的HTML页面，但将数据放入列表的第二部分是输出如下，标记就位。因此，虽然我似乎已经解决了存储数据的问题，但我不确定如何在传递数据之前删除标记？链接到HTML</e

浏览 1提问于2016-05-15得票数 0

2回答

从下拉选项值中抓取Python BeautifulSoup

python、python-3.x、web-scraping、beautifulsoup

我尝试过用BeautifulSoup的input dropdown从网络上抓取数据<selected name="try"></selected>soup = BeautifulSoup

浏览 8提问于2018-11-24得票数 3

回答已采纳

1回答

美丽汤缺少ID

python、xml、web-scraping、beautifulsoup

我正在尝试从div id="ideas_body"中删除类，但它似乎缺少了。我在这篇文章中尝试过链接到的 ()，但是没有一个成功。这是我的代码：from bs4 import BeautifulSoupurl = 'https://www.com/ideas#' headers = {'Us

浏览 0提问于2019-07-05得票数 0

回答已采纳

1回答

Python append()删除utf-8编码？

python、html、xml、encoding、utf-8

**更新:我尝试将最终列表保存到csv文件中，发现一切正常。正如Alex H.在他的回答中提到的那样，打印列表(字符串)的结果并不总是很漂亮。我是一个新手，刚刚开始使用python进行web数据分析。遇到这个问题很让人沮丧，我真心希望有人能帮助我解决这个问题！我正在尝试使用从网站抓取的文本数据。我希望最终的ps列表只包含三个以utf-8编码的文本块。然而，当我打印每个单独编码的文本块时，结果看起来很好(所有的<em

浏览 1提问于2016-05-06得票数 0

2回答

如何将从Chrome复制的css选择器路径转换为漂亮的路径？

python、html、beautifulsoup、css-selectors

我一直在尝试做一个函数，当从Chrome开发工具复制的css选择器路径被给定时，它会返回漂亮的汤对象。当我从Chrome复制一个元素的css选择器路径时，它是这样的： body > table > tbody > tr:nth-child(2) > td.ColumnText2 如果我想让它成为一个合法漂亮的汤类对象，我会手动解析它，如下所示 html = urlopen("https://someurl.com") bs = BeautifulSo

浏览 20提问于2019-09-27得票数 2

回答已采纳

1回答

如何从python抓取的URL列表中抓取数据？

python、web-scraping、beautifulsoup、orange

我正在尝试使用Orange中的BeautifulSoup4从同一网站抓取的URL列表中抓取数据。当我手动设置URL时，我已经成功地从单个页面中抓取了数据。year=2021&zone=1&section=1901"soup = BeautifulSoup(req.text, "html<

浏览 21提问于2021-07-23得票数 1

回答已采纳

1回答

BeautifulSoup不读取请求获得的整个HTML

python、html、beautifulsoup

我试图使用BeautifulSoup和请求库从一个体育统计数据表中抓取数据。我在Python3.5上运行它们。我似乎成功地通过请求获得了HTML，因为当我显示r.content时，我尝试刮取的网站的完整HTML就会显示出来。但是，当我将它传递给BeautifulSoup时，BeautifulSoup会删除大量的HTML，即统计数据本身的表。如果您查看问题中的，就会删除</

浏览 5提问于2016-03-16得票数 5

回答已采纳

2回答

尝试下载包含请求的目录

python、directory、python-requests

我想通过“步行”(像os.walk)来完成这个任务，但是在请求中没有找到相应的函数。我很难找到另一种方法去做。

浏览 3提问于2017-10-17得票数 0

回答已采纳

3回答

使用Pandas read_html时遇到麻烦

python、html、pandas、lxml

我的目标是从一个HTML表中提取数据，特别是对应于最近日期(在本例中是5/20)的数据下面是相应的HTML代码：<head><meta http-equiv="Content-Type></html> 我尝试使用BeautifulSoup访问每个单元格中的数据

浏览 1提问于2017-01-03得票数 4

回答已采纳

1回答

如何清除HTML删除重复段落？

python、parsing、beautifulsoup

我正在试图清理一个html文件，其中重复了正文中的段落。下面显示输入文件和预期输出。Input.html 我一直在使用BeautifulSoup尝试下面的代码，但是我不知道为什么不能工作，因为结果列表CleanHtml包含了我想删除的重复元素(段落)。from bs4 import BeautifulSoup fp = open("Input.html", "

浏览 1提问于2020-03-01得票数 2

回答已采纳

2回答

使用Pyspark将XML转换为Dataframe

python、xml、pyspark、databricks

我正在尝试废弃一个XML文件，并从XML文件上的标签创建一个数据帧。我使用pyspark开发Databricks。<?shorttitle> <shorttitle>shorttitle_4</shorttitle>我的代码似乎从页面中删除了XML并从标记中</e

浏览 2提问于2018-09-12得票数 2

2回答

我无法使用美汤进行解析

python、beautifulsoup

<td><div><div class="class-a">My name is alis</div><div> <span><span class="class-b " title="My title"><span>Very Good</span></

浏览 0提问于2010-11-17得票数 0

2回答

从href python‘#中删除元素

python、href

我希望从下面的代码中删除href元素，我可以在运行时返回结果，但它不会从python中的urls列表中删除'#‘和'#contents’。from bs4 import BeautifulSoupres

浏览 5提问于2019-11-23得票数 0

回答已采纳

2回答

请求对象未正确过滤

python、if-statement、python-requests

我试图使用Python的请求库从页面中检索所有URL。我不明白为什么我的过滤器比我预期的还要多退回数百件物品。= r.text if "https://exrx.net" in i or "../.list is now', len(listly), 'objects long') print(counter,

浏览 15提问于2022-02-20得票数 0

回答已采纳

点击加载更多