使用Python Beautifulsoup循环遍历HTML标记的HTML抓取

文章/答案/技术大牛

发布

3回答

python、beautifulsoup

我正在使用Python Beautifulsoup从以下网址'https://www.pro-football-reference.com/teams/nwe/2013_injuries.htm‘中抓取网页我想从URL中抓取球员的名字，他们的受伤情况和受伤的那一周。from urllib.request import urlopen as uReq from bs4 import Be

浏览 93提问于2019-01-31得票数 1

2回答

我无法使用美汤进行解析

python、beautifulsoup

><span>Very Good</span></span> </span> My Name is Alis I am a pythonclass="class-3" style="style-2 clear: both;"> </div> <&

浏览 0提问于2010-11-17得票数 0

1回答

使用Python从本地HTML文件创建具有名称和ID的CSV表

python、html

我是一个新手，尝试使用Python从本地HTML文件中获取数据，以提取名称，并将ID保存为CSV文件中的表。HTML如下： <a href="https:............" data_id="45498" class="roster_user_name </a><

浏览 1提问于2022-01-09得票数 0

2回答

从XML中提取标记

python、web-scraping、beautifulsoup

我对Python非常陌生，并且正在尝试我的第一个web抓取项目。我正在尝试提取XML数据源中标记后面的数据。我附上了一张我正在处理的数据的图片。我的问题是，似乎无论我试图提取什么标签，我总是没有返回任何结果。我能够返回整个数据源，因此我知道连接不是问题所在。我的最终目标是循环遍历所有数据，并在特定标记之后返回数据。我想，如果我能理解为什么我不能打印一个奇异的特定标记</e

浏览 6提问于2022-10-09得票数 0

3回答

使用BeautifulSoup循环遍历HTML标记

python、beautifulsoup

正如在前面的问题中提到的，我正在使用带有python的“美丽汤”从一个网站检索天气数据。<area forecast="PC" lat="1.41800000" lon="103.83900000" name="Yishun"/>我设法使用以下代码检索了我需要的信息：import requests from bs4 import Beautifu

浏览 2提问于2016-07-27得票数 0

回答已采纳

1回答

如何使用python在网页的HTML中搜索包含特定单词的URL？

python、html、web-scraping

使用Python，我希望能够创建我从多个页面获取的URL列表，每个页面都有一个链接(尽管页面上可能有多个对同一链接的引用)，其中每个URL中都有重复的关键字。如何在页面的HTML中搜索包含此特定单词的URL？抱歉，如果这是很明显的事情，您能提供的任何帮助都将非常感谢。

浏览 38提问于2020-04-10得票数 1

回答已采纳

4回答

使用BeautifulSoup获取span标签的值

python、html、python-3.x、parsing、beautifulsoup

我有一些facebook群组，我想要获得其成员的数量。一个例子是这个组：我已经查看了页面上的inspect元素，它是这样存储的：我正在试着把"9,413名会员“从页面中剔除我试过使用BeautifulSoup，但不能解决这个问题。谢谢from bs4 import BeautifulSoup u

浏览 0提问于2017-02-11得票数 11

1回答

Python web抓取<a>之间的访问值</a>

python、web-scraping

我是网络刮擦的新手，如果之前有人问过这个问题，很抱歉。假设我有这样的html代码：<a aria-current="page" aria-label="Current page" href="https://name_webpage.com/">1</a>如何使用python访问<a> </a>之间的值，即1？

浏览 2提问于2021-02-18得票数 0

4回答

Python:如何提取表中列的内容

python、html、parsing

我有这个HTML结构： <table> <tr> </trcontent I want</div> </tr> </table>

浏览 1提问于2012-02-20得票数 3

回答已采纳

2回答

如何创建一个循环来遍历URL列表，抓取所有的数据。类似页面的所有URL都保存在一个file.txt中(一行中的每个URL)？

python、pandas、beautifulsoup、python-requests

我想从具有相似页面结构的多个页面中提取一些信息。页面的所有URL都保存在一个file.txt中(一行中的每个URL)。我已经创建了代码来从一个链接中抓取所有数据(它可以工作)。但我不知道如何创建一个循环来遍历txt文件中的所有URL列表，并刮取所有数据。from bs4 import BeautifulSoupimport requests import pandas as pd\Pytho

浏览 8提问于2021-10-06得票数 1

回答已采纳

3回答

漂亮的Soup - For循环没有遍历td内的所有标签

python、iframe、web-scraping、beautifulsoup

我正在尝试使用BeautifulSoup从一个网站上抓取一些数据。我可以选择td标记，但它并不包含我期望的所有子标记。我的目标是遍历id=为“highlight_today”的td标记，并检索今天的所有事件。我试图抓取的url是。这是另一个页面中的iframe。我认为另一个iframe可能是我的for循环不能工

浏览 0提问于2016-10-22得票数 0

3回答

无法下载网页的完整源代码

python

我正在尝试使用python请求库来抓取网页。但我无法下载完整的html源代码。当我使用我的web浏览器检查元素时，它给出了完整的html，我相信它可以用于抓取，但当我使用python请求库访问这个url时，那些包含数据的html标记就消失了，我无法从这些标记中抓取数据。下面是我的</e

浏览 5提问于2019-07-30得票数 1

1回答

我需要一个脚本，打开一个excel链接，然后抓取信息，并保存它

python

我是python的新手，我对下面的脚本有一些疑问。基本上，我有一个excel文件，里面有很多链接，我需要从中提取一些信息。但问题是我的代码只挑选最后一段数据，而不是所有数据。我需要一个脚本，打开每个excel文件，然后抓取信息，并保存为任何格式，如CSV或excel。请找到我正在使用的当前脚本。import csvfrom selenium import webdriver driver = webdriver.Chrome

浏览 16提问于2020-10-22得票数 0

4回答

BeautifulSoup: AttributeError：'NavigableString‘对象没有属性'name’

python、beautifulsoup

您知道为什么BeautifulSoup教程中的第一个示例提供了AttributeError: 'NavigableString' object has no attribute 'name'吗？根据的说法，超文本标记语言中的空格字符导致了这个问题。我尝试了几页的源代码，其中一页起作用了，其他的给出了相同的错误(我删除了空格)。你能解释一下"name“指的是什么吗?为什么会发生这个错误？

浏览 0提问于2011-09-29得票数 33

回答已采纳

1回答

如何读取CSV或文本文件的行，遍历每一行并保存为每一行读取的新文件

python、web-scraping、beautifulsoup、readlines

我有一个独特的问题，我认为我已经解决了，直到我撞墙使用that循环来控制这个程序的流程。简介： 抓取<

浏览 0提问于2018-03-15得票数 1

3回答

从Google Finance获取财务数据，这超出了API的范围

python、api、data-mining、google-finance

Google的金融API是不完整的--页面上的许多数字，例如：不能通过API使用。我需要这些数据来根据Greenblatt的公式对加拿大证券交易所的公司进行排名，该公式可以通过谷歌搜索"greenblatt index scans“获得。我的问题是:访问和处理这些网页上的数据的最智能/最干净/最有效的方式是什么？在这种情况下，单调乏味的方法真的有必要吗?如果是，那么

浏览 1提问于2009-06-17得票数 5

回答已采纳

3回答

有没有像HtmlAgilityPack (.NET)这样好的html解析器呢？

python、html、parsing

我正在寻找一个像HtmlAgilityPack (开源.NET项目：)这样的好的html解析器，但可以与Python一起使用。有人知道吗？

浏览 2提问于2009-08-03得票数 2

回答已采纳

2回答

Python web抓取返回错误

python、python-2.7、web-scraping

我目前正在学习Python，并尝试学习web抓取。我一直在使用我从一些教程中获得的示例代码，但我在查看的一个网站上遇到了问题。下面的代码应该返回网站的标题：import rei=0 regex='<title>(.+?)我检查了利比亚先驱报的源代码，DOC类型是<!DOCTYPE html

浏览 1提问于2013-10-18得票数 0

0回答

Python BeautifulSoup找不到表ID

python、html、beautifulsoup

我在使用BeautifulSoup抓取表时遇到了一些问题。以下是我的代码from bs4 import BeautifulSoup page = urlopen(site) soup =

浏览 4提问于2017-06-08得票数 1

回答已采纳

2回答

Web报废:为什么我的代码不输出所需的输出？

python、web-scraping、beautifulsoup

我正在使用python语言和BeautifulSoup进行网络抓取项目。我尝试了下面的示例代码并执行所需的输出。from bs4 import BeautifulSoup as soupuClient = uReq(URL) page_html = uClie

浏览 2提问于2022-07-19得票数 -1

点击加载更多