用Beautifulsoup从HTML中解析出JSON

文章/答案/技术大牛

发布

2回答

python、json、parsing、beautifulsoup

import json<script data-hid="ld-json-ld.1551860" data-n-head="ssr" preserve="preserve" type="application/ld+json">{"@context":"ht

浏览 45提问于2020-08-02得票数 1

回答已采纳

1回答

BeautifulSoup - find()函数不适用于某些元素

python、html、web-scraping、beautifulsoup

我试图从这个网址：中删除金融数据<h1 _ngcontent-ng-lseg-c11="" class="company-name font-bold hero-font"></h1>from bs4 import BeautifulSoup headers = {&#

浏览 4提问于2021-05-23得票数 1

回答已采纳

1回答

用BeautifulSoup解析HTML替换现有的HTML标记

python-2.7、beautifulsoup

我正在使用BeautifulSoup v4解析出如下所示的HTML字符串：<html xmlns="http://www.w3.org/1999/xhtml" xmlns:v="urn:schemas-microsoft-com:vml" xmlns:o="urn:schemas-microsoft-com:office:office"> <h

浏览 1提问于2017-05-05得票数 0

1回答

我在python中的解析脚本出现了问题。我已经在另一个页面(雅虎-金融)试过了，而且效果很好。然而，在晨星上，它不起作用。我在表变量的终端"NoneObject“中得到了错误。一个简单的csv导出直接从晨星不是一个解决方案，因为我想使用脚本的其他网站，谁没有这个功能。import requestsfrom bs4 import BeautifulSoup url = 'http://financi

浏览 3提问于2015-12-16得票数 1

回答已采纳

2回答

从页面源代码的主体中提取json

python、selenium、web-scraping

我正在尝试从下面的网页中抓取数据，使用Python 3中的Selenium： https://www.whoscored.com/Matches/1285051/Live/England-Premier-League//www.whoscored.com/Matches/1285051/Live/England-Premier-League-2018-2019-West-Ham-Huddersfield)，则文本中包含一些

浏览 33提问于2019-03-22得票数 0

回答已采纳

1回答

BeautifulSoup:如果HTML表包含关键字，则解析该表

beautifulsoup、html-parsing

我有这个html文件：我对整个文档中的一个表感兴趣，即受益持有者表。我想用BeautifulSoup把它解析出来。我能够解析出文档中的所有表，但不能解析出我需要的表。如果我有一个关键字列表，比如"Beneficial"，"Holders"，"Ownership“等等，我怎么才能只提取包含列表中任何单词的表呢？

浏览 0提问于2018-10-11得票数 0

1回答

如何获取网站上图像的绝对路径

python-3.x、beautifulsoup、python-requests、relative-path、absolute-path

在Firefox中，可以右键单击图像并选择“复制图像位置”。这允许获得绝对图像路径，即使在图像的src属性中只提供相对路径。是否有可能以编程的方式获得这个绝对路径？存放在哪里？我使用Python3，请求访问站点，漂亮的汤解析html。

浏览 3提问于2016-10-18得票数 0

1回答

用BeautifulSoup从HTML中提取JSON

python、json、python-3.x、beautifulsoup

在过去的几个小时里，我已经尝试了所有的东西，但是我无法从下面的HTML中提取出一个特定的东西。我想拿"sessionCartId“，但我不知道.这就是我到目前为止尝试过的：data = json.loads(

浏览 9提问于2022-08-14得票数 1

回答已采纳

1回答

某个轮子(.whl)包的依赖项是什么？

python

我想安装pylab，并且我没有直接访问pip (代理限制)的权限。我无法通过cntlm或其他代理隧道解决方案来实现它。有什么简单的方法可以列出安装另一个车轮文件所需的车轮文件吗？$ pip install pylab-0.1.3-py2.py3-none-any.whlCollecti

浏览 3提问于2015-11-06得票数 5

回答已采纳

1回答

用许多其他东西解析文本文件中的json对象- Python

python、json

我有一个html页面。如何从文本中读取所有json对象？我想实现的是从亚马逊的日常交易中获得价格的产品，这就是我现在所写的：import json def FindRigh

浏览 3提问于2017-10-28得票数 0

1回答

使用Beautiful Soup在Python中解析网站

python、html、python-3.x、web-scraping、beautifulsoup

给定这个url (带有给定的"Parcel ID")，任何人都能想出如何从"Detail Information“部分提取"ADDRESS”和"Owner Name 1“吗？我尝试了下面的代码，但是"soup“没有包含"ADDRESS”和"Owner name1“信息，然后我将从”soup“中解析出它们。import requestssitemap =

浏览 12提问于2020-07-27得票数 1

回答已采纳

1回答

用美汤寻找目标“物品”

python、html、web-scraping

我已经检查了它们的HTML结构，我不明白为什么我的代码不适用于其他代码。import pandas as pdimport requestssoup = BeautifulSoup(source.content, 'html.parser') perfume_

浏览 4提问于2020-03-19得票数 0

回答已采纳

1回答

漂亮的汤findall返回不同的结果

python、beautifulsoup、html-parsing、findall

我试图从亚马逊的html表中解析出一个div类，当我运行代码时，find_all()有时会返回我想要的div类，而有时会返回一个空列表。为什么结果不同，你有什么想法吗？我从这个url中提取：req = requests.get('https://www.amazon.com/dp/B0767653BK')BSoup = BeautifulSoup(page, 'html.

浏览 0提问于2017-10-10得票数 0

1回答

为什么Beautiful Soup只提取CDATA而不提取常规评论？

python、beautifulsoup

我正在制作一个脚本，从网站的页面源中提取所有评论。

浏览 2提问于2019-03-16得票数 3

1回答

美丽的汤-重新解析一组返回的表行美丽的汤

python、beautifulsoup、html-parsing、gigya

我向gigya状态页面提出了一个gigya状态请求，我解析出了对漂亮汤很重要的部分。然后，我用html的返回字符串试图用漂亮的汤来解析它，但是我得到了一个标记错误，但是返回的内容字符串也是一个字符串，所以我不知道为什么。File "C:\Users\Administraor\workspace\ChronoTrack\get_gigiya.py", line 17, in <module>Typ

浏览 1提问于2015-04-16得票数 0

回答已采纳

1回答

Python HTML解析与漂亮的汤和过滤停用词

python、html、parsing、beautifulsoup

我正在从网站中解析出特定的信息到一个文件中。现在，我的程序查看一个网页，找到正确的HTML标记并解析出正确的内容。现在我想进一步过滤这些“结果”。>标记中的配料。这个解析器做得很好，但我想进一步处理这些结果。任何关于如何做到这一点的细节帮助将不胜感激！我的代码如下

浏览 2提问于2011-04-12得票数 2

回答已采纳

1回答

使用gmail api访问电子邮件中的链接

python-3.x、http、gmail-api

我正在尝试访问我的电子邮件中的链接，这是我在Gmail帐户中从特定电子邮件地址获得的链接。到目前为止，通过使用GMAIL api，我可以从文档中使用python函数ListMessagesMatchingQuery获取电子邮件id谢谢

浏览 0提问于2018-10-03得票数 0

1回答

BeautifulSoup递归解析数据并在输出时保持结构

python、json、parsing、beautifulsoup、html-parsing

我正在尝试创建一个json文件，它可以打破树状结构中所有类别项目的列表，并保持类别的嵌套顺序(从这个网站的)。目前，我有以下代码来解析出所有类别：import urllib2from bs4 import BeautifulSoupRequest(url, None, headers) print "

浏览 0提问于2017-03-10得票数 0

3回答