使用python3-漂亮的Soup3从HTML中抓取字符串_从Json中抓取数据，使用漂亮的汤和urllib_如何使用漂亮的汤从li标签中抓取日期？ - 腾讯云开发者社区

python、urllib

我想从网站上抓取一些内容，www.gyte.edu.tr网站语言是土耳其语，但是当你点击网站上的lang选择按钮和地址www.gyte.edu.tr?cl=2，它变成了英语。我想让我的代码访问？地址和抓取所有实验室的链接，而不是访问所有的实验室网页，并从这些网页获取信息。下面是我的代码，它用土耳其语获取信息，而不是用英语。 import urllib from bs4 import BeautifulSoup urllib.urlopen("http://www.gyte.edu.tr?cl=2") linkler = urllib.urlopen("http://w

浏览 3提问于2015-01-20得票数 0

回答已采纳

2回答

如何从带有BeafutifulSoup的html文档中获得没有类或id的特定tr元素？

python、html、web-scraping、beautifulsoup、tr

我有这个网页我需要从大桌子上刮第二排。换句话说，我需要从表中获取这个(ΈνδικαΜέσα-)。到目前为止这是我的进步 from bs4 import BeautifulSoup as soup import requests import csv URL = 'https://www.epant.gr/apofaseis-gnomodotiseis/item/1451-apofasi-730-2021.html' headers1 = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x6

浏览 6提问于2021-12-05得票数 1

回答已采纳

1回答

使用Python从html中的脚本对象函数中获取文本/属性

javascript、python、html、beautifulsoup

我一直在一个网站上进行网络抓取，在那里我需要获取javascript，这样我就可以提取数据，比如名称、创建日期和一些随机生成的代码，如下所示… 是否有一种有效/任何方式从<script type="text/javascript">中的脚本对象函数中从html网页获取文本/属性。我能够使用BeautifulSoup找到脚本部分，其中嵌入的函数如下： <script type="text/javascript"> //COMMENT// Some data already here $(document).ready(function

浏览 3提问于2020-07-17得票数 1

回答已采纳

3回答

如何使用python解析ld+json

python、json、web-scraping、json-ld

我一直在尝试一些网络抓取，我偶然发现了这个标签中的一些有趣的数据： <script type="application/ld+json"> 我已经能够用美丽的汤分离出那个标签 html = urlopen(url) soup = BeautifulSoup(html, "lxml") p = soup.find('script', {'type':'application/ld+json'}) print p 但是我还不能处理这些数据，也不能从那个标签中提取任何数据。如果我尝试使用正则表达式从其中获

浏览 2提问于2017-04-27得票数 9

1回答

无法使用bs4抓取数据

web-scraping、beautifulsoup、tripadvisor

我试图从Trip Advisor酒店获取"value“数据的星级，但我无法使用类名获得数据:以下是我尝试使用的代码： review_pages=requests.get("https://www.tripadvisor.com/Hotel_Review-g60745-d94367-Reviews-Harborside_Inn-Boston_Massachusetts.html") soup3=BeautifulSoup(review_pages.text,'html.parser') value=soup3.find_all(class_=&

浏览 16提问于2019-03-07得票数 1

4回答

Python 2与Python3- urllib格式

python、json、python-3.x、compatibility、urllib

我已经厌倦了试图弄清楚为什么这段代码在Python 2中工作，而不是在Python 3中工作，我只是尝试抓取一页json，然后解析它。以下是Python 2中的代码： import urllib, json response = urllib.urlopen("http://reddit.com/.json") content = response.read() data = json.loads(content) 我认为Python 3中的等效代码是这样的： import urllib.request, json response = urllib.request.urlop

浏览 2提问于2010-06-27得票数 22

回答已采纳

1回答

检查漂亮的soup.find_all值是否为空

python、loops、web-scraping、null、beautifulsoup

大家好，我是python新手。我的项目进展缓慢，但修复了一个bug，导致了另一个问题。长话短说:我有 for tempNext in soup3.find_all(title=re.compile("^Next Page -")): 让我找到href值的..loop。如果值存在，它就会工作得很好。如果不是，它会一直重复使用上一次的相同代码。遗憾的是，这并不像每次都将值重置为""那么简单，因为这个for循环也在另一个循环中。为了理解这个想法，代码片段是这样的： soup3 = make_soup('http://www.automotiveforums.

浏览 16提问于2017-03-05得票数 0

回答已采纳

2回答

如何使用美汤保存来自网站的附件？

python、beautifulsoup、get、python-requests

我已经写了一个代码来抓取一个网站的附件。它本质上是抓取附件的超链接。我不能想出一种方法来直接将这些附件保存在本地位置。 import requests import pandas as pd from requests import get url = 'https://www.amfiindia.com/research-information/amfi-monthly' response = get(url,verify=False) import bs4 from bs4 import BeautifulSoup html_soup = BeautifulSoup(re

浏览 0提问于2020-06-20得票数 0

2回答

将HTML表数据解析为JSON并在Python2.7中保存到文本文件

python、json、python-2.7

我正在尝试从这个网页中提取关于各州犯罪率的数据，链接到网页我可以把它放到文本文件中。但我想得到Json格式的回应。我怎么能在蟒蛇身上做到这一点。这是我的代码： import urllib import re from bs4 import BeautifulSoup link = "http://www.disastercenter.com/crime/uscrime.htm" f = urllib.urlopen(link) myfile = f.read() soup = BeautifulSoup(myfil

浏览 3提问于2015-05-14得票数 3

回答已采纳

1回答

Newspaper3k的缺点:如何仅抓取文章HTML？Python

python、html、python-3.x、web-scraping、python-newspaper

您好，感谢您的帮助，我一直使用Python和Newspaper3k来抓取网站，但我注意到有些函数是...well的……不起作用。特别是，我只能抓取大约1/10甚至更少的站点的HTML这篇文章。下面是我的代码： from newspaper import Article url = pageurl.com article = Article(url, keep_article_html = True, language ='en') article.download() article.parse() print(article.title + "\n" +

浏览 61提问于2020-07-17得票数 1

回答已采纳

2回答

美丽的汤只返回javaScript代码？

javascript、python、web-scraping、beautifulsoup、screen-scraping

我想从下面的网站抓取数据。我试图从网络选项卡中获取数据，但是它没有返回任何数据。然后，我尝试BeautifulSoup获取一些数据，但它只返回带有空tbody标记的Javascript。但是在in元素中，它在表中显示数据。 import requests from bs4 import BeautifulSoup url = 'https://dell.secure.force.com/FAP' headers = { 'Connection': 'keep-alive' } data = { 'pt': "f

浏览 5提问于2022-02-03得票数 1

1回答

停止pd.read_html将类似于科学符号的字符串"0E10“转换为浮动0.0

python、pandas

我正在做一些网络抓取和使用内置的熊猫read_html功能。我的一个专栏有一串字符串，格式为" 0E10“、"0E25”、"0E8“等等。熊猫太聪明了，并且认识到0e10是0.0的科学符号。有方法禁用此功能吗？如果可能的话，我仍然希望它能够智能地将其他列转换为类型(我有另外两个列是浮动的，并且应该在输出df中浮动)。

浏览 3提问于2019-09-19得票数 0

3回答

使用R从html定义列表中抓取变量名和值

r、web-scraping

我希望从R中的一些html代码的定义列表中提取一些数据。到目前为止，我已经完成了以下工作； url <- "myurl" doc <- htmlParse(url) 然后我(想我)想使用xpathSApply来提取列表数据；但是我一直返回一个错误……我刚接触webscraping和HTML的概念，所以我不完全确定这个函数是如何定位要抓取的数据的。如何找到要传递给xpathSApply的xpath 例如，就是url 我希望将有关公司名称、编号、地址、董事等的数据收集到每个查询的一个观察值中。

浏览 6提问于2012-12-19得票数 2

1回答

Python3无法导入PyGObject

python-3.x、gtk3、pygobject

我尝试在Python3中使用PyGObject (无论是在Debian上还是在Linux Mint上)，这样我就可以使用Gtk3+和Glade来创建GUI。问题是：在Python 3中： import gi 表示找不到模块'gi‘。我从存储库安装了python3-gi，当我尝试导入它时，Python 3仍然显示未找到模块。但是，Python2会检测到该模块。在Python 2中，如果我这样做 import gi 它可以工作，但不适用于Python 3。我只对Python 3感兴趣。有什么建议吗？

浏览 15提问于2017-08-23得票数 2

1回答

PyCharm中的Python web scraper有问题。(初学者)

python、beautifulsoup、pycharm

我最近开始学习Python。在学习网络抓取的过程中，我学习了一个从谷歌新闻抓取的例子。在运行我的代码之后，我得到消息：“进程已完成，退出代码为0”，但没有任何结果。如果我将url更改为"“，我会得到结果。有谁能指出我做错了什么吗？代码： import urllib.request from bs4 import BeautifulSoup class Scraper: def __init__(self, site): self.site = site def scrape(self): r = urllib.request.urlopen(self.site)

浏览 12提问于2020-05-09得票数 0

回答已采纳

3回答

选择正确的css元素使用rvest抓取时出错

r、web-scraping、css-selectors、rvest

目标:我正在努力从篮球参考网站上为NBA球队争取胜负记录。更广泛地说，我试图更好地理解如何正确地使用CSS选择器小工具从网站中刮取指定的元素，但希望能找到解决这个问题的解决方案。我使用的url ()上有多个表，所以我尝试使用CSS选择器小工具来指定我想要的元素，即“展开的站立”表，大约是页面向下的1/3。我读过关于rvest和dplyr包以及CSS选择器web浏览器外接程序(我已经安装在我选择的浏览器Chrome中)的各种关于web抓取的教程。这就是我想要的。到目前为止，我的代码如下： url <- "https://www.basketball-reference.co

浏览 0提问于2018-10-14得票数 1

回答已采纳

1回答

使用BeautifulSoup确定脚本标记位于头部还是主体中

python、beautifulsoup

我正在查询带有漂亮汤的标签 scriptResults = soup3('script') soup3 = BeautifulSoup(page3) 如何确定找到的每个脚本结果是在head还是body标记中？最简单的方法是提取头部，提取主体，然后分别检查每个脚本中的脚本标记吗？

浏览 1提问于2013-03-28得票数 1

2回答

如何从inc5000中刮取公司名称？

selenium、web-scraping、beautifulsoup、screen-scraping

我正试着从inc5000站点(“”)中抓取所有的公司名称。问题是公司名称是用JavaScript显示的。我尝试过使用selenium和requests_html来呈现站点，但是当我获取页面的源代码时，我得到了JavaScript。这就是我尝试过的。我对网络抓取很陌生，所以我可能犯了一些愚蠢的错误。请指导。这是我的密码。 ... from selenium import webdriver from webdriver_manager.chrome import ChromeDriverManager from selenium.webdriver.chrome.options import

浏览 2提问于2022-07-05得票数 0

回答已采纳

2回答

漂亮的汤-访问更改类名上的文本

python、beautifulsoup

我在这已经好几个小时了，我已经有几次亲密了。我想要达到的目标是：抓取一个地址网站以返回一个区域内的所有街道名称。有一个没有任何附加代码或文本的街道名称列表。我似乎无法正确组合find/find_all/select/ get _text用法。到目前为止，我已经经历了许多不同的变化。 import requests import bs4 site = requests.get( 'https://www.streetlist.co.uk/towns/greater-london/peckham') status = site.status_code print

浏览 6提问于2020-10-22得票数 0

1回答

从网站中抓取字符串中的单词

python、web-scraping、scrapy

我对scrapy和Python非常陌生。我正在制作一个网络刮板，试图从他们网站的HTML文本中刮掉企业主的名字。我的问题是，我不能准确地使用xpath或css响应来从网站代码中获取文本，因为我正在抓取数百个具有不同编码、类、页面等的不同网站。 html_text = str(response.text) owner_name=re.findall("owner", html_text) if owner_name: print("OWNER FOUND @ " + str(response.url)) 显然，所有这一切都是为了让我知道程

浏览 25提问于2020-06-09得票数 0

3回答

如何使用XPath从抓取的超文本标记语言中解析作者姓名和书名？

xpath

您在下面看到的HTML是我从远程站点按原样抓取到本地变量中的文本。现在，我需要将authorName和bookTitle从HTML标记解析到它们自己的变量中，给定抓取文本的以下一致格式： <p> William Faulkner - 'Light In August' <br/> William Faulkner - 'Sanctuary' <br/> William Faulkner - 'The Sound and the Fury' </p> 在XPath中可以做到这一点

浏览 3提问于2010-10-18得票数 3

回答已采纳

1回答

ASP.NET -在传输和插入CSS类引用之前分析/查询

asp.net、xml-parsing、webforms、html-parsing、csquery

作为一名web开发人员，我觉得我花在CSS上的时间太多了。我试图想出一个解决方案，可以编写可重用的CSS，即类，并在HTML中引用这些类，而无需在ASPX或ASCX文件等或代码隐藏文件中添加额外的代码。我想要一个中间，它将HTML元素与CSS类连接起来。我想达到的目标是：在传输前立即修改HTML 在HTML中选择元素根据其他地方定义的规则(例如在与当前正在处理的页面有关的文本文件中)：向多个HTML元素添加CSS类引用将多个CSS类引用到单个元素我如何设想这项工作：扩展生成最终HTML的ASP.NET函数以字符串形式抓取所有HTML 将字

浏览 2提问于2012-06-10得票数 0

回答已采纳

2回答

不能从网站上刮掉一些"div“标签

python、html、screen-scraping

我正在尝试从这个页面中抓取职位：。可能是个新手的问题，但事实证明，我可以得到某些标签，而其他标签似乎是无法触及的，例如： from urllib.request import urlopen from bs4 import BeautifulSoup html = urlopen("https://www.fl.ru/projects/") bsObj = BeautifulSoup(html, "lxml") textTags = bsObj.findAll("div", class_="b-post__txt ") pr

浏览 0提问于2018-06-29得票数 1

回答已采纳

1回答

如何从文本中正确获取不会引发InvalidSchema(“找不到{！r}的连接适配器”.format(Url))错误的url？

python、twitter、python-requests

我使用以下代码从存储在DataFrame中的tweet中获取链接 column = ['tweet_text'] df = pd.read_csv('file.csv', names = column, header = None) df["tweet_text"]=df["tweet_text"].astype(str) pattern = r'(https?:\/\/(?:www\.)?[-a-zA-Z0-9@:%._+~#=]{1,256}\.[a-zA-Z0-9()]{1,6}[-a-zA-Z0-9()@:%_+

浏览 151提问于2020-06-11得票数 0

1回答

Python append()删除utf-8编码？

python、html、xml、encoding、utf-8

**更新:我尝试将最终列表保存到csv文件中，发现一切正常。正如Alex H.在他的回答中提到的那样，打印列表(字符串)的结果并不总是很漂亮。我是一个新手，刚刚开始使用python进行web数据分析。遇到这个问题很让人沮丧，我真心希望有人能帮助我解决这个问题！我正在尝试使用从网站抓取的文本数据。下面是我的代码(请注意，我只是随机选择了一个网站来测试它的关于我们的信息)。我希望最终的ps列表只包含三个以utf-8编码的文本块。然而，当我打印每个单独编码的文本块时，结果看起来很好(所有的html格式都被删除了)，但当我打印ps时，最终的附加列表html格式仍然存在。append()函数会删除编

浏览 1提问于2016-05-06得票数 0

2回答

解析js/html字符串，很好地格式化它们

c#、.net

我非常确定已经有一个用于.net的开源/免费库可以做到这一点，所以在我重新发明轮子之前…… 我需要抓取某种类型的输入:可以是文件、字符串等，并对其进行良好的格式化。它将主要是HTML和javascript，如果CSS支持很好。有什么想法吗？

浏览 6提问于2009-09-24得票数 0

1回答

有麻烦的Python用漂亮的汤刮擦

python、web-scraping、beautifulsoup

我使用BeautifulSoup试图从CNN主页的不同主题中提取顶级链接或简单的头条新闻。我似乎在这里遗漏了一些东西，希望得到一些帮助。我以前想出了一些网络刮刀，但它总是经过很多阻力，这是相当艰苦的战斗。在我看来，我需要的链接最终存储在这样的地方： <article class="cd cd--card cd--article cd--idx-1 cd--extra-small cd--has-siblings cd--media__image" data-vr-contentbox="/2015/10/02/travel/samantha-brown-trav

浏览 2提问于2015-10-05得票数 1

回答已采纳

1回答

将项目列表视为单个项目错误:如何在已抓取的字符串中查找每个“link”中的链接

python、web-scraping、beautifulsoup、python-requests

我正在写一个python代码来从这个网站上抓取会议的pdf： pdf链接在链接内，链接也在链接内。我有上面页面上的第一组链接，然后我需要在新的urls中抓取链接。当我这样做时，我得到以下错误： AttributeError: ResultSet object has no attribute 'find_all'. You're probably treating a list of items like a single item. Did you call find_all() when you meant to call find()? 到目前为止，这是我的代

浏览 9提问于2019-07-11得票数 0

回答已采纳

4回答

如何转义HTML字符？在.NET中--> &amp；

.net、html

如何在.NET中转义HTML字符？我从json字符串中抓取html，在标题中我得到了&quot;more text。看起来我需要做两次才能让&quot;变成"，然后变成'"‘。如何在.NET中转义所有的文本html转义代码？

浏览 0提问于2010-07-02得票数 15

回答已采纳

3回答

Python中的屏幕抓取

python、screen-scraping

虽然我在R中做过一些屏幕抓取，但我对Python中的屏幕抓取这个概念还是个新手。我正在尝试抓取Yelp网站。我在试着抓取yelp搜索返回的每家保险公司的名字。对于大多数抓取任务，我能够执行以下任务，但在解析xml时总是遇到困难。 import urllib2 from BeautifulSoup import BeautifulSoup soup = BeautifulSoup(urllib2.urlopen('http://www.yelp.com/search?find_desc=insurance+agency&ns=1&find_loc=Austin'

浏览 0提问于2011-06-30得票数 3

回答已采纳

1回答

如何在Django中绘制图表(使用Excel中的数据)

django、python-2.7、graph、charts、graphing

使用Python(2.7)/Django从Excel/Google表中抓取数据，然后将数据转换成漂亮的图形、图表等，最有效的方法是什么，就像在这个中一样致以最好的问候，Daviddep

浏览 3提问于2015-11-12得票数 0

6回答

php正则表达式，用于从表中捕获数字并加载到变量中

php、regex

下面是一个字符串，它用来抓取要读取的页面(使用文件get内容) <th>Kills (K)</th><td><strong>4,751</strong></td><td><strong>0</strong></td> 如何导航到页面内容的上述部分，然后在上面的html中隔离4,751，并将其加载到$kills中？困难:在逗号之前，号码会改变，并有额外的编号。

浏览 8提问于2009-09-17得票数 0

回答已采纳

5回答

正在使用PHP +SimpleXML抓取...我可以抓取图像，但不能抓取原始文本？

php、screen-scraping、simplexml

我正试着从网站上抓取一些特定的原始文本。通过这个站点和其他资源，我学习了如何使用simpleXML和xpath获取特定的图像。然而，同样的方法似乎不适用于抓取原始文本。这是目前不起作用的地方。 // first I set the xpath of the div that contains the text I want $xpath = '//*[@id="storyCommentCountNumber"]'; // then I create a new DOM Document $html = new DOMDocument(); // then

浏览 4提问于2009-01-01得票数 2

1回答

在具有rotativa的pdf生成中无法识别指数数字4

asp.net-mvc、pdf、rotativa

我有一个MVC应用程序，在这个应用程序中，我正在使用Rotativa从HTML页面生成PDF。在HTML中，我显示了从应用程序的资源中获取的一些字符串。当它们被显示为简单的HTML时，所有的字符串看起来都很好，但是当转换成PDF时，指数值没有被正确地格式化。对于小于4的数字，一切看起来都很好，比如in²，但是当我试图显示等于或大于4的幂时，输出就会发生变化，就像接收一个tilda ~而不是预期的数字。我想这是因为罗塔蒂瓦支持的字符集。是否有可能使Rotativa显示指数值高于3？注意:我不想使用<sup> x </sup>，因为它不能解决从资源中检索字符串的问题。

浏览 2提问于2016-07-06得票数 0

回答已采纳

4回答

将python脚本输出输出到文件时出现Unicode错误

python、unicode、beautifulsoup

代码如下： print '"' + title.decode('utf-8', errors='ignore') + '",' \ ' "' + title.decode('utf-8', errors='ignore') + '", ' \ '"' + desc.decode('utf-8', errors='ignore') + '")&

浏览 38提问于2012-04-05得票数 17

回答已采纳

1回答

页面源HTML与漂亮的soup检索到的HTML不一致

python、html、firefox、beautifulsoup

我正在尝试从IMDB抓取电影信息。在大多数情况下，它是有效的，但对于一些电影，标题是不同的HTML检索美丽的汤，然后是火狐显示的源代码。例如，当在IMDB中搜索witch时，我会得到这个页面：所以我搜索电影，然后用下面这行代码得到电影的URL： page = urlopen(url) soup = BeautifulSoup(page, 'html.parser') movieLink = soup.find('a', text = movieTitle)['href'] imdbLink = 'http://www.imdb.com

浏览 1提问于2017-06-13得票数 2

1回答

如何在vimscript或UltiSnips中不使用'test‘扩展当前文件名

regex、vim、vim-plugin、ultisnips

我正在编写一个代码片段，需要在其中获取vimscript中的当前文件名。我可以很高兴地使用expand('%:t:r') (如here所示)做到这一点。但是，我不仅希望从文件名中排除'.js‘，而且还希望从文件名中排除'.test’。例如：如果在myName.test.js，我想要抓取'myName‘ 如果在myName.js中，我也想抓取'myName‘ 我这样做是为了创建一个UltiSnips片段，这样其他方法(例如正则表达式)也会很有用

浏览 15提问于2019-01-25得票数 1

回答已采纳

1回答

如何在原始HTML文件上使用DOM检查器？

php、html、google-chrome、dom、web-scraping

我使用PHP简单的HTML DOM分析器定期从不同的网站抓取一些信息，使用Chrome的DOM检查器来分析如何获取我想要的信息。一个网站(即TPB)没有适当的HTML代码。因此，Chrome的渲染引擎添加了一些额外的HTML标记来完成标记。我没有意识到这一点，当我的代码不起作用，并且没有输出我试图抓取的信息时，我感到很困惑。下面是表主体的原始代码：现在，相同的代码，但来自Chrome的DOM检查器我的问题是，是否可以使用Chrome或其他浏览器/扩展/工具来检查原始HTML代码的DOM，而不是浏览器呈现的代码？这将使我的网页抓取更容易，使用Chrome的伟大检查器

浏览 2提问于2018-04-11得票数 0

2回答

Python3-从beautifulSoup中的标记获取文本

python、html、python-3.x、beautifulsoup

我正在使用beautifulSoup从网站中提取数据。该网站的文本每次重新加载页面时都会发生变化，因此基本上我希望能够将焦点放在类名上，作为静态变量，因为文本是动态的。 import requests from bs4 import BeautifulSoup url = 'xxxxxxxxxxx' r = requests.get(url) soup = BeautifulSoup(r.content, 'html.parser') class2 = soup.find_all(True, class_="template_title") pr

浏览 8提问于2015-08-02得票数 1

回答已采纳

3回答

无需抓屏即可通过友好的URL获取博客的博客ID

php、blogger

我在用。我只想从站点的名称中获取博客ID。例如，http://sleeptalkinman.blogspot.com/的博客ID为3117168333067506122。这是可能的，因为博客ID出现在源代码中，但屏幕抓取不是一个好主意！是否可以通过API获得它，而不是从HTML中抓取它？

浏览 1提问于2010-01-13得票数 2

2回答

如何在Python中以正确的模式将selenium time.sleep()更改为WaitForElement？

python、selenium、web-scraping

我正在从很多网站上抓取数据，我在time.sleep()中使用selenium，但这是一种危险的方式，因为有时我的计算机会变得滞后，这样我就会丢失数据。如何将代码更改为Wait_For_Element方法以避免丢失信息？下面是我的代码： from bs4 import BeautifulSoup from selenium import webdriver import time import urllib2 import unicodecsv as csv import os import sys import io import time import datetime import

浏览 0提问于2017-08-08得票数 0

1回答

如何在BeautifulSoup上打印指数单位

python、beautifulsoup、exponent

我想这个标题解释了一切。我有一个字符串，我试图将它插入到一个文档中。我找到了，但我不知道是否以及如何将它应用到我的案例中。工作实例： #!/usr/bin/python from bs4 import BeautifulSoup html_sample = """ <!DOCTYPE html> <html><head lang="en"><meta charset="UTF-8"><meta name="viewport" content="width=

浏览 3提问于2016-01-15得票数 1

回答已采纳

1回答

用许多其他东西解析文本文件中的json对象- Python

python、json

我有一个html页面。我用requests阅读并使用beautifulsoup解析了一个脚本标记，现在这个标记包含了大量的文本，其中一些是json对象。如何从文本中读取所有json对象？我想实现的是从亚马逊的日常交易中获得价格的产品，这就是我现在所写的： from bs4 import BeautifulSoup import json import requests def FindRightScriptTag(soup): for tag in soup.find_all('script', type="text/javascript"):

浏览 3提问于2017-10-28得票数 0

1回答

Python3-解析.json

python、json

一个json文件= a.json {"xt_Adminserver_URL": "10.0.1.5:2346"}. {"LinuxAdServer": "10.0.1.6"}. {"WindowsAdminServer": "10.0.1.8"}. {"JlLmsServer": "12.17.10.81:1688 "}. {"token": "KT99999"}. {"WONumber": "WO0000123

浏览 18提问于2020-05-19得票数 0

1回答

当url没有定义页码时，我如何抓取多个页面？

python、web-scraping、python-requests

我想从网站的第二页获取html。我习惯了url显示页码，并允许我通过操纵它来抓取多个页面。 my_url = 'https://www.bodybuilding.com/exercises/finder/lookup/filter/muscle/id/1/muscle/chest' headers = {'referer':my_url, 'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like G

浏览 10提问于2017-06-27得票数 0

回答已采纳

1回答

R编程Web抓取

r、web-scraping

我试着从下面的链接中抓取网页，使用R编程中的R背心包。我抓取的链接是我的代码是： library("xml2") library("rvest") url<-read_html("http://dk.farnell.com/c/office-computer-networking-products/prl/results") tbls_ls <- url %>% html_nodes("table") %>% html_table(fill = TRUE)%>% gsub("^

浏览 13提问于2017-12-22得票数 1

1回答

查询:漂亮的汤+ href模式，不是我想要的那样。

python、python-2.7、beautifulsoup

我有下面的html模式，我想用BeautifulSoup去掉它。html模式是： <a href="link" target="_blank" onclick="blah blah blah">TITLE</a> 我想要抓取标题和显示在链接中的信息。也就是说，如果您单击了该链接，则会显示标题的描述。我想要那个描述。一开始，我只是尝试用以下代码获取标题： import urllib from bs4 import BeautifulSoup import re webpage = urrlib.urlopen("

浏览 2提问于2013-02-03得票数 0

回答已采纳

7回答

用Python进行屏幕抓取

python、screen-scraping、htmlunit、pycurl

Python有提供JavaScript支持的屏幕抓取库吗？我一直在使用pycurl来处理简单的HTML请求，对于需要JavaScript支持的更复杂的请求，使用了Java的HtmlUnit。理想情况下，我希望能够从Python中完成所有事情，但我还没有遇到任何允许我这样做的库。它们存在吗？

浏览 8提问于2010-02-03得票数 14

回答已采纳

2回答

使用BeautifulSoup提取ID和报告对，并返回一个以ID为关键字的字典，其值为报告

python、python-2.7、beautifulsoup

我是Python编程的新手，我想使用BeautifulSoup从html文件中提取案例ID和EKG报告对，然后以字典的形式返回，其中ID的值就是报告。我写了以下代码，但它令人沮丧： from bs4 import BeautifulSoup import urllib2 def extractReports(filename): report = {} soup3 = BeautifulSoup(urllib2.urlopen(filename)) txt = soup3.get_text() for row in txt: report[row[0]].append(row[

浏览 2提问于2014-02-26得票数 0

3回答