在Python中使用BeautifulSoup获取图像"src“时获得的值与在浏览器中检查其"src”时不同_在同一个类中使用不同函数时如何在Python中获取Checkbox的值 - 腾讯云开发者社区

python、screen-scraping、jpeg

我正在抓取的今天的形象。到目前为止，我已经能够返回我认为是图像源标签。 #!/usr/bin/env python from urllib2 import urlopen from BeautifulSoup import BeautifulSoup class Apod: def apod_wallpaper(self): self.soup = BeautifulSoup(urlopen('http://apod.nasa.gov/').read()) self.pic = self.soup.find('img')

浏览 3提问于2012-08-10得票数 0

回答已采纳

2回答

如何在python中保存网站上的所有图片

python、web、web-scraping、beautifulsoup

对于我的图像处理实践，我想要这个网站的一些图像：https://511ny.org/cctv，但我似乎无法访问他们的'src‘，以便在BeautifulSoup中使用并提取图像。如果您对此问题有任何解决方案，请通知我。下面是我的代码，它没有得到任何响应： from bs4 import BeautifulSoup from urllib.request import urlopen response = urlopen('https://511ny.org/cctv') soup = BeautifulSoup(response, 'html.parser&

浏览 19提问于2020-10-25得票数 0

回答已采纳

1回答

JQuery无法在IE上从tinymce获取图像宽度

jquery、image、tinymce

此问题仅在IE9上出现。Firefox运行良好，其他浏览器也是如此。我在用户上传图片的文本区域上使用TinyMCE (带有ImageManager插件)。文本区域仅用于上传图像。当用户将图像上传/插入到tinyMCE文本区并提交页面-I编辑时，在允许完成表单提交之前，请检查图像尺寸以确保其大小正确。我将tinyMCE文本区域的html加载到一个JQuery对象中，然后使用jquery调用该对象的宽度(“.attr”)，以确保图像是所需的宽度。问题是，在FireFox上，它工作得很好，返回图像的宽度。在IE9上，对.attr("width")的jquery调用返回0(零)。

浏览 3提问于2012-11-24得票数 2

1回答

仅从美丽的汤输出中提取图像链接

python、beautifulsoup、python-requests、html-parsing

我是BeautifulSoup新手，我一直在尝试使用bs4和请求从网页中提取每个图像链接。但是，当我试图打印每个图像链接时，它会弹出html，而不是直接链接到任何图像。我尝试过从使用“查找”到使用“findAll”，但这仍然不能解决我的问题。 import bs4 import requests req = requests.get('https://www.gnu.org/home.en.html') soup = bs4.BeautifulSoup(req.text, features='html.parser') html = (soup.find

浏览 2提问于2019-07-21得票数 0

回答已采纳

2回答

使用BeautifulSoup打印类内容

python、python-3.x、beautifulsoup、python-requests

我想在课堂上打印课文。这是HTML片段(它在许多类中，但在可视化中，它在Prestige->旁边)。 <div class="sc-ikPAkQ ceimHt"> 9882 </div> THis是我的代码-> from bs4 import BeautifulSoup import requests URL = "https://auntm.ai/champions/abomination/tier/6" page = requests.get(URL) soup = BeautifulSoup(page.con

浏览 3提问于2021-08-31得票数 0

回答已采纳

2回答

Python Beautiful Soup (HTML解析)

javascript、beautifulsoup

我是一个初学者在Python3.6中使用BeautifulSoup来执行“网络抓取”。一旦我运行了一个request.get()并对输出进行了细化，我注意到网页没有返回这些值，它似乎在存储与该值相关的代码。以下是指向特定网页的链接：我正在试着抽出运动员在网球中使用的手。以下图片突出显示黄色:我试图获得的图片：如果问题的大纲令人困惑(或非标准的)反馈，我将非常感激，这样的反馈将有助于我在未来确保我提出的问题是适当的。

浏览 6提问于2017-05-23得票数 1

回答已采纳

1回答

在PhantomJS上模拟通过Python使用的HTML5视频支持

python、selenium、phantomjs

我正在尝试提取在视频标签中找到的HTML5视频的源链接。使用Firefox webdrive，我可以得到想要的结果- [<video class="video-stream html5-main-video" src='myvideoURL..'</video>] 但是如果我使用PhantomJS - <video class="video-stream html5-main-video" style="width: 854px; height: 480px; left: 0px; top: 0px; -webk

浏览 18提问于2016-09-03得票数 4

1回答

图像太大

python-3.x、docker

我正在尝试修改一个Python流光应用程序，但我构建的映像却很大(1.3GB)。有没有办法使图像的大小最小化？这是我的文档： FROM python:3.9 WORKDIR /app COPY ./requirements.txt ./requirements.txt RUN pip3 install --no-cache-dir -r requirements.txt EXPOSE 8501 COPY ./src ./src COPY ./deployment/nginx.conf ./deployment/nginx.conf 我的requirements.txt文件： re

浏览 3提问于2022-07-07得票数 0

1回答

如何将画布中的图像获取到python中的服务器端代码

jquery、python、jquery-webcam-plugin

我试图获得图像，这是在HTML画布使用python。使用jquery，我通过摄像头捕捉图像，并将其存储在画布中。现在，我想把这些图片发送到服务器端的ie.python file.Is，任何人对此有任何想法，请帮助我做到这一点。我尝试使用BeautifulSoup.But将图像发送到服务器端，我需要获取在canvas中捕获的图像。我已经尝试了使用BeautifulSoup在python中获得图像服务器端的基本方法。基本情况： page = BeautifulSoup(urllib2.urlopen("http://localhost:8086/wins/setimage"))

浏览 1提问于2014-07-18得票数 0

2回答

如何使用HTML、python和cherrypy显示文件夹中的所有图像

python、html、image、file、cherrypy

我目前正在用python和cherrypy开发一个web-app/server。现在，我一直在尝试创建一种画廊页面。对于每一张照片，我都实现了以下HTML代码： <div> class="gallery" align="center"> <div class="thumbnails"> <img onmouseover="preview.src=img1.src" id="img1" src="../img/1" alt="Image Not

浏览 2提问于2012-03-27得票数 0

回答已采纳

2回答

在PGA网站上从JavaScript表中抓取Python

javascript、python、beautifulsoup

我刚刚开始学习Python，并且一直在与BeautifulSoup一起工作，从网络上抓取体育数据。我遇到了一个问题，在PGA网站上，它是由javascript生成的，我希望有人能在我工作的特定网站的上下文中引导我完成这个过程。下面是一个示例链接"“--表是所有的播放器统计表。谢谢!

浏览 8提问于2017-03-13得票数 0

回答已采纳

1回答

BeautifulSoup中的findAll()跳过多个in

python、beautifulsoup、html-parsing

我在image标签中有一个包含多个I的字符串： <img id="webfast-uhyubv" alt="" data-type="image" id="comp-jefxldtzbalatamediacontentimage" src="http://webfast.co/images/webfast-logo.png" /> soup = bs4.BeautifulSoup(webpage,"html.parser") images = soup.findAll('im

浏览 0提问于2018-05-18得票数 2

4回答

JavaScript和HTML的抓取

javascript、python、parsing、web-scraping、web-crawler

我正在做一个项目，其中我需要抓取几个网站，并从他们收集不同种类的信息。信息，如文字，链接，图像等。我正在使用Python来完成这个任务。为此，我尝试过在HTML页面上使用BeautifulSoup，但在解析包含大量JavaScript的站点时，我遇到了困难，因为这些文件上的大部分信息都存储在<script>标记中。有什么办法吗？

浏览 8提问于2014-03-31得票数 5

回答已采纳

1回答

避免使用优美汤和urllib.request下载图片

web-scraping、beautifulsoup、urllib、urlopen

我使用BeautifulSoup ('lxml'解析器)和urllib.request.urlopen()从一个网站获取文本信息。但是，当我在Acitivity中查看网络部分时，我看到python下载了很多数据。这意味着不仅文本被下载，而且图像也被下载。在使用BeautifulSoup进行网络抓取时，有可能避免下载图片吗？

浏览 2提问于2016-04-03得票数 0

回答已采纳

3回答

Twitter不再使用请求库python

python、twitter、python-requests、twitterapi-python

我有一个python函数，它使用请求库和BeautifulSoup来抓取特定用户的tweet。 import requests from bs4 import BeautifulSoup contents = requests.get("https://twitter.com/user") soup = BeautifulSoup(contents.text, "html.parser") 当requests库访问Twitter时，它使用遗留版本的Twitter。然而，由于Twitter最近放弃了对其遗留版本的支持，requests库不再工作，并返回html代

浏览 0提问于2020-06-04得票数 5

1回答

为什么美丽汤没有从网站中提取所有的"a“标签

python、beautifulsoup

我正在学习BeautifulSoup，我试着从一个网站中提取所有的"a“标签。我得到了很多"a“标签，但很少被忽略，我很困惑为什么会发生这种情况，任何帮助都会受到高度赞赏。我使用的链接是：图片中的红色框是一个被bs4完全忽略的部分。它确实包含"a“标签。代码： import requests import bs4 import re import html5lib res = requests.get('https://www.w3schools.com/python/') soup = bs4.BeautifulSoup(res.text,&#

浏览 0提问于2018-08-21得票数 0

回答已采纳

1回答

exactly无法在html中找到所有图像标签(恰好在5处停止)

python、html、web-scraping、beautifulsoup、html-parsing

我正在尝试使用漂亮的汤来获取某个特定类的站点的所有图片。我的问题是，当我运行代码只是为了查看我的代码是否可以找到每个图像时，它只得到图像1-5。我认为问题出在html上，因为图像6-end位于嵌套的div中，但Find_all应该能够找到具有相同类的所有img。 import requests, os, bs4, sys, webbrowser url = 'https://mangapanda.onl/chapter/' os.makedirs('manga', exist_ok=True) comic = sys.argv[1:] aComic = &#

浏览 0提问于2018-04-25得票数 2

2回答

*将html保存为文本

python、html、javascript

我有一个javascript代码，它只显示html页面的源代码。 javascript:h=document.getElementsByTagName('html')[0].innerHTML;function%20disp(h){h=h.replace(/</g,%20'\n<');h=h.replace(/>/g,'>');document.getElementsByTagName('body')[0].innerHTML='<pre><html&

浏览 1提问于2012-01-12得票数 4

1回答

在大多数移动浏览器上，图像只有在较大延迟后才会更改

javascript、css、image、mobile、delay

我想知道为什么在大多数移动浏览器上，通过图像、src标签或css background-image来更改现有元素的图像要经过很长一段时间才能完成。(Android Chrome、iOS Chrome、iOS Safari...) 我基本上有一个image标签或一个div，并且我想立即更改图像： // preload images for(var i = 1; i < 21; i++){ var img = new Image(); img.src = "covers/" + i + ".jpg"; } var cover = $("#co

浏览 2提问于2013-10-06得票数 5

2回答

如何从目录中的html文件中提取图像？

python、html、image、beautifulsoup

这是这个问题的后续问题：基本上，我有一个html文件的目录，每个文件都包含我想要单独保存在同一目录中的图像。在对程序进行建议的更改后，我仍然收到一个错误： Image: theme/pfeil_grau.gif Traceback (most recent call last): File "C:\Users\gokalraina\Desktop\modfile.py", line 25, in <module> im = Image.open(image) File "C:\Python27\lib\site-packages\PIL\Image.

浏览 2提问于2012-03-08得票数 1

回答已采纳

2回答

使用Python编写的google图像抓取器与使用web浏览器编写的html代码结果(UI)不同

python、html、web-scraping、urllib2、google-search

我使用urllib2和BeautifulSoup库用Python语言编写了一个谷歌图像搜索器，它使用包含查询的URL发送搜索请求，然后获取到前10个图像的链接。我需要的是图像的直接链接，例如：当我使用浏览器(它是Chrome)搜索查询并查看图像搜索结果页面的HTML代码时，代码包括指向图像的直接URL (如上所述)以及指向包含该图像的页面的URL：但是，我使用python抓取器获得的搜索结果页面的HTML代码没有包含图像的直接URL，而只包含包含图像的原始页面的URL。当我保存结果HTML并在浏览器上查看文件时，它显示了一些旧的Google图像搜索UI。单击其中一个缩略图将导致“找不到

浏览 17提问于2017-08-09得票数 2

回答已采纳

2回答

img标签中缺少的src属性在不同浏览器中的表现如何？

javascript、html、cross-browser

我有一个页面与许多图像隐藏在一组披露。当您单击节的标题时，将显示图像(以及其他内容)。到目前一切尚好。然而，有许多这样的图像，这导致可笑的加载时间，所以我想只在需要显示时才加载它们。当我打开该部分时，我检查是否设置了图像的src，如果没有设置，则设置它并加载图像。然而，我发现如果我省略了我的<img>的src属性，Javascript (在Chrome中)会认为它是=== ''。它与空字符串相同！我本以为是undefined。这很不错，但看起来有点太好了。当img.src是一个没有src的<img>标记时，不同的浏览器如何评估img？如果我检查该img

浏览 0提问于2014-06-23得票数 3

3回答

如何在Chrome中提取“检查元素”部分的代码？

google-chrome、web-scraping

我是个网络刮刮的新手。我发现来自“查看页面源”和“检查元素”的代码是不同的。我在用Chrome。我想知道有什么方法可以提取“检查元素”中的代码吗？ python中的BeautifulSoup模块似乎从“查看页面源”中提取代码，而不是从“检查元素”中提取代码。

浏览 2提问于2015-11-15得票数 2

回答已采纳

1回答

使用bs4 pyhton3进行网络抓取。找不到元素

python、beautifulsoup

我目前正在试验BeautifulSoup(bs4)在python3中的应用。当我去打印汤或酱汁时，我正在寻找的元素并不存在。我在酱汁/汤中找不到这个表的代码(见桌面网站的截图)。这是我的代码： import bs4 as bs import requests r = requests.get("https://www.flashscore.com/field-hockey/netherlands/hoofdklasse/standings/") soup = bs.BeautifulSoup(r.text,'lxml') print(sou

浏览 7提问于2020-06-10得票数 0

回答已采纳

2回答

使用Python登录网站

python、login、web、urllib2、cookielib

我正在尝试使用Python登录网站。我有以下代码，它真的工作时，我登录到一个网站。 import ClientCookie, ClientForm import urllib, urllib2, cookielib from BeautifulSoup import BeautifulSoup cookies = ClientCookie.MozillaCookieJar() fp = ClientCookie.urlopen("http://www.renrendai.com/loginPage.action?error=false") forms = Clien

浏览 7提问于2013-04-02得票数 1

3回答

如何在python中抓取完整的instagram页面？

python、python-3.x、python-requests、instagram

长话短说，我正在尝试创建一个Instagram python抓取器，它加载整个页面并抓取所有指向图像的链接。我让它正常工作，唯一的问题是，它只加载了Instagram显示的原始12张照片。有没有什么方法可以告诉我加载整个页面的请求？工作代码； import json import requests from bs4 import BeautifulSoup import sys r = requests.get('https://www.instagram.com/accountName/') soup = BeautifulSoup(r.text, 'lxml&#

浏览 5提问于2018-04-27得票数 0

回答已采纳

1回答

如何使用bs4从网站获取表格数据

python、beautifulsoup

我试图用bs4抓取一个网站，里面有一个表，但我得到的内容元素并不像我从inspect得到的那样完整。我在里面找不到标签<tr>和<td>。如何获取该站点的完整内容，尤其是表格的标记？下面是我的代码： from bs4 import BeautifulSoup import requests link = requests.get("https://pemilu2019.kpu.go.id/#/ppwp/hitung-suara/", verify = False) src = link.content soup = BeautifulSoup(sr

浏览 62提问于2019-04-24得票数 1

回答已采纳

1回答

用python和BeautifulSoup进行网络抓取

python、web-scraping、html-table、beautifulsoup、web-crawler

我试图从一个网站中提取数据，这些数据列在一个表格中： url=requests.get("xxxxx") soup =BeautifulSoup(url.content) table=soup.find_all("table")[0] rows = table.find_all('tr') 我试过了这段代码，但是只提取了42行，源表包含220行？谁来告诉我怎么解决这个问题。

浏览 5提问于2020-04-25得票数 0

回答已采纳

3回答

用于web抓取的Selenium与BeautifulSoup

javascript、python、selenium、beautifulsoup

我正在使用Python从一个网站上抓取内容。首先，我在Python上使用了BeautifulSoup和Mechanize，但我看到网站上有一个通过JavaScript创建内容的按钮，所以我决定使用Selenium。既然我可以通过像driver.find_element_by_xpath这样的方法使用Selenium查找元素并获取它们的内容，那么当我可以使用Selenium做任何事情时，还有什么理由使用BeautifulSoup呢？在本例中，我需要使用Selenium来单击JavaScript按钮，所以使用Selenium进行解析更好，还是应该同时使用Selenium和Beautiful S

浏览 1提问于2013-07-03得票数 53

回答已采纳

1回答

为什么BeautifulSoup不能找到一些元素？

python、web-scraping、beautifulsoup、web-crawler

我正在尝试用python booking.com beautifulsoup来阅读beautifulsoup的价格，但是有些元素缺失了。在本例中，我只能读取原始价格，但在beautifulsoup中无法找到折扣价格。这里来自Chrome的HTML：这是我从bs4那里得到的。你知道我怎样才能用折扣价得到/到达缺少的span元素吗？这里也是，我想报废。

浏览 3提问于2022-10-16得票数 0

2回答

如何在Ruby中解析javascript生成的urls？

ruby、parsing、mechanize

这里是我的第一个问题，所以让我们长话短说。我正在解析这个网站:使用ruby机械化的。我获取页面并在表单中张贴一些搜索词。例如，我得到了：然后，我想解析结果以获得： 1.描述2.文件名3.缩略图的 1和2很容易，但我不能得到3。当我检查图像时，我可以看到缩略图的src，但当我使用mechanize获得这个元素时，却没有。我能不能找到合适的工具来做这项工作？

浏览 1提问于2011-07-20得票数 0

回答已采纳

3回答

Python抓取--当页面通过JS加载内容时，如何用漂亮的汤获取资源？

python、beautifulsoup、screen-scraping、urllib

因此，我试图使用BeautifulSoup和urllib从特定的网站中抓取一个表。我的目标是从这个表中的所有数据创建一个列表。我试过使用来自其他网站的表格来使用相同的代码，而且它工作得很好。但是，在尝试使用此网站时，该表返回一个NoneType对象。有人能帮我吗？我试过在网上寻找其他答案，但运气不太好。下面是代码： import requests import urllib from bs4 import BeautifulSoup soup = BeautifulSoup(urllib.request.urlopen("http://www.teamrankings.com/nc

浏览 5提问于2015-04-20得票数 6

回答已采纳

1回答

Amazon抓取:产品的所有变体都返回与第一个变体相同的HTML代码

python、web-scraping、beautifulsoup、amazon、urllib2

我正在使用Python2 &使用来自urllib2的urlopen和来自bs4的BeautifulSoup来废弃同一产品列表中几个变体的HTML代码。即：因此，当我放弃这个产品清单的所有不同变体时，我收到的是来自Var1的相同的相同的HTML代码。总共有9个变体，返回的代码与第一个变体相同。这是非常奇怪的，因为如果我访问直接链接并检查源代码，我会得到不同的HTML，但是如果使用Python对其进行刮擦，它将得到相同的HTML。有人能看一下这个并引导我朝正确的方向走吗？非常感谢！为了补充一些信息，Mr.sytech提出了一个很好的观点。然而，这个问题并不是每个产品都会发生，而

浏览 0提问于2017-06-06得票数 0

回答已采纳

1回答

从图像标题中获取图像Src

jquery、imagesource

嗨，我有一个奇怪的要求，就是使用jquery从image src中获取image title。在我的例子中，图像标题都是不同的，所以不可能有相同的图像标题。让我澄清这个问题。这是一个图像标签。 <img title="Lion2" alt="Lion2" src="http://localhost/test/img/co/122.jpg" class="awp_pcp_square_img"> 我得到了头衔Lion2。现在我想要的是得到这个图像标签的src。我不能按类来做这件事，因为有多个具有相同类名的图像标记。

浏览 6提问于2014-04-17得票数 0

回答已采纳

1回答

如何解析最初在Python中不返回结果的网页？

python、parsing、request、beautifulsoup

我想用Python加载中的图像列表。但是，当我在浏览器中打开页面(Chrome或Safari)并打开开发工具时，检查器将图像列表返回为<img class="grid-item--image">...。但是，当我试图用Python解析它时，结果似乎不一样。具体来说，我以<img class="carousel--image"...>的形式获得了图像列表，而soup.findAll("img", "grid-item--image")返回了一个空列表。另外，我试着用它的srcset标记保存这些图像，大多数保

浏览 1提问于2016-02-08得票数 0

回答已采纳

3回答

在Chrome中检测到$_POST变量，但在Firefox中未检测到

php、html、forms、post

我在一个表单中使用2个图像来排序数据库中的查询结果。表单是使用POST方法提交的。当我单击第一个图像时，查询结果必须按升序排序，当我单击第二个图像时，结果必须按降序排序。这是表单的代码： <form name="" action="" method="post"> <input type="hidden" name="typep" value="price" /> <input type="image" name="sort

浏览 0提问于2012-09-29得票数 2

3回答

Jmeter没有通过我的脚本中的Microsoft身份验证，无法在测试网站上测试性能，显示访问被拒绝

authentication、jmeter

我的应用程序在登录之前有一个microsoft身份验证&我已经记录了脚本，但当我运行它时，它每次都显示我访问被拒绝错误。我已经设置了身份验证管理器，但仍然是相同的错误。请参阅附件中的图像。我已经尝试过HTTP Authentication Manager，并提供了登录用户名和密码。

浏览 0提问于2019-02-08得票数 1

2回答

浏览器和python web opener的Twitter HTML结构不同

python、html、twitter

我正在编写一个脚本，可以从Twitter资料中下载一些数据。我发现网页浏览器中的超文本标记语言结构与python“机器人”中的不同，因为当我通过python urllib2和BeautifulSoup打开页面时，我得到了不同的标签ID和类。有没有办法获得与web浏览器中相同的内容？我需要它来解析短urls，因为在web浏览器中，解析的urls存储在链接标题属性中。

浏览 0提问于2012-01-08得票数 0

回答已采纳

1回答

使用python绕过Referral拒绝selenium中的错误

python、python-2.7、selenium、beautifulsoup、urllib

我正在制作一个脚本，从漫画“naver”下载图片，我已经做完了，但是我似乎无法保存这些图像。我成功地通过urlib和BeasutifulSoup抓取了图像，现在，它们似乎引入了热链接阻塞，而且我似乎无法通过urlib或selenium将图像保存到我的系统中。更新:我试图更改用户代理，看看是否会造成问题.还是一样的。有什么解决办法吗？我现在的代码： import requests from bs4 import BeautifulSoup import re import urllib import urllib2 from selenium import webdriver from s

浏览 5提问于2016-03-18得票数 0

回答已采纳

2回答

无法过滤图像的美化效果

python、beautifulsoup

我试图获取网页上图像的URL，并使用以下代码： import httplib2 from BeautifulSoup import BeautifulSoup, SoupStrainer http = httplib2.Http() status, response = http.request('URL') for link in BeautifulSoup(response, parseOnlyThese=SoupStrainer('img')): if "visibility:hidden" not in link:

浏览 1提问于2017-04-25得票数 0

回答已采纳

1回答

使用BeautifulSoup获取图像url，其中图像数据: src= /gif；base64，

python、beautifulsoup

我正在尝试使用Python和BeautifulSoup4获取网页中图像的urls 我当前的代码是 import requests from bs4 import BeautifulSoup url="https://goibibo.com/hotels/hotels-in-shimla-ct/" #Headers headers={ 'User-Agent':"Mozilla/5.0 (x11; Linux x86_64) AppleWebkit/537.36 (KHTML, like Gecko Chrome 77.0.3865.90

浏览 20提问于2020-10-12得票数 2

1回答

相对链接<img>标记src

html、image、src

我在localhost/about/中有一个HTML页面，在我的HTML中有一个位于localhost/images.中的图像，我有一个img标记如下所示： img src="../images/logo.png" 当我在浏览器中查看此页面时，会显示徽标图像一秒钟，并显示alt文本。检查图像信息后，src中的页面将更改为"localhost/about/images/logo.png".。编辑：，我是这样显示图像的。   <

浏览 2提问于2017-02-06得票数 2

回答已采纳

4回答

无法在JavaScript中获取全局样式表的左侧位置

javascript、stylesheet、position

我需要在JavaScript中获取图像的左上角位置。我在全局样式表中定义了图像的位置： <style type="text/css"> img.movable { position:relative; top:0px; left:375px; } </style> 当我使用全局样式定义图像时 <img id="image11" class="movable" src="testimage.jpg" onclick="jump()" /> style.left属性为空： <s

浏览 1提问于2010-12-09得票数 0

回答已采纳

4回答

如何从Python的rel标记中提取href值

python、beautifulsoup

...html... <link rel="image_src" href="image.jpg" /> ....more html.... 如何在Python中使用BeautifulSoup提取图像url

浏览 4提问于2019-10-16得票数 1

回答已采纳

1回答

为什么div中的html代码没有被解析？

html、web-scraping、beautifulsoup

在此图像中，div id="root"中有html代码。以下是代码： import requests from bs4 import BeautifulSoup URL = 'https://www.daraz.com.bd/catalog/?spm=a2a0e.home.search.3.73524591owXnnM&q=mobile' page = requests.get(URL) soup = BeautifulSoup(page.content, 'html.parser') result = soup.find(&

浏览 1提问于2020-04-23得票数 1

1回答

Cloudflare - Requests - BS4 - Python3 -> 403禁止使用本地代理

python、python-3.x、beautifulsoup、python-requests、cloudflare

代码不起作用。它得到了403错误，因为当系统使用cloudflare时，当我使用任何http代理(burp套件/小提琴手等)时，我看到csrfToken。它起作用了。为什么它在使用本地代理时起作用？ import requests from bs4 import BeautifulSoup headerIstek = { "User-Agent" : "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.102 Saf

浏览 1提问于2020-06-13得票数 0

3回答

如何使用Python的phd*.gif从网站下载特定的GIF图像(条件: BeautifulSoup )？

python、image、beautifulsoup

我有下面的代码，下载所有的图像从一个网页链接。 from BeautifulSoup import BeautifulSoup as bs import urlparse from urllib2 import urlopen from urllib import urlretrieve import os import sys def main(url, out_folder="/test/"): """Downloads all the images at 'url' to /test/""" soup =

浏览 5提问于2014-09-07得票数 0

回答已采纳

1回答

Python机械化:打开url时网关超时，但url在internet浏览器中打开很好。

python、mechanize

我正在使用Python2.7m(在Mac上)从expedia.co.uk中抓取酒店房间数据，循环浏览大约1000个url的列表(200个酒店和5个不同的时间段)。当我运行该代码时，它在前200次中运行良好，然后给出了以下错误： httperror_seek_wrapper:网关超时从那时起，它总是给我这个错误，任何我试图从expedia网站加载，虽然打开相同的网址从互联网浏览器/Chrome工作良好。下面是一个示例代码：从bs4导入BeautifulSoup br = mechanize.Browser() br.set_handle_refresh(False) url =

浏览 1提问于2016-07-11得票数 1

回答已采纳

4回答

谷歌搜索刮板，Python

python、parsing、beautifulsoup、urllib

我是一个新手的Python，并试图使一个谷歌搜索刮板的目的，以获得股票价格，但我运行我的代码下面我没有得到任何结果，但我得到的页面HTML格式。 import urllib.request from bs4 import BeautifulSoup import requests url = 'https://www.google.com/webhp?sourceid=chrome-instant&ion=1&espv=2&ie=UTF-8#q=uwti' response = requests.get(url) html = response.co

浏览 0提问于2016-10-16得票数 1

3回答

从特定的url中抓取链接

python、html、json、web-scraping、beautifulsoup

这是我的第一个问题，如果我解释错了，请原谅我。我正在尝试从python中的特定网站抓取url，并解析到csv的链接。问题是，当我用BeautifulSoup解析网站时，我无法提取url，因为当我在python中解析它时，我只能得到<div id="dvScores" style="min-height: 400px;">\n</div>,，而在这个分支下什么也得不到。但当我打开控制台并复制链接所在的表并将其粘贴到文本编辑器时，它会粘贴600页html。我想要做的是编写一个显示链接的for循环。html的结构如下： <html xm

浏览 5提问于2017-04-08得票数 2

回答已采纳