如何从Kickstarter网页中抓取所有图片urls？_使用Beautiful Soup从Kickstarter中抓取项目urls_如何从以前抓取的urls中抓取图像(嵌套urls) - 腾讯云开发者社区

python-3.x、image、web-scraping、beautifulsoup

我想从这个Kickstarter webpage中抓取所有的图像urls，但是下面的代码没有给出所有的图像： url = 'https://www.kickstarter.com/projects/1878352656

浏览 10提问于2020-09-20得票数 0

回答已采纳

1回答

Kickstarter嵌入式视频在移动设备上不起作用

mobile、video、embedding、kickstarter

我在自己的网站上嵌入了kickstarter视频它们在所有桌面浏览器上都能正常工作，但在我测试过的所有移动设备(galaxy S4、nexus、iphone、ipad)上似乎都不起作用。我使用的是Kickstarter的iframe嵌入，如下所示： height='360' src='http://www.kickstarter.compocket-tri

浏览 6提问于2013-06-28得票数 0

回答已采纳

1回答

我想使用scrapy解析kickstarter.com项目，但是不知道如何在start_urls下创建没有显式指定的爬行器搜索项目。我已经弄清楚了垃圾代码的第一部分(我可以从一个网站提取必要的信息)，我只是不能让它对kickstarter.com/projects域下的所有项目都这样做。根据我所读到的，我相信解析是可能的(1)使用起始页面( kickstarter.com /projects)上的链接，(2)使用一个项目页面的链接跳转到另一个项目，以及(3)使用站点地

浏览 1提问于2013-03-14得票数 5

回答已采纳

1回答

使用Beautiful Soup从Kickstarter中抓取项目urls

python、python-3.x、web-scraping、beautifulsoup

我正在尝试使用美汤从Kickstarter webpage中抓取项目的URL。我使用了以下代码： import requests url = 'https://www.kickstarter.com/discover/另外，我正在抓取的这个页面在页面的末尾有一个“加载更多”的部分。如何获取该部分中的URL？我很感谢你的帮助。

浏览 7提问于2020-03-29得票数 1

回答已采纳

3回答

如何使用SimpleHTMLDOM仅获取图像锚标记内的urls

php

我使用SimpleHTMLDOM从其他网页抓取东西，但我有一个问题，如何才能在图像ancor标记内获得urls，因为该网页包含链接锚标记以及图像锚标记！但是我只想在图片锚标签的边上得到href的值！href="I DO NOT NEED THIS VALUE"><a/> <a href="I NEED THIS VALUE"><img src="xxxx">

浏览 0提问于2012-05-06得票数 0

回答已采纳

2回答

C#网络爬虫和NoSQL数据库

c#、database、nosql

我是一名IT学生，我们需要开发一个从网站获取所有信息的C#程序，然后使用NoSQL将信息添加到甲骨文数据库中。我有几个问题，真的很感谢你的帮助。到目前为止，我使用以下代码将信息从网站写入文本文件，但问题是它只从当前页面获取信息，而不是整个网站。resp.GetResponseStream());sr.Close();return sourceCode; 我想知道如何才能在不去任何其他网

浏览 4提问于2015-08-30得票数 3

3回答

如何从网页中抓取图片？

java、htmlunit

我使用htmlunit从网页中抓取图像。我是htmlunit的初学者。我编码了，但不知道如何获取图像。下面是我的代码。

浏览 1提问于2012-04-11得票数 1

回答已采纳

1回答

Apache NUTCH，相关爬行

apache、web-crawler、nutch

如果是这样，它是如何配置的？其他解决方案也是受欢迎的。

浏览 1提问于2014-11-20得票数 0

1回答

从多个网页中抓取urls

html、python-3.x、web-scraping、beautifulsoup

我试图从多个网页中提取URL(在本例中为2)，但出于某种原因，我的输出是从第一页提取的URL的重复列表。我做错了什么？我的代码：urls = [] baseUrl = 'https://www.goodreads.comstartswith('/author/show/'):

浏览 0提问于2020-05-28得票数 0

回答已采纳

3回答

HTML页面抓取

c#、html、ajax、screen-scraping

抓取具有AJAX/动态数据加载功能的网页的最佳方式是什么？例如:抓取一个网页，该网页加载了20张图片，但当用户向下滚动页面时，它会加载更多的图片(有点像Facebook)。在这种情况下，如何抓取所有图像，而不仅仅是前20个图像？

浏览 0提问于2012-12-06得票数 3

2回答

用分隔符将列文本分割成R中的多个不同的列

r、etl、reshape

这些数据是通过web抓取来提取的，我需要对其进行转换以进行分析。举个例子，我复制了一行，其中我只需要"id":357和“片段”：“新闻/音频”作为信息。你知道我如何在R中变换它吗？","slug":"journalism/audio","position":1,"parent_id":13,"parent_name":"Journalism","color&quo

浏览 9提问于2021-12-13得票数 0

1回答

抓取抓取多个页面，提取数据并保存到mysql中。

python、mysql、scrapy

嗨，有人能帮我，我似乎被困住了，我正在学习如何爬行和保存到mysql我们刮刮。我正在尝试抓取抓取所有的网站网页。从"start_urls“开始，但它似乎并不会自动爬行所有页面，而是使用pipelines.py保存到mysql中。当f= open("urls.txt")中提供urls时，它也会抓取所有页面，并使用pipelines.py

浏览 6提问于2015-03-30得票数 0

回答已采纳

6回答

如何在Nutch中加速爬行

nutch、web-crawler

我正在尝试开发一个应用程序，在该应用程序中，我将在Nutch中为urls文件提供一组受约束的urls。我能够抓取这些urls，并通过读取数据段中的数据来获取它们的内容。我已经爬行给出了深度1，因为我没有办法关心网页中的外链或内链。我只需要urls文件中的网页内容。但是执行这种抓取需要时间。所以，建议我一个方法来减少抓取时间和提高抓取</

浏览 0提问于2011-02-02得票数 3

1回答

使用rvest和for循环进行高效抓取

r、for-loop、web-scraping、rvest

辩论发生在不同的网页上，我从搜索结果中收集这些网页的urls。有超过1000页的搜索结果，其中有20,000页的辩论(即20,000个urls)。我目前的方法成功地从辩论页面中抓取了我需要的数据，然而，对于任何超过20页的搜索结果(即20,000个urls中只有400个)，处理过程需要非常长的时间。我确信有一种方法可以做到这一点，这样它可以在一次调用每个url时抓取所有</

浏览 18提问于2019-12-11得票数 1

3回答

查找包含特定字符串的urls

python、regex、web-scraping、beautifulsoup

我以前没有使用过RegEx，似乎每个人都同意它对网页抓取和html不好，但我真的不确定如果没有它我的小挑战该如何解决。我有一个小的Python刮刀，可以打开24个不同的网页。在每个网页中，都有指向其他网页的链接。我想做一个简单的解决方案，得到我需要的链接，即使网页有点相似，我想要的链接不是。urls之间唯一的共同点似乎是一个特定的字符串：'uge‘或'Uge’(uge在丹麦语中是星期的意思-周的

浏览 4提问于2012-10-30得票数 0

回答已采纳

2回答

从html页面抓取视频和图像

javascript、jquery

我正在做一个用JavaScript编写的小书签，用来从超文本标记语言页面抓取图片和视频。我很容易地抓取了所有的图像，比如，现在我想从Youtube，Vimeo，Dailymotion等不同的来源抓取网页中嵌入的所有视频，所以有人能给出一些关于如何用一些示例

浏览 1提问于2013-07-19得票数 2

1回答

屏幕刮擦提示:交互式图形

javascript、python、html、web-scraping、beautifulsoup

最近，我学习了一些关于如何将BeautifulSoup与Python结合使用的教程，并学习了如何简单地从网页中刮取文本和urls。我现在试着从下面的链接中抓取数据，在页面底部有一个交互式的图形生成器，我想从它中抓取所有的数据，而不必花费很多时间从所有可能生成的图形中缓慢地写下值。我尝试过使用我卑微的初学者技术，但在HTML中

浏览 0提问于2014-08-08得票数 3

回答已采纳

3回答

无法使用请求从网页中获取所有链接

python、python-3.x、web-scraping、beautifulsoup、python-re

我正在尝试获得连接到这个中的每个图像的所有链接。现在，我的目标是使用请求解析所有这些链接。但是，我正在尝试刮掉在该网页的页面源代码中找到的脚本标记中可用的不同的shortcode。页面中有600 shortcodes。如何使用请求获取所有600个链接？

浏览 9提问于2020-05-26得票数 7

3回答

哪里可以找到Red开发者手册

redpitaya

有没有人知道自从发布日期临近，Red开发者手册是否已经面世，以及从哪里得到它们？还有其他可用的开发人员资源吗？

浏览 1提问于2014-02-19得票数 2

回答已采纳

1回答

从URL列表中排除图像URL

php、regex

我从网页上收集所有网址的列表。我的问题是，这个列表也包含了我不想在URL列表中看到的所有图片。 preg_match_all($regex, $html, $matches); return $urls; }

浏览 2提问于2014-06-09得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云