使用Python抓取URL链接

、、

下面是我的代码： from selenium import webdriverurl= 'https://www.coteur.com/cotes-foot.php' links = driver.find_elements_by_xpath('//a[contains(@href, "match/cote

浏览 41提问于2020-06-16得票数 0

回答已采纳

1回答

数千个指向json标记的URL

、

我做了一个Python程序，它可以抓取网站的所有URL，它以纯链接的形式下载数据。像这样：quora.com/example 'url':'google.com', { 'url':'quora.c

浏览 0提问于2020-05-14得票数 0

1回答

如何使用python打开web浏览器并返回重定向页面的url

、、、

我想使用facebook api，我将需要oauth令牌，所以当程序启动时，python程序将通过webbrowser.open()方法打开身份验证url，之后用户将给予权限，然后facebook将生成访问令牌并重定向到不同的链接我需要抓取这个重定向的链接并检索访问令牌。如何抓取这个重定向的url。

浏览 7提问于2013-10-31得票数 2

1回答

Web通过python抓取问题，不能读取html文件吗？

、、

web抓取Python已经有一段时间了，最近我遇到了这个问题。BeautifulSoup似乎无法读取html文件。例如，我正试着从这个网站上抓取from bs4 import BeautifulSoupurl_episode = 'https://www.thetvdb.com/series/initial-d/episodes/4889010' print(url_episo

浏览 1提问于2020-04-06得票数 0

1回答

使用python抓取URL不变的多个表的最佳资源

、、

我想在有下一步链接的网页上抓取表格，但是当你点击这些下一步按钮时，URL不会改变。使用python (BeautifulSoup，请求)学习抓取这类表的最好/最简单的资源是什么？例如，我如何抓取上的表。

浏览 1提问于2017-11-15得票数 0

3回答

我有个关于scrapy和python的问题。我有几个链接。我使用循环在一个脚本中抓取每个脚本中的数据。但抓取数据的顺序是随机的，或者至少与链接不匹配。所以我不能将每个子页面的url与输出的数据进行匹配。喜欢:抓取的网址，data1，data2，data3。Data 1，data2，data3 =>这是可以的，因为它来自一个循环，但是我如何添加到循环的当前url，或者我可以设置链接列表的顺序？就像列表中的第一个

浏览 0提问于2018-04-18得票数 0

1回答

web爬虫如何构建URL目录以抓取所需内容

、、、

有三个问题：哪里是学习更多关于网络爬虫的最好的地方？

浏览 2提问于2018-10-11得票数 1

3回答

使用Python中的导出按钮下载/导出站点搜索结果

因此，我试图使用Python从以下网站抓取数据(使用示例查询)：如果我在同一个浏览器中遵循该链接，则保存提示符将用csv打开以保存当我想要使用</em

浏览 2提问于2020-02-19得票数 1

2回答

将数据从Tripadvisor导入Google电子表格或Excel

、、、

是否可以获取此数据的列表：阿姆斯特丹所有餐馆的名单。如果可能的话，还有详细的地址等等。非常感谢！

浏览 1提问于2020-09-17得票数 0

3回答

抓取多个URL的抓取方法

、

我一直在关注Scrapy，到目前为止，它给我留下了深刻的印象，但我正在寻找最好的方法来做以下事情： 1)我想要抓取多个URL，并为每个要抓取的URL传递相同的变量，例如，假设我想返回来自Bing、Google和Yahoo的关键字"python“的顶部结果。我想要抓取http://www.google.co.uk/q=python、http://www.yahoo.com?q=python和ht

浏览 8提问于2012-08-28得票数 1

1回答

生成EDGAR文件路径列表

、

我对编程非常陌生(虽然我愿意学习)，所以先为我的基本问题道歉。我很难理解如何解决这个问题，因为文档相当简

浏览 7提问于2016-05-22得票数 0

1回答

使用curl抓取大页面

、、

我正在尝试从一个流行的新闻网站上收集评论，以便使用curl进行学术研究。对于评论少于300条的文章，它可以很好地工作，但在此之后，它就会陷入困境。$handle = curl_init($url);$html = curl_exec($handle

浏览 2提问于2012-08-23得票数 0

2回答

Webscraping HTML-包括所有链接内的标记

、、、

我正在使用Python3.5的BeautifulSoup，并且我试图抓取所有h-tags的网站(所以所有的h1、h2..等等)。我的问题是让程序在网站上打开其他链接来抓取它们的标签。因此，假设我有一个网站，它有一个导航菜单，其中包含一些链接，这些链接贯穿整个网站，并且都包含某种类型的h标记。我该如何抓取我所选网站上的所有内容呢？这是我到目前为止用来抓取特定url中的h1-tag的代码： import requests

浏览 0提问于2016-04-19得票数 2

1回答

抓取oddsportal信息

、、、、

我使用的是Python3.5，实际上我关注的是使用BeautifulSoup/lxml/Selenium/PhantomJS进行3.5抓取我只是想用Python代码抓取我需要的所有数据。我可以很容易地用BeautifulSoup从静态HTML中抓取信息。我最近也发现了如何从动态url中获取信息，使用Chrome的网络选项卡，并在XHR选项下查看出现的HTTPrequest。它通常会给我从JS生成的htm

浏览 2提问于2016-01-14得票数 1

3回答

什么是好工具，自动抓取网站，检查某些链接，并提取数据？

、

我想自动抓取大约100万个URL(在一个CSV文件上)，并检查这些站点是否提供了Facebook登录按钮(即用户可以通过将他们的Facebook帐户连接到站点来创建帐户)。我也想检查网站是否使用HTTPS和使用cookie。什么是好工具？

浏览 0提问于2015-05-18得票数 3

回答已采纳

1回答

如何确保在我的Scrapy爬行器中解析每个URL

、、、

我尝试在美食博客上抓取食谱列表的每一页，抓取每一页上的食谱URL，然后将它们全部写入一个.txt文件。我已经添加了一个.log()来检查urls是否确实包含了我试图从其中抓取的所有正确的URL，当我在命令提示符中执行Scrapy时，我得到了以下确认： 2019-01-31 22:16:17 [recipesfwp_paged=%s" % i urls.append(curr_url</

浏览 21提问于2019-02-01得票数 1

3回答

如何从IG帖子中获取图片或视频url？

、、

我需要从instagram后链接抓取图像和视频(例如：)。当使用python的正常请求时，我在html响应中没有接收到图像url。请帮我拿一下。

浏览 0提问于2017-09-27得票数 4

2回答

如何抓取没有页数的url

、、

我正在抓取一个网页，其中有一个没有页面，我如何才能抓取这些页面，以获得我想要的信息。假设我正在抓取一个URL ，这个页面有两个页面，我如何抓取这些总页面并得到总的产品列表。到目前为止我所做的是:我从他们那里抓取一个url，我通过正则表达式抓取一个特定的url，并试图从那个url中找到他们的链接，其他页面中没有包含链接产品名称的信息。我想要从所有页面中获取产品名称。我使用</

浏览 1提问于2016-02-28得票数 0

2回答

如何让文章的作者使用python-goose？

、、

我正试着从新闻机构抓取文章，但我想不出如何用python找到一篇文章的作者。我已经阅读了文档，源代码，并搜索了谷歌。from goose import Goose g = Goose() printarticle.title # print article.writer 那么，是否有一个内置的方式来提取文章的作者

浏览 1提问于2014-01-12得票数 1

回答已采纳

2回答

Python -如何在URL中不分页地刮分页

、

如何使用URL访问下一页，内容如下：我知道如何使用刮取库(BS4、Selenium)，但我不知道如何抓取这样的站点。我一直在玩谷歌Chrome开发工具，但没有成功。像Python这样的抓取站点通常的工作流程是什么？

浏览 0提问于2019-07-05得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

数千个指向json标记的URL

如何使用python打开web浏览器并返回重定向页面的url

Web通过python抓取问题，不能读取html文件吗？

使用python抓取URL不变的多个表的最佳资源

抓取urls的抓取顺序

web爬虫如何构建URL目录以抓取所需内容

使用Python中的导出按钮下载/导出站点搜索结果

将数据从Tripadvisor导入Google电子表格或Excel

抓取多个URL的抓取方法

生成EDGAR文件路径列表

使用curl抓取大页面

Webscraping HTML-包括所有链接内的标记

抓取oddsportal信息

什么是好工具，自动抓取网站，检查某些链接，并提取数据？

如何确保在我的Scrapy爬行器中解析每个URL

如何从IG帖子中获取图片或视频url？

如何抓取没有页数的url

如何让文章的作者使用python-goose？

Python -如何在URL中不分页地刮分页

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐