如何从python抓取的URL列表中抓取数据？_从URL列表中抓取Python_Python Scrapy:返回抓取的URL列表 - 腾讯云开发者社区

python、web-scraping、beautifulsoup、orange

我正在尝试使用Orange中的BeautifulSoup4从同一网站抓取的URL列表中抓取数据。当我手动设置URL时，我已经成功地从单个页面中抓取了数据。) 并且我已经能够抓取我需要的URL列表 from urllib.request import url

浏览 21提问于2021-07-23得票数 1

回答已采纳

1回答

如何检测URL列表中的重复值并停止迭代？

javascript、node.js、web-scraping、puppeteer

我正在尝试使用puppeteer & cron抓取一个网站。它工作得很好，除了我不知道如何停止程序执行，如果检测到重复的url？下面是我的项目的伪代码： // target = grab the <a> tag from site // saveit to the file 虽然这段代码运行良好，但当我在scheduler&

浏览 19提问于2020-12-11得票数 0

回答已采纳

2回答

正在尝试从R中的url加载数据

html、r

所以我想从这个url加载所有格式化的数据：转换成r，这样我就可以过滤掉其中的一些。一旦我得到它，我知道如何正确地过滤它，但我不能将它“注入”到R中。如果url以".txt“或".csv”结尾，我已经看到了许多拉取数据的方法，但是如果这个url不是以文件类型结尾，那么我知道如何获取它的唯一方法就是拉出html，但是我得到...所有的html。有几种选择可以将文件

浏览 3提问于2016-04-07得票数 0

3回答

抓取urls的抓取顺序

python、scrapy

我有个关于scrapy和python的问题。我有几个链接。我使用循环在一个脚本中抓取每个脚本中的数据。但抓取数据的顺序是随机的，或者至少与链接不匹配。所以我不能将每个子页面的url与输出的数据进行匹配。喜欢:抓取的网址，data1，data2，data3。Data 1，data2，data3 =>这是可

浏览 0提问于2018-04-18得票数 0

5回答

如何从其他网站获取数据？

python、database、parsing、web-scraping

我想创建一个网站，从其他网站提取信息，并将它们打印到我的网站上，我正在进行研究，所以我想听取一些意见，这个项目的最佳解决方案是什么？我听说Python使用解析器可以做到这一点，我只是想知道我应该走哪条路，应该使用哪种语言？

浏览 1提问于2013-06-14得票数 4

2回答

将数据从Tripadvisor导入Google电子表格或Excel

excel、web-scraping、import、tripadvisor

是否可以获取此数据的列表：阿姆斯特丹所有餐馆的名单。如果可能的话，还有详细的地址等等。非常感谢！

浏览 1提问于2020-09-17得票数 0

1回答

从多个页面中抓取表格

python、beautifulsoup

我想从网站上抓取数据。这个表扩展到多个页面上，但是url没有像page=3这样的东西，所以我不能遍历各个页面来获取数据。有没有其他方法可以像这样抓取数据，而不会在不同的页面上循环？如何从python访问不同的页面来抓取数据？

浏览 19提问于2018-03-04得票数 0

1回答

web爬虫如何构建URL目录以抓取所需内容

web、web-scraping、web-crawler、search-engine

我在试着了解网络爬行是如何工作的。有三个问题：有没有用python编写的开源web爬虫？哪里是学习更多关于网络爬虫的最好的地方？

浏览 2提问于2018-10-11得票数 1

2回答

如何在带有R的网站的搜索框中直接书写

python、r、web-scraping

我正在寻找一种方法来做网页抓取后，在其搜索框中键入。让我用一个例子更好地解释:我正在寻找一个R函数，它直接在amazon主页上写入单词"notebook“，这样我就可以随后对生成的页面进行web抓取。也许我可以用Python来做？感谢大家的帮助。

浏览 2提问于2021-01-25得票数 1

1回答

从URL列表中抓取Python

python、csv、scrapy

我计划打开一个CSV文件，其中包含许多我想要抓取的URL。但是，在运行请求时，我只收到一个空白文档作为结果。当直接在Python代码中输入URL时，一切工作正常。我的想法是CSV文件可能有问题，因为代码似乎与其他用户的代码一致。保存在与刮板相同的文件夹中的CSV文件当前的格式如下： 'https://www.google.com/searc

浏览 5提问于2019-02-11得票数 0

3回答

如何从网站拉取信息到我的项目中？

python、html、module

我有一个问题，那就是从网站获取信息到我的python项目中(当项目正在运行时)。我还没有写过任何代码，因为我是这种编程的初学者。我想问你，我需要哪些模块以及如何使用它们，如果你们中的一些人可以，我将感谢一些代码的例子。

浏览 1提问于2020-09-18得票数 0

2回答

如何抓取没有页数的url

python、web-scraping、beautifulsoup

我正在抓取一个网页，其中有一个没有页面，我如何才能抓取这些页面，以获得我想要的信息。假设我正在抓取一个URL ，这个页面有两个页面，我如何抓取这些总页面并得到总的产品列表。到目前为止我所做的是:我从他们那里抓取一个url，我通过正则表达式抓取一个特定的url，并试图从那个url</em

浏览 1提问于2016-02-28得票数 0

1回答

从具有不同结构的不同域(主要是)抓取多个单页面

python、web-scraping、scrapy、web-crawler、phpcrawl

我有一个非常具体的urls列表，我需要从其中抓取数据(不同的选择器/字段)。总共有大约1000个来自大约300个不同网站的链接，它们具有不同的结构(选择器/xpath)。我正在尝试看看是否有人对如何做到这一点有任何建议。我在网上寻找解决方案，可以看到人们推荐Python和Scrapy。虽然我对这些了解不多，并且仍然在努力理解，但我从网络上发现的似乎如果我使用Scrapy/

浏览 0提问于2018-08-22得票数 2

1回答

抓取oddsportal信息

javascript、parsing、python-3.x、beautifulsoup、scrape

我使用的是Python3.5，实际上我关注的是使用BeautifulSoup/lxml/Selenium/PhantomJS进行3.5抓取我只是想用Python代码抓取我需要的所有数据。我可以很容易地用BeautifulSoup从静态HTML中抓取信息。我最近也发现了如何从动态url中获取信息，使用Chrome<e

浏览 2提问于2016-01-14得票数 1

1回答

使用Python从Google Trends获取主题名称的主题id

python、google-trends

使用Python，我试图从Google Trends中抓取“主题”(而不是“搜索词”)的数据。我目前使用的是pytrends模块，但除非您知道topic_id，否则(目前)不可能抓取主题而不是搜索词。例如，如果你想抓取topic_name“假日”的数据，你可以使用topic_id /m/03gkl进行搜索，但前提是你知道那是topic_id。我有一个主题名称列表</em

浏览 36提问于2019-05-30得票数 0

3回答

如何使用Python* Pandas Lib设置For循环来读取URL列表并抓取数据*

pandas、python-3.7

这是我的第一个Python脚本。我目前正在尝试从多个url中抓取嵌入到HTML表中的数据，这些url位于一个名为url-list.txt的文件中。我已经成功地使用Python的Panda库从一个页面中抓取了所需的数据，然而，我正在尝试执行一个简单的<

浏览 4提问于2019-06-08得票数 0

2回答

如何使用Python查找(并抓取)给定域上的所有网页？

python、http、dns

我如何抓取一个域名来找到所有的网页和内容？我想用Python做这件事，如果可能的话，最好用Beautiful Soup。

浏览 0提问于2013-06-20得票数 4

回答已采纳

1回答

如何在python语言中使用selenium和chromedriver抓取此页面？

screen-scraping

我正在尝试使用selenium和chromedriver从网站“”中抓取数据。当我运行代码时，chromedriver成功地输入了url，但无法加载页面，显示了一个空白页面。我尝试将目标网站切换到google.com，但抓取成功。我的结论是目标网站服务器检测到selenium并拒绝发送回数据。那么如何在Python语言中使用selenium和chromedriver从网站抓取<em

浏览 0提问于2020-05-29得票数 0

2回答

从MongoDB获取_ids列表-避免“distinct太大”

python、mongodb、list、pymongo、distinct

我有一个从网站地图.xml文件中抓取数据的文件，并从每个页面下载一些数据。每次启动抓取函数时，我都会转到这个xml来获取要抓取的url，将它们放在一个列表中，将它们与我已经下载的url列表进行比较，因此只需要抓取剩下的url。我使用这些URL作为mongod

浏览 142提问于2021-03-14得票数 0

回答已采纳

1回答

Coursera URL* web抓取*

python、web-scraping

我有python代码，可以刮课程的细节，如course_title，评级，学生数量等，但我想课程链接以及。谁能帮助我如何从coursera获取每个课程的URL。

浏览 0提问于2020-08-12得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云