从URL列表中抓取Python

文章/答案/技术大牛

发布

1回答

、、

我计划打开一个CSV文件，其中包含许多我想要抓取的URL。但是，在运行请求时，我只收到一个空白文档作为结果。当直接在Python代码中输入URL时，一切工作正常。保存在与刮板相同的文件夹中的CSV文件当前的格式如下： 'https://www.google.com/search?:attr(value)').get(), 'results': response.css('#result

浏览 5提问于2019-02-11得票数 0

1回答

web爬虫如何构建URL目录以抓取所需内容

、、、

有三个问题：哪里是学习更多关于网络爬虫的最好的地方？

浏览 2提问于2018-10-11得票数 1

1回答

如何从python抓取的URL列表中抓取数据？

、、、

我正在尝试使用Orange中的BeautifulSoup4从同一网站抓取的URL列表中抓取数据。当我手动设置URL时，我已经成功地从单个页面中抓取了数据。) 并且我已经能够抓取我需要的URL列表 from urllib.request import urlopenimport req

浏览 21提问于2021-07-23得票数 1

回答已采纳

1回答

Coursera URL web抓取

、

我有python代码，可以刮课程的细节，如course_title，评级，学生数量等，但我想课程链接以及。谁能帮助我如何从coursera获取每个课程的URL。

浏览 0提问于2020-08-12得票数 0

1回答

如何使用python从列表中抓取url

、、

BeautifulSoup(responses, "html.parser")而我正在接受错误 File "D:\python> File "C:\Users\amanp\AppData\Local\Programs\Python\Python35-32\lib\urllib\reque

浏览 3提问于2016-02-25得票数 0

回答已采纳

1回答

如何检测URL列表中的重复值并停止迭代？

、、、

我正在尝试使用puppeteer & cron抓取一个网站。它工作得很好，除了我不知道如何停止程序执行，如果检测到重复的url？grab all data // save it to the file 虽然这段代码运行良好，但当我在scheduler/cron上运行这段脚本时，我想以某种方式检测来自源站点的<a>标记是否已经被抓取，并在每次运行cron函数时停止代码再次抓取旧链接并将重复数据保存到字段中。

浏览 19提问于2020-12-11得票数 0

回答已采纳

2回答

如何在带有R的网站的搜索框中直接书写

、、

我正在寻找一种方法来做网页抓取后，在其搜索框中键入。让我用一个例子更好地解释:我正在寻找一个R函数，它直接在amazon主页上写入单词"notebook“，这样我就可以随后对生成的页面进行web抓取。也许我可以用Python来做？感谢大家的帮助。

浏览 2提问于2021-01-25得票数 1

1回答

Python3 beautifulsoup4多个url请求和保存数据

、

我是python的新手，我在使用Beautifulsoup从文本列表中抓取多个url，甚至编码到程序中时遇到了问题。下面是我的代码示例。当尝试从文本文件加载列表时，它也会失败。我有大约25个网址在一个文件中，我想通过程序来运行和收集每天。多个url代码失败。request('get', url, params=params, **kwargs) File

浏览 22提问于2020-08-26得票数 0

回答已采纳

1回答

如何下载来自谷歌群组的所有消息？

我想下载来自谷歌群组的所有消息，因为我想分析那里可用的讨论。我该怎么做呢？

浏览 2提问于2013-03-02得票数 9

1回答

如何从IMDB网站上抓取电影信息？

、、、、

我是Python的新手，正在尝试抓取IMDB。我正在抓取250部顶级IMDB电影的列表，并想在每个独特的网站上获得信息，例如每部电影的长度。 htmlsource = requests.get(

浏览 33提问于2019-05-13得票数 0

2回答

如何使用Python查找(并抓取)给定域上的所有网页？

、、

我如何抓取一个域名来找到所有的网页和内容？我想用Python做这件事，如果可能的话，最好用Beautiful Soup。

浏览 0提问于2013-06-20得票数 4

回答已采纳

1回答

Python从URL中抓取pdf

、、

我想刮从网址"“的文本，我感兴趣的文本是在‘菜单’选项卡在页面上。我尝试BeautifulSoup获取页面上的所有文本，但是下面代码中的返回值遗漏了菜单中的所有文本。www.nycgo.com/venues/thalia-restaurant#menu")soup = BS(html)当我检查菜单内容中的元素时

浏览 3提问于2016-01-15得票数 2

3回答

我有12000个已知的URL，用Python抓取它们最快的方法是什么？

、、

因此，我有一个从数据库中提取的URL列表，我需要抓取和解析每个URL的JSON响应。一些URL返回null，而其他URL返回发送到csv文件的信息。我目前使用的是Scrapy，但它需要大约4个小时来抓取这12000个URL。我研究过像、和这样的东西，但我不确定它们是否适合我的用例，因为它们似乎是围绕着抓取网站上找到的URL。对于单机抓取的如此多的URL来说，4小时

浏览 0提问于2020-08-25得票数 0

2回答

是否保存网页中的动态内容？

、、

可以保存来自网站的动态文本并将其转储到服务器上的文件中吗？我感兴趣的具体情况是保存此页面中的歌曲标题，并将所有歌曲标题保存在我的服务器上的一个文件中。这个是可能的吗？我可以使用什么方法来做到这一点？

浏览 1提问于2009-08-04得票数 0

回答已采纳

2回答

如何抓取没有页数的url

、、

我正在抓取一个网页，其中有一个没有页面，我如何才能抓取这些页面，以获得我想要的信息。假设我正在抓取一个URL ，这个页面有两个页面，我如何抓取这些总页面并得到总的产品列表。到目前为止我所做的是:我从他们那里抓取一个url，我通过正则表达式抓取一个特定的url，并试图从那个url中找到他们的链接，其他页面中没有包含链接产品名称的信息。我想要从所有页面中</e

浏览 1提问于2016-02-28得票数 0

3回答

抓取urls的抓取顺序

、

我有个关于scrapy和python的问题。我有几个链接。我使用循环在一个脚本中抓取每个脚本中的数据。但抓取数据的顺序是随机的，或者至少与链接不匹配。所以我不能将每个子页面的url与输出的数据进行匹配。喜欢:抓取的网址，data1，data2，data3。Data 1，data2，data3 =>这是可以的，因为它来自一个循环，但是我如何添加到循环的当前url，或者我可以设置链接列表的顺序？就像列表中

浏览 0提问于2018-04-18得票数 0

3回答

如何使用Python* Pandas Lib设置For循环来读取URL列表并抓取数据*

、

这是我的第一个Python脚本。我目前正在尝试从多个url中抓取嵌入到HTML表中的数据，这些url位于一个名为url-list.txt的文件中。我已经成功地使用Python的Panda库从一个页面中抓取了所需的数据，然而，我正在尝试执行一个简单的for循环，从url-list.txt文件中加载每个url，以便从</em

浏览 4提问于2019-06-08得票数 0

1回答

生成EDGAR文件路径列表

、

但是，在创建这样一个脚本之前，我需要为这些文件的位置生成一个列表，这些文件遵循以下格式： 000005114313000007/0000051143-13-000007 =报告ID，又名“

浏览 7提问于2016-05-22得票数 0

1回答

Python Requests.Get -提供无效架构错误

、、、

正在尝试从CSV文件中抓取URL列表。\Python36\lib\site-packages\requests\sessions.py", line 616, in send File "C:\Users\windowshopr\AppData\Local\Programs\Python\Python</em

浏览 27提问于2018-07-23得票数 1

回答已采纳

1回答

如何在gRPC客户端-服务器框架上强制多进程进行web爬行？

、、、

我正在尝试使用gRPC在python上构建一个网络爬虫。我已经在服务器文件中包含了抓取功能，并且我使用客户端从用户请求URL列表，并将其发送到服务器进行抓取部分。每个url大约需要25-30秒才能被抓取。因此，我想使用多处理来加速这个过程，即使用N个内核并行地从N个URL中提取信息。我该如何继续？

浏览 53提问于2019-01-22得票数 0

点击加载更多