Python抓取超过1个页面并去掉重复项

python、excel、pandas

目前卡住了，我的程序不能刮过第一页，并且在打印到excel时给我重复的结果。我想知道如何解决这个问题我一直在看URL，但我坚持为什么我总是得到重复的结果，而不是每个职位发布只有一个结果。

浏览 14提问于2021-02-10得票数 1

1回答

BeautifulSoup能理解相对URL吗？

python、beautifulsoup、urllib2

我正在尝试抓取一个使用大量相对URL的站点。一个归档页面具有指向许多单独条目的链接，但是URL类似于"../2011/category/example.html“不过，这似乎是一个很大的限制。有没有更干净的方法？

浏览 3提问于2012-10-26得票数 2

回答已采纳

1回答

在数据库中存储结果时，如何避免重复存储

python、web-scraping、scrapy

我只是从scrapy开始，并试图开发一个项目，我从网站上抓取‘新闻链接’。例如，有一个网站iltalehti.fi，我想要抓取他们的新闻，比方说每5分钟。由于每次爬行都会返回重复项，如何避免将这些重复项存储在数据库中？任何帮助都是非常受欢迎的，请注意我对python知之甚少！

浏览 20提问于2020-04-07得票数 0

2回答

删除重复的x值及其对应的y值

python-2.7、duplicates、duplicate-removal、repeat

我正在使用python2.7中的一个点列表，并对数据进行一些插值。我的列表中有超过5000个点，并且我的列表中有一些重复的"x“值。这些重复的"x“值具有不同的相应"y”值。我想去掉这些重复点，这样我的插值函数才能工作，因为如果有重复的"x“值与不同的"y”值，它会运行错误，因为它不满足函数的标准。

浏览 4提问于2015-08-07得票数 0

1回答

将大2dvc保存到结构vec的最佳方法

rust

我正在编写的一项微服务负责从web中抓取数据，然后将其保存在数据库中。web抓取的结果是2d向量，其中每一行负责struct的一个属性，我稍后将构造。然后将行保存到变量中。izip!quarter_date, },我的问题是，一个数据表可能有超过40个属性，从一个页面保存数据可能超过<

浏览 5提问于2022-03-24得票数 0

回答已采纳

1回答

自定义导航-品牌商店

magento

是否可以在导航菜单中动态填充“逐店”下拉菜单。我试图避免手动添加每个品牌作为一个子类别。

浏览 3提问于2012-11-14得票数 1

1回答

如何在Python中将set抓取的数据添加到集合中

python、for-loop、web-scraping、set

我正在尝试从网站上抓取URL，并使用集合将它们发送到.CSV文件，以便删除重复的URL。我知道set是什么以及如何创建set，我只是不知道如何将网络抓取的数据发送到set。我假设它在for循环中，但我是Python的新手，不太确定。urlf.close() 我知道我需要创建一个set()并将URL添加到set中，但我不确定如何创建，并且我被告知它还将消除任何重复项

浏览 20提问于2019-01-08得票数 0

回答已采纳

3回答

在无限循环中停止python脚本

python、loops、cron、infinite-loop

我正在编写一个Python脚本，它将不断地抓取数据，但它将花费相当长的时间。有没有安全的方法来阻止长时间运行的python脚本？循环将运行超过10分钟，我需要一个方法来阻止它，如果我想，在它已经运行之后。我有一个python脚本，它从页面中收集信息并将其放入队列中。然后，我希望有另一个python脚本，它位于

浏览 0提问于2012-08-10得票数 3

回答已采纳

2回答

Python:从列表中提取列表并删除重复列表

python、list、dataframe

'New Zealand'], dtype=object), array(['Indonesia', 'New Zealand'], dtype=object)]['Indonesia', 'New Zealand'] 我尝试删除重复项，但是，例如，对于np.unique(functools.reduce(operato

浏览 0提问于2017-10-19得票数 0

回答已采纳

2回答

使用python和sqlite进行Web抓取。如何有效地存储抓取的数据？

python、sqlite、web-scraping

我想定期抓取一些特定的网页(例如每小时)。我想用python来做这件事。抓取的结果应该插入到一个SQLite表中。新的信息将被抓取，但“旧的”信息也将再次被抓取，因为python脚本将每小时运行一次。更准确地说，我想要抓取一个体育结果页面，其中随着锦标赛的进行，越来越多的比赛结果会发布在同一页面上。因此，对于每一次新的抓取，我只需要将新的结果输入到SQLite表中，因为旧的结果在一个小时前(甚至更早)已经被

浏览 0提问于2013-04-17得票数 5

回答已采纳

1回答

如何将Keep_Fragments参数设置为True？

scrapy

我正在尝试抓取一个使用Js的站点，但scrapy一直将下一个页面的url作为副本丢弃，并停止抓取。根据我的理解，scrapy通过检查请求所指向的资源的散列来检查重复项，默认情况下会丢弃URL中的片段。

浏览 20提问于2020-09-09得票数 0

回答已采纳

2回答

如何用一些字符或字符串替换重复的字符

java

我需要将重复的字符替换为$%，然后是字符，然后是$%。下面我写的代码给出了"HE$%L$%LO“。

浏览 2提问于2014-02-07得票数 0

2回答

从html页面创建csv

parsing、html-parsing

有一个网站以html表格的形式显示了大量数据。他们已经对数据进行了分页，所以大约有500页。基本上，我需要写一个脚本来做这样的事情，但在C#中写太夸张了，我正在寻找其他解决方案，有网络经验的人使用： load page from http://x/page_i.html; save results in csv

浏览 5提问于2011-07-07得票数 3

2回答

抓取内存错误(请求太多)Python2.7

python、django、python-2.7、memory、scrapy

我一直在运行一个抓取爬虫在抓取一个大网站，我宁愿不提。我使用教程蜘蛛作为模板，然后创建了一系列启动请求并让它从那里爬行，使用如下所示： f = open('zipcodes.csv', 'yield self.make_requests_from_url("http://www.example.com/directory/%05d" % zipcode) 首先，有超过

浏览 1提问于2015-06-16得票数 1

回答已采纳

1回答

在页面上以Ionic语言显示多个列表

angularjs、angularjs-directive、ionic-framework

我有一个页面在我的演示Ionic应用程序，我需要显示两个类别的项目。我已经用这些项创建了两个数组，并使用collection-repeat来显示这些项。列表正确呈现时，我在控制台上看到一个最大堆栈大小超过错误。如果我有一个集合-在页面上重复，则不会出现错误。我创造了一支笔来演示它。有人能帮我吗？

浏览 1提问于2015-04-17得票数 0

回答已采纳

1回答

Pyppeteer for cascading下拉框？

python、pyppeteer

我使用python和pyppeteer抓取网页并截取。包含两个下拉框A和B的页面B的选择项基于A的选择(动态检索的项)。

浏览 27提问于2020-05-03得票数 0

1回答

如何在使用HTML解析器时加载网页上的所有项？

c#、python、html、web-scraping

但是，网页一次只加载12项，直到用户向下滚动，然后再加载12项。在C#或Python中，是否有一种方法可以使用任何开源库“查看”所有可用的项目，而无需物理地进入页面并向下滚动？使用Chrome的开发工具，我只能“看到”HTML窗口中的12项，直到我在网页上向下滚动并加载更多。注意:我在C#/Python抓取方面相对较新，所以我非常感谢任何深入的答案！

浏览 1提问于2019-05-30得票数 1

1回答

python中的多级/多页面web抓取

python、web-scraping、beautifulsoup

我对数据抓取很陌生，我很少检查过关于刮伤和漂亮汤的资源，但是我正在努力解决下面的问题。现在我需要收集部分的内容-概述，便利设施，规格等，然后回到以前的列表页面，并重复这对所有项目列出的页面。同时，点击next按钮并对所有条目重复相同的操作。请告诉我如何在python中为这个用例实现一个抓取算法。

浏览 1提问于2019-01-15得票数 0

回答已采纳

2回答

从多个文件中删除python类似的字符串

python

我已经从不同的网站抓取了txt文件，现在我需要将它们粘合成一个文件。在不同的网站上有很多相似的线条。我想去掉重复的部分。similar = True destfile.write(sourceline) 我将为每个源代码运行它，并逐行将其写到同一个文件中是否有其他方法可以删除重复项？

浏览 2提问于2013-06-26得票数 1

回答已采纳

1回答

在Python中对列表中数字的二进制搜索

python、algorithm

我在研究列表中一个数字的二进制搜索，并偶然发现了。列表可以是升序或降序，也可以是float of int数。仿冒密码的执行方法是什么？我在windows上使用pyt

浏览 3提问于2016-03-15得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

BeautifulSoup能理解相对URL吗？

在数据库中存储结果时，如何避免重复存储

删除重复的x值及其对应的y值

将大2dvc保存到结构vec的最佳方法

自定义导航-品牌商店

如何在Python中将set抓取的数据添加到集合中

在无限循环中停止python脚本

Python:从列表中提取列表并删除重复列表

使用python和sqlite进行Web抓取。如何有效地存储抓取的数据？

如何将Keep_Fragments参数设置为True？

如何用一些字符或字符串替换重复的字符

从html页面创建csv

抓取内存错误(请求太多)Python2.7

在页面上以Ionic语言显示多个列表

Pyppeteer for cascading下拉框？

如何在使用HTML解析器时加载网页上的所有项？

python中的多级/多页面web抓取

从多个文件中删除python类似的字符串

在Python中对列表中数字的二进制搜索

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐