Python:抓取分类广告站点。如何只返回上一次运行的最新条目？

python、beautifulsoup、screen-scraping

我想关注一个分类广告列表页面，每当有新的东西出现时，它就会通知我。我在bs4中构建了一个相当天真的抓取器，它抓取单个页面并抓取商品、价格和商品的上市时间。item in soup.find_all(class_='_-W'): item.find(class_='_-t').text 在这一点上，我会把它连接到某个机器人上，每次

浏览 16提问于2019-03-15得票数 0

1回答

在数据库中存储结果时，如何避免重复存储

python、web-scraping、scrapy

我只是从scrapy开始，并试图开发一个项目，我从网站上抓取‘新闻链接’。例如，有一个网站iltalehti.fi，我想要抓取他们的新闻，比方说每5分钟。由于每次爬行都会返回重复项，如何避免将这些重复项存储在数据库中？因此，最终结果将是一个只包含不同条目的数据库，而不是两次包含相同新闻链接的数据库(如果我每隔5分钟运行一次爬虫程序，则可能会出现200次)。任何帮助都是非常受欢迎的，请注意我对

浏览 20提问于2020-04-07得票数 0

1回答

mysql选择不同但最新的行

mysql、sql

如何从表中为存在的每个不同的“站点”选择最新的“得分”？| score a | 20140102 | 8 b | 20140202 | 9 b | 20140202 | 9

浏览 2提问于2014-04-06得票数 1

回答已采纳

2回答

表底行刮擦

python、html、python-3.x、beautifulsoup

我正在使用python3.4。我知道如何利用来抓取网页，但我正在努力想出最有效的方法来实现这一点。 (安卓)包含所有Nexus设备的列表，并在新版本可用时进行更新。最新的构建总是添加到相应表的底部。我列出了每个设备的名称，包括实名和代号，我只提取这些名称(如果是这样的话，设备本身每年只更新一次，而且只有一些设备仍在接收更新)。，从每个表中提取底部条目的最有效方法

浏览 6提问于2016-01-25得票数 1

回答已采纳

1回答

Python 64位没有存储32位python那么长的字符串

python、python-2.7、beautifulsoup、32bit-64bit

我有两台计算机，都运行64位Windows 7，一台机器有32位的python，一台运行python 64位.这两台机器都有8GB的RAM。我正在使用BeautifulSoup来抓取网页，但是在我的python64机器上遇到了一些问题。我已经知道，64位len(str(BeautifulSoup(request.get(http://www.sampleurl.com).text)))的<

浏览 3提问于2015-02-19得票数 1

回答已采纳

1回答

使用curl抓取字典

php、shell、dictionary、curl、web-scraping

出于学术原因，我需要抓取一本朝鲜字典(我已经告诉自己与版权相关的问题)，这“实际上”应该很简单:网站是由一个PHP脚本返回的，它只是在每个字典条目的URL中使用升序数字：因此，基本上我假设最简单的方法是编写一个简单的shell脚本，其中条目的数量使用循环结构递增，再加上检查站点是否成功下载，因为连接不是很好，所以它会重复尝试下载站点

浏览 4提问于2017-03-25得票数 0

1回答

Facebook点赞按钮默认文本

facebook、facebook-like

我在我的网站上有一个FB喜欢按钮，但当它被点击时，在您的FB馈送上产生的“此链接摘要”文本是错误的。"Learn about HAIKU.LI from this free business profile providedby Network Solutions

浏览 0提问于2012-04-23得票数 0

回答已采纳

1回答

在Ember js中使用promises排序一系列函数

javascript、ember.js、promise

我不确定这个问题的标题是什么。我要做的是抓取大量的电影，只过滤那些有评论的电影，然后按日期描述对评论进行排序，然后在设置第一个要展示的条目并返回模型之前，将列表修剪为只抓取最新的11个条目。然而，对于这些大量的调用，我注意到一些数据被打乱了顺序，我相信这是因为所有的调用都同时运行。如何使用p

浏览 3提问于2016-06-17得票数 0

4回答

周期性HTML爬行

php、html、parsing、web-crawler

我正在考虑开发一个站点，服务器将定期爬行另一个站点，以便为我的数据库中的某些条目收集内容。我的问题如下。我应该考虑建造自己的房子吗？如果是这样的话，一些关于如何开始的建议将是很棒的。基本上，我想要做的事情是，服务器执行一个脚本(比如

浏览 2提问于2011-09-14得票数 2

回答已采纳

1回答

从新闻源自动抓取新的新闻文章最有效的方法是什么？

screen-scraping

我有一个问题，我不知道如何从新闻网页上获取新的新闻文章。我用python写了一个抓取器脚本，当我运行它时，它从源(今天发布的运行时间)获取所有新闻，并将它们保存到一个CSV文件中(我保存: URL，标题，日期，时间，图像URL，类别，内容)。当我再次运行脚本时，它会检查CSV文件是否处理了URL，这样它就不会写入重复内容，而只写入新内容。最后，我想将这些结果写入我的数据库。但是使用这个脚本，我必须周

浏览 0提问于2019-12-09得票数 0

1回答

在Instagram改变了API进程后，如何使用Python和Selenium来抓取Instagram？我找不到所有的条目，只能找到12个

javascript、python、selenium、web-scraping、instagram

我正在尝试使用Python和Selenium来抓取Instagram。目标是获得所有帖子的网址，评论的数量，喜欢的数量等。我能够抓取一些数据，但由于某种原因，页面显示的最新条目不超过12个。我想不出一种方法来显示所有其他条目。我甚至试着向下滚动，然后阅读页面，但只给出了12个。我检查了源码，但无法找到如何获得其余条目。看起来这12个条目被嵌入到

浏览 9提问于2020-04-07得票数 0

2回答

一个php cron作业可以运行多长时间/我做得对吗？

php、cron

我已经创建了一个php/mysql刮板，它运行得很好，但我不知道如何将它作为cron作业来最有效地运行。我应该将其作为1个cron作业运行整个4-7个小时，还是每小时运行7次，或者每10分钟运行</

浏览 2提问于2011-09-29得票数 8

回答已采纳

2回答

Django __gt过滤器返回重复项

python、django

我希望使用time_created作为标准从我的模型中获取项目。如果我获取的最新条目是在 12:45:44 上发布的，我将其存储在request.session‘’time‘at =12:45:44中，并使用它来获取比上次抓取晚的项。new_notice = Notify.objects.filter(time_created__gt = request.session['time_at']) 这应该是从12:45返回</e

浏览 1提问于2015-02-15得票数 1

3回答

Python中的屏幕抓取

python、screen-scraping

虽然我在R中做过一些屏幕抓取，但我对Python中的屏幕抓取这个概念还是个新手。我正在尝试抓取Yelp网站。我在试着抓取yelp搜索返回的每家保险公司的名字。对于大多数抓取任务，我能够执行以下任务，但在解析xml时总是遇到困难。find_desc=insurance+agency&ns=1&find_loc=Austin').read()) 那么，当抓取</e

浏览 0提问于2011-06-30得票数 3

回答已采纳

1回答

使用MongoDB访问JavaScript的常见方式是什么？

javascript、node.js、mongodb、nginx、mongoose

假设我编写了一个HTML站点，部署在我的nginx Let服务器上。我用MongoDB创建了一个数据库，并在其中存储了数百万个条目。MongoDB服务器只监听本地接口，并通过localhost:27017访问。现在，我想通过单击“显示用户”或“获取最新条目”按钮，访问公开访问的nginx Get服务器上的网页，并通过JavaScript访问数据库中的条目。我只需要在数据库上

浏览 5提问于2014-11-16得票数 1

回答已采纳

2回答

使用glob()查找某个时间点之后的目录

python、python-2.7

default.log│ │ ├── default.log│ │ ├── default.log 这些日志每天生成一次，并返回大约七个月，但我只需要过去一周的日志文件。因此，如果今天是2015-11-12 (2015年11月12日)，我希望文件夹中的日志文件从"20151105“(11月5日)到"20151111”(11月11日)。如何告诉glob.glob()只返回</

浏览 0提问于2015-11-12得票数 0

回答已采纳

5回答

如何定期将数据上传到Google？

python、security、google-app-engine、automation

我正在编写一个聚合应用程序，它从几个web源中抓取数据，并以新的接口显示这些数据。我正在抓取的网站每隔几分钟更新一次，我想确保我的聚合器上的数据是最新的。从自动化脚本定期向我的App应用程序提交新数据的最佳方法是什么？应用程序是用Python编写的。每个站点的抓取过程需要超过1秒

浏览 1提问于2009-11-06得票数 0

回答已采纳

2回答

在发生更改之前，there循环是否只运行一次子句？

python

很抱歉这个题目，这是一个很难表达的问题。我在用Python。基本上，我希望程序无限期地检查一个变量。例如，如果变量超过100，我希望代码块A只运行一次，然后程序什么也不做，直到变量返回到100以下，然后运行代码块B，然后再次等待该变量返回到100以上，然后再次运行块A，然后重复。time() close_time = time() calculate_time_o

浏览 1提问于2015-05-17得票数 0

回答已采纳

4回答

如何使用jQuery从其他网站抓取内容？

javascript、php、jquery、web-scraping

jQuery有没有从其他域名抓取内容的功能？另外，我不想使用大型服务器CPU，因为它是一台大学服务器。使用jQuery删除内容会占用大量的CPU吗？在Stack Overflow中，我读到了jQuery.get()函数，是否可以使用此函数从其他站点抓取内容？

浏览 3提问于2012-02-22得票数 2

回答已采纳

5回答

屏幕抓取效率

programming-languages、performance、screen-scraping

我们将每晚抓取数千个网站来更新客户数据，我们正在决定使用哪种语言来进行抓取。我们不受任何平台或语言的限制，我只是在寻找效率。如果我必须学习一门新的语言来让我的服务器表现良好，那也没问题。哪种语言/平台将为我们提供每美元最高的抓取效率？真的，我正在寻找高容量抓取的真实体验。这将是关于最大化CPU/内存/带宽。

浏览 0提问于2011-05-06得票数 3

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

在数据库中存储结果时，如何避免重复存储

mysql选择不同但最新的行

表底行刮擦

Python 64位没有存储32位python那么长的字符串

使用curl抓取字典

Facebook点赞按钮默认文本

在Ember js中使用promises排序一系列函数

周期性HTML爬行

从新闻源自动抓取新的新闻文章最有效的方法是什么？

在Instagram改变了API进程后，如何使用Python和Selenium来抓取Instagram？我找不到所有的条目，只能找到12个

一个php cron作业可以运行多长时间/我做得对吗？

Django __gt过滤器返回重复项

Python中的屏幕抓取

使用MongoDB访问JavaScript的常见方式是什么？

使用glob()查找某个时间点之后的目录

如何定期将数据上传到Google？

在发生更改之前，there循环是否只运行一次子句？

如何使用jQuery从其他网站抓取内容？

屏幕抓取效率

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐