crawled - 腾讯云开发者社区

文章/答案/技术大牛

发布

1回答

Web crawler尝试

、、

下面是我的代码： import requestscrawled = set() global crawled, queue, DOMAIN headers = {'User-Agent': 'Mozilla537.36 (KHTML, like Gecko) Chrome&

浏览 7提问于2020-09-04得票数 1

回答已采纳

1回答

如何将变量传递给Scrapy Spider

、

: with open("URLs", "wb") as f: if link[0] not in s

浏览 21提问于2020-04-27得票数 0

1回答

Web-crawler循环

、、

def crawlweb(seed): tocrawl = [seed] while tocrawl:if page not in crawled: crawled.append(page) return crawled, tocrawl

浏览 0提问于2018-01-02得票数 0

1回答

特定域的详尽链接列表

、、、

我有一个函数可以解析给定网址(通常是域的根)的内容，并返回指向该域中其他位置的所有链接的列表。-it不包括外部链接，也不允许重复链接。该方法应该是相当有效的，它不应该使用任何库或模块，甚至不应该使用列表理解。以最明显和最明确的方式提供基本的指令。此外，了解树的结构也不重要。只是一个链接列表。

浏览 0提问于2018-04-08得票数 0

1回答

搜索引擎数据库设计？

、、、

我已经创建了一个应用程序，爬行网站。但是现在我想将这些数据存储在一些表中&我不知道搜索引擎如何存储数据和搜索，因此请帮助我为其创建基本模式。

浏览 4提问于2017-09-29得票数 0

回答已采纳

2回答

如何正确地拆分一个url，然后在javascript中获得剩余的部分？

, /xmlrpc.php这样的其余部分 var myUrl = [ "URL": "https://www.example.co/cat1/aa/bb/cc", }, "URL": "https://www.example.co/cat2/aa"

浏览 19提问于2019-07-02得票数 0

回答已采纳

3回答

数据库查询，根据最后的crawel数据获取最低价格

、、、

我想得到最低价格的产品，根据上次爬行的日期，由各经销商。我目前的功能是非常基本的，它让我从桌子上得到最低的价格，而不考虑经销商ids和爬行时间戳。function get_lowest_price($table_id) { $table_prices = $wpdb->get_results( "SEL

浏览 0提问于2018-03-13得票数 2

回答已采纳

1回答

Python的"if not in“的问题

、、

这是简化的代码： toCrawl = [url] i =depth: for x in toCrawl: print("NOT IN

浏览 2提问于2015-10-29得票数 0

1回答

如何从JavaScript中的urls列表中计算单词的出现次数？

、、、、

var urlList = [ "URL": "https://www.example.co/cat1/aa/bb/cc", }, "URL": "https://www.example.co/cat2/aa", "Last cr

浏览 26提问于2019-07-02得票数 1

回答已采纳

1回答

设置成员变量引发错误“”NoneType“”类型的参数不可迭代“

class Creeper: base_url = '' queue_file = '' queue = set() def __init__(self, base_url, project_name, domain_name= Creeper.project

浏览 0提问于2019-09-12得票数 0

1回答

MySQL:如何获取每小时价值w.r.t日期

、

我能够做到这一点，但我只想缩小到某个日期：from parsed_products我该如何提及crawled_at的具体价值？

浏览 2提问于2022-10-17得票数 -1

回答已采纳

2回答

试图更改dataframe中的项，引发键错误

、、、

17"], ["2016-03-24 10:58:45"], ["2016-03-14 12:52:21"]] 输出：0 2016-03-24 11:52:172 2016-03-14 12:52:21列上测试它时： datetimeconv("date_craw

浏览 0提问于2019-07-16得票数 0

回答已采纳

1回答

如果已经存在内容ID，python最好的方法就是不要重新爬行。

、

下面是爬行结果，如何防止基于seller_id的复制？目前，我在页面和页面中爬行，但希望根据ID获得唯一的结果。如果它在页面中看到与前一次爬行相同的seller_id，则不要再爬行。{"name": "bbb", "seller_id": "5555", "selle

浏览 0提问于2018-08-16得票数 1

回答已采纳

3回答

在不刷新页面的情况下更新前端数据？

、

= ""; var no_of_hits_today = ""; records_crawled = json[i].records_crawled;

浏览 4提问于2017-01-27得票数 0

1回答

试图创建python web爬虫

、、

"</a>",aTag) else:return links crawled=[]url=toCrawl.pop()newLinks=getAllNewLinksOnPage(url,crawled) pri

浏览 1提问于2013-11-05得票数 2

1回答

Portia中的Spider中间件未被调用

、、、

_cu_file = open("crawled_urls.txt", "a+") raise DropItem("Duplicate product scrape caught by IgnoreDuplicates at <%s_crawled_urls.add(request.url

浏览 1提问于2015-03-24得票数 0

回答已采纳

1回答

我怎么能强制停止我的爬虫得到一个特定的网址抓取最后一次？

、、、、

我正在制作一个爬虫来找出最近添加的youtube视频，当我的爬虫到达旧视频(在前一个转弯中爬行)时，我想停止爬虫。我使用的不是scrapy和漂亮的汤，我使用的是python库。请给我推荐任何选项

浏览 9提问于2017-06-27得票数 0

1回答

如何通过查找两个表中的非主键列来联接活动记录中的两个表？

、、、

我有三个表，它们的结构如下： `id` int NOT NULL, ***OMMITTED***NULL AUTO_INCREMENT, ***OMMITTED*** );class Crawled_Data< ActiveRecord::Base self.table_name = "crawled_da

浏览 0提问于2021-02-17得票数 0

1回答

抓取链接只抓取一次

、

在scrapy中，是否可以只抓取一次包含“hello”的url，然后继续抓取其余的url并跟随它们？

浏览 0提问于2014-04-25得票数 1

2回答

如何在没有javascript键的情况下分组forEach结果？

、、、、

var urlList = [ "URL": "https://example.com/cat1/aa/bb/cc", }, "URL": "https://example.com/cat2/aa", "Last crawled<

浏览 0提问于2019-07-01得票数 2

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Web crawler尝试

如何将变量传递给Scrapy Spider

Web-crawler循环

特定域的详尽链接列表

搜索引擎数据库设计？

如何正确地拆分一个url，然后在javascript中获得剩余的部分？

数据库查询，根据最后的crawel数据获取最低价格

Python的"if not in“的问题

如何从JavaScript中的urls列表中计算单词的出现次数？

设置成员变量引发错误“”NoneType“”类型的参数不可迭代“

MySQL:如何获取每小时价值w.r.t日期

试图更改dataframe中的项，引发键错误

如果已经存在内容ID，python最好的方法就是不要重新爬行。

在不刷新页面的情况下更新前端数据？

试图创建python web爬虫

Portia中的Spider中间件未被调用

我怎么能强制停止我的爬虫得到一个特定的网址抓取最后一次？

如何通过查找两个表中的非主键列来联接活动记录中的两个表？

抓取链接只抓取一次

如何在没有javascript键的情况下分组forEach结果？

扫码

热门标签

活动推荐

运营活动

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐