python爬虫框架 - 腾讯云开发者社区

文章/答案/技术大牛

发布

1回答

如何提取我的爬虫目前所站的网址？

、、

我正在使用python中的scrapy框架制作一个web爬虫。其主要思想是，爬虫从页面中提取一些数据，如果数据符合某些条件，爬虫应该提取其当前所处的URL。是否有一些方法/函数可以获得当前的URL？

浏览 5提问于2016-11-27得票数 0

回答已采纳

1回答

我正在从一个更大的框架中调用一个基于Scrapy的爬虫。在爬行过程中，Scrapy记录所有事件。抓取之后，抓取应该停止日志记录，调用框架应该接管日志记录任务，并再次打印出来。如何阻止Scrapy 控制所有日志并将其传递回我的框架？更新：我将crawler.spider.settings.overrides['LOG_ENABLED'] = False添加到我的爬虫中。刮痕一直在阻止我打印到标准版。

浏览 2提问于2013-12-10得票数 1

1回答

将我的Python电子邮件爬行器转换为Web应用程序的框架

在Python方面经历了几年之后，我才知道它在web开发中的应用。我在Python中制作了一个电子邮件爬虫程序(基本上是一个使用其他几个功能的函数)，它帮助我在generate实习的公司。我的老板问我是否可以让我的python电子邮件爬虫进入一个网络应用程序，这样其他员工就可以通过我来抓取电子邮件，这样我就可以在更重要的事情上工作。是否有一些web应用程序框架可以用来将我的python电子邮件爬虫程序转换成一个简单的公司专用web应用程序？制作网络应用

浏览 5提问于2015-07-08得票数 0

回答已采纳

1回答

如何用python多进程检查网页是否存活

、

我想使用Python的多处理库并行执行这些检查。我写了以下代码(主要基于Python文档示例)，但运行速度似乎相当慢。有什么方法可以让这个脚本运行得更快吗？

浏览 0提问于2011-08-06得票数 0

回答已采纳

2回答

滚动您自己的web爬虫来抓取一个有多个条目的特定网站。

、

什么样的语言能够处理编写自己的网页爬虫？但是如果我需要的话，我想有一个很好的理由去学习一门新的语言。

浏览 0提问于2011-08-02得票数 0

回答已采纳

1回答

可能的反爬行者

、

我想我会写一个爬虫，从www.wordreference.com获取单词。我在机械化爬虫框架中使用Python。这个网站有没有可能有防爬虫机制？

浏览 5提问于2011-04-07得票数 1

回答已采纳

2回答

最适合用于图像爬行的开源、可扩展爬虫

、

我们正处于一个项目的开始阶段，我们目前想知道哪个爬虫是我们最好的选择。基本上，我们要建立Hadoop和抓取网络上的图像。一些特殊问题：现在这些看起来是最好的三种选择-摘要：我们需要从网络上获取

浏览 5提问于2009-07-28得票数 3

1回答

twitter好友爬行器

、

是否有可能根据友谊信息为twitter编写一个爬虫？我环顾四周，但至今没有发现任何有用的东西。谢谢莱拉

浏览 1提问于2011-03-17得票数 0

2回答

使用sklearn和Python进行大型应用程序分类/抓取练习

、、、

我正在研究一个相对较大的基于文本的web分类问题，我计划在python中的sklearn中使用多项式朴素贝叶斯分类器，并使用scrapy框架进行爬行。研究框架如下：我的问题是，对于如此大规模的应用程序，基于Python的分类器是否能够胜任任务，或者我是否应该尝试

浏览 0提问于2013-04-13得票数 5

1回答

Python Scrapy -解析最近更新日期的URL内容

、、、

我有一个用Python编写的、使用scrapy框架的网络爬虫/爬行器。我一直在尝试使用“最后修改”日期来标识每个页面的最新更新-但我也会收集被抓取的页面的每个HTML文件。

浏览 0提问于2021-01-13得票数 0

2回答

抓取Facebook粉丝页面

、

我想cral一个facebook的粉丝页面，以获得所有的成员谁是该页面的球迷的详细信息。我在face book API中有任何可以帮助我的函数。或者有没有其他方法可以让我这么做？

浏览 0提问于2009-12-16得票数 0

回答已采纳

1回答

在python中启动Twisted.internet.reactor

、

我正在尝试运行一个爬虫(用scrapy框架编写)，以便从python脚本而不是命令行工具运行。Scrapy是在扭曲的互联网框架上编写的，该框架有一个无法在过程中重新启动的反应器。

浏览 1提问于2014-02-17得票数 1

2回答

无法从AWS Lambda上的Scrapy获得结果

、、、、

我用python库构建了一个爬虫。在本地运行时，它工作得非常完美和可靠。我试图将它移植到AWS lambda (我已经对它进行了适当的打包)。然而，当我运行它时，当爬行运行时，进程不会被阻塞，而是在爬虫返回之前完成，没有给出结果。在启动爬行、安装钩针和添加声明器以及安装和使用特定的框架后，我尝试了睡眠，这个框架听起来解决了这个问题，但也不起作用。我相信这是一个问题，兰博达不尊重刮痕阻塞，但我不知道如何解决它。

浏览 0提问于2018-09-12得票数 4

回答已采纳

1回答

如何使用ASP核心运行爬虫、服务交互和生命周期问题

、、

我用ASP Core3.1应用程序开发了一个网络爬虫。其根本原因是，尽管应用程序作为一个整体被设计为一个API (用于启动爬虫、停止它、获取一些爬行数据)，但这些服务在后台运行的时间比API请求甚至会话长得多。我知道Singleton模式会导致问题，但是我没有更好的方法来运行这个爬虫。我应该期待哪些问题，是否有更合适的方法来设计这些服务？

浏览 3提问于2020-03-03得票数 0

回答已采纳

2回答

在网站和独立应用程序中使用Django框架

、

我计划为它写一个网络爬虫和一个基于网络的前端(或者至少是它找到的信息)。我想知道是否可以使用Django框架让网络爬虫使用与网站相同的MySQL后端(而不是让网络爬虫本身成为“网站”)。

浏览 1提问于2009-06-04得票数 1

回答已采纳

2回答

如何在MySQL数据库中存储动态python字典？

、、、

我正在做一个小型项目的网页-爬虫+搜索引擎。我已经知道如何使用Scrapy框架刮取数据。现在我想做索引。为此，我发现Python字典是我最好的选择。我希望映射类似于对象(字符串)的名称/标题， -> 对象本身( Python对象)。现在的问题是，我不知道如何在MySQL数据库中存储动态dict，而且我肯定想要存储这个dict！

浏览 1提问于2015-09-01得票数 1

1回答