腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
如何提取我的
爬虫
目前所站的网址?
python
、
scrapy
、
web-crawler
我正在使用
python
中的scrapy
框架
制作一个web
爬虫
。其主要思想是,
爬虫
从页面中提取一些数据,如果数据符合某些条件,
爬虫
应该提取其当前所处的URL。是否有一些方法/函数可以获得当前的URL?
浏览 5
提问于2016-11-27
得票数 0
回答已采纳
1
回答
如何防止刮伤从伐木?
python
、
logging
、
scrapy
我正在从一个更大的
框架
中调用一个基于Scrapy的
爬虫
。在爬行过程中,Scrapy记录所有事件。抓取之后,抓取应该停止日志记录,调用
框架
应该接管日志记录任务,并再次打印出来。如何阻止Scrapy 控制所有日志并将其传递回我的
框架
?更新:我将crawler.spider.settings.overrides['LOG_ENABLED'] = False添加到我的
爬虫
中。刮痕一直在阻止我打印到标准版。
浏览 2
提问于2013-12-10
得票数 1
1
回答
将我的
Python
电子邮件爬行器转换为Web应用程序的
框架
python
在
Python
方面经历了几年之后,我才知道它在web开发中的应用。我在
Python
中制作了一个电子邮件
爬虫
程序(基本上是一个使用其他几个功能的函数),它帮助我在generate实习的公司。我的老板问我是否可以让我的
python
电子邮件
爬虫
进入一个网络应用程序,这样其他员工就可以通过我来抓取电子邮件,这样我就可以在更重要的事情上工作。是否有一些web应用程序
框架
可以用来将我的
python
电子邮件
爬虫
程序转换成一个简单的公司专用web应用程序?制作网络应用
浏览 5
提问于2015-07-08
得票数 0
回答已采纳
1
回答
如何用
python
多进程检查网页是否存活
python
、
http
我想使用
Python
的多处理库并行执行这些检查。我写了以下代码(主要基于
Python
文档示例),但运行速度似乎相当慢。有什么方法可以让这个脚本运行得更快吗?
浏览 0
提问于2011-08-06
得票数 0
回答已采纳
2
回答
滚动您自己的web
爬虫
来抓取一个有多个条目的特定网站。
php
、
web-crawler
什么样的语言能够处理编写自己的网页
爬虫
?但是如果我需要的话,我想有一个很好的理由去学习一门新的语言。
浏览 0
提问于2011-08-02
得票数 0
回答已采纳
1
回答
可能的反爬行者
nlp
、
web-crawler
我想我会写一个
爬虫
,从www.wordreference.com获取单词。我在机械化
爬虫
框架
中使用
Python
。这个网站有没有可能有防
爬虫
机制?
浏览 5
提问于2011-04-07
得票数 1
回答已采纳
2
回答
最适合用于图像爬行的开源、可扩展
爬虫
language-agnostic
、
web-crawler
我们正处于一个项目的开始阶段,我们目前想知道哪个
爬虫
是我们最好的选择。基本上,我们要建立Hadoop和抓取网络上的图像。一些特殊问题:现在这些看起来是最好的三种选择-摘要: 我们需要从网络上获取
浏览 5
提问于2009-07-28
得票数 3
1
回答
twitter好友爬行器
twitter
、
web-crawler
是否有可能根据友谊信息为twitter编写一个
爬虫
? 我环顾四周,但至今没有发现任何有用的东西。谢谢莱拉
浏览 1
提问于2011-03-17
得票数 0
2
回答
使用sklearn和
Python
进行大型应用程序分类/抓取练习
python
、
scrapy
、
classification
、
scikit-learn
我正在研究一个相对较大的基于文本的web分类问题,我计划在
python
中的sklearn中使用多项式朴素贝叶斯分类器,并使用scrapy
框架
进行爬行。研究
框架
如下:我的问题是,对于如此大规模的应用程序,基于
Python
的分类器是否能够胜任任务,或者我是否应该尝试
浏览 0
提问于2013-04-13
得票数 5
1
回答
Python
Scrapy -解析最近更新日期的URL内容
python
、
web-scraping
、
scrapy
、
web-crawler
我有一个用
Python
编写的、使用scrapy
框架
的网络
爬虫
/爬行器。我一直在尝试使用“最后修改”日期来标识每个页面的最新更新-但我也会收集被抓取的页面的每个HTML文件。
浏览 0
提问于2021-01-13
得票数 0
2
回答
抓取Facebook粉丝页面
facebook
、
web-crawler
我想cral一个facebook的粉丝页面,以获得所有的成员谁是该页面的球迷的详细信息。我在face book API中有任何可以帮助我的函数。或者有没有其他方法可以让我这么做?
浏览 0
提问于2009-12-16
得票数 0
回答已采纳
1
回答
在
python
中启动Twisted.internet.reactor
python
、
twisted
我正在尝试运行一个
爬虫
(用scrapy
框架
编写),以便从
python
脚本而不是命令行工具运行。Scrapy是在扭曲的互联网
框架
上编写的,该
框架
有一个无法在过程中重新启动的反应器。
浏览 1
提问于2014-02-17
得票数 1
2
回答
无法从AWS Lambda上的Scrapy获得结果
python
、
python-3.x
、
amazon-web-services
、
scrapy
、
aws-lambda
我用
python
库构建了一个
爬虫
。在本地运行时,它工作得非常完美和可靠。我试图将它移植到AWS lambda (我已经对它进行了适当的打包)。然而,当我运行它时,当爬行运行时,进程不会被阻塞,而是在
爬虫
返回之前完成,没有给出结果。在启动爬行、安装钩针和添加声明器以及安装和使用特定的
框架
后,我尝试了睡眠,这个
框架
听起来解决了这个问题,但也不起作用。 我相信这是一个问题,兰博达不尊重刮痕阻塞,但我不知道如何解决它。
浏览 0
提问于2018-09-12
得票数 4
回答已采纳
1
回答
如何使用ASP核心运行
爬虫
、服务交互和生命周期问题
c#
、
asp.net-core
、
web-crawler
我用ASP Core3.1应用程序开发了一个网络
爬虫
。其根本原因是,尽管应用程序作为一个整体被设计为一个API (用于启动
爬虫
、停止它、获取一些爬行数据),但这些服务在后台运行的时间比API请求甚至会话长得多。我知道Singleton模式会导致问题,但是我没有更好的方法来运行这个
爬虫
。我应该期待哪些问题,是否有更合适的方法来设计这些服务?
浏览 3
提问于2020-03-03
得票数 0
回答已采纳
2
回答
在网站和独立应用程序中使用Django
框架
python
、
django
我计划为它写一个网络
爬虫
和一个基于网络的前端(或者至少是它找到的信息)。我想知道是否可以使用Django
框架
让网络
爬虫
使用与网站相同的MySQL后端(而不是让网络
爬虫
本身成为“网站”)。
浏览 1
提问于2009-06-04
得票数 1
回答已采纳
2
回答
如何在MySQL数据库中存储动态
python
字典?
python
、
mysql
、
dictionary
、
scrapy
我正在做一个小型项目的网页-
爬虫
+搜索引擎。我已经知道如何使用Scrapy
框架
刮取数据。现在我想做索引。为此,我发现
Python
字典是我最好的选择。我希望映射类似于对象(字符串)的名称/标题, -> 对象本身(
Python
对象)。 现在的问题是,我不知道如何在MySQL数据库中存储动态dict,而且我肯定想要存储这个dict!
浏览 1
提问于2015-09-01
得票数 1
1
回答
Scrapy:如何从crawler获取处理过的流水线项目?
python
、
scrapy
爬虫
是一个更大的
框架
的一部分,它需要
爬虫
返回一个解析的项目列表。 在Scrapy中,我实现了一个包含几个规范化步骤的管道。由于Scrapy是更大的
框架
的一部分-如果我可以在通过整个管道后将项目返回到
爬虫
和/或
框架
,那就太好了。有没有办法做到这一点?
浏览 0
提问于2013-12-05
得票数 0
2
回答
以XML格式保存网页的工具
html
、
offline
、
document-converter
、
xml
我想创建一个显示毒品信息的离线应用程序。我需要使用的信息已经在维基百科中提供了。但是在这个页面上,有那么多的子页面(1000+)需要保存,在我看来,手动完成这个任务是不可行的。我的需求最好免费 基于Windows或Linux的
浏览 0
提问于2015-01-06
得票数 4
回答已采纳
1
回答
可配置HTML信息提取
java
、
web-crawler
、
information-retrieval
、
information-extraction
场景:例如,一项共同任务如下: 获取ID X的表。如果有这样的答案的话,我会接受一个基于nutch的答案,因为我们正在研究如何将
爬虫
迁移到nutch,尽管我更喜欢一个通用的java解决方案。
浏览 0
提问于2019-06-23
得票数 0
1
回答
弹性豆杆不运行的克隆约伯
python
、
amazon-web-services
、
cron
、
crontab
、
amazon-elastic-beanstalk
我在一个弹力豆茎应用程序上有一个抓取器,我可以像这样运行SSH: 我想帮我安排一个任务来处理这个问题。Cron won't r
浏览 0
提问于2015-04-13
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
常用Python爬虫框架汇总
Python爬虫框架之pyspider
学习Python爬虫必备框架:Scrapy
Python之Scrapy 爬虫框架视频详解
纯python爬虫实现框架scrapy安装
热门
标签
更多标签
云服务器
即时通信 IM
ICP备案
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券