腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
视频
沙龙
4
回答
在批处理文件中使用scrapy crawl命令时继续批处理脚本命令
python
、
batch-file
、
scrapy
我使用scrapy从网页抓取信息。我已经写了爬虫代码,它工作得很好。我还有一些其他的python代码文件来优化抓取的数据。 总而言之,我有一个批处理文件,我首先在其中使用"Scrapy Crawl“命令,然后运行我的python文件来优化抓取的信息。 问题是,批处理脚本在"Scrapy Crawl“命令的末尾停止,并且不会继续执行批处理文件中后面的行。我该如何解决这个问题? 批处理文件的内容: CD "spiders_folder" scrapy crawl mySpider -o outputData.json -t json python refineDat
浏览 1
提问于2013-05-09
得票数 1
回答已采纳
3
回答
通过抓取所有页面来测试web
asp.net
、
asp.net-mvc-3
、
unit-testing
、
web-crawler
我用ASP.NET MVC3开发网站,由于视图是在第一次访问后编译的,所以有时我会遇到一些错误(如打字错误)的网站。 我想创建一些类似于单元测试的东西,它将尝试访问所有页面,以避免视图中的任何错误。 创建另一个在本地主机上抓取web的程序应该很容易,但我想将它集成到单元测试循环中。这个是可能的吗? 我应该自己写一个write simple crawler,还是应该使用一些已有的东西? 此外,这将是很好的获得列表的网页和他们的连接数量,看看哪些网页是可访问的多少个链接。爬虫应该只抓取我的网站,而不是外部链接。此外,它还可以帮助查找从起点(索引页)无法访问的页面。 我的网站有大约100个页面,所以
浏览 1
提问于2012-08-09
得票数 1
4
回答
TBDS是否支持实时数据接入、国产数据库接入?
官方文档
、
机器学习
、
数据库
、
大数据处理套件 TBDS
、
工业物联
腾讯云文档中没有关于TBDS数据接入组件的说明,TBDS都支持哪些数据来源?是否支持工业物联网设备实时数据采集?是否支持如达梦、翰高等国产数据库?另外机器学习平台DI-X也没有相关文档支持。 [附加信息]
浏览 670
提问于2018-04-08
9
回答
腾讯云时序数据库 CTSDB VS 传统时序数据库?
数据库
、
sql
很多公司已经开始持续收集、分析数据,用于异常处理、趋势预测、精准营销、风险控制等场景,希望利用数据的潜在价值,提高公司盈利能力和竞争力。那么腾讯云时序数据库 CTSDB VS 传统时序数据库,腾讯云时序数据库有没有什么进步?
浏览 1697
提问于2018-09-26
3
回答
解析器或web爬虫
php
、
html-parsing
、
web-scraping
、
web-crawler
我想从ehow.com中提取有关不同主题的数据,以存储在我的数据库中。问题是,我必须筛选多个网页才能从这个网站获取信息。为了浏览大量的网页并提取所需的数据,我会使用像SimpleHTMLDOM这样的抓取器,还是需要使用网络爬虫?
浏览 1
提问于2012-09-20
得票数 1
回答已采纳
1
回答
如何配置Scrapy以使用BeautifulSoup解析器
python
、
web-scraping
、
beautifulsoup
、
scrapy
我使用BeautifulSoup的默认html.parser从任何网页中提取数据,没有什么原因让我觉得它比使用XPATH/CSS选择器更灵活、更强大。在抓取之前,我学习了使用BeautifulSoup进行网络抓取。我想不出一种让Scrapy使用bs4作为解析器的方法。有可能吗?
浏览 2
提问于2019-08-18
得票数 0
回答已采纳
2
回答
关闭浏览器或单击中止时,脚本不会停止
c#
、
asp.net
、
events
我写了一个网络爬虫,它在do while循环中调用网页,循环时间为3秒 总共有7000个网站...我解析数据并将其保存在我的数据库中。 有时因为脚本加载了很长时间,我在浏览器中遇到超时, 但在后台,我继续说。我在我的数据库里看到了。 我能防止这种情况吗?..现在,如果我停止webserver,这是可能的。 谢谢你,并致以最良好的问候。
浏览 0
提问于2010-01-22
得票数 0
3
回答
智能爬虫,可以根据关键字对来源进行优先排序?
scrapy
、
web-crawler
、
nutch
我正在尝试创建一个网络爬虫,不断爬行网页,寻找包含某些关键字的网页。有很多开源的解决方案(Nutch,Scrapy等),但我需要一个智能的解决方案,可以优先考虑“丰富”的来源。 我想让机器人从某一页开始,f.e.,提取所有链接并继续抓取它们。现在,如果页面包含某个关键字f.e.。‘'foo',则应将此url发送到数据库。 现在,最难的部分来了。如果我创建并运行这样的机器人,爬虫可能需要很长时间才能找到包含指定关键字的新页面,因为它是在整个网络上爬行。如果蜘蛛能够识别出它经常在哪个领域找到关键字,那么这个过程就会大大加快,这样就可以更频繁地爬行这些关键字。 有没有一个开源的解决方
浏览 1
提问于2012-11-07
得票数 1
3
回答
将数据从PHP脚本传递到Python Web Crawler
php
、
python
、
stdout
、
stdin
、
web-crawler
我有一个python爬虫,每隔几分钟就抓取几个网页。我现在正在尝试实现一个可以通过web访问的用户界面,并显示爬虫获得的数据。我将使用php/html作为接口。无论如何,用户界面需要某种类型的按钮来触发爬虫程序立即抓取特定的网站(而不是等待下一次抓取迭代)。 现在,有没有一种方法可以将数据从php脚本发送到正在运行的python脚本?我在考虑标准输入/输出,但找不到一种方法可以做到这一点(从一个进程写入另一个进程stdin)。然后我在考虑使用一个共享文件,php在其中写入数据,python从中读取数据。但是,我需要一些方法来让python脚本知道,新数据已经写入文件,以及让php脚本知道爬虫何
浏览 1
提问于2011-03-31
得票数 1
2
回答
寻找用于数据处理/争论的语言和框架
data-mining
、
data-cleaning
我有一个广泛的系列项目,需要从许多不同类型的不同来源(网站,网络apis,传感器,遗留文本文件等)导入数据。是否有一个良好的框架(最好是开源)是自下而上构建的,以解决这类问题?最好是利用适当的语言(很可能是python),并且已经有了一个广泛的插件数据库。
浏览 0
提问于2015-08-30
得票数 1
5
回答
C#中任何好的开源网络爬行框架
c#
、
screen-scraping
、
web-crawler
、
web-scraping
我正在构建一个购物比较引擎,我需要构建一个爬行引擎来执行日常数据收集过程。 我已经决定在C#中构建爬虫。我对HttpWebRequest/HttpWebResponse类有很多不好的体验,众所周知,它们对于大型爬虫来说是高度错误和不稳定的。因此,我决定不在它们的基础上进行构建。即使在框架4.0中,它们也是有缺陷的。 我是根据自己的亲身经历说的。 如果他们知道有什么好的开源爬虫框架,比如java有nutch和apache commons,它们是非常稳定和高度健壮的库,我想要这里的专家们的意见,他们已经编码爬虫程序。 如果C#中已经存在一些爬行框架,我将继续在它们之上构建我的应用程序。 如果没有,
浏览 2
提问于2010-12-06
得票数 9
回答已采纳
2
回答
在Ruby中创建Web爬虫程序。如何解决性能问题?
multithreading
、
web-crawler
、
nokogiri
、
mechanize
我正在用Ruby构建一个网络爬虫,Rails作为前端。我使用的是Mechanize,它是基于Nokogiri构建的。我已经实现了一个可以抓取网页的解决方案,但我希望能够在一次运行中抓取20万个网站,我知道有一种比等待几个小时才能完成的更好的方法。我希望能够通过激发并行请求来实现最佳性能,而不会让它变得太复杂。我不知道任何关于线程和它的限制是什么,所以不要在爬虫运行时将服务器扣为人质,如果有人愿意指出我可以在哪里学习如何做到这一点,或者至少告诉我我应该寻找什么。保持在我的,我将写入数据库和文件(可能我可以从数据库导出,一旦抓取完成,而不是直接写入文件)。谢谢。 注意:在SO中有一个类似的问题,但
浏览 0
提问于2012-09-22
得票数 3
回答已采纳
1
回答
从具有不同结构的不同域(主要是)抓取多个单页面
python
、
web-scraping
、
scrapy
、
web-crawler
、
phpcrawl
我有一个非常具体的urls列表,我需要从其中抓取数据(不同的选择器/字段)。总共有大约1000个来自大约300个不同网站的链接,它们具有不同的结构(选择器/xpath)。我正在尝试看看是否有人对如何做到这一点有任何建议。我在网上寻找解决方案,可以看到人们推荐Python和Scrapy。虽然我对这些了解不多,并且仍然在努力理解,但我从网络上发现的似乎如果我使用Scrapy/Python来做这件事,看起来我将不得不为每个链接创建一个单独的爬虫(至少是具有不同结构的)。我也查看了Scrapy的通用爬虫方法,并尝试将它们用于我的情况,但它们不起作用。 我想要提取的示例链接和字段如下所示,其中"
浏览 0
提问于2018-08-22
得票数 2
2
回答
Scrapy -如何抓取网站并将数据存储在Microsoft SQL Server数据库中?
python
、
sql-server
、
scrapy
、
web-crawler
我正在尝试从我们公司创建的网站中提取内容。我已经在MSSQL Server中为Scrapy数据创建了一个表。我还设置了Scrapy并配置了Python来抓取和提取网页数据。我的问题是,如何将Scrapy抓取的数据导出到本地MSSQL Server数据库中? 这是Scrapy用于提取数据的代码: import scrapy class QuotesSpider(scrapy.Spider): name = "quotes" start_urls = [ 'http://quotes.toscrape.com/page/1/',
浏览 1
提问于2017-04-07
得票数 2
6
回答
腾讯云是如何推动轨道交通智能化升级的?
人工智能
近日,神州高铁与腾讯云计算有限责任公司签署了《框架合作协议书》。双方一致同意建立长期合作伙伴关系,充分发挥各自优势,共同推动互联网、大数据、云计算、物联网、人工智能等在轨道交通产业领域的应用。
浏览 1358
提问于2018-07-24
3
回答
Scrapy似乎不是在做DFO
python
、
web-scraping
、
scrapy
我有一个网站,我的爬虫需要遵循序列。例如,在开始执行a2之前,它需要执行a1、b1、c1等操作。a、b和c中的每一个都由不同的解析函数处理,相应的urls在请求对象中创建并生成。下面大致说明了我正在使用的代码: class aspider(BaseSpider): def parse(self,response): yield Request(b, callback=self.parse_b, priority=10) def parse_b(self,response): yield Request(c, callback=self.par
浏览 1
提问于2012-03-04
得票数 11
回答已采纳
1
回答
Python端字符串计数器
python
、
url
、
extract
、
counter
我回到了Python中的一个旧项目,但我似乎忘记了我是如何提取数据的,如果有人能为我指出正确的方向和文档来实现这一点,我将不胜感激。 我实现了一个web爬虫,它通过扫描我的HTML代码从html页面中提取信息。使用我使用过的BeautifulSoup和urllib2库扫描mywebsite.com/product=1的URL。 但是我想让mywebsite.com增加到最多10。如何提取、读取和替换url的末尾并替换它呢?我注意到其他人实现了urlparse库来替换域main,但是它与我的方法不一样。 > mywebsite.com/product=1 > mywebsit
浏览 2
提问于2017-03-03
得票数 0
回答已采纳
4
回答
大规模抓取/解析的技术是什么?
parsing
、
screen-scraping
、
large-data-volumes
我们正在设计一个大规模的web抓取/解析项目。基本上,脚本需要遍历网页列表,提取特定标记的内容,并将其存储在数据库中。如果要进行大规模(数千万页?)的操作,您建议使用哪种语言?。 我们使用MongoDB作为数据库,因此任何具有可靠MongoDB驱动程序的都是一个加号。 到目前为止,我们一直在使用PHP、curl和,但我不认为它们可以扩展到数百万个页面,特别是在PHP没有适当的多线程的情况下。 我们需要一些易于开发的东西,可以在Linux服务器上运行,具有强大的HTML/DOM解析器来轻松提取标签,并且可以在合理的时间内轻松下载数百万个网页。我们并不是真的在寻找网络爬虫,因为我们不需要跟踪链接和
浏览 1
提问于2010-06-30
得票数 8
1
回答
使用scrapy splash对抓取速度有显著影响吗?
python
、
selenium
、
web-scraping
、
scrapy
、
scrapy-splash
到目前为止,我一直在使用scrapy和编写自定义类来处理使用ajax的网站。 但是,如果我使用scrapy-splash,据我所知,它会在javascript之后抓取呈现的html,爬虫的速度会受到严重影响吗? 使用scrapy抓取一个普通的html页面所需的时间与使用scrapy-splash抓取javascript渲染的html所需的时间进行了怎样的比较? 最后,scrapy splash和Selenium的比较如何?
浏览 3
提问于2018-04-18
得票数 12
回答已采纳
2
回答
最适合用于图像爬行的开源、可扩展爬虫
language-agnostic
、
web-crawler
我们正处于一个项目的开始阶段,我们目前想知道哪个爬虫是我们最好的选择。 我们的项目: 基本上,我们要建立Hadoop和抓取网络上的图像。然后,我们将根据Hadoop中的Map/Reduce工具,在HDFS中存储的图像上运行我们自己的索引软件。除了我们自己的索引之外,我们不会使用其他索引。 一些特殊问题: 哪种爬虫最适合抓取图像?哪种爬虫最适合分布式爬行系统,在这种系统中我们使用多台服务器一起进行爬行? 现在这些看起来是最好的三种选择- Nutch:众所周知的规模。看起来并不是最好的选择,因为它似乎与他们的文本搜索紧密联系在一起,software.Heritrix:也可以伸缩。目前看来,最好的o
浏览 5
提问于2009-07-28
得票数 3
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
使用多个Python库开发网页爬虫(一)
如何使用Photon高效率提取网站数据
Python爬虫入门,快速抓取大规模数据-完结篇
Python爬虫入门,快速抓取大规模数据
使用Python进行网页抓取的介绍
热门
标签
更多标签
云服务器
即时通信 IM
ICP备案
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券