腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
视频
沙龙
1
回答
我怎么能强制停止我的爬虫得到一个特定的网址抓取最后一次?
python
、
beautifulsoup
、
scrapy
、
web-crawler
、
html-parsing
我正在制作一个爬虫来找出最近添加的youtube视频,当我的爬虫到达旧视频(在前一个转弯中爬行)时,我想停止爬虫。我使用的不是scrapy和漂亮的汤,我使用的是python库。请给我推荐任何选项
浏览 9
提问于2017-06-27
得票数 0
3
回答
将数据从PHP脚本传递到Python Web Crawler
php
、
python
、
stdout
、
stdin
、
web-crawler
我有一个python爬虫,每隔几分钟就抓取几个网页。我现在正在尝试实现一个可以通过web访问的用户界面,并显示爬虫获得的数据。我将使用php/html作为接口。无论如何,用户界面需要某种类型的按钮来触发爬虫程序立即抓取特定的网站(而不是等待下一次抓取迭代)。 现在,有没有一种方法可以将数据从php脚本发送到正在运行的python脚本?我在考虑标准输入/输出,但找不到一种方法可以做到这一点(从一个进程写入另一个进程stdin)。然后我在考虑使用一个共享文件,php在其中写入数据,python从中读取数据。但是,我需要一些方法来让python脚本知道,新数据已经写入文件,以及让php脚本知道爬虫何
浏览 1
提问于2011-03-31
得票数 1
2
回答
每个线程有一个数据库连接?
java
、
database
、
multithreading
、
postgresql
、
connection
我制作了一个网络爬虫,每个线程不断地插入页面和链接。我必须为每个线程建立一个数据库连接,还是与它们共享一个连接?
浏览 0
提问于2011-05-18
得票数 1
回答已采纳
1
回答
定期运行python程序作为防火墙中的后台服务。
python
、
reactjs
、
firebase
只要开始使用firebase + react就可以建立一个网站。我的网站的一个设计特点是爬行和显示从另一个网站分析的数据(例如,股票价格的变化)。我已经有了负责解析数据的python爬虫,但是我不知道如何(在后台)在firebase中执行服务器的这个python爬虫(或者根本不可能)? 下面是我的系统的示例用法 用户登录和订阅网站/数据他们很感兴趣 我的爬虫将每1小时解析该网站并将数据更新到数据库。 用户可以从数据库中看到网站变更的摘要。 我想到的一个选择是在本地机器上运行爬虫,并使用REST将解析的数据更新到firebase数据库。然而,这似乎是一种非常低效/天真的方法,
浏览 0
提问于2018-01-25
得票数 3
2
回答
使用python提取网页上的URL列表的简单方法是什么?
python
、
web-applications
我想创建一个简单的网络爬虫为乐趣。我需要网络爬虫来获得一个网页上的所有链接的列表。python库中有没有内置的函数可以让这一切变得更容易?感谢您提供的任何知识。
浏览 5
提问于2010-11-10
得票数 1
2
回答
对于蟒蛇爬虫,我应该使用无限循环还是cron作业?
python
、
cron
、
web-crawler
我用python编写了一个爬虫,它可以访问60多个网站,解析HTML,并将数据保存到数据库。 现在,我正在使用cron作业,每15分钟运行一次爬虫。问题是,我无法知道爬虫要花多少时间才能完成(有时可能需要超过15分钟),如果已经在运行,我不想再运行另一个爬虫。 我一直在想,我是否最好使用一个无限循环,并使爬虫成为一个永久运行的进程(但是如何确保爬虫不会失败并退出呢?以及如何在每次退出时重新启动?)。 哪一个更有效率?无限循环还是cron作业?
浏览 7
提问于2021-05-14
得票数 0
1
回答
如何将Python Scrapy扩展的数据插入到MySql数据库表中?
python
、
mysql
、
database
、
scrapy
我正在为Python Scrapy构建一个扩展,以获取爬虫相关的详细信息,如开始时间、结束时间、爬虫状态(打开、关闭或活动)。现在我需要在我的MySql数据库表中存储当前的时间戳。有人能帮我吗?我需要一个代码来连接MySql数据库从剪贴画代码,并做数据库相关的查询,如插入,选择等。谢谢..
浏览 3
提问于2013-10-14
得票数 0
2
回答
Python的地址解析器,如何拆分地址
python
、
parsing
我对Python非常陌生,但似乎相处得很融洽。我正在用Python写一个网络爬虫。 我已经让爬虫使用Beautiful Soup库工作,并希望找到最好的库来解析或拆分地址到它的组成部分。 以下是要解析的文本的示例。 ['\r\n\t \t\t \t25 Stockwood Road', <br/>, 'Asheville, NC 28803', <br/>, '\t (828) 505-1638\t
浏览 2
提问于2015-02-18
得票数 0
1
回答
如何轻松地在远程github分支和本地分支/文件夹之间切换?
python
、
git
、
github
、
scrapy
会发生什么事? 我用Python2.7编写了大量的Scrapy爬行器。我需要将它们全部转换为支持Python 3,这种转换必须在1 go内完成。我只能在Python 3爬虫做好部署准备之后才能开始使用。我不能一次部署一个爬虫。 我做了什么/我有什么? 我目前有一个远程分支,它是主分支。让我们称之为遥控器-A。这就是容纳所有爬行器的分支,它们每天都会被执行。这个分支必须继续运作。 对于远程分支,我有本地文件夹/分支,修复错误并创建新的。让我们把它叫做Local.,从主人那里,我推拉。 现在,由于“所有操作都必须保持活动状态”,我需要一个单独的Python 3爬虫的远程分支。这个分支可以称为Rem
浏览 3
提问于2019-09-10
得票数 0
回答已采纳
1
回答
从单个MongoDB队列获取信息的多个工作人员
python
、
mongodb
、
queue
、
mongodb-query
、
worker
我正在用Python构建一个web爬虫,使用MongoDB来存储一个队列,其中包含所有要爬行的URL。我将有几个独立的工人,将抓取URL。每当工作人员完成URL抓取时,它将在MongoDB集合"queue“中发出请求,以获得要爬行的新URL。 我的问题是,既然会有多个爬虫,我如何确保两个爬虫器不会同时查询数据库并获得相同的URL来抓取? 非常感谢你的帮助
浏览 0
提问于2014-03-29
得票数 0
回答已采纳
3
回答
Perl或Python SVN Crawler
python
、
perl
、
svn
、
web-crawler
有没有一个SVN爬虫,可以遍历SVN存储库,并吐出所有现有的分支或标记? 最好是用Perl或Python ...
浏览 1
提问于2011-08-02
得票数 0
1
回答
StormCrawler: URL规范
java
、
url
、
stormcrawler
我对StormCrawler非常陌生--由于我一直在探索文档以及README和其他资源,我注意到它经常被称为"URL数据库“,它应该处理从爬虫运行过程中存储有关URL的信息(例如,)。 但是,我在任何地方都找不到这个数据库的类型,也没有找到如何定制它或用自定义模块替换它。我一直在跟踪这段代码,并得到了IOOutputController,它有一些非常混乱的方法,而且由于缺乏docstring,实际上要确定负责处理这个问题的类是相当困难的。 如有任何指导,我将不胜感激! 谢谢你抽出时间,马蒂亚š
浏览 2
提问于2020-08-26
得票数 0
回答已采纳
1
回答
docker:在完全初始化依赖MySQL容器之前依赖容器运行
mysql
、
docker
、
docker-compose
我有一个码头-撰写文件如下所示,它有2个容器。一个是Python,另一个是MySQL爬虫应用程序,它可以读取/写入数据库。当我做docker-compose up时,我看到: 数据库容器构建,然后构建应用程序容器,然后运行app容器上的CMD (例如启动爬虫),然后根据停靠-组合文件中的环境变量在DB容器中初始化数据库。<code>g 210</code> 我的问题是,为什么在DB容器中创建数据库之前,我的爬虫脚本还在运行?如何确保在运行爬虫脚本之前已经创建了数据库? version: '3.7' services: db:
浏览 5
提问于2020-02-05
得票数 1
2
回答
在两个共享数据库的独立程序中使用ORM
database
、
orm
我有一个应用程序,分为两个主要部分: 用Python编写的网络爬虫 用Golang编写的REST 他们共享一个MySQL数据库,该数据库主要由web爬虫填充/更新,然后通过REST读取。 我想在双方都使用ORM,以使与数据库的交互更容易,但现在我不确定这是否是一种好方法。 在Python方面,我考虑使用小淘气,而对于Golang,我将使用戈姆。 维护两组ORM模型文件似乎不是个好主意,每当我想要更改数据库的某些属性时,都必须更改每组文件。此外,我担心两个or在争夺数据库的结构时,可能会出现冲突,或者模型可能与实际的db结构不同步。 在这种情况下,使用ORM会带来比其价值更大的麻烦吗?或者我应该
浏览 0
提问于2015-10-13
得票数 2
3
回答
Python web crawler与MySQL数据库
python
、
mysql
、
sql
、
web-crawler
、
web-scraping
我想创建或找到一个用Python编写的开源网络爬虫(爬虫/机器人)。它必须找到并跟踪链接,收集元标签和元描述,网页的标题和网页的网址,并将所有的数据放入一个MySQL数据库。 有谁知道可以帮助我的开源脚本吗?此外,如果有人能给我一些关于我应该做什么的建议,那么他们将非常受欢迎。
浏览 4
提问于2011-08-11
得票数 6
回答已采纳
1
回答
使用预训练的手套向量
nlp
、
spacy
我使用的是Python2.764位,我想在spacy.By中使用预先训练好的维基百科语料库的词向量,默认在glove.can的普通爬虫语料库上训练,任何人都可以提供相同的代码片段。
浏览 0
提问于2017-04-27
得票数 0
1
回答
当并行运行处理器时,我应该如何选择要处理的下一个项?
mysql
、
design-patterns
、
parallel-processing
、
elasticsearch
我在没有数据库细节的情况下问这个问题,因为我觉得答案可能在于一种通用的设计模式,而且我不一定需要一个特定于系统的解决方案(我的特定系统设置在问题的末尾被引用)。 我有一个公司数据库,其中包含一个id、一个url和一个处理字段,以指示该公司目前是否正在由我的爬虫程序处理。我并行运行了许多爬行器。每个公司都需要选择一个公司来处理,并在该公司开始之前将其设置为处理,这样每个公司在任何给定的时间都只能由一个爬虫进行处理。 我应该如何构建我的系统来跟踪哪些公司正在被处理? 这里的挑战是,我不能搜索我的数据库中没有被处理的公司,然后更新该公司,将其设置为已处理,因为在此期间,另一个爬虫可能已经选择了它。在
浏览 7
提问于2012-11-27
得票数 1
4
回答
python中的网络爬虫数据库?
python
、
database
、
web-crawler
嗨,我用python编写了一个网络爬虫,从nytimes.com这样的新闻网站上提取新闻文章。我想知道什么是一个好的数据库作为这个项目的后端? 提前感谢!
浏览 3
提问于2010-01-27
得票数 1
回答已采纳
1
回答
在绑定DNS缓存上阻止错误配置的DNS条目
linux
、
networking
、
domain-name-system
、
bind
我正在运行一个具有自己的绑定DNS缓存的网络爬虫。我们的代码使用DNS缓存进行解析,并使用Python的请求库发出GET请求。 问题是许多FQDN配置错误,它们指向RFC1918 IP地址或环回IP(如127.0.0.1或10.0.0.0/8 )。因此,我们的爬虫试图连接这些it,并以来自数据中心的扫描报告结束。 我们对爬虫进行了更改,现在它首先为FQDN解析ip,如果IP处于私有/回环/保留范围,则跳过它。 在对tcpdump进行嗅探之后,我发现仍然存在流向私有IP地址的流量。我认为它们的发生是因为HTTP重定向,因为我们检查了原始的FQDN,但是我们不检查重定向的主机,因为这个部分发生在P
浏览 0
提问于2015-12-30
得票数 2
回答已采纳
1
回答
如何使用Glue Data Catalog创建红移表
amazon-web-services
、
pyspark
、
amazon-redshift
、
etl
、
aws-glue-data-catalog
我正在使用开发管道。因此,我有一个csv文件,它使用以多种方式进行转换,例如复制列、更改数据类型、添加新列等。我运行了一个爬虫程序,将数据存储在S3位置,因此它根据给定的csv文件创建胶水表。我的意思是,当我向csv文件添加一个新列时,它会在运行爬虫时相应地更改粘合表。 现在我想用做同样的事情,我想做的是在Redshift中创建一个表,它类似于我前面提到的粘合表(使用csv创建)。很多答案都解释了如何手动创建红移模式。我也是这样做的,但是当数据类型发生变化时,我必须手动更新它。当csv文件发生变化时,Redhsift表必须进行相应的更新。 我能用爬虫做同样的事情吗?我的意思是创建一个类似于胶水
浏览 13
提问于2021-02-28
得票数 1
回答已采纳
1
回答
如果我为我的python脚本做了一个简单的gui,它会影响它的效率吗?
python
、
user-interface
、
tkinter
嗨,我想做一个网页爬虫,检查URL的数据,如果我做一个简单的Gui,使脚本更容易查找变量的数据,添加代码的gui会使我的网络爬虫效率降低吗? 我需要爬虫尽可能高效,能够尽可能快地处理数据。为这个Python脚本制作一个gui,会不会妨碍web爬虫的性能?
浏览 3
提问于2015-01-27
得票数 0
回答已采纳
2
回答
木偶人爬行器大规模爬行
web-crawler
、
puppeteer
、
google-chrome-headless
我们正在使用Puppeteer编写一个网络爬虫。我们写的木偶爬虫执行和爬行网站的网址没有问题的网页,如约1,500 - 5,000,但是,当我们执行的网站超过5,000,如果它在中间由于一些错误或崩溃而中断,那么它需要重新开始。如果出现任何错误,如何使基于Puppeteer的网络爬虫从爬行的最后状态恢复?在Puppeteer中有没有内置的函数?如何让这个木偶手无头的chrome web爬行通过一个队列系统?
浏览 14
提问于2020-12-05
得票数 2
1
回答
使用Qt作为纯终端应用的Web爬虫
c++
、
qt
、
web-crawler
我在GUI环境中使用Qt创建了一个用于特定任务的简单web爬虫。现在,我想将它自动化(使用cron),并使用纯非GUI环境所必需的。我试图将代码移植到一个非GUI应用程序,但没有成功。 我有一些问题: 在纯非GUI环境中使用QWebPage是可能的吗?( Linux终端)。我读过一些类似的问题,我认为这是不可能的,但我仍然有一些疑问。 如果不可能,如何使用Qt为非GUI应用程序编写web爬虫程序?我熟悉Qt (当然不是专家),如果可能的话,我想使用它 如果仍然不可能,您建议获得和解析HTML页面的库是什么?(多平台和C++,也是Python,但这意味着我还要做很多工作) 编
浏览 0
提问于2012-09-20
得票数 1
1
回答
403在Heroku上使用python请求抓取网站时出现禁止错误
python
、
heroku
、
python-requests
、
web-crawler
、
http-status-code-403
我编写了一个爬虫脚本,将post请求发送到"sci-hub.do“,并将其设置为在Heroku上运行。但当它尝试发送post或get请求时,我得到的大多是403禁止消息。 奇怪的是,只有当这个脚本在Heroku云上运行时才会发生这种情况,当我在我的PC上运行它时,一切都很好,我得到了200状态代码。 我尝试过使用会话,但它不起作用。我还检查了该网站的robots.txt,并将User-Agent头设置为"Twitterbot/1.0“,但仍然失败。 我做错了什么?为什么只有在Heroku上运行脚本时才会发生这种情况。 我非常确定and服务器正在将我的脚本检测为爬虫机器人,并试
浏览 13
提问于2021-01-28
得票数 0
2
回答
Pycharm不能导入Beautifulsoup
python
、
python-2.7
、
python-3.x
、
beautifulsoup
、
web-crawler
OS: macOS Sierra Python版本:安装了2.7.10,然后安装了3.5.2。(默认设置2.7.10 ->有人知道如何卸载2.7或将默认设置从Python2.7更改为Python3.5?)Pycharm: 2016.2.3 (Project Interpreter 3.5.2) 我一直在开发一个基于BeautifulSoup库的网络爬虫,但有一个错误消息我永远无法摆脱。我在Pycharm中安装了beautifulsoup4库,它甚至可以加载库,但当它遇到"find“函数时,它总是回复错误消息,"NoneType‘对象没有’find‘属性”。 我附加了一条错
浏览 0
提问于2016-12-23
得票数 0
1
回答
在ubuntu的后台运行时,爬虫停止。
python
、
web-crawler
我使用具有无限循环的python制作了一个简单的爬虫,所以它不能停止。随机延迟17 ~ 30,这个爬虫爬行相同的一个页面,并找到'href‘链接,定期更新,并存储到Mysql。我使用了Ubuntu服务器。因为我使用了Linux命令 $ nohup python crawer.py & 这个爬虫是在Ubuntu服务器背景下运行的。我想它已经运行了大约4个小时。但爬虫突然停止了。第二天我再试一次。而且效果很好!有什么问题吗?这是关于网页的块吗?或者nohup命令有限制时间?非常感谢。
浏览 1
提问于2014-05-20
得票数 0
回答已采纳
3
回答
谷歌机器人信息?
c++
、
python
、
c
有没有人知道更多关于谷歌网络爬虫(又称GoogleBot)的细节?我很好奇它是用什么写的(我自己做了几个爬虫,现在正准备做另一个),以及它是否能解析图像之类的东西。我假设它是这样做的,b/c images.google.com中的图像都被调整了大小。如果它都是用Python编写的,如果他们使用自己的库来做大多数事情,包括html/image/pdf解析,我也不会感到惊讶。也许他们不会这样做。也许它们都是用C/C++编写的。提前谢谢你-
浏览 1
提问于2010-04-14
得票数 0
回答已采纳
1
回答
在python中连接到Mongo数据库
python
、
scrapy
、
pymongo
我必须做一个爬虫(我选择python)来填充在Symfony项目中创建的数据库(使用主义)。爬虫已经完成了,但当我尝试填充数据库时,它不工作... 因此,我在我的数据库(mtdbdd)中创建了一个新的test表,其中只有一个自动增量ID和一个标题。我尝试用下面的代码填充: from pymongo import MongoClient MONGO_URI = 'mongodb://root:root@127.0.0.1:8889' client = MongoClient(connect=False) client = MongoClient(MONGO_URI) db =
浏览 2
提问于2017-09-16
得票数 0
1
回答
如何提取我的爬虫目前所站的网址?
python
、
scrapy
、
web-crawler
我正在使用python中的scrapy框架制作一个web爬虫。其主要思想是,爬虫从页面中提取一些数据,如果数据符合某些条件,爬虫应该提取其当前所处的URL。是否有一些方法/函数可以获得当前的URL? 谢谢。
浏览 5
提问于2016-11-27
得票数 0
回答已采纳
1
回答
用机器学习理解Python中的网站结构
machine-learning
、
web-crawler
、
pybrain
我一直致力于抓取网页和提取网站的元素。例如:给定一个网站-爬虫应该返回以下部分:页眉、菜单、页脚、内容等。 我在想,如果我能使用机器学习来训练代码来学习如何对网站进行分类,那就太好了。 我尝试查看Python机器学习库(例如: PyBrain),但示例非常复杂。有没有人可以向我推荐一个库和一些教程,告诉我如何通过一些简单的例子开始使用Python机器学习? 谢谢!
浏览 0
提问于2011-10-23
得票数 1
回答已采纳
1
回答
Python请求库的上限下载大小
python
、
python-2.7
、
python-requests
我正在使用Python的请求库抓取一大堆网页,但偶尔爬虫会偶然发现一个绝对巨大的页面,无论是PDF、视频还是其他巨大的文件。有没有一个好方法来限制它将下载的文件的最大大小?
浏览 0
提问于2013-04-09
得票数 0
回答已采纳
2
回答
爬行时管理URL的常见方法是什么?
web-crawler
我正在尝试编写一个网络爬虫程序,但现在我想知道:存储所有urls的最佳方法是什么,这样爬虫就可以一起工作,但不会干扰。 示例: 爬虫1找到一个包含100个URL的页面。 爬虫2找到一个没有任何URL的页面。 爬虫1和2共享爬虫1发现的100个URL 我的想法(两种不同的方法) 让Crawler扫描页面寻找新的URL 将所有已找到的URL保存在由所有Queue实例共享的PriorityQueue( Crawler )中 一旦Queue变得太大(例如,最大大小的80% ),就将URL外包给数据库 让Crawler保存Analyzer,并在之后
浏览 5
提问于2011-12-28
得票数 0
回答已采纳
1
回答
分布在不同地理位置的爬虫
python
、
web-crawler
、
nutch
我在不同的地理位置有几台台式机。我需要创建一个爬虫与客户端在每个台式机和一个中央服务器,其中的数据是索引。有没有可能在Nutch中创建这样的爬虫?还有没有别的选择。基于Python的爬虫会更好。
浏览 2
提问于2011-07-04
得票数 0
回答已采纳
1
回答
Web Crawler的常用输出格式
web-crawler
需要将现有应用程序连接到社交媒体监控。爬虫的常见输出格式是什么?它会是XML,JSON吗?或者它会根据爬虫的不同而不同,例如: Python,Java?
浏览 0
提问于2012-08-20
得票数 0
回答已采纳
2
回答
网络爬虫-忽略Robots.txt文件?
python
、
web-crawler
、
mechanize
、
robots.txt
一些服务器具有robots.txt文件,以阻止web爬虫在其网站中爬行。有没有办法让网络爬虫忽略robots.txt文件?我正在为python使用Mechanize。
浏览 1
提问于2011-12-05
得票数 14
回答已采纳
5
回答
防止bot/crawler抓取和缓存html页面
html
、
css
有没有办法防止网络爬虫抓取和缓存我的面向公众的web应用程序网站?
浏览 1
提问于2010-11-17
得票数 1
回答已采纳
1
回答
将我的Python电子邮件爬行器转换为Web应用程序的框架
python
在Python方面经历了几年之后,我才知道它在web开发中的应用。我在Python中制作了一个电子邮件爬虫程序(基本上是一个使用其他几个功能的函数),它帮助我在generate实习的公司。我的老板问我是否可以让我的python电子邮件爬虫进入一个网络应用程序,这样其他员工就可以通过我来抓取电子邮件,这样我就可以在更重要的事情上工作。 是否有一些web应用程序框架可以用来将我的python电子邮件爬虫程序转换成一个简单的公司专用web应用程序?制作网络应用程序所需的时间范围是什么? 我非常开放和渴望学习web应用程序开发,因此,任何帮助或建议将不胜感激。谢谢。
浏览 5
提问于2015-07-08
得票数 0
回答已采纳
2
回答
如何将新的URL传递给Scrapy Crawler
python
、
django
、
multithreading
、
celery
、
scrapy
我想让一个抓取爬虫在芹菜任务工人内部不断运行,可能使用。或者,正如所建议的,这个想法是使用爬虫程序来查询返回XML响应的外部API。我希望将我想要查询的URL (或查询参数并让crawler构建URL)传递给crawler,crawler将进行URL调用,并将提取的项返回给我。一旦爬虫程序开始运行,我如何将我想要获取的这个新URL传递给爬虫程序。我不想在每次想要给爬虫一个新的URL时都重新启动爬虫,而是希望爬虫无所事事地等待URL爬行。 我发现的在另一个python进程中运行scrapy的两个方法使用一个新进程来运行爬虫程序。我不希望每次我想要抓取一个URL时,都必须派生和拆卸一个新的进程,因
浏览 0
提问于2013-05-23
得票数 2
1
回答
用于爬虫应用的数据库系统
database
、
web-crawler
我在一个基于java的爬虫上工作。我想在我的爬虫恢复功能,用户可以在任何时候暂停爬虫,在他想要的情况下,爬虫崩溃的情况下,他应该能够开始从爬虫停止的点上一次爬行。 为此,我必须在数据库中存储所有outlink (在任何页面找到的链接)。我不确定哪个数据库是最好的这类系统,因为它需要非常快的插入和检索的链接从数据库和频率插入和检索将非常高。 很少有人建议我像mongodb那样使用no-sql,但我只想确保它是这类系统的最佳选择。
浏览 2
提问于2012-01-06
得票数 1
回答已采纳
5
回答
Python中的多线程爬虫真的可以提高速度吗?
python
、
multithreading
、
gil
我想用python写一个小的网络爬虫。我开始研究将其编写为多线程脚本,一个线程下载池和一个池处理结果。由于有了GIL,它真的可以同时下载吗?GIL对网络爬虫有什么影响?会不会每个线程从套接字中提取一些数据,然后转到下一个线程,让它从套接字中提取一些数据,等等? 基本上我想问的是,用python做一个多线程爬虫真的比单线程能给我带来更多的性能吗? 谢谢!
浏览 4
提问于2010-05-14
得票数 10
回答已采纳
2
回答
网络爬虫的最佳数据库设计
.net
、
database
、
performance
、
web-crawler
许多数据库系统适合与网络爬虫一起工作,但是有没有专门为网络爬虫开发的数据库系统(在.net中)。 我的经验告诉我,网络爬虫有许多部分和服务,每个部分都需要一些特定的功能。例如,要缓存网页,我们需要一些东西,比如sql server的。或者检查db中是否已经存在URL,最好的选择是。 事实上,我有两个问题 1)与网络爬虫一起工作的最好的数据库系统是什么? 2)是否有涵盖所有功能的数据库系统!
浏览 2
提问于2011-07-05
得票数 1
2
回答
如何使用Python在需要Google帐户登录的网站上进行web爬行?
python
、
web-crawler
我是Python的新手,我想使用Python来抓取几个需要Google帐号登录的网站。例如,我想爬一个网站xxx.appspot.com,我需要登录我的谷歌帐户访问它,因为这个数据库需要验证,我是授权人员。 当我做这样的事情: content=urllib.urlopen(target_url).read() 当然,我得到的“内容”只是一个登录页面。如何实现代码,以便爬虫在实际爬行之前可以在Google帐户中签名。
浏览 1
提问于2013-12-18
得票数 2
回答已采纳
1
回答
ImportError:没有名为html.entities的模块
python-2.7
、
beautifulsoup
、
web-crawler
、
html-entities
、
importerror
我对蟒蛇很陌生。我正在使用python2.7.5。我想写一个网络爬虫。为此,我安装了BeautifulSoup 4.3.2。我使用以下命令安装了它(我没有使用pip) python setup.py install 我使用Eclipse4.2并安装了pydev。当我试图在脚本中导入这个库时 from bs4 import BeautifulSoup 我收到了这个错误 ImportError: No module named html.entities 请解释一下我该做些什么来纠正它。
浏览 4
提问于2013-12-12
得票数 1
回答已采纳
1
回答
PRAW:将注释和提交对象序列化为JSON
python
、
json
、
praw
我目前正在使用praw开发一个reddit爬虫,用于数据挖掘。我想抓取来自subreddits的评论和提交,然后将它们保存在数据库或文件中,最好是以json格式保存,以便以后使用。在python中,我很难将注释和提交对象序列化为JSON对象。是否有一种现有的方法或方法来做到这一点?注意:我对python也很陌生。 提前感谢您的帮助!
浏览 0
提问于2014-07-15
得票数 1
回答已采纳
1
回答
如何有效地运行python web爬虫
python
、
python-3.x
、
beautifulsoup
、
web-crawler
我有一个python爬虫,它获取信息并将其放入SQL中。现在我也有了php页面,它从SQL读取这个信息,并表示它。问题是:为了让爬虫程序工作,我的电脑必须全天候工作。我有一台简单的家用电脑--所以这是个问题。是否有一种不同的方式运行网络爬虫?还是我必须在我的电脑上运行?
浏览 1
提问于2015-12-08
得票数 0
回答已采纳
1
回答
Python-Selenium爬虫冻结,特别是在无头模式下(不可复制的bug)
python
、
selenium
、
web-scraping
、
web-crawler
、
headless
我构建了一个爬虫,它获取用户输入的产品列表的产品信息。有时,爬虫会结冰,特别是如果产品列表很长,如果爬虫在无头模式下运行的话。 这个bug似乎是随机的,也是不可复制的,这让我认为它是由被爬行的网站的资源利用引起的。 因为这是一个不可复制的错误,我不认为我能修复它,但有没有办法检测爬虫已经冻结,然后再试一次? 下面是关于爬虫和bug的一些信息: 爬虫是使用Selenium和Python构建的。 这个错误发生在不同的网站和产品上。 该错误发生在“正常”模式,但更多发生在无头模式。 谢谢! 费利佩
浏览 2
提问于2019-05-21
得票数 1
1
回答
客户端操作系统上的DNS查询是否序列化?
asynchronous
、
dns
、
web-crawler
即使您在Linux或windows上发出多个并行异步DNS解析请求(以编程方式),操作系统是否会序列化这些请求,并且不会将它们全部并行发送出去? 当我在一些地方读到gethostbyname或DNS APIs在最低层序列化时,甚至有人编写了这个async-dns python库来戏剧性地加速DnsResolve解析。 那么,是否有任何.NET应用程序接口或一般情况下,它可以并行工作,根据我的程序给出的请求数量? 想象一下一个网络爬虫场景,我需要每秒大量的dns查询,在一些早期的网络爬虫出版物中,提到dns成为瓶颈。
浏览 1
提问于2010-12-10
得票数 2
回答已采纳
1
回答
Boto3启动胶爬行器与新的s3输入
amazon-web-services
、
amazon-s3
、
aws-sdk
、
amazon-athena
、
aws-glue
我有一个亚马逊胶水爬虫,它查看一个特定的s3位置,包含avro文件。我有一个进程,它在那个位置的一个新的子文件夹中输出文件。 一旦我手动运行爬虫,新的子文件夹将被视为数据库中的一个新表,它也将是可从雅典娜查询的。 有什么方法可以使进程自动化,并以编程方式调用爬虫,但只指定新的子文件夹,这样它就不必扫描整个父文件夹结构了吗?我希望将表添加到数据库中,而不是将分区添加到现有表中。 我正在寻找Python选项,我确实看到了这样一个选项: import boto3 glue_client = boto3.client('glue', region_name='us-east-1
浏览 0
提问于2018-08-21
得票数 1
回答已采纳
3
回答
如何在Scrapy中的同一进程中运行多个爬行器
python
、
python-2.7
、
scrapy
我是Python & Scrapy的初学者。我刚刚创建了一个带有多个爬虫的Scrapy项目,在运行"scrapy crawl ..“它只运行第一个爬虫。 如何在同一进程中运行所有爬行器? 提前谢谢。
浏览 0
提问于2014-04-11
得票数 2
1
回答
将默认表属性分配给爬虫创建的表
amazon-web-services
我试图将表属性分配给用爬虫创建的表。 这样做的目的是让所有使用爬虫创建的表具有相同的默认属性(加上它们通常拥有的属性)。 我检查了爬虫创建界面中的选项,但没有看到这样的选项。在创建表之后创建一个python boto3脚本来修改表属性值,这是我唯一想到的事情。 如果这在默认的爬虫功能中是不可能的,那么将表属性附加到使用某个爬虫创建的每个表上的可行方法是什么? 编辑:一个可能的解决方案是创建一个lambda函数,检查胶水表中是否存在自定义参数,如果没有创建它们。
浏览 2
提问于2021-01-20
得票数 0
回答已采纳
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Python爬虫环境常用库及安装
python爬虫知识点3-常用请求库requests
python爬虫知识点4-常用解析库re正则
爬虫常用库的安装(二)
爬虫常用库的安装(一)
热门
标签
更多标签
活动推荐
运营活动
广告
关闭
领券