腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
视频
沙龙
2
回答
测试我的网站在程序中是如何显示的
、
、
、
、
网站不仅可以被浏览器上的用户访问,还可以被程序、机器人和爬虫访问。我有一个运行在上的带有python的网站,它具有由python程序通过组合、合并和循环字符串生成的非静态HTML页面。但是,它们也不是动态页面,因为生成这些页面不需要用户输入。python生成内容完全是为了方便、简洁和易于维护,并且完全由url设置。 一些搜索引擎无法对动态页面进行索引。我想知道这些页面是否符合“动态”,即它们是否可以被这类机器人为通常的元数据和内容进行爬行或索引,并且通常希望有一种方法来检查任何url在机器人或爬虫中是如何出现的,比如搜索引擎使用的url,这样我就可以看到某个url何时是不可爬的。 如果有人知道
浏览 5
提问于2012-01-09
得票数 0
回答已采纳
1
回答
爬行url \如何在node.js中获取动态链接
、
我正在使用js爬虫来抓取网站,现在我遇到了CNN,的那一部分(基于某种原因动态生成的urls)。事情是爬虫,不要真正接触脚本-我应该如何解决它?除了我的node.js爬虫之外,我还应该编写自己的代码吗?是否有先进的爬虫知道如何处理这种动态行为?
浏览 1
提问于2016-07-23
得票数 2
回答已采纳
1
回答
如何在基于用户输入的动态构建的页面上使用Google AdSense?
、
、
、
、
我试图在具有动态查询参数的网页上显示广告。https://app.example.com/converter?python2code=print%20g&python3code=print(g)。在这里,URL的?python2code=print%20g&python3code=print(g)部分总是在变化。 我怎样才能在那里展示广告? 注:据谷歌称, 在用户URL中添加会话ID的会话ID站点的动态页面可能会遇到显示相关广告的问题。会话in可以增加爬虫放置在服务器上的负载,这是因为我们的系统索引页面的方式。建议从URL中删除会话ID,以帮助解决此问题。 这些查询参数非常重要
浏览 0
提问于2021-08-26
得票数 4
1
回答
如何设置支持一系列动态URL的AdSense爬虫登录?
、
、
我有一个网站,主要功能动态内容。每一段动态内容都有自己的网址,如"www.example.com/page/\*/\*“ 我遇到的问题是,其中许多页面都需要用户登录。我读过关于AdSense爬虫登录的文章,并试图实现它。但是,我发现没有提到通配符或URL的正则表达式。据我所知,AdSense爬虫登录只支持静态URL。 是否有任何方法来设置支持一系列动态URL的AdSense爬虫登录?
浏览 0
提问于2015-02-03
得票数 3
1
回答
Python selenium屏幕捕获未获取整个页面
、
、
、
我正在尝试创建一个通用的网络爬虫,将去一个网站,并采取屏幕截图。我使用的是Python、Selnium和PhantomJS。问题是屏幕截图没有捕捉到页面上的所有图像。例如,如果我转到you tube,它不会捕捉到主页图像下面的图像。(我没有足够高的代表来发布屏幕截图)我认为这可能与动态内容有关,但我已经尝试了等待函数,如隐式等待和on set_page_load_timeout方法。因为这是一个通用的爬虫,所以我不能等待特定的事件(我想抓取数百个站点)。 有没有可能创建一个通用的网络爬虫来完成我正在尝试的屏幕截图?我使用的代码是: phantom = webdriver.PhantomJS()
浏览 4
提问于2014-10-06
得票数 3
2
回答
如何使用java或Python动态读取网页中的流式/推送数据?
、
、
、
、
我正在寻找最好的方法,可以帮助我从网页获取/接收推流(例如lightstreamer)。 由于网站每5秒通过JavaScript更新一次表,因此无法为此编写爬虫程序,它是动态加载的。 我想要这个网页中的数据表,但我不知道如何使用Java或Python来实现。我已经搜索了很多,大多数答案都是关于“如何从服务器流式传输数据”这样的问题,但我想要的恰恰相反,我如何从网页读取动态流式/推送的数据?
浏览 19
提问于2016-08-26
得票数 0
2
回答
如何在MySQL数据库中存储动态python字典?
、
、
、
我正在做一个小型项目的网页-爬虫+搜索引擎。我已经知道如何使用Scrapy框架刮取数据。现在我想做索引。为此,我发现Python字典是我最好的选择。我希望映射类似于对象(字符串)的名称/标题, -> 对象本身( Python对象)。 现在的问题是,我不知道如何在MySQL数据库中存储动态dict,而且我肯定想要存储这个dict! 一些关于如何去做的命令将是非常感谢的!
浏览 1
提问于2015-09-01
得票数 1
3
回答
用于web抓取的旋转代理
、
、
、
、
我有一个python网络爬虫,我想在许多不同的代理服务器上分发下载请求,可能是运行squid (尽管我对其他选择是开放的)。例如,它可以以循环方式工作,其中request1转到proxy1,request2转到proxy2,并最终循环回来。你知道怎么设置这个吗? 为了让它更难,我还希望能够动态地更改可用代理的列表,减少一些代理,并添加其他代理。 如果重要,则会动态分配IP地址。 谢谢:)
浏览 0
提问于2009-12-20
得票数 10
回答已采纳
1
回答
Scrapy管理动态爬行器
、
、
我正在建设一个项目,我需要一个网络爬虫爬行不同的网页列表。此列表可以随时更改。这是如何用scrapy最好地实现的?我应该为所有网站创建一个爬虫,还是动态创建蜘蛛? 我读过关于的文章,我猜动态创建爬行器是最好的方法。不过,我需要一个关于如何实现它的提示。
浏览 2
提问于2013-07-02
得票数 3
回答已采纳
1
回答
为什么我的动态创建的内容不能在Google中搜索
、
我的网站提供了动态创建的内容,爬虫可以看到,基于以下规范:。这样,谷歌爬虫用以下语法索引了大约5000个: urls 用谷歌的网站管理员工具查看我的抓取报告,我确信这些页面都被成功抓取了。但是,当通过Google进行搜索时,它们不会显示为结果。请注意,我确实找到了我的通用网站,在“更多结果”下,我找到了大约40个动态生成的页面,但显然这不是我想要的。我想根据它们的内容(AAPL,GOOG,...)找到页面。也许,爬虫认为我的页面或多或少是一样的。但事实并非如此。
浏览 3
提问于2013-06-09
得票数 0
1
回答
我可以使用powershell制作一个从动态网页获取数据的网络爬虫吗?
、
我正在做一个网络爬虫的项目,从内部网站获取一些信息。我发现静态页面可以通过几个简单的步骤(设置cookie,然后使用Cmdlet Invoke-RestMethod)来捕获,但是动态页面的数据不能通过这种方式获得。此外,我发现动态页面上的链接并不是持续不断的,例如,它总是由jsessionid或其他东西组成,它们总是随时间而变化。 有人能给我一个提示来解决这个问题吗?爬虫能抓取动态网页吗?谢谢..。
浏览 149
提问于2017-02-13
得票数 0
3
回答
将数据从PHP脚本传递到Python Web Crawler
、
、
、
、
我有一个python爬虫,每隔几分钟就抓取几个网页。我现在正在尝试实现一个可以通过web访问的用户界面,并显示爬虫获得的数据。我将使用php/html作为接口。无论如何,用户界面需要某种类型的按钮来触发爬虫程序立即抓取特定的网站(而不是等待下一次抓取迭代)。 现在,有没有一种方法可以将数据从php脚本发送到正在运行的python脚本?我在考虑标准输入/输出,但找不到一种方法可以做到这一点(从一个进程写入另一个进程stdin)。然后我在考虑使用一个共享文件,php在其中写入数据,python从中读取数据。但是,我需要一些方法来让python脚本知道,新数据已经写入文件,以及让php脚本知道爬虫何
浏览 1
提问于2011-03-31
得票数 1
1
回答
如何使用动态数据启用页面索引?
、
、
、
我有一个网站,它有特定的urls指向具有永久数据的页面,还有一些指向动态网页的urls。谷歌定期对这两种情况进行索引。当用户找到一个动态内容urls时,页面上的数据已经改变了,用户没有找到他想要的内容。此外,动态url页面包含指向永久url的链接(我希望Google或任何爬虫进行索引)。Google爬虫控件(网站管理员工具)不能从页面中读取urls,但不能对它们进行索引。解决办法?爬行策略系统架构。
浏览 3
提问于2010-04-26
得票数 3
1
回答
如果我为我的python脚本做了一个简单的gui,它会影响它的效率吗?
、
、
嗨,我想做一个网页爬虫,检查URL的数据,如果我做一个简单的Gui,使脚本更容易查找变量的数据,添加代码的gui会使我的网络爬虫效率降低吗? 我需要爬虫尽可能高效,能够尽可能快地处理数据。为这个Python脚本制作一个gui,会不会妨碍web爬虫的性能?
浏览 3
提问于2015-01-27
得票数 0
回答已采纳
1
回答
如何轻松地在远程github分支和本地分支/文件夹之间切换?
、
、
、
会发生什么事? 我用Python2.7编写了大量的Scrapy爬行器。我需要将它们全部转换为支持Python 3,这种转换必须在1 go内完成。我只能在Python 3爬虫做好部署准备之后才能开始使用。我不能一次部署一个爬虫。 我做了什么/我有什么? 我目前有一个远程分支,它是主分支。让我们称之为遥控器-A。这就是容纳所有爬行器的分支,它们每天都会被执行。这个分支必须继续运作。 对于远程分支,我有本地文件夹/分支,修复错误并创建新的。让我们把它叫做Local.,从主人那里,我推拉。 现在,由于“所有操作都必须保持活动状态”,我需要一个单独的Python 3爬虫的远程分支。这个分支可以称为Rem
浏览 3
提问于2019-09-10
得票数 0
回答已采纳
2
回答
如何为AngularJS网站构建sitemap.xml?
、
、
、
、
我已经设置了一个使用ui状态路由器的AngularJS应用程序。它有一些静态页面,除此之外还有基于配置文件id生成动态页面的配置文件页面。 为了搜索引擎优化的目的,我使用了PhantomJS和生成HTML来给爬虫响应。 但是,我如何才能生成包含所有动态页面地址的sitemap.xml,这样爬虫就可以在搜索引擎上获取并列出这些URL了呢?
浏览 22
提问于2016-11-14
得票数 8
1
回答
我怎么能强制停止我的爬虫得到一个特定的网址抓取最后一次?
、
、
、
、
我正在制作一个爬虫来找出最近添加的youtube视频,当我的爬虫到达旧视频(在前一个转弯中爬行)时,我想停止爬虫。我使用的不是scrapy和漂亮的汤,我使用的是python库。请给我推荐任何选项
浏览 9
提问于2017-06-27
得票数 0
1
回答
C#爬虫程序无法加载动态内容
、
、
、
我正在使用Abot库来抓取网页。爬虫可以正确地请求页面,但问题是几乎所有内容都是通过knockout.js动态加载的。爬虫程序目前无法请求此内容,这导致只加载了页面的一小部分。 我试着让程序等待,希望动态的请求无论如何都会被发送,但这似乎不起作用。 我希望加载整个页面,但只加载页面的底部。 如何才能使crawler请求所有数据? 谢谢!
浏览 12
提问于2019-07-09
得票数 0
1
回答
在ubuntu的后台运行时,爬虫停止。
、
我使用具有无限循环的python制作了一个简单的爬虫,所以它不能停止。随机延迟17 ~ 30,这个爬虫爬行相同的一个页面,并找到'href‘链接,定期更新,并存储到Mysql。我使用了Ubuntu服务器。因为我使用了Linux命令 $ nohup python crawer.py & 这个爬虫是在Ubuntu服务器背景下运行的。我想它已经运行了大约4个小时。但爬虫突然停止了。第二天我再试一次。而且效果很好!有什么问题吗?这是关于网页的块吗?或者nohup命令有限制时间?非常感谢。
浏览 1
提问于2014-05-20
得票数 0
回答已采纳
2
回答
抓取: Web抓取由于结构变化而停止
、
、
当抓取一个网页时,网页的结构一直在变化,我的意思是它的动态性导致我的爬虫停止工作。是否有一种机制可以在运行完整的爬虫程序之前识别网页结构的变化,以便识别结构是否已经改变。
浏览 32
提问于2020-09-28
得票数 0
1
回答
如何提取我的爬虫目前所站的网址?
、
、
我正在使用python中的scrapy框架制作一个web爬虫。其主要思想是,爬虫从页面中提取一些数据,如果数据符合某些条件,爬虫应该提取其当前所处的URL。是否有一些方法/函数可以获得当前的URL? 谢谢。
浏览 5
提问于2016-11-27
得票数 0
回答已采纳
2
回答
塔防御:重叠的塔范围
、
我计划用一些动态的方法来创建一个塔防御游戏。场景是这样的: 红色区域将是“杀伤区”,玩家的塔位/策略将在这里得到极大的利用。 我想要发生的是,当一个有“主动护盾增益”的海浪中的爬虫进入杀伤区时,爬虫会激活他的技能来保护附近的爬虫。 有没有一种算法可以帮助我做到这一点?
浏览 2
提问于2016-11-23
得票数 0
1
回答
分布在不同地理位置的爬虫
、
、
我在不同的地理位置有几台台式机。我需要创建一个爬虫与客户端在每个台式机和一个中央服务器,其中的数据是索引。有没有可能在Nutch中创建这样的爬虫?还有没有别的选择。基于Python的爬虫会更好。
浏览 2
提问于2011-07-04
得票数 0
回答已采纳
1
回答
Web Crawler的常用输出格式
需要将现有应用程序连接到社交媒体监控。爬虫的常见输出格式是什么?它会是XML,JSON吗?或者它会根据爬虫的不同而不同,例如: Python,Java?
浏览 0
提问于2012-08-20
得票数 0
回答已采纳
1
回答
为什么Kinesis或Crawler要在我的数据中创建分区?
、
、
、
、
上下文:根据胶水模式,我使用动态技术将来自lambda的数据流到一个S3桶中。然后,我在我的S3桶上运行一个爬虫来编目我的数据。我的数据,当写入运动消防软管时,有以下属性:'dataset_datetime,attr1,attr2,attr3,attr2 4.‘。我没有在从lambda编写的数据中,在我的运动消防软管中,也没有在我的胶水目录中定义任何分区。但是,当数据存储在我的S3桶中时,数据存储在以下dir结构中: -year -month -day -hour -dataFile.parquet 然后,当我在上面运行我的爬虫时,我的爬虫会创建4个额外的分区键,这些键映射到年、月、日
浏览 10
提问于2022-07-26
得票数 0
回答已采纳
2
回答
网络爬虫-忽略Robots.txt文件?
、
、
、
一些服务器具有robots.txt文件,以阻止web爬虫在其网站中爬行。有没有办法让网络爬虫忽略robots.txt文件?我正在为python使用Mechanize。
浏览 1
提问于2011-12-05
得票数 14
回答已采纳
2
回答
对于蟒蛇爬虫,我应该使用无限循环还是cron作业?
、
、
我用python编写了一个爬虫,它可以访问60多个网站,解析HTML,并将数据保存到数据库。 现在,我正在使用cron作业,每15分钟运行一次爬虫。问题是,我无法知道爬虫要花多少时间才能完成(有时可能需要超过15分钟),如果已经在运行,我不想再运行另一个爬虫。 我一直在想,我是否最好使用一个无限循环,并使爬虫成为一个永久运行的进程(但是如何确保爬虫不会失败并退出呢?以及如何在每次退出时重新启动?)。 哪一个更有效率?无限循环还是cron作业?
浏览 7
提问于2021-05-14
得票数 0
1
回答
将我的Python电子邮件爬行器转换为Web应用程序的框架
在Python方面经历了几年之后,我才知道它在web开发中的应用。我在Python中制作了一个电子邮件爬虫程序(基本上是一个使用其他几个功能的函数),它帮助我在generate实习的公司。我的老板问我是否可以让我的python电子邮件爬虫进入一个网络应用程序,这样其他员工就可以通过我来抓取电子邮件,这样我就可以在更重要的事情上工作。 是否有一些web应用程序框架可以用来将我的python电子邮件爬虫程序转换成一个简单的公司专用web应用程序?制作网络应用程序所需的时间范围是什么? 我非常开放和渴望学习web应用程序开发,因此,任何帮助或建议将不胜感激。谢谢。
浏览 5
提问于2015-07-08
得票数 0
回答已采纳
2
回答
如何将新的URL传递给Scrapy Crawler
、
、
、
、
我想让一个抓取爬虫在芹菜任务工人内部不断运行,可能使用。或者,正如所建议的,这个想法是使用爬虫程序来查询返回XML响应的外部API。我希望将我想要查询的URL (或查询参数并让crawler构建URL)传递给crawler,crawler将进行URL调用,并将提取的项返回给我。一旦爬虫程序开始运行,我如何将我想要获取的这个新URL传递给爬虫程序。我不想在每次想要给爬虫一个新的URL时都重新启动爬虫,而是希望爬虫无所事事地等待URL爬行。 我发现的在另一个python进程中运行scrapy的两个方法使用一个新进程来运行爬虫程序。我不希望每次我想要抓取一个URL时,都必须派生和拆卸一个新的进程,因
浏览 0
提问于2013-05-23
得票数 2
1
回答
如何使用Selenium获取动态html?
、
、
、
我正在尝试用python开发一个网络爬虫,给出一个网站,分析它的html并搜索所有的href标签,但使用像Beautiful Soap这样的库是不可能获得html页面的动态内容的,事实上,我正在制作的爬虫还必须发现由任何脚本生成的href。所以我发现了Selenium并编写了这个脚本: driver = webdriver.Chrome() driver.get(url) driver.execute_script("return document.body.innerHTML") time.sleep(15) html = driver.page_source print(&
浏览 0
提问于2020-11-10
得票数 2
5
回答
Python中的多线程爬虫真的可以提高速度吗?
、
、
我想用python写一个小的网络爬虫。我开始研究将其编写为多线程脚本,一个线程下载池和一个池处理结果。由于有了GIL,它真的可以同时下载吗?GIL对网络爬虫有什么影响?会不会每个线程从套接字中提取一些数据,然后转到下一个线程,让它从套接字中提取一些数据,等等? 基本上我想问的是,用python做一个多线程爬虫真的比单线程能给我带来更多的性能吗? 谢谢!
浏览 4
提问于2010-05-14
得票数 10
回答已采纳
2
回答
如果我用Ajax在我的页面上做所有事情,我如何才能做搜索引擎优化?
、
、
、
、
爬行器和ajax应用程序之间的关系如何? 网页爬虫或浏览器读取动态创建的元标记吗? 我想: 向页面添加锚 创建内容的permalinks 动态添加元标记。
浏览 3
提问于2011-12-10
得票数 4
回答已采纳
1
回答
向爬虫提供数据库内容的最佳方式是什么
、
、
我的网站的内容是由用户提供的问题和评论定义的,并且是动态的,本质上是不断增长的。该数据库预计将托管数百万个records.However,这些内容将根据访问者对不同类别和类型的选择(使用下拉选项)呈现给他们。本质上,这些内容对于搜索引擎爬虫是不可见的。使这些内容可供爬虫使用的最佳方式是什么?我是否应该定期运行批处理操作,创建静态网页,并通过站点地图将其提供给爬虫?请提个建议。谢谢。
浏览 1
提问于2014-11-08
得票数 0
1
回答
Python-Selenium爬虫冻结,特别是在无头模式下(不可复制的bug)
、
、
、
、
我构建了一个爬虫,它获取用户输入的产品列表的产品信息。有时,爬虫会结冰,特别是如果产品列表很长,如果爬虫在无头模式下运行的话。 这个bug似乎是随机的,也是不可复制的,这让我认为它是由被爬行的网站的资源利用引起的。 因为这是一个不可复制的错误,我不认为我能修复它,但有没有办法检测爬虫已经冻结,然后再试一次? 下面是关于爬虫和bug的一些信息: 爬虫是使用Selenium和Python构建的。 这个错误发生在不同的网站和产品上。 该错误发生在“正常”模式,但更多发生在无头模式。 谢谢! 费利佩
浏览 2
提问于2019-05-21
得票数 1
1
回答
如何有效地运行python web爬虫
、
、
、
我有一个python爬虫,它获取信息并将其放入SQL中。现在我也有了php页面,它从SQL读取这个信息,并表示它。问题是:为了让爬虫程序工作,我的电脑必须全天候工作。我有一台简单的家用电脑--所以这是个问题。是否有一种不同的方式运行网络爬虫?还是我必须在我的电脑上运行?
浏览 1
提问于2015-12-08
得票数 0
回答已采纳
1
回答
在python中动态设置Crawler规则
、
我正在使用Scrapy设置一个爬虫,并希望能够根据蜘蛛中的变量动态设置规则。我的代码是这样的: class MainSpider(CrawlSpider): def __init__(self, configuration): super(MainSpider, self).__init__(configuration.name) dispatcher.connect(self.spider_closed, signals.spider_closed) self.product_link_id = configuration.product_link_id r
浏览 1
提问于2018-11-02
得票数 0
3
回答
如何在Scrapy中的同一进程中运行多个爬行器
、
、
我是Python & Scrapy的初学者。我刚刚创建了一个带有多个爬虫的Scrapy项目,在运行"scrapy crawl ..“它只运行第一个爬虫。 如何在同一进程中运行所有爬行器? 提前谢谢。
浏览 0
提问于2014-04-11
得票数 2
1
回答
将默认表属性分配给爬虫创建的表
我试图将表属性分配给用爬虫创建的表。 这样做的目的是让所有使用爬虫创建的表具有相同的默认属性(加上它们通常拥有的属性)。 我检查了爬虫创建界面中的选项,但没有看到这样的选项。在创建表之后创建一个python boto3脚本来修改表属性值,这是我唯一想到的事情。 如果这在默认的爬虫功能中是不可能的,那么将表属性附加到使用某个爬虫创建的每个表上的可行方法是什么? 编辑:一个可能的解决方案是创建一个lambda函数,检查胶水表中是否存在自定义参数,如果没有创建它们。
浏览 2
提问于2021-01-20
得票数 0
回答已采纳
3
回答
如何让搜索引擎找到我的AJAX内容
、
、
我有一个页面,通过AJAX动态加载一节内容。我担心这意味着内容不会被搜索引擎找到。 为了向你展示我的意思,网站在,动态内容在 -通常没有人会访问第二个链接,它只是加载到第一个页面中。 我知道我可以通过使用sitemap.xml告诉爬虫程序读取speakers.php,但然后我会在搜索结果中显示指向speakers.php的链接。 我猜最终的解决方案是,如果有人请求/speakers.php,它会将他们重定向到主页,而让爬虫读取数据。 有什么建议吗?
浏览 3
提问于2008-10-22
得票数 1
回答已采纳
3
回答
网络爬虫与Django前端的接口
、
、
我试着做三件事。 第一:抓取和存档,至少每天,一组预定义的站点。 第二:对此数据运行通宵批处理python脚本(文本分类)。 第三:向用户公开一个基于Django的前端,让他们搜索抓取的数据。 我一直在使用Apache Nutch/Lucene,但当我可以使用另一个爬虫引擎时,让它与Django很好地配合似乎太难了。 about 建议我可以只用Django本身编写爬虫,但我不确定该怎么做。 基本上--对于用Django或现有的python爬虫编写我可以适应的爬虫有什么建议吗?或者我是否应该在第二步中加入“变成Django友好的东西”,并编写一些胶水代码?或者,最后,我应该完全放弃Django吗
浏览 0
提问于2009-06-09
得票数 2
2
回答
Elasticsearch HTTP API或python API
、
、
、
、
我是一个实时分布式搜索引擎elasticsearch的新手,但我想问一个技术问题。 我已经编写了一个python模块爬虫,它可以解析网页并使用本机信息创建JSON对象。我的模块爬虫的下一步是使用elasticsearch存储本机信息。 真正的问题如下所示。哪种技术更适合我的场合?elasticsearch python API还是用于弹性搜索的RESTful API (elasticsearch-py)?
浏览 4
提问于2015-12-01
得票数 1
1
回答
爬虫不读取我的javascript附加的meta标签
、
、
、
爬虫在我的头中没有通过脚本附加的meta标签: document.head.innerHTML = document.head.innerHTML + '<meta name="description" content="Description">' 此脚本位于head中,并附加了元素fine。我也尝试过JQuery。我想做这第一步,因为我很快就会使用JS从JSON文件中读取来添加动态数据。 有没有合适的JS代码格式可以不阻止爬虫抓取我的脚本?
浏览 1
提问于2020-12-15
得票数 1
5
回答
如何在Python中从HTML页面中提取URL
、
、
我必须用Python写一个网络爬虫。我不知道如何解析页面并从HTML中提取URL。我应该去哪里学习来编写这样的程序呢? 换句话说,有没有一个简单的python程序可以作为通用网络爬虫的模板?理想情况下,它应该使用相对简单的模块,并且应该包括大量的注释来描述每一行代码所做的事情。
浏览 2
提问于2013-03-20
得票数 17
2
回答
使用python提取网页上的URL列表的简单方法是什么?
、
我想创建一个简单的网络爬虫为乐趣。我需要网络爬虫来获得一个网页上的所有链接的列表。python库中有没有内置的函数可以让这一切变得更容易?感谢您提供的任何知识。
浏览 5
提问于2010-11-10
得票数 1
1
回答
使Angular网站的AMP版本可爬行
、
、
、
、
我有一个Angular站点,在那里我可以动态加载对象的属性。我为每个对象创建了一个AMP站点。正常情况下,我将不得不从规范的网站链接到AMP网站。问题是爬虫找不到规范的站点,因为它是通过Angular动态加载的。有没有可能绕过这个限制,比如在Angular项目的索引站点中放置对所有对象的引用? 更清楚地说: 索引网站: mysite.com object的详细视图: mysite.com/#/ detail /object1 如果我根据当前显示的对象动态添加对amp页面的引用,爬虫将找不到amp站点,因为也找不到规范站点。 现在我想知道是否可以将所有对象的细节视图的所有引用放到索引站点中,而不
浏览 1
提问于2017-09-18
得票数 0
1
回答
在某个时间运行Python程序
、
我已经建立了一个爬虫使用Scrapy爬行到一个网站并提取链接。我想让爬虫在每天的某个时间运行。我找到了python的来执行调度,但是我找不到从哪里开始。任何帮助都是非常有用的。
浏览 0
提问于2014-04-08
得票数 0
1
回答
使用多个EC2实例爬行
、
我用python编写了一个爬行过程,它运行在亚马逊上的一个ec2实例上。我已经编写了这个爬虫,这样它就可以用它的结果向一个单独的"hub“实例报告。集线器处理爬虫的结果,爬虫可以自由地继续爬行。我在这个爬行实例中想到的是,克隆爬虫的几个实例很容易,每个实例都要向中心报告以便处理。 因此,在这一点上,我有一个集线器和8个单独的爬行器(都在它们自己的实例上)不断地爬行和报告等等。 我在想用小的,分开的爬行器: 有冗余,所以如果一个爬虫被挂断,其余的爬虫可以继续工作。 (这是一个假设)如果每个爬虫都有自己独立的ip,我就有更好的网络利用率。 我可以旋转几个爬虫或缩小规模取决于我目
浏览 2
提问于2015-01-08
得票数 0
回答已采纳
1
回答
定期运行python程序作为防火墙中的后台服务。
、
、
只要开始使用firebase + react就可以建立一个网站。我的网站的一个设计特点是爬行和显示从另一个网站分析的数据(例如,股票价格的变化)。我已经有了负责解析数据的python爬虫,但是我不知道如何(在后台)在firebase中执行服务器的这个python爬虫(或者根本不可能)? 下面是我的系统的示例用法 用户登录和订阅网站/数据他们很感兴趣 我的爬虫将每1小时解析该网站并将数据更新到数据库。 用户可以从数据库中看到网站变更的摘要。 我想到的一个选择是在本地机器上运行爬虫,并使用REST将解析的数据更新到firebase数据库。然而,这似乎是一种非常低效/天真的方法,
浏览 0
提问于2018-01-25
得票数 3
2
回答
PHPCrawl可以用于抓取网站吗?与Scrapy有何不同?
、
、
、
、
我想刮几个网站,很多人建议使用Scrapy。它是基于Python的,因为我非常熟悉PHP,所以我寻找了替代方案。 我得到了一个爬虫PHPCrawl。我不确定它是否只是一个爬虫,或者它也会提供抓取功能。如果它可以用于抓取-它将支持XPath或正则表达式。 它怎么能和Python上的Scrapy相比呢? 请建议我哪一个是最好的用来抓取网站。 谢谢
浏览 0
提问于2012-11-22
得票数 0
回答已采纳
1
回答
从单个MongoDB队列获取信息的多个工作人员
、
、
、
、
我正在用Python构建一个web爬虫,使用MongoDB来存储一个队列,其中包含所有要爬行的URL。我将有几个独立的工人,将抓取URL。每当工作人员完成URL抓取时,它将在MongoDB集合"queue“中发出请求,以获得要爬行的新URL。 我的问题是,既然会有多个爬虫,我如何确保两个爬虫器不会同时查询数据库并获得相同的URL来抓取? 非常感谢你的帮助
浏览 0
提问于2014-03-29
得票数 0
回答已采纳
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Python中使用selenium进行动态爬虫
Python爬虫——利用PhantomJS下载动态加载图片
Python新手写爬虫!尝试动态加载的电影网站爬虫
Python爬虫-适用新手(三)-动态页面实战练习
python突破爬虫动态网页障碍,爬取电影下载地址
热门
标签
更多标签
云服务器
ICP备案
对象存储
实时音视频
即时通信 IM
活动推荐
运营活动
广告
关闭
领券