python爬虫文档 - 腾讯云开发者社区

文章/答案/技术大牛

发布

2回答

滚动您自己的web爬虫来抓取一个有多个条目的特定网站。

、

什么样的语言能够处理编写自己的网页爬虫？但是如果我需要的话，我想有一个很好的理由去学习一门新的语言。

浏览 0提问于2011-08-02得票数 0

回答已采纳

3回答

如何让HTMLParser在出现解析错误后继续解析？

、、、

我正在创建一个网络爬虫，我使用HTMLParser模块来解析超文本标记语言文档中的链接。如果解析器遇到错误的标记，它会引发解析错误并终止应用程序。由于爬虫遍历了整个web，所以这个错误经常会被抛出。在python.org错误部分，已经有人提出了这个问题。你可以看看这个。这样做的问题是，我真的不知道如何使用提供的“补丁”，我也不理解评论。

浏览 0提问于2011-04-20得票数 1

回答已采纳

1回答

OOP PYTHON:使用cls()创建多个构造函数而不调用init

、、、、

我有一个Python类，它接受一个url参数，并在一个新闻网站上启动一个爬虫。res = NewsArticle.from_elasticsearch(response) 将调用...the方法__init__并启动我的爬虫它是否没有启动我的爬虫或调用init方法？

浏览 1提问于2017-02-13得票数 0

回答已采纳

1回答

我们正在寻找一个Solr 4.9设置，其中我们有一个非常简单的爬虫清除和加载一个“爬虫”核心，然后触发一个数据副本到“搜索”核心时，爬行完成。这样做的目的是，我们的爬虫非常简单，不真正跟踪文档的方式，将有助于进行更新和删除。基本上，爬虫将清除整个“爬虫”核心，撕毁大约50k个文档(提交1000多个文档)，然后触发一些东西将数据复制到另一个“搜索”核心。假设我们必须重新启动搜索核心，如何通过命令行或代码实现这一点？

浏览 9提问于2014-08-25得票数 0

回答已采纳

1回答

弹性豆杆不运行的克隆约伯

、、、、

我在一个弹力豆茎应用程序上有一个抓取器，我可以像这样运行SSH：我想帮我安排一个任务来处理这个问题。Cron won't r

浏览 0提问于2015-04-13得票数 0

1回答

无法远程登录到scrapy

、

我有个爬虫跑了几天了。我想暂停爬虫，以便在系统上执行其他操作。Scrapy文档说，这可以使用telnet控制台完成，但我无法登录到telnet控制台。00 grep scrapy root 31457 4.0 1.9 774880 299436 pts/1 Sl Sep21 141:27 /usr/local/pyenv/bin/python2.7

浏览 1提问于2015-09-24得票数 1

2回答

AWS胶爬行器是做什么的？

、

我读过AWS胶水文档re:爬虫在这里：，但我仍然不清楚glue爬虫到底做了什么。爬虫是否遍历S3存储桶，并创建指向这些存储桶的指针？当文档说“爬行器的输出由数据目录中定义的一个或多个元数据表组成”时，这些元数据表的目的是什么？

浏览 1提问于2018-12-04得票数 3

回答已采纳

1回答

从import.io中列出提取器

、、

API文档非常稀少，它没有指定我提出的GET请求是否真的启动了一个爬虫(并消耗了我的一个可用的爬虫)，或者只是查询手动启动的爬虫的结果。但我得到的唯一结果是：尽管如此，即使我得到了更完整的响应，我在文档中看到的示例结果也没有提到包含我试图从我正在使用python创建这个API。

浏览 5提问于2016-07-18得票数 1

回答已采纳

1回答

将具有动态生成名称的DynamoDB表导出到S3

、、

我将时间序列数据存储在每日生成的DynamoDB表()中。这些表的命名惯例是"timeseries_ 2019-12-20 "，其中2019-12-20为当前日期。我想以CSV格式将前一天表发送到S3桶。推荐的方法是什么？我在看AWS Glue，但不知道如何让它每天找到新的表名。也许有云观察事件的lambda函数会更好？DynamoDB表的大小不大，存储了几百个数字。

浏览 4提问于2019-12-21得票数 0

回答已采纳

1回答

文档龙中的Algolia DocSearch没有带来任何结果

、

我的文档站点得到了阿尔戈利亚的批准，他们的爬虫也能在那里索引几百个记录，所以这方面似乎是可行的。

浏览 13提问于2022-07-02得票数 1

回答已采纳

2回答

使用scrapy python的.net框架

、、、

可以在Python 框架中使用.NET框架从不同的站点抓取数据吗？我正在做我的最后一年的项目，在这个项目中，我想使用C#作为前端语言，并使用Python来抓取数据。

浏览 0提问于2014-05-07得票数 4

3回答

将数据从PHP脚本传递到Python Web Crawler

、、、、

我有一个python爬虫，每隔几分钟就抓取几个网页。我现在正在尝试实现一个可以通过web访问的用户界面，并显示爬虫获得的数据。我将使用php/html作为接口。无论如何，用户界面需要某种类型的按钮来触发爬虫程序立即抓取特定的网站(而不是等待下一次抓取迭代)。现在，有没有一种方法可以将数据从php脚本发送到正在运行的python脚本？然后我在考虑使用一个共享文件，php在其中写入数据，python从中读取数据。但是，我需要一些方法来让python脚本知道，新数

浏览 1提问于2011-03-31得票数 1

1回答

如果我为我的python脚本做了一个简单的gui，它会影响它的效率吗？

、、

嗨，我想做一个网页爬虫，检查URL的数据，如果我做一个简单的Gui，使脚本更容易查找变量的数据，添加代码的gui会使我的网络爬虫效率降低吗？我需要爬虫尽可能高效，能够尽可能快地处理数据。为这个Python脚本制作一个gui，会不会妨碍web爬虫的性能？

浏览 3提问于2015-01-27得票数 0

回答已采纳

1回答

如何轻松地在远程github分支和本地分支/文件夹之间切换？

、、、

我用Python2.7编写了大量的Scrapy爬行器。我需要将它们全部转换为支持Python 3，这种转换必须在1 go内完成。我只能在Python 3爬虫做好部署准备之后才能开始使用。现在，由于“所有操作都必须保持活动状态”，我需要一个单独的Python 3爬虫的远程分支。这个分支可以称为Remote-B。我手动创建了这个分支，所以整个存储库现在有两个分支: Master(Remote-A)和Python3爬虫(Remote-B)，后者是主分支的一个

浏览 3提问于2019-09-10得票数 0

回答已采纳

1回答

服务端渲染如何帮助爬虫？服务器端渲染和客户端渲染哪个更好？

、、、

我正在阅读angular的服务器端渲染文档，因为它们提到服务器端渲染是帮助爬虫。我知道在服务器端渲染爬虫可以获得整个dom，但爬虫也可以与组件交互，那么它如何帮助爬虫呢？

浏览 18提问于2019-09-15得票数 0

1回答

我怎么能强制停止我的爬虫得到一个特定的网址抓取最后一次？

、、、、

我正在制作一个爬虫来找出最近添加的youtube视频，当我的爬虫到达旧视频(在前一个转弯中爬行)时，我想停止爬虫。我使用的不是scrapy和漂亮的汤，我使用的是python库。请给我推荐任何选项

浏览 9提问于2017-06-27得票数 0

1回答

Sharepoint 2013 Web爬虫程序

、、、、

Sharepoint web爬虫没有提供足够的可配置性，因此我们一直使用快速web爬虫来运行爬虫。我找不到关于如何配置2013 Web Crawler组件的重要文档。它比2010年的Sharepoint爬虫更强大吗？

浏览 2提问于2013-01-17得票数 1

1回答

在Python 3.6中运行scrapyd

、、、

我环顾四周，似乎找不到如何在Python3及更高版本中运行scrapyd的答案。当我运行它时，它仍然默认使用python2.7，尽管我记得在文档或其他地方读到过scrapyd支持python3：https://scrapyd.readthedocs.io/en/stable/news.html如何切换到Python 3.4及以上版本？我遇到了问题，因为我在爬虫中使用了抽象继承，而python2.7不支持抽象继承。编辑:

浏览 11提问于2020-06-27得票数 0

2回答

PHP与

、、

我计划制作的网络爬虫，可以抓取200+领域，哪一种语言将适合它。我非常熟悉PHP，但我是Python的业余爱好者。

浏览 2提问于2014-11-21得票数 0

回答已采纳

1回答

用StormCrawler和弹性搜索对旧网站进行归档

、

当风暴爬虫重新访问一个已经被获取的网站时，它会在elasticsearch索引中更新相应的文档。即旧内容被新内容覆盖。是否有任何允许我们保留某些字段的旧版本并用时间戳对其进行注释的风暴爬虫功能？吞食管道看起来很有希望修改elasticsearch文档的更新操作。是否有任何方法通过风暴爬虫配置将管道参数(即?pipeline=xxx)附加到相关的elasticsearch请求？

浏览 0提问于2018-06-12得票数 0

回答已采纳

点击加载更多