python3的爬虫_python3爬虫_爬虫python3 - 腾讯云开发者社区

python、git、github、scrapy

我用Python2.7编写了大量的Scrapy爬行器。我需要将它们全部转换为支持Python 3，这种转换必须在1 go内完成。我只能在Python 3爬虫做好部署准备之后才能开始使用。对于远程分支，我有本地文件夹/分支，修复错误并创建新的。让我们把它叫做Local.，从主人那里，我推拉。现在，由于“所有操作都必须保持活动状态”，我需要一个单独的Python 3爬虫的远程分支。我手动创建了这个分支，所以整个存储库现在有两个分支: Master(Remote-A)和Py

浏览 3提问于2019-09-10得票数 0

回答已采纳

1回答

抓取打开SSl错误

python、ssl、openssl、scrapy、scrapy-spider

我是scrapy的新手，我正在尝试抓取以下网站的标题下面是我的代码: settings.py这是我的爬虫的代码from skitter.itemsitem =

浏览 2提问于2017-09-27得票数 1

1回答

如何使用Headless Chrome和Python登录webgape？

python、google-chrome、beautifulsoup、headless

我用Python3，BeautifulSoup和无头浏览器做了一个网络爬虫，但现在我需要先登录，我不知道怎么做。

浏览 17提问于2020-02-05得票数 0

1回答

Python3抓取网爬虫

html、python-3.x、web-scraping、scrapy、web-crawler

对于我的工作，我必须写一个爬虫，它只保存页面的标题，交付状态和产品的数量。以下是我的默认蜘蛛代码： name = "quotes" f.write(response.body)我需要一个只包

浏览 2提问于2020-07-20得票数 0

回答已采纳

1回答

如何在Python3中将特殊参数传入os.system？

python

我将参数传递给Python3中的os.system，如下所示： os.system("scrapy crawl %s -a arg='%s'" % ("googlebook",scrapy_url))q=19434&maxResults=40&startIndex=200' 在蜘蛛唯一的接收中： ?q=19434 如何将特殊的单词传递给爬虫？

浏览 40提问于2019-02-08得票数 1

回答已采纳

1回答

在Python 3.6中运行scrapyd

python-3.x、scrapy、scrapyd、scrapyd-deploy

我环顾四周，似乎找不到如何在Python3及更高版本中运行scrapyd的答案。当我运行它时，它仍然默认使用python2.7，尽管我记得在文档或其他地方读到过scrapyd支持python3：https://scrapyd.readthedocs.io/en/stable/news.html我遇到了问题，因为我在爬虫中使用了抽象继承，而python2.7不支持抽象继承。编辑:我可以在Python3中使用虚拟环境运行Scrapyd，但是如果没有虚拟环境，

浏览 11提问于2020-06-27得票数 0

1回答

无法让分页爬虫运行Python3

python-3.x、scrapy

我正在尝试使用python中的scrapy模块来抓取细节，但我目前正试图让分页爬虫工作。我得到了部分正确的输出，但正如我前面说过的，它不是从上的以下页面中刮来的from time import sleep from ..items import SunwayscrapyItem

浏览 1提问于2019-09-17得票数 0

回答已采纳

4回答

在docker compose/dockerfile容器中找不到Shell文件

python、docker、docker-compose、dockerfile

从一个相关的问题中，我发现最好的方法是拥有一个run.sh文件，如下所示：python3 producer.py &python3 test_conn.pyFROM/run.sh: no such file or directory，这对我来说毫无意义，因为我通过run.sh将当前目录中的所有内容(包括run.sh)复制到容

浏览 18提问于2022-11-18得票数 0

1回答

“fullSetup”不是模块的已知成员“错误似乎没有引起它。

python、linux、bash、archlinux

以下是该程序的主要文件： while True:希望这里有人能帮我。额外信息我正在使用Neovim作为我的编辑，

浏览 2提问于2021-01-13得票数 1

1回答

Python:使用bs4解析UNICODE字符

python、unicode、beautifulsoup

我正在使用bs4构建一个python3网络爬虫/爬行器。每当遇到像中文符号这样的UNICODE代码字符时，程序就会崩溃。如何修改我的刮刀，使其支持UNICODE？

浏览 0提问于2016-01-05得票数 1

1回答

收集威胁情报信息的主要来源是什么，特别是从黑暗网络

threats

我已经确定了一些OSINT的来源，但它们还不够。任何人是否可以通过API或其他方式自动识别其他来源以收集威胁信息。

浏览 0提问于2019-01-07得票数 2

回答已采纳

3回答

如何查找urllib2

python、python-3.x、urllib2、urllib

我是python的新手(我正在使用python3)，我正在尝试使用urllib2来学习制作网络爬虫。我好像到处都找不到。据我所知，urllib2应该是pythons标准库的一部分。我在哪里可以找到它？有没有什么地方我可以单独下载它，并把它放在urllib所在的目录下？

浏览 2提问于2013-01-12得票数 0

回答已采纳

1回答

如何使用BeautifulSoup python在嵌套div中查找类

python、html、python-3.x、beautifulsoup、web-crawler

我现在正在做网络爬虫，似乎我无法从一个特定的网站获得div内部的类。下面是我的密码。我在BeautifulSoup中使用Python3from bs4 import BeautifulSoup as bs content_div = soup.findAll('h1',class_ = 'profile-startup')我想在h1中提取具有

浏览 2提问于2017-06-21得票数 0

回答已采纳

1回答

如何从现有的Python应用程序公开具有REST和HTML/JavaScript应用程序的web服务器？

python-3.x、http、wsgi

现在，我想从这个应用程序在端口80上公开一个HTTP服务器，这样任何客户端都可以连接到这个应用程序的端口80来查询它的内部状态。如果有人使用他们的网页浏览器访问http://myapp/status，它应该显示一个显示状态的HTML页面。基于检测到的用户代理，它将为REST响应或HTML页面提供服务。如果由于任何原因，我的应用程序崩溃或崩溃，到端口80的HTTP请求当然会失败。如何从应用程序中公开这样的HTTP服务器？但

浏览 2提问于2019-03-10得票数 2

回答已采纳

2回答

在Python3中使用多处理的Web爬虫

python、python-3.x、queue、multiprocessing、web-crawler

我基本上试图得到与下面的代码相同的结果，但使用了多进程。下面的代码是一个基本的网络爬虫，它打印给定网站内的所有URL。我希望能够检查新的网址从多个网站一次使用多个进程。我有一个单独的web抓取脚本，它使用pools和apply_async一次抓取多个站点，但我从URL的静态列表开始。然后我有这个脚本，它一次迭代一个站点，以获得一个非重复URL的完整列表。因为我的URL列表不是静态的(它是随着新的UR

浏览 0提问于2014-02-13得票数 0

2回答

浏览器限制会影响网页爬虫吗？

redirect、asp.net-mvc-4、web-crawler

我正在使用普通模式和不推荐的浏览器模式创建站点，如果有人进入www.mysite.com，他的用户代理就会出现这样的情况： if (Request.Browser.IsMobileDeviceRequest.Browser.Version) < 9) return Redirect("/h"); return View(); 问题

浏览 0提问于2013-02-21得票数 0

回答已采纳

1回答

无法在Lambda中创建AWS胶水爬行器，Lambda由Step函数触发

node.js、aws-lambda、aws-glue、amazon-athena、aws-step-functions

这是我的场景：Task-2调用Lambda，该Lambda根据任务-2的结果创建AWS爬虫(任务-2从任务-1)获取S3文件位置。Task-3调用运行在Task-2中创建的爬虫的Lambda要在Lambda中创建AWS爬虫，下面是我在Lambda (No

浏览 2提问于2021-08-14得票数 1

1回答

python爬虫得到混乱的代码，这似乎有多种类型的编码

python、encoding、utf-8、decode

我怎么能解码这样的东西呢？

浏览 1提问于2017-02-11得票数 0

2回答

查找一个国家的“所有”域名

web-crawler、tld

我正在寻找一种方法来查找以给定tld结尾的“所有”站点。关于如何实现这一点，我有几个想法，但我不确定实现这一点的最好/最有效的方法是什么。我知道任何地方链接的页面都不能被爬虫等发现，所以对于这个例子，我不会关心孤立的页面。我想做的是，我想有一个TLD作为我的程序输入，我希望有一个网站的列表作为输出。有没有可以帮助我的工具，或者你会如何编程？

浏览 3提问于2012-08-24得票数 4

3回答

如何在python爬虫(普通字符串)中保存存储

python、python-3.x、optimization、web-crawler

我有一个python3爬虫连接到目标网站，并节省所有的html和资源。尽管我在保存之前使用gzip压缩，但它消耗了太多的空间，而且我通常会在不到一半的网站页面被爬行之前达到我配置的空间限制。关键是，同一网站的所有页面都有很多共同的字符串(甚至有些网站在所有html页面中都包含css之类的资源，而不是链接)。然后我的想法是为同一个网站保存公共字符串。我以为这种优化会被记录下来，但是我没有发现任何关于这个的东西。虽然我

浏览 2提问于2021-01-25得票数 4

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何轻松地在远程github分支和本地分支/文件夹之间切换？

抓取打开SSl错误

如何使用Headless Chrome和Python登录webgape？

Python3抓取网爬虫

如何在Python3中将特殊参数传入os.system？

在Python 3.6中运行scrapyd

无法让分页爬虫运行Python3

在docker compose/dockerfile容器中找不到Shell文件

“fullSetup”不是模块的已知成员“错误似乎没有引起它。

Python:使用bs4解析UNICODE字符

收集威胁情报信息的主要来源是什么，特别是从黑暗网络

如何查找urllib2

如何使用BeautifulSoup python在嵌套div中查找类

如何从现有的Python应用程序公开具有REST和HTML/JavaScript应用程序的web服务器？

在Python3中使用多处理的Web爬虫

浏览器限制会影响网页爬虫吗？

无法在Lambda中创建AWS胶水爬行器，Lambda由Step函数触发

python爬虫得到混乱的代码，这似乎有多种类型的编码

查找一个国家的“所有”域名

如何在python爬虫(普通字符串)中保存存储

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐