腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
如何轻松地在远程github分支和本地分支/文件夹之间切换?
python
、
git
、
github
、
scrapy
我用Python2.7编写了大量
的
Scrapy爬行器。我需要将它们全部转换为支持Python 3,这种转换必须在1 go内完成。我只能在Python 3
爬虫
做好部署准备之后才能开始使用。对于远程分支,我有本地文件夹/分支,修复错误并创建新
的
。让我们把它叫做Local.,从主人那里,我推拉。 现在,由于“所有操作都必须保持活动状态”,我需要一个单独
的
Python 3
爬虫
的
远程分支。我手动创建了这个分支,所以整个存储库现在有两个分支: Master(Remote-A)和
Py
浏览 3
提问于2019-09-10
得票数 0
回答已采纳
1
回答
抓取打开SSl错误
python
、
ssl
、
openssl
、
scrapy
、
scrapy-spider
我是scrapy
的
新手,我正在尝试抓取以下网站
的
标题下面是我
的
代码: settings.py这是我
的
爬虫
的
代码from skitter.itemsitem =
浏览 2
提问于2017-09-27
得票数 1
1
回答
如何使用Headless Chrome和Python登录webgape?
python
、
google-chrome
、
beautifulsoup
、
headless
我用
Python3
,BeautifulSoup和无头浏览器做了一个网络
爬虫
,但现在我需要先登录,我不知道怎么做。
浏览 17
提问于2020-02-05
得票数 0
1
回答
Python3
抓取网
爬虫
html
、
python-3.x
、
web-scraping
、
scrapy
、
web-crawler
对于我
的
工作,我必须写一个
爬虫
,它只保存页面的标题,交付状态和产品
的
数量。以下是我
的
默认蜘蛛代码: name = "quotes" f.write(response.body)我需要一个只包
浏览 2
提问于2020-07-20
得票数 0
回答已采纳
1
回答
如何在
Python3
中将特殊参数传入os.system?
python
我将参数传递给
Python3
中
的
os.system,如下所示: os.system("scrapy crawl %s -a arg='%s'" % ("googlebook",scrapy_url))q=19434&maxResults=40&startIndex=200' 在蜘蛛唯一
的
接收中: ?q=19434 如何将特殊
的
单词传递给
爬虫
?
浏览 40
提问于2019-02-08
得票数 1
回答已采纳
1
回答
在Python 3.6中运行scrapyd
python-3.x
、
scrapy
、
scrapyd
、
scrapyd-deploy
我环顾四周,似乎找不到如何在
Python3
及更高版本中运行scrapyd
的
答案。当我运行它时,它仍然默认使用python2.7,尽管我记得在文档或其他地方读到过scrapyd支持
python3
:https://scrapyd.readthedocs.io/en/stable/news.html我遇到了问题,因为我在
爬虫
中使用了抽象继承,而python2.7不支持抽象继承。 编辑:我可以在
Python3
中使用虚拟环境运行Scrapyd,但是如果没有虚拟环境,
浏览 11
提问于2020-06-27
得票数 0
1
回答
无法让分页
爬虫
运行
Python3
python-3.x
、
scrapy
我正在尝试使用python中
的
scrapy模块来抓取细节,但我目前正试图让分页
爬虫
工作。我得到了部分正确
的
输出,但正如我前面说过
的
,它不是从上
的
以下页面中刮来
的
from time import sleep from ..items import SunwayscrapyItem
浏览 1
提问于2019-09-17
得票数 0
回答已采纳
4
回答
在docker compose/dockerfile容器中找不到Shell文件
python
、
docker
、
docker-compose
、
dockerfile
从一个相关
的
问题中,我发现最好
的
方法是拥有一个run.sh文件,如下所示:
python3
producer.py &
python3
test_conn.pyFROM/run.sh: no such file or directory,这对我来说毫无意义,因为我通过run.sh将当前目录中
的
所有内容(包括run.sh)复制到容
浏览 18
提问于2022-11-18
得票数 0
1
回答
“fullSetup”不是模块
的
已知成员“错误似乎没有引起它。
python
、
linux
、
bash
、
archlinux
以下是该程序
的
主要文件: while True:希望这里有人能帮我。额外信息 我正在使用Neovim作为我
的
编辑,
浏览 2
提问于2021-01-13
得票数 1
1
回答
Python:使用bs4解析UNICODE字符
python
、
unicode
、
beautifulsoup
我正在使用bs4构建一个
python3
网络
爬虫
/爬行器。每当遇到像中文符号这样
的
UNICODE代码字符时,程序就会崩溃。如何修改我
的
刮刀,使其支持UNICODE?
浏览 0
提问于2016-01-05
得票数 1
1
回答
收集威胁情报信息
的
主要来源是什么,特别是从黑暗网络
threats
我已经确定了一些OSINT
的
来源,但它们还不够。任何人是否可以通过API或其他方式自动识别其他来源以收集威胁信息。
浏览 0
提问于2019-01-07
得票数 2
回答已采纳
3
回答
如何查找urllib2
python
、
python-3.x
、
urllib2
、
urllib
我是python
的
新手(我正在使用
python3
),我正在尝试使用urllib2来学习制作网络
爬虫
。我好像到处都找不到。据我所知,urllib2应该是pythons标准库
的
一部分。我在哪里可以找到它?有没有什么地方我可以单独下载它,并把它放在urllib所在
的
目录下?
浏览 2
提问于2013-01-12
得票数 0
回答已采纳
1
回答
如何使用BeautifulSoup python在嵌套div中查找类
python
、
html
、
python-3.x
、
beautifulsoup
、
web-crawler
我现在正在做网络
爬虫
,似乎我无法从一个特定
的
网站获得div内部
的
类。下面是我
的
密码。我在BeautifulSoup中使用
Python3
from bs4 import BeautifulSoup as bs content_div = soup.findAll('h1',class_ = 'profile-startup')我想在h1中提取具有
浏览 2
提问于2017-06-21
得票数 0
回答已采纳
1
回答
如何从现有的Python应用程序公开具有REST和HTML/JavaScript应用程序
的
web服务器?
python-3.x
、
http
、
wsgi
现在,我想从这个应用程序在端口80上公开一个HTTP服务器,这样任何客户端都可以连接到这个应用程序
的
端口80来查询它
的
内部状态。如果有人使用他们
的
网页浏览器访问http://myapp/status,它应该显示一个显示状态
的
HTML页面。基于检测到
的
用户代理,它将为REST响应或HTML页面提供服务。如果由于任何原因,我
的
应用程序崩溃或崩溃,到端口80
的
HTTP请求当然会失败。 如何从应用程序中公开这样
的
HTTP服务器?但
浏览 2
提问于2019-03-10
得票数 2
回答已采纳
2
回答
在
Python3
中使用多处理
的
Web
爬虫
python
、
python-3.x
、
queue
、
multiprocessing
、
web-crawler
我基本上试图得到与下面的代码相同
的
结果,但使用了多进程。下面的代码是一个基本
的
网络
爬虫
,它打印给定网站内
的
所有URL。我希望能够检查新
的
网址从多个网站一次使用多个进程。我有一个单独
的
web抓取脚本,它使用pools和apply_async一次抓取多个站点,但我从URL
的
静态列表开始。然后我有这个脚本,它一次迭代一个站点,以获得一个非重复URL
的
完整列表。因为我
的
URL列表不是静态
的
(它是随着新
的
UR
浏览 0
提问于2014-02-13
得票数 0
2
回答
浏览器限制会影响网页
爬虫
吗?
redirect
、
asp.net-mvc-4
、
web-crawler
我正在使用普通模式和不推荐
的
浏览器模式创建站点,如果有人进入www.mysite.com,他
的
用户代理就会出现这样
的
情况: if (Request.Browser.IsMobileDeviceRequest.Browser.Version) < 9) return Redirect("/h"); return View(); 问题
浏览 0
提问于2013-02-21
得票数 0
回答已采纳
1
回答
无法在Lambda中创建AWS胶水爬行器,Lambda由Step函数触发
node.js
、
aws-lambda
、
aws-glue
、
amazon-athena
、
aws-step-functions
这是我
的
场景:Task-2调用Lambda,该Lambda根据任务-2
的
结果创建AWS
爬虫
(任务-2从任务-1)获取S3文件位置。Task-3调用运行在Task-2中创建
的
爬虫
的
Lambda要在Lambda中创建AWS
爬虫
,下面是我在Lambda (No
浏览 2
提问于2021-08-14
得票数 1
1
回答
python
爬虫
得到混乱
的
代码,这似乎有多种类型
的
编码
python
、
encoding
、
utf-8
、
decode
我怎么能解码这样
的
东西呢?
浏览 1
提问于2017-02-11
得票数 0
2
回答
查找一个国家
的
“所有”域名
web-crawler
、
tld
我正在寻找一种方法来查找以给定tld结尾
的
“所有”站点。关于如何实现这一点,我有几个想法,但我不确定实现这一点
的
最好/最有效
的
方法是什么。我知道任何地方链接
的
页面都不能被
爬虫
等发现,所以对于这个例子,我不会关心孤立
的
页面。我想做
的
是,我想有一个TLD作为我
的
程序输入,我希望有一个网站
的
列表作为输出。有没有可以帮助我
的
工具,或者你会如何编程?
浏览 3
提问于2012-08-24
得票数 4
3
回答
如何在python
爬虫
(普通字符串)中保存存储
python
、
python-3.x
、
optimization
、
web-crawler
我有一个
python3
爬虫
连接到目标网站,并节省所有的html和资源。尽管我在保存之前使用gzip压缩,但它消耗了太多
的
空间,而且我通常会在不到一半
的
网站页面被爬行之前达到我配置
的
空间限制。关键是,同一网站
的
所有页面都有很多共同
的
字符串(甚至有些网站在所有html页面中都包含css之类
的
资源,而不是链接)。然后我
的
想法是为同一个网站保存公共字符串。我以为这种优化会被记录下来,但是我没有发现任何关于这个
的
东西。 虽然我
浏览 2
提问于2021-01-25
得票数 4
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
python3爬虫学习笔记
最通俗的 Python3 网络爬虫入门
Python3 基于asyncio的新闻爬虫思路
Python3爬虫与多线程
Python3 多进程multiprocessing下载图片「Python3 爬虫实战
热门
标签
更多标签
活动推荐
运营活动
广告
关闭
领券