腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
如何
使用
python
收集
获取
urls
并
移
动到
详细
的
链接
数据
、
我试图抓取几个
链接
,
并
收集
属于每个网站
的
具体信息。 我想我需要
使用
for循环来完成这个任务。这是我写
的
代码。在这种情况下,我只能得到一个结果,但我需要所有的结果。我想知道
如何
返回到URL部分,并再次工作,直到找到所有结果。# collect
urls
for i in data: url = "wwww...." + i["
浏览 12
提问于2021-05-10
得票数 0
回答已采纳
2
回答
定期运行hadoop作业(最佳做法)
、
能够在任何时间将
urls
上传到
数据
库和应用程序
的
客户应尽快处理
urls
。因此,我需要定期运行hadoop作业,或者从其他应用程序自动运行hadoop作业(任何脚本都可以识别添加
的
新
链接
,为hadoop作业生成
数据
并
运行作业)。对于PHP或
Python
脚本,我可以设置cronjob,但是定期运行hadoop作业
的
最佳实践是什么(为hadoop准备
数据
、上传
数据
、运行hadoop作业并
浏览 2
提问于2010-06-29
得票数 2
1
回答
本地专用宿主机安装仍在下载中
、
我正在
使用
cm在CentOS 6.5上安装CDH-5.8.0-1.cdh5.8.0.p0.42-el6。我已经完成了rpms
的
安装,并将以下文件复制到CDH-5.8.0-1.cdh5.8.0.p0.42-el6.parcelmanifest.json 我已经验证了哈希是正确
的
。
浏览 18
提问于2016-08-23
得票数 0
回答已采纳
1
回答
python
urllib2随机网站超
链接
访问
、
、
我想让
python
脚本,将随机访问某些网站上
的
超
链接
在每1秒。urlopen(url) except Exception, e: 导入
链接
中
链接
的
urllib2导入re = '‘页面= urllib2.url
浏览 2
提问于2014-08-05
得票数 0
1
回答
Thruk -
使用
API
获取
详细
信息
、
我想知道
使用
API调用
获取
thruk接口中列出
的
详细
信息
的
可能性。例如,我需要
使用
python
脚本
收集
主机组-->摘要(网格)选项卡下列出
的
详细
信息,我需要知道是否有任何API可用于
收集
这些
详细
信息。或任何其他方法,将帮助我以自动化
的
方式
收集
这些
详细
信息?更新:我可以在这里看到接口
链接
:,但对我来说不工作
浏览 4
提问于2018-10-15
得票数 2
1
回答
如何
有效地将
数据
从Postgres传输到Amazon?
、
、
、
在我
的
机器上,我
的
本地Postgres
数据
库中有这么多
数据
。我需要对这个本地
数据
库中
的
数据
进行反分类,
并
获得一个特定格式
的
查询集,该查询集可以
使用
Python
直接加载到红
移
表中。我确实有一些查询,可以在本地
数据
库上运行,
并
获得需要直接加载到红
移
的
特定格式
的
查询集。 但是有这么多
的</e
浏览 2
提问于2019-10-09
得票数 2
回答已采纳
1
回答
当
使用
copy命令从s3复制到红移时未插入任何内容
、
、
我在s3中有大
数据
,必须移
动到
红
移
中,并在红
移
中有一个表。由于我
使用
的
是
python
,所以我编写了
python
脚本,
并
使用
psycopg2连接红
移
。我成功连接到redshift,但无法将
数据
从s3插入到redshift。我在aws网站上查看了仪表板,发现redshift收到了一个查询,它加载了一些东西,但它没有插入任何东西,这个过程消耗
的
时间太长了,比如超过3分钟
浏览 0
提问于2017-05-17
得票数 0
2
回答
使用
R映射博客之间
的
链接
网络?
、
、
、
我想要任何关于
如何
创建和可视化博客之间
的
链接
地图,以反映他们之间
的
“社会网络”
的
任何建议。 从一个(或多个)博客主页开始,
收集
该页面上
的
所有
链接
。删除所有内部
链接
(如果我从www.website.com开始)。然后我要删除“www.website.com/*”形状中
的
所有
链接
。但是要存储所有的外部
链接
。转到这些
链接
浏览 5
提问于2010-07-11
得票数 5
回答已采纳
1
回答
如何
部署:安装夹层主题
、
、
、
如何
准确安装夹层主题,一步一步? 例如,。
浏览 4
提问于2015-01-19
得票数 11
回答已采纳
1
回答
从多个视图中快速
获取
数据
、
、
我需要从多个视图中
获取
用户
数据
并
保存它们。用户可以回到以前
的
视图
并
编辑
数据
。(Swift)它包含用于添加属性
的
视图。在第一个视图(列出我
的
属性)中,他们将选择点击后
的
类型,它应该移
动到
下一个视图2,即填充后
的
属性
详细
信息,然后点击下一步,它应该导航到联系人
详细
信息3。在填充和提交之后,应该显示感谢视图。问题是,我应该
浏览 1
提问于2016-02-25
得票数 1
回答已采纳
2
回答
的
意义是什么?出现在网站url
的
、
、
在浏览一些流行
的
网站时,我注意到url偶尔会更改为包含这些字符"#“或"#!”。为什么会这样呢?从程序员
的
角度来看,他们实现了什么技术,技术来实现这一点。这是某个解决方案
的
最佳实践吗? 示例:
浏览 3
提问于2011-03-09
得票数 5
1
回答
从S3桶
链接
访问公共可用
数据
、
我正在尝试访问
数据
,以便在页面上复制红
移
基准测试。如果您向下滚
动到
,自己运行这个基准测试
的
部分,作者说可以在下面的S3桶中访问
数据
,用我们感兴趣
的
格式和
数据
大小替换[]中
的
项:基于上述情况,我尝试以这种方式
使用
<em
浏览 4
提问于2015-09-29
得票数 1
回答已采纳
1
回答
使用
Python
向EC2实例发送url种子
、
、
我正在
使用
python
中
的
EC2构建一个网络爬虫。我有一个主实例和两个从实例。主实例负责
收集
urls
,需要对
urls
进行刮除,
并
一致地将它们发送到从服务器。我有两个问题:
如何
将
urls
从主实例发送到从实例?谢谢
浏览 5
提问于2014-10-07
得票数 1
回答已采纳
2
回答
Apache步骤解释
、
我遵循了以下文章:
并
设置了apache +solr。但我想澄清一下,我是否理解关于nutch台阶工作
的
正确性。2)。Generate: bin/nutch生成爬行/ crawldb爬行/段Nutch从crawldb
获取
URL,
并
创
浏览 3
提问于2015-04-12
得票数 6
回答已采纳
2
回答
使用
python
从弹出页面中提取文本信息
、
是否可以
使用
python
从弹出页面中自动提取文本信息?我有google商店应用
链接
:,如果你向下滚
动到
“附加信息”部分,你会发现“权限”。单击下面的“查看
详细
信息”将弹出一个页面。这些文本信息在弹出可提取
的
范围内吗?如果可以,
如何
从主页面源
获取
这些信息?非常感谢。
浏览 0
提问于2017-05-13
得票数 0
回答已采纳
1
回答
网络抓取
链接
与手动浏览不同
、
我在一个网站上抓取了840个网址...当我重新构建
urls
以
获取
更多信息时,我
的
python
抓取器无法提供与手动单击
链接
相同
的
数据
。例如,当我访问这个网站时,给出
的
信息是一个显示'/Sales/SaleDetails?PropertyId=254119896‘
的
相对
链接<
浏览 8
提问于2017-07-25
得票数 2
1
回答
使用
nutch inject对web
urls
内容进行索引
、
、
我以递归方式爬行了一个网站,
收集
了it.Now中提到
的
所有
链接
/子
链接
,即url,我希望它能将所有html内容转储到elasticsearch。 2.Inject the
URLs
into the Crawldb Usage: Inj
浏览 0
提问于2017-03-10
得票数 0
2
回答
Tableau
数据
存储迁移到Redshift
、
目前,我们在Tableau中开发了一个工作簿,
使用
Oracle服务器作为
数据
存储,其中包含我们所有的表和视图。现在我们正在迁移到Redshift以获得更好
的
性能。我们具有与Oracle中相同
的
表结构,具有相同
的
表名和Redshift中
的
字段名。我们已经开发了Tableau工作簿,现在我们需要指向Redshift表和视图。现在我们
如何
将开发
的
工作簿指向Redshift,敬请帮助。也请让我知道在这方面的任何其他投入。 谢谢,Raj
浏览 2
提问于2015-02-14
得票数 1
1
回答
使用
Apache-Spark将MongoDB
数据
管道传输到Redshift
、
、
当我
的
雇主大举转向MongoDB、红
移
和星火时。我正在尝试积极主动地
使用
每一项技术。您能给我推荐一些对执行这项任务有帮助
的
资源吗?“
使用
Apache Spark创建
数据
管道,将
数据
从MongoDB移
动到
RedShift”。 到目前为止,我已经能够下载MongoDB
的
开发版本
并
创建一个测试Redshift实例。我该
如何
着手设置剩下
的
流程,
并
让我
的
脚
浏览 0
提问于2017-09-08
得票数 1
1
回答
如何
循环页面
并
使用
selenium从每个页面
获取
数据
?
、
、
、
我想做一个谷歌搜索和
收集
所有点击
链接
,以便我可以点击这些
链接
,并提取
数据
从他们
收集
后,所有的
链接
。我怎样才能从每一个命中得到
链接
? 我尝试过几种解决方案,比如
使用
for循环和while True语句。我要么完全没有
数据
,要么我只从一个网页获得
数据
(
链接
)。谁能帮我弄清楚
如何
在谷歌搜索
的
每一页上迭代,并得到所有的
链接
,以便我可以继续抓取那些网页?我
浏览 1
提问于2019-03-27
得票数 3
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
使用 Python 和 Scrapy 半小时爬了10 个在线商店的网页
Python 网络爬虫入门详解
爬虫两种遍历策略的py实现:宽度优先和深度优先
Django实战:生成树形动态分类目录
python3.6之抓取LaGou网爬虫职位详解
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
对象存储
活动推荐
运营活动
广告
关闭
领券