如何使用python收集获取urls并移动到详细的链接数据_如何通过单击xpath从urls列表中循环并使用Python中的Selenium提取数据？_如何使用python获取精确时间的占用计数数据集，并返回每小时最大值的数据集？ - 腾讯云开发者社区

、

我试图抓取几个链接，并收集属于每个网站的具体信息。我想我需要使用for循环来完成这个任务。这是我写的代码。在这种情况下，我只能得到一个结果，但我需要所有的结果。我想知道如何返回到URL部分，并再次工作，直到找到所有结果。# collect urls for i in data: url = "wwww...." + i["

浏览 12提问于2021-05-10得票数 0

回答已采纳

2回答

定期运行hadoop作业(最佳做法)

、

能够在任何时间将urls上传到数据库和应用程序的客户应尽快处理urls。因此，我需要定期运行hadoop作业，或者从其他应用程序自动运行hadoop作业(任何脚本都可以识别添加的新链接，为hadoop作业生成数据并运行作业)。对于PHP或Python脚本，我可以设置cronjob，但是定期运行hadoop作业的最佳实践是什么(为hadoop准备数据、上传数据、运行hadoop作业并

浏览 2提问于2010-06-29得票数 2

1回答

本地专用宿主机安装仍在下载中

、

我正在使用cm在CentOS 6.5上安装CDH-5.8.0-1.cdh5.8.0.p0.42-el6。我已经完成了rpms的安装，并将以下文件复制到CDH-5.8.0-1.cdh5.8.0.p0.42-el6.parcelmanifest.json 我已经验证了哈希是正确的。

浏览 18提问于2016-08-23得票数 0

回答已采纳

1回答

python urllib2随机网站超链接访问

、、

我想让python脚本，将随机访问某些网站上的超链接在每1秒。urlopen(url) except Exception, e: 导入链接中链接的urllib2导入re = '‘页面= urllib2.url

浏览 2提问于2014-08-05得票数 0

1回答

Thruk -使用API获取详细信息

、

我想知道使用API调用获取thruk接口中列出的详细信息的可能性。例如，我需要使用python脚本收集主机组-->摘要(网格)选项卡下列出的详细信息，我需要知道是否有任何API可用于收集这些详细信息。或任何其他方法，将帮助我以自动化的方式收集这些详细信息？更新:我可以在这里看到接口链接：，但对我来说不工作

浏览 4提问于2018-10-15得票数 2

1回答

如何有效地将数据从Postgres传输到Amazon？

、、、

在我的机器上，我的本地Postgres数据库中有这么多数据。我需要对这个本地数据库中的数据进行反分类，并获得一个特定格式的查询集，该查询集可以使用Python直接加载到红移表中。我确实有一些查询，可以在本地数据库上运行，并获得需要直接加载到红移的特定格式的查询集。但是有这么多的</e

浏览 2提问于2019-10-09得票数 2

回答已采纳

1回答

当使用copy命令从s3复制到红移时未插入任何内容

、、

我在s3中有大数据，必须移动到红移中，并在红移中有一个表。由于我使用的是python，所以我编写了python脚本，并使用psycopg2连接红移。我成功连接到redshift，但无法将数据从s3插入到redshift。我在aws网站上查看了仪表板，发现redshift收到了一个查询，它加载了一些东西，但它没有插入任何东西，这个过程消耗的时间太长了，比如超过3分钟

浏览 0提问于2017-05-17得票数 0

2回答

使用R映射博客之间的链接网络？

、、、

我想要任何关于如何创建和可视化博客之间的链接地图，以反映他们之间的“社会网络”的任何建议。从一个(或多个)博客主页开始，收集该页面上的所有链接。删除所有内部链接(如果我从www.website.com开始)。然后我要删除“www.website.com/*”形状中的所有链接。但是要存储所有的外部链接。转到这些链接

浏览 5提问于2010-07-11得票数 5

回答已采纳

1回答

如何部署:安装夹层主题

、、、

如何准确安装夹层主题，一步一步？例如，。

浏览 4提问于2015-01-19得票数 11

回答已采纳

1回答

从多个视图中快速获取数据

、、

我需要从多个视图中获取用户数据并保存它们。用户可以回到以前的视图并编辑数据。(Swift)它包含用于添加属性的视图。在第一个视图(列出我的属性)中，他们将选择点击后的类型，它应该移动到下一个视图2，即填充后的属性详细信息，然后点击下一步，它应该导航到联系人详细信息3。在填充和提交之后，应该显示感谢视图。问题是，我应该

浏览 1提问于2016-02-25得票数 1

回答已采纳

2回答

的意义是什么？出现在网站url的

、、

在浏览一些流行的网站时，我注意到url偶尔会更改为包含这些字符"#“或"#!”。为什么会这样呢？从程序员的角度来看，他们实现了什么技术，技术来实现这一点。这是某个解决方案的最佳实践吗？示例：

浏览 3提问于2011-03-09得票数 5

1回答

从S3桶链接访问公共可用数据

、

我正在尝试访问数据，以便在页面上复制红移基准测试。如果您向下滚动到，自己运行这个基准测试的部分，作者说可以在下面的S3桶中访问数据，用我们感兴趣的格式和数据大小替换[]中的项：基于上述情况，我尝试以这种方式使用<em

浏览 4提问于2015-09-29得票数 1

回答已采纳

1回答

使用Python向EC2实例发送url种子

、、

我正在使用python中的EC2构建一个网络爬虫。我有一个主实例和两个从实例。主实例负责收集urls，需要对urls进行刮除，并一致地将它们发送到从服务器。我有两个问题：如何将urls从主实例发送到从实例？谢谢

浏览 5提问于2014-10-07得票数 1

回答已采纳

2回答

Apache步骤解释

、

我遵循了以下文章：并设置了apache +solr。但我想澄清一下，我是否理解关于nutch台阶工作的正确性。2)。Generate: bin/nutch生成爬行/ crawldb爬行/段Nutch从crawldb获取URL，并创

浏览 3提问于2015-04-12得票数 6

回答已采纳

2回答

使用python从弹出页面中提取文本信息

、

是否可以使用python从弹出页面中自动提取文本信息？我有google商店应用链接：，如果你向下滚动到“附加信息”部分，你会发现“权限”。单击下面的“查看详细信息”将弹出一个页面。这些文本信息在弹出可提取的范围内吗?如果可以，如何从主页面源获取这些信息?非常感谢。

浏览 0提问于2017-05-13得票数 0

回答已采纳

1回答

网络抓取链接与手动浏览不同

、

我在一个网站上抓取了840个网址...当我重新构建urls以获取更多信息时，我的python抓取器无法提供与手动单击链接相同的数据。例如，当我访问这个网站时，给出的信息是一个显示'/Sales/SaleDetails?PropertyId=254119896‘的相对链接<

浏览 8提问于2017-07-25得票数 2

1回答

使用nutch inject对web urls内容进行索引

、、

我以递归方式爬行了一个网站，收集了it.Now中提到的所有链接/子链接，即url，我希望它能将所有html内容转储到elasticsearch。 2.Inject the URLs into the Crawldb Usage: Inj

浏览 0提问于2017-03-10得票数 0

2回答

目前，我们在Tableau中开发了一个工作簿，使用Oracle服务器作为数据存储，其中包含我们所有的表和视图。现在我们正在迁移到Redshift以获得更好的性能。我们具有与Oracle中相同的表结构，具有相同的表名和Redshift中的字段名。我们已经开发了Tableau工作簿，现在我们需要指向Redshift表和视图。现在我们如何将开发的工作簿指向Redshift，敬请帮助。也请让我知道在这方面的任何其他投入。谢谢，Raj

浏览 2提问于2015-02-14得票数 1

1回答

使用Apache-Spark将MongoDB数据管道传输到Redshift

、、

当我的雇主大举转向MongoDB、红移和星火时。我正在尝试积极主动地使用每一项技术。您能给我推荐一些对执行这项任务有帮助的资源吗？“使用Apache Spark创建数据管道，将数据从MongoDB移动到RedShift”。到目前为止，我已经能够下载MongoDB的开发版本并创建一个测试Redshift实例。我该如何着手设置剩下的流程，并让我的脚

浏览 0提问于2017-09-08得票数 1

1回答

如何循环页面并使用selenium从每个页面获取数据？

、、、

我想做一个谷歌搜索和收集所有点击链接，以便我可以点击这些链接，并提取数据从他们收集后，所有的链接。我怎样才能从每一个命中得到链接？我尝试过几种解决方案，比如使用for循环和while True语句。我要么完全没有数据，要么我只从一个网页获得数据(链接)。谁能帮我弄清楚如何在谷歌搜索的每一页上迭代，并得到所有的链接，以便我可以继续抓取那些网页？我

浏览 1提问于2019-03-27得票数 3

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云