从站点上抓取表_使用Python、Urllib从FTP站点解析/抓取表_从多个站点抓取相似信息 - 腾讯云开发者社区

、、

//*[self::td or self::th]")] print(data) 任何关于如何从表中获取数据的见解都将受到高度赞赏。

浏览 6提问于2020-10-26得票数 0

回答已采纳

2回答

如何将GSA与Day CQ集成

、

我应该如何从GSA连接DAY？我想知道是否有任何方法可以将GSA与Day CQ5 (CMS)集成。我们将邀请您对贵重物品发表意见。希望能尽快扭亏为盈。

浏览 1提问于2011-02-11得票数 0

回答已采纳

2回答

如何编写刮擦代码以获取不同格式的html表

、、、、

我以前使用过刮伤，但只从一个站点抓取信息。我想使用刮除从不同网站上的目录中获取信息。在每个站点上，这些信息都存储在一个简单的html表中，具有相同的标题。如何校准刮伤以从每个html表中获取数据，即使每个站点的表类可能不同？在更大的范围内，我想问的是，当我想访问不同格式的网站时，如何使用刮伤。我将在下面列出几个站点的html源代码和xpath的图片。表的字段，每个站点目录的字段大致

浏览 4提问于2016-03-15得票数 0

回答已采纳

2回答

绕过屏幕抓取时出现的警告和错误

、

我创建了一个网页来屏幕抓取一个站点，同时从另一个站点抓取；那个站点上有一些错误，所以它抛出了一个错误(预期的对象)。但最终我得到了完美的结果。请给我引路。

浏览 3提问于2009-03-05得票数 0

1回答

Web从不同站点抓取数据

、、

编写抓取器不是问题，匹配来自不同站点的数据(可能有很小的差异)才是问题。为了通用起见，假设我从两个或更多不同的站点上抓取了类似的东西： public int id; public String surname; } 如果我从两个不同的站点抓取这些内容，我会遇到

浏览 6提问于2014-05-31得票数 0

1回答

如何从所有的博客，Multisite到主网站的帖子？

、、、

如何显示从多站点到主站点的所有帖子？请帮帮我。谢谢。

浏览 0提问于2018-08-13得票数 2

2回答

谷歌单张上的IMPORTxml

、、、、

试图在google工作表上制作一个电子表格，用于从站点中抓取数据。https://rsbuddy.com/exchange/?id=1745=IMPORTxml("https://rsbuddy.com/exchange/?id=1745","//*[@id='sell-pri

浏览 4提问于2015-10-03得票数 3

回答已采纳

1回答

如何使用R从https站点抓取表

、、

我想从带有https的站点上刮表。我想要有关未来合同细节的表格(合同，到期，批次大小，价格，NRML保证金，即保证金)。我编写了从该站点获取表的代码，但它显示了两个错误。

浏览 1提问于2016-02-16得票数 0

1回答

我有一个功能刮刀，从数据库中抓取大量网站，并将结果读取到相同的数据库中。我从数据库中获取域，并手动附加。在网址上。即使这个url不正确，绝大多数站点都可以正确地重定向爬行器，但是对于一些站点，我得到了一个DNSLookup错误，因为没有重定向，即使该站点明显存在并且可以通过浏览器访问。我的问题是，有没有办法重试获得DNSLookup错误的抓取，但使用不同的URL？我目前在errback中处理我的错误，我根据我得到的错误类型将必要的信息插入到数据库中。有

浏览 0提问于2019-04-08得票数 1

2回答

如何在PHP中抓取ajax调用

、

请让我知道有没有可能在用PHP加载ajax后删除一些信息？我只对静态页面使用了SIMPLE_HTML_DOM。

浏览 2提问于2015-09-17得票数 0

1回答

GWT多久检查一次动态站点地图？

、、

我在一个相当大的站点上工作，它每小时生成一个动态的站点地图。现在，在工具中，站点地图还没有提交，我很害羞，因为我担心新内容(出现在动态站点地图中)不会很快被抓取。所以我的问题是: GWT多久检查一次提交的站点地图？我查看了这个线程爬虫检查sitemap.xml更新的频率是多少次？，根据我的理解，当站点定期更新时，谷歌会更频繁地爬行--但同样的情况也适用于GWT吗？

浏览 0提问于2013-02-19得票数 5

1回答

如何在j2ee中获取rss中的新闻内容

、、

我正在开发一个网站，应该得到其他网站的新闻内容，类似于。但不需要重定向到主持人那里去阅读新闻内容。现在我想问的是，如果有必要直接访问这些网站，从不同的网站获取整个新闻内容的最好方法是什么？对不起，因为我的英语不太好，如果我的问题不够清楚，我可以提前解释，谢谢。

浏览 5提问于2014-08-14得票数 1

回答已采纳

2回答

从“破坏”杂志收集价格

、、

我试图自动化的价格，在一个游戏中，显示在电子表格(魔兽世界)。我正在使用TheUndermine杂志来获取价格。我想得到的是当前价格显示在我的电子表格。网站每小时更新一次。=importxml(“”)谢谢!

浏览 1提问于2021-08-04得票数 1

回答已采纳

1回答

抓取和非API交互

、

我可以只构建一个脚本来检查所有站点吗？例如，这是来自一个站点的标记： <b> In stock </b>所以我的脚本需要解析它来提取股票信息。据我所知，这种技术的问题是，如果站点更改了标记，那么我的刮刀可能会停止工作。当API不可用时，我如何获得使用API的好处？Javascript能帮上忙吗？

浏览 1提问于2015-01-20得票数 0

1回答

从站点抓取链接

、

我想从一个网站抓取链接(示例：www.x.com/date/counter of news)。现在，我的解决办法是：www.x.com/2015/01/13/99901www.x.com/2015/01/12

浏览 1提问于2015-05-19得票数 0

1回答

尝试下载html页面以创建一个非常简单的网络爬虫

、、、

我对在python上使用html页面是个新手。我正试图在我的PC上离线运行BBC站点，为此我编写了一段python代码。我已经做了下载网站上的所有html页面的功能，通过在主页上找到的链接(使用regex)。我的所有链接都在本地目录中，但它们都被称为sub0、sub1、sub2。我需要一种方式去通过主页上的所有链接，并改变他们的整个路径。

浏览 1提问于2014-01-08得票数 1

2回答

上传一个完整的可湿性粉剂网站，而不重做设计/主题部分

、、、

当涉及到多站点时，这相当耗时。非常感谢您的帮助。真的。

浏览 0提问于2013-05-15得票数 0

回答已采纳

5回答

在Google Cache中保存网页需要多长时间？

我听过很多人问信息在Google Cache中保留多长时间。对我来说，这是无关紧要的(至少在有人诽谤我的名字之前是这样)。

浏览 3提问于2008-12-08得票数 4

回答已采纳

1回答

在将XML导入Google电子表格时感到困惑

、、、、

我正在尝试将每日体育直播赔率导入到谷歌电子表格中。我使用的是importhtml，但我相信我使用的网站已经更新为XML。我喜欢把它组织成电子表格的简单性，而不是去网站，这也有助于我比较赔率。更具体地说，我需要(通过每场比赛)球队名称，现场得分/结果，当前线和收入线。任何帮助都是非常感谢的。提前谢谢。

浏览 24提问于2019-11-09得票数 0

1回答