在url的每一个日期中抓取数字数据网站

文章/答案/技术大牛

发布

1回答

python、web-scraping

我正在尝试从2002年到今天的这段时间里抓取一个网站。每一个都有自己的一组数字。<td class="chu17 need_blank">62</td></tr> 我想在</td>之前获得这些数字date=' + day) w

浏览 8提问于2019-09-02得票数 0

回答已采纳

1回答

如果我们要用Hadoop和Solr做一个搜索引擎，NUTCH的作用是什么？

solr、hadoop、nutch

我想在其中爬行一些网站，并将其索引和信息存储在Hadoop中。然后使用Solr搜索就可以了。但我面临着很多问题。如果在google上搜索，那么不同的人会给出不同的建议和不同的配置方式来设置基于hadoop的搜索引擎。以下是我的一些问题：2) Solr有什么用？如果NUTCH完成了抓取，并将抓取<e

浏览 2提问于2012-09-06得票数 3

2回答

迭代python中的daterange

python、loops、datetime

我从网站上抓取数据，数据每周都在变化。我想在每次数据更改时运行我的抓取过程，从09-09-2015开始，运行到当前。我知道如何轻松地在0909、0910、0911等每一个数字上运行，但这不是我所需要的，因为这将请求来自服务器的太多没有意义的请求。以下是URL 的格式for i in range(startDat

浏览 3提问于2017-09-27得票数 5

回答已采纳

2回答

如何从网站获取服务

javascript、c#

如果我想从网站(任何网站)获取数据，我明白我们需要为该网站获取服务。服务将从API获取。那么，如何找到网站的服务呢？如果我的理解是错误的，请纠正我，并帮助我理解这一点。提前谢谢。

浏览 2提问于2016-03-28得票数 0

2回答

从网页上抓取数字值？

php、regex、web-scraping

我想从一个网站上抓取17个值。在页面的左下角有一个标题为“在线播放列表”的无序列表，我想要抓取包含此类信息的每个列表项目中的球员数量。数字只需为数字，即不能有逗号。

浏览 0提问于2011-02-05得票数 1

回答已采纳

1回答

使用漂亮的Python汤进行Web抓取

python、url、web-scraping、beautifulsoup

我正在尝试从网站- 上抓取一些数据。 url2 = "https:/&#x

浏览 1提问于2021-12-01得票数 0

回答已采纳

1回答

如何通过在检查器中操作Javascript来刮表？页面只显示了今天的数据，但我想回到过去

javascript、html、web-scraping

我想做的事：问题除非我能够以某种方式操作访问日期，否则我看不到任何访问数据的方法。这是一个政府机构，我想他们是从一个庞大的电子表格中运行的

浏览 0提问于2015-10-28得票数 0

1回答

上个季度- postgresql

postgresql

让我们假设我在postgresql中有以下数据集。我对2020年8月16日感兴趣。如何提取截至2020年6月16日的日期，即第二季度的最后一个月？我在想，从逻辑上讲，可能是从日期中获取季度，提取季度中的月份数字，然后使用类似where date等于当前日期的季度- 1的内容。但是，我如何才能在季度中找到与相同月份数字相同的日期？ ?

浏览 30提问于2020-09-17得票数 0

回答已采纳

3回答

如何抓取/索引频繁更新的网页的策略？

web-crawler、search-engine

我正在尝试建立一个非常小，利基搜索引擎，使用Nutch来抓取特定的网站。其中一些网站是新闻/博客网站。如果我爬行，比方说，techcrunch.com，并存储和索引他们的首页或任何主页，那么在几个小时内，我对该页面的索引就会过期。像Google这样的大型搜索引擎有没有一种算法可以非常频繁地重新抓取频繁更新的页面，甚至每小时一次？或者只是频繁更新的页面得分非常低，所以它们不会被返回？我如何

浏览 0提问于2012-04-26得票数 20

1回答

Nutch http.redirect.max我可以知道它是什么意思吗？

nutch、nutch2

我正在爬行，例如，1000 websites.when我读取一些网站，它显示db_redirect_temp和db_redirect_moved，如果我设置http.redirect.max=10是每个网站的这个值，或者它只处理整个爬行网站的10个重定向。

浏览 7提问于2020-10-16得票数 0

1回答

Google没有在SERP结果中显示以下url的缓存选项？

googlebot、google-cache

Google没有显示在下面我在SERP结果中提到的url上检查缓存的选项。 📷

浏览 0提问于2019-01-01得票数 4

1回答

将电子商务URL分类为预定义的类。

classification、nlp、text-classification、regex

如何将电子商务URL页面分类为以下类别：付款结帐我怎样才能用我手中的网址和页面标题来实现这一点？我尝试过多种方法，但似乎都不可靠。在这方面有什么帮助吗？

浏览 0提问于2023-01-26得票数 0

4回答

如何使用Ruby在目标站点上抓取、构建会话和启动页面

ruby、screen-scraping

我想知道如何使用Ruby来抓取一个网站，目的是启动一个新的浏览器并加载目标页面。这是必需的，因为目标页面不是无状态的，并且需要许多会话参数。有关示例流程，请参阅Kayak.com如何做到这一点。1.转到Kayak.com，搜索芝加哥的一家酒店，2010年1月21日入住，2010年1月22日退房。2.选择第一个结果，然后选择orbitz 3. kayak会带你进入orbitz上的预订页面。

浏览 0提问于2010-01-06得票数 3

2回答

如何将向量元素作为单个参数传递给R中的函数

我正在使用rvest进行一个网络抓取项目。从url中提取数据，只要找到匹配的CSS。我的问题是，我正在刮的网站使用一个独特的CSS ID为每一个上市的产品(如ListItem_001_Price)。因此，1 CSS精确地定义了1件商品的价格，因此自动网络抓取不起作用V <

浏览 8提问于2017-11-30得票数 1

回答已采纳

2回答

在颤振应用中使用飞镖抓取动态网站

selenium、web-scraping、flutter、dart

我有一个网站，它使用一些javascript生成一个项目列表，我正在尝试使用漂亮的soap包在我的颤栗应用程序中搜索它。问题是，我无法抓取由java脚本生成的动态数据。我想要实现一个解决方案，允许我抓取网站的源代码后，它完全加载到应用程序。应用程序内部隐藏的get视图将是完美的，但阻碍我的是如何在webview加载后获取数据。这是我最关心的问题。代码示例将不胜感激

浏览 0提问于2019-07-14得票数 5

回答已采纳

1回答

在Windows上托管ASP.NET网站、、MySQL Db和website的最佳选择是什么？

rest、azure

我是一名学生，我们(团队)正试图主持我们在Azure上的毕业设计。我们主要有五个组成部分：2-存储数据的MySQL数据库在ASP.NET网站中进行爬行和用户交互。3- Java Restful web服务，它处理收集到的数据并将结果发送到网站。 4-此外，ASP.NET网站</e

浏览 2提问于2014-02-11得票数 0

回答已采纳

2回答

GWT多久重新生成移动可用性测试报告？

seo、google-search-console、reporting

我知道我可以使用移动友好测试和PageSpeed Insight来测试可用性，但是是否有一种方法可以直接从GWT手动运行移动可用性测试呢？如果我必须等到GWT运行这个测试时，GWT会多久重新生成移动可用性测试报告？

浏览 0提问于2015-02-26得票数 4

1回答

Android: Facebook观众网络的app-ads.txt文件

android、facebook-audience-network

根据 facebook如何从域抓取app-ads.txt文件？

浏览 7提问于2020-04-12得票数 2

0回答

使用Selenium和lxml进行Python Web抓取

javascript、python、selenium、web-scraping

我正在尝试从一个网站上抓取一些数字(参见下面代码中的链接)。因为网站是使用JavaScript加载的，所以我使用selenium首先加载页面，然后将其传递给xlml以解析数据。我使用的代码如下：from lxml import html url = "http://sebgroup.com2]/tbody&

浏览 4提问于2016-12-30得票数 2

回答已采纳

1回答

VBA Excel_Query导入带有单元格格式的数据Web_Issue

excel、vba、url、formatting

我正在运行一个Excel表格的网页查询，并能够从雅虎财务网站收集数据。然而，我的Excel表格没有在每个单元格中都有关于股票价格的数字，而是充满了文本和数字。例如，结果如下：截止日期2019年8月7日2.015 (正确)2019年8月6日févr.50或01.02.3750 (错误的->右数据为2.375 )2019年1月5日或01.01.98 (错误<e

浏览 0提问于2019-09-28得票数 0

点击加载更多