Kendra似乎没有抓取我们的网站(不完全同步)

我已经在Kendra中添加了我组织的网站作为数据源(webcrawler)，但在运行"sync“之后，状态变为”未完成“。查看cloudwatch中的日志，似乎没有有效页面被索引。我们没有为网站禁用任何网络爬虫。

浏览 14提问于2021-09-23得票数 2

1回答

Amazon :具有认知功能的AccessDeniedException

、、

我一直试图让Amazon使用我们网站上的Java来工作，这个错误一直困扰着我。错误 arn:aws:st

浏览 1提问于2020-06-26得票数 1

1回答

使用sdk从aws kendra索引查询记录

、、

我正在测试AWS Kendra的业务用例，并且我很难弄清楚如何在索引中查询数据以确保数据的准确性。现在，由于我们有超过1,000篇可能的文章，我们限制了API用户--即将Kendra连接到Salesforce --只能

浏览 16提问于2022-03-10得票数 1

1回答

Google Play API

、

我有一个艺术家，他通过google play出售他的音乐。这个是可能的吗？目前，我必须手动登录网站，以检索信息和自动化将更好地为我工作。我也愿意支付一定的费用。谢谢

浏览 19提问于2018-09-06得票数 0

1回答

无法从具有不同选项卡和日期的网站中抓取数据

、

我无法从下面的网站上获取数据。有没有任何方法，我们可以抓取数据的不同选项卡在网站上的一些天。在R上也尝试了一些抓取，但似乎不起作用，因为数据范围需要更改，所以不确定如何解决？

浏览 11提问于2019-07-05得票数 1

回答已采纳

2回答

PHP网站的版本控制和同步(实时和开发)？

、、

最近我创建了一个基于PHP/MYSQL的网站，网站将在未来几周内上线，我的导师要求我设置一个开发网站和一个现场网站，对开发的新功能进行更改和测试，然后将它们上传到现场。我可以做到这一点，但这似乎是一个艰难的过程，因为我将在这里进行更改，并手动将它们上传到实时服务器。在上传时，我可能会遗漏一些文件或依赖项。我想有一个SVN类的设施，它将管理开发和实时服务器同步。如果我会错过任何文件，它将突

浏览 0提问于2011-02-15得票数 1

回答已采纳

1回答

如果我们要用Hadoop和Solr做一个搜索引擎，NUTCH的作用是什么？

、、

我想在其中爬行一些网站，并将其索引和信息存储在Hadoop中。然后使用Solr搜索就可以了。但我面临着很多问题。如果在google上搜索，那么不同的人会给出不同的建议和不同的配置方式来设置基于hadoop的搜索引擎。以下是我的一些问题：2) Solr有什么用？如果NUTCH完成了抓取，并将抓取<e

浏览 2提问于2012-09-06得票数 3

1回答

无法在MacOSXLion10.7.5上执行二进制文件

、、、、

我想在mac狮子上执行phylocon，但是在更改路径并使文件可执行之后，我得到了“无法执行二进制文件”的错误。但是，我运行命令的步骤在ubuntu12.04上运行得很好，这就是为什么我感到困惑。

浏览 0提问于2013-02-21得票数 0

1回答

用于情感分析的行业特定舌管分类训练数据集

、、

我正在寻找lingpipe训练数据集(分类-正面，负面，中性)，用于对以下行业的评论数据进行情绪分析-有没有人可以指导我获得上面提到的训练数据集的任何来源

浏览 4提问于2015-05-25得票数 0

1回答

在dev server上的分支中同步文件

我已经在主分支上创建了一个名为'dan-development‘的分支。我们在桌面上使用github和github应用程序。我提交并同步了所有内容，现在想在我的开发服务器(命令行)上显示这些更新。我已经将分支切换到了dev服务器上的dan-development，但我终生无法弄清楚如何抓取更新或同步它。帮助?

浏览 1提问于2013-05-21得票数 0

回答已采纳

6回答

网络抓取和网络抓取有什么不同？

、、

爬行和网络抓取有区别吗？如果有不同之处，为了收集一些网络数据来提供一个数据库，以便在定制的搜索引擎中使用，最好的方法是什么？

浏览 2提问于2010-12-02得票数 96

回答已采纳

2回答

我是个刮东西的新手。我写了一个刮板它将擦伤 Maplin 商店。我使用Python语言和BeautifulSoup来抓取存储。我想问的是，如果我需要清理一些其他的eCommerce商店(比如亚马逊、Flipkart)，我是否需要定制我的代码，因为它们具有不同的HTML ( 和名字是不同的，另外还有其他东西)。所以，我写的刮板不适用于其他eCommerce商店。我想知道比价网站是如何从所有在线商店中抓取数据<e

浏览 40提问于2014-12-28得票数 7

回答已采纳

2回答

如何使用<div>访问多个HTMLAgilityPack标记的内容？

、、、

我无法在codeplex网站上找到HTMLAgilityPack的文档。目前，我想要做的是访问Amazon网站上的div，并抓取文本信息，以便在WPF应用程序中使用。doc.DocumentNode.SelectSingleNode("//div[@id = 'zg_centerListWrapper']"); 这个div包含大约12个其他div，每个div都是best sellers类别中的一个项为了访问每个

浏览 5提问于2015-06-07得票数 3

回答已采纳

2回答

如何在没有转储的情况下，从唯一的配置文件中部署/管理类似的站点？

、、

我不喜欢“克隆网站”解决方案，这意味着转储数据库和导入这个转储在另一个环境。这看起来不像是部署同一网站的几个实例的真实方式(分阶段/prod/dev/etc)。对于D7，我们通常使用自定义配置文件并使用drush从这些配置文件安装网站(可能还会使用以后的站点同步功能)。这为我们提供了新的安装，没有测试内容，但共享重要的设置。我还看过配置安装程序配置文件

浏览 0提问于2016-01-19得票数 15

1回答

如何在抓取网页时提高效率？

、、

我有一个节点脚本，它经常抓取网站列表中的信息。我想尝试提高脚本的效率；然而，nodejs a是单线程运行时。但在幕后，nodejs是多线程的，允许异步代码。有没有办法利用这一点来提高效率？现在，该脚本同步运行。我尝试过混合使用同步和异步代码，但我总是耗尽了堆栈。示例代码不包括用于抓取数据或检查数据的逻辑，因为它是不相关的。result // Tail cal

浏览 21提问于2019-05-31得票数 0

2回答

是否有一种方法可以获得sparkjava / embedded jetty服务器的主线程执行器？

、、、、

我正在使用SparkJava建立一个网站。目前它有一个帐户管理系统。我有一个控制器LoginController，它异步地向数据库发出请求并返回ListenableFuture<Account>。帐户管理器调用是在我的LoginController中的一个LoginController中进行的，但是我只想在抓取(异步) Account之后将用户重定向到站点(同步)。我知道我可以做returnedFuture.addListener(runnableThatRedirectsU

浏览 2提问于2016-11-19得票数 1

回答已采纳

2回答

cron作业之间的可变时间(或类似的实现)

、、、

这个想法是这样的--有一个我想要抓取的网站。它每10分钟更新一次，但有时get不同步。重要的是，我抓取的信息就在它更新之前。每次我查看网站，我都可以抓取“剩余时间”直到下一次更新。有没有办法创建一个cron作业--在每次迭代之后--我可以根据时间(t)迭代中的一些变量，专门设置在运行时间(t+1)迭代之前等待的时间？我对cron作业不是特别熟悉--我目前的

浏览 3提问于2015-04-01得票数 0

3回答

Rails:有没有能从给定链接自动生成缩略图的gem？

、、、、

我正在尝试实现一个类似于facebook的功能:当用户发布链接时，facebook会抓取链接的网站，并抓取最相关的(大)图片。我在这里和Quora上读到了一些解决方案，但它们主要是关于PHP的，并没有提供详细的解决方案。我找到的一个答案是这样的，但作为Rails的初学者，我不完全确定如何做到这一点：2.通过HTML解析获取所有图

浏览 0提问于2012-12-09得票数 1

1回答

Python 3如何在特定的域上抓取/抓取？

、、、

我希望抓取所有的网址/文本内容和爬行在特定的领域。我还尝试了以下停留在特定领域的代码，但它似乎并不完全有效。print(p, p.hostname) pass return [] 我的主要问题是确保爬虫停留在指定的域上，但当urls可能具有不同的路径

浏览 13提问于2020-02-09得票数 0

1回答

wget:识别中断的出站链接

wget的S --spider选项可以简单地识别出断开的内部链接：我尝试用-H扩展它以查找断开的出站链接，但是(据我所知)您不能在外部域上指定一个额外的递归级别，所以在--level=0中保留让爬行器可以覆盖整个万维网。我能想到的一个解决办法是使用网站的sitemap.xml (如果有可用的话)来获取整个域的URL集，并将它们反馈给wget，这样我就可

浏览 0提问于2022-08-16得票数 2

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Amazon :具有认知功能的AccessDeniedException

使用sdk从aws kendra索引查询记录

Google Play API

无法从具有不同选项卡和日期的网站中抓取数据

PHP网站的版本控制和同步(实时和开发)？

如果我们要用Hadoop和Solr做一个搜索引擎，NUTCH的作用是什么？

无法在MacOSXLion10.7.5上执行二进制文件

用于情感分析的行业特定舌管分类训练数据集

在dev server上的分支中同步文件

网络抓取和网络抓取有什么不同？

是否需要为每个目标站点编写抓取器？

如何使用<div>访问多个HTMLAgilityPack标记的内容？

如何在没有转储的情况下，从唯一的配置文件中部署/管理类似的站点？

如何在抓取网页时提高效率？

是否有一种方法可以获得sparkjava / embedded jetty服务器的主线程执行器？

cron作业之间的可变时间(或类似的实现)

Rails:有没有能从给定链接自动生成缩略图的gem？

Python 3如何在特定的域上抓取/抓取？

wget:识别中断的出站链接

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐