信息抓取的实现_信息抓取_抓取表信息 - 腾讯云开发者社区

、

我是网络抓取的新手，并试图抓取以下网站：我正在尝试使用python进行抓取。我已经尝试了请求，PhantomJS，selenium chromedriver来获取html。但是我得到的html与我在使用google chrome进行检查时看到的html不匹配。我对抓取非常陌生，对html的了解很少，对JavaScript几乎一无所知。我的主要难题是获得我在google chrome中看到的html，这样我就可以开始抓取了。提前感谢！

浏览 30提问于2018-02-01得票数 0

1回答

Facebook图像共享问题

、、、、

可能重复：我有一个名叫IdiotsTube的网站，我在上面嵌入了youtube的视频。每当有人在facebook上分享某个视频页面的链接。它寻找一个图像，我如何添加一个自定义的图像到它。比如，我可以在页面的某个地方隐藏图像，或者在元数据上添加一些内容，然后facebook也会抓取该图像。基本上，我面临的问题是，facebook抓取的图像是不可靠的就像有人分享这个页面：那么facebook抓取的图像不是我想要的图像。谢谢:)

浏览 0提问于2011-05-10得票数 0

回答已采纳

2回答

PHP中的登录Javascript

、、、、

我一直在用PHP为一个内部应用程序创建一个网页抓取器，但是其中一个页面有一个JavaScript登录，有没有办法像往常一样自动登录来抓取数据？ (我正在使用curl登录到其他两个站点)

浏览 0提问于2010-07-23得票数 1

回答已采纳

2回答

通过SOAP或REST WebService手动启动爬网

、、

在SharePoint 2013本地安装中，我们配置了增量爬网，每15分钟运行一次。现在我们也需要一种手动开始抓取的可能性。有没有可以调用的WebService来手动开始抓取？也许甚至有可能在较小的范围内开始抓取，比如只有一个列表或网站？

浏览 0提问于2015-03-17得票数 1

1回答

使用Solr Nutch抓取特定数据

、、、

我看到一些像这样的搜索网站，我想知道他们是如何在price，image和description等其他网站上抓取数据并将其显示在他们的网站上的。我正在考虑使用Solr来索引数据，使用Nutch来抓取数据。我是网络爬行和索引的新手，到目前为止，我只能抓取网页的内容。 Solr Nutch能做这种爬行吗？又是如何做到的？

浏览 1提问于2015-08-28得票数 0

1回答

用Java存储数据。文本文件、csv或其他方法？

、、

我正在创建一个工具，用于从多个URL中抓取链接。我想要存储这些信息，然后测试刮过的链接的状态。我预计必须测试许多链接，大约6万。所以我的问题是决定如何存储要测试的链接。我想做的是为我将要抓取的URL创建文本文件。我必须为我要抓取的URL创建大约40个文本文件(我正在抓取的URL是相同的URL，只是区域化)。创建大量文本文件会导致性能问题吗？我最好将URL存储在数组中，然后将数组写入文本文件，还是应该在运行过程中将URL写入文本文件？还是有更好的方法？有比在文本文件中存储更好的方法吗？(我真的不想使用数据库，但如果有很好的理由，我可以相信)

浏览 1提问于2012-04-20得票数 0

回答已采纳

1回答

让Scrapy从上一个中断点继续爬行

我正在使用scrapy抓取一个网站，但是发生了一些不好的事情(断电等)。我想知道我怎样才能从它坏掉的地方继续爬行。我不想从头开始。

浏览 1提问于2013-08-18得票数 5

2回答

使用Solr为带有属性的HTML标记建立索引

、

我使用Nutch抓取网站，并将抓取的数据推送到solr。现在我想在具有特定属性值的特定标签之间搜索内容。例如, <h><title> title to search </title></h> <div id="abc"> content to search </div> <div class="efg"> other content to search </div> 我已经看过这个问题()，但这个问题不够清晰。我想知道是否有任何插件可用

浏览 3提问于2013-06-27得票数 1

1回答

创建媒体收藏集管理器

、

您好，我正在创建一个程序来管理我下载的电影和电视节目文件。我想用JAVA编写它，因为我可以在学校练习这样做，而且编程需要跨平台，我想在windows/mac/linux上运行它。我想让程序做的是读取文件夹名称或文件名，然后使用API从IMDB/theoviedb.org/theTVDB.org中抓取信息。抓取信息后，应该将其保存到.nfo文件中，这样XBMC就可以读取它们并将信息添加到其媒体库中。我在学校上了一些UML课程，所以我想我应该制作一个类图，说明信息应该如何在程序内部使用，但我不知道我做的是不是很好，或者是否可以改进。有谁能给我一些建议吗？

浏览 0提问于2011-07-28得票数 0

回答已采纳

1回答

抓取仿真工具

、

我想做一些抓取运动规划的实验，但是我在编译GraspIt时失败了！在VS2010上使用Win7。还有其他抓取仿真工具如GraspIt！可以在Win7和VS2010环境中使用吗？谢谢!

浏览 4提问于2015-03-03得票数 0

3回答

Scrapy似乎不是在做DFO

、、

我有一个网站，我的爬虫需要遵循序列。例如，在开始执行a2之前，它需要执行a1、b1、c1等操作。a、b和c中的每一个都由不同的解析函数处理，相应的urls在请求对象中创建并生成。下面大致说明了我正在使用的代码： class aspider(BaseSpider): def parse(self,response): yield Request(b, callback=self.parse_b, priority=10) def parse_b(self,response): yield Request(c, callback=self.par

浏览 1提问于2012-03-04得票数 11

回答已采纳

2回答

R-在Microsoft Edge中抓取数据的包是什么？

、、

我研究了一下RSelenium，发现支持的浏览器只有chrome、firefox、phantomjs和internet explorer。Microsoft Edge是我笔记本电脑上唯一的浏览器，因此我正在寻找一个软件包，它可以帮助我在不安装其他浏览器的情况下从Microsoft Edge中抓取数据。有没有可以安装的包来抓取Microsoft Edge中的数据？

浏览 28提问于2021-11-04得票数 1

2回答

在数据库中存储爬网站点的最佳解决方案

、、、

我想在数据库中存储抓取的网站(html代码)。网站数量将会达到数百万。我将在该网站搜索特殊字符串。我现在使用的是PostrgreSQL，但我怀疑关系数据库是否合适。也许是一些NoSQL的灵魂？你有什么好的建议吗？

浏览 3提问于2011-12-27得票数 0

回答已采纳

1回答

烧瓶应用程序定期调用外部功能，即使不使用

、、

我正在编写的应用程序包括定期抓取网站，并将数据存储在数据库中，以查看其随时间的变化情况。为此，需要每天调用一次刮取函数。使用time.sleep()调用或任何类似的跟踪时间的方法，劫持了Flask应用程序，使用户无法更改正在查看的页面。我想出的唯一一种跟踪何时刮擦的方法需要重新加载页面： @app.route("/") def index(): if (time.time() - last_scrape) > 86400.0: scrape() last_scrape = time.time() return rende

浏览 4提问于2016-02-10得票数 0

1回答

如何抓取包含特定单词的youtube视频片段

、、、、

好的，基于这个视频，我很好奇，是否有可能创建一个PHP脚本，自动抓取某个youtube频道上的所有视频(在本例中为)，抓取所有视频，查看某一行或某个单词的记录，然后用正确的时间戳保存vids，以便将所有这些视频合并为一个。我知道有一个API可以获取一个特定用户的所有youtube视频url，你可以获得每个视频的记录，但是扫描所有这些都将是相当大量的资源。我很好奇你们对如何创建这样的剧本有什么想法。

浏览 4提问于2016-10-08得票数 3

回答已采纳

1回答

在我的例子中，selenium推荐用于网络抓取吗？

、、、

我从网络抓取开始，我正在寻找一种方法来找到一个公司名单的邮政编码，使用Python和网络抓取。为此，我想使用熊猫库，因为我的文件是excel格式的selenium库，可以在互联网上搜索与公司对应的邮政编码。例如，在A列中有company_1，所以算法必须在因特网上搜索"company_1“，并在Excel的B列中返回相应的邮政编码。困难的是，我没有一个网站来联系每一家公司。这有可能吗？提前感谢

浏览 1提问于2022-09-16得票数 0

回答已采纳

1回答

提高卷筒纸刮刀效率

、、、

我正在创建一个java应用程序来从一个特定的XXX网站抓取数据，我想将所需的一组数据存储到我的MSSQL数据库中。dataset位于MSSQL中的100000+行附近。我所做的就是收集数据，根据我的需求对其进行处理，然后将其存储在DB中以及我的ElasticSearch集合中。整个过程一次运行大约需要2天或更长时间。我使用JSoup来解析数据。我想知道的是，我如何提高我的应用程序的效率，以便我可以在更短的时间内抓取和保存它。我有用于并行执行我的流程的executor服务。

浏览 2提问于2018-12-11得票数 0

1回答

有趣的新闻文章/博客文章抓取问题

、

我需要抓取博客帖子的文本来构建博客帖子的摘要描述，类似于techmeme.com所做的事情。当它是一篇或几篇博客文章时，这不是问题。然而，从其中抓取文本的可能的博客是可变的，并且没有限制。你会怎么做呢？我过去使用过html agility pack和yql，但这两个解决方案都没有内置的解决方案来满足这一需求。我的一个想法是搜索div ids和div属性，命名为内容、帖子、文章等，看看它是如何工作的--而不是真正倾向于这个方向。另一个想法是在html文档中搜索最大的文本节点，并假设这就是我想要的节点-可能会导致一些误报。最后的想法是努力在google应用上创建一个众包数据仓库，允许社区管理(

浏览 1提问于2010-11-14得票数 1

1回答

抓取窗口窗体、弹出窗口和菜单

、、

我正在开发一个应用程序屏幕抓取第三方应用程序。现在，我可以毫不费力地在我计划抓取的第三方应用程序中找到所有的表单、菜单和弹出窗口，但我不知道如何才能找出我抓取的窗口是弹出式窗口还是菜单或其他什么。有没有给出窗口句柄的函数可以告诉我它是什么窗口？ Tks，Jose

浏览 1提问于2009-05-07得票数 1

回答已采纳

1回答

iOS中使用相机的物体高度和宽度

、、、、

我正在做一个小的教育演示，它应该使用iOS相机测量物体的高度和宽度。编辑：我有一个新的理论来测量物体的宽度。在上面的图像中，如果能得到角α和角点，就可以利用三角公式得到未知边的宽度。我已经有了b1和b2的值。老：现在，我只专注于测量长度。据我所知，这应该是三个步骤的过程。用户抓取对象的一端。用户抓取对象的另一端。用户抓取对象的中心。(请给我一个更好的方法。) 我使用上述过程得到了大致的测量值，但在第三步中，用户抓取对象的中心。我想显示指针在屏幕上的位置(作为相机覆盖)，以帮助用户确定对象的中心。我现在就是这样做的。如何绘制第三步的指针位置

浏览 4提问于2015-03-17得票数 4

回答已采纳

1回答

PHP匹配所有

、、

我使用的是一个叫做Movie Poster的wordpress插件，它从imdb抓取电影信息并将其显示在帖子中。如何只抓取第一个逗号之前的第一个Production Co？我搞不懂这段代码是如何工作的。下面是获取所有产品代码的代码： $arr['productions'] = array(); foreach($this->match('/<a.*?>(.*?)<\/a>/ms', $this->match('/Production Co.?:(.*?)(<\/div>|See mo

浏览 1提问于2013-05-01得票数 2

回答已采纳

1回答

谷歌从抓取的页面中提取了什么信息？

、、、

谷歌通过抓取下载整个页面，然后抓取一些数据来创建索引，比如标题、元标记？ google从页面中提取的其他数据点是什么？

浏览 0提问于2012-11-01得票数 0

4回答

将div的内容捕获到镜像中

、

有没有人知道是否可以用php抓取某个特定的div？我想做的是有一个拖放容器，用户可以潜在地使用javascript定位一些图像，然后我希望他们能够将结果的副本保存为单个图像。提前感谢

浏览 1提问于2011-09-22得票数 1

2回答

普罗米修斯与ActiveMQ的集成

、

我想在普罗米修斯/格拉凡纳上展示ActiveMQ的指标，并使用普罗米修斯AlertManager生成警报。请建议任何选项，以抓取普罗米修斯的ActiveMQ指标。

浏览 102提问于2019-07-19得票数 4

回答已采纳

1回答

搜索我的信息会暴露我的信息吗？

我的银行在我的电子邮件地址上搜索“黑暗网络”，看看它是否存在。我突然想到，他们可能会通过搜索把我的电子邮件地址放到黑暗的网络上。是什么阻止了它们抓取搜索字符串、提取电子邮件地址、将它们与查询源相关联、以及根据一项旨在保护特定机构的活动的特定机构的已知良好电子邮件地址列表？

浏览 0提问于2019-01-29得票数 2

3回答

备份/还原蔚蓝虚拟机

、、、

我想知道备份和还原蔚蓝VM的最快方法。类似于抓取快照，然后稍后倒转到它(就像传统的虚拟机)。有什么想法吗？

浏览 3提问于2013-09-12得票数 1

回答已采纳

1回答

Wowza:在播放时修改流？

似乎这必须在许多不同的上下文中发生，比如添加字幕。我想要做的是抓取一个框架，更改其中的某些功能，然后“放回原处”，以便最终用户看到这种更改。我想我知道如何抓取和修改帧，但是将它重新插入到流中，我不知道该怎么做。会喜欢一个链接或代码。

浏览 0提问于2015-12-10得票数 2

3回答

在抛出ASP.NET错误时抓取网页

、

当一个网页抛出一个“潜在的危险脚本”错误时，我正在尝试抓取它。每次我这样做，我得到一个服务器500，但我可以抓取一个正常的，可操作的页面。有没有一种方法可以在网页抛出错误的时候抓取它？谢谢

浏览 1提问于2009-04-29得票数 0

回答已采纳

2回答

HTML抓取的最佳可用选项是什么？

、、

我目前正在使用PHP与CURL和简单的HTML DOM分析器进行HTML抓取。我需要刮大量的内容，它需要存储。我使用PHP作为我的主要语言，使用MySQL作为存储DB，但是我对任何语言的选项都感兴趣，并且可以将它集成到我的工作流中。还有其他的HTML抓取包我应该调查吗？我听说过基于Python的名为“Scrapy”和“Beautiful”的web抓取库。非常感谢你的建议。)

浏览 0提问于2014-03-05得票数 0

回答已采纳

1回答

UDP bittorrent跟踪器的Python抓取

、

我正在使用Erin Drummond的python脚本来抓取bittorrent tracker ()，但是我在抓取UDP跟踪器时似乎遇到了问题。问题是返回的“完整”数字始终是10或更小。这对我来说似乎不太现实，因为据我所知，这是跟踪器注册了一个torrent的完整下载的次数。我用100d的infohashes进行了测试，以确保这不只是一个巧合。我一直在调整本地网络的缓冲区大小(4096而不是2048)和套接字超时(10而不是8)，但除此之外，我没有更改任何内容。有没有人有什么建议可能会导致不完整的“完整”数字？也许超时仍然太低？

浏览 4提问于2013-11-05得票数 4

2回答

我想使用GAE抓取一个网站，并将结果发布到一个谷歌实体

、、

我想抓取这个网址：进入每个链接并提取各种信息，例如权限、prims等，然后将结果发布到google应用引擎上的一个实体中。我想知道最好的方法是什么？克里斯

浏览 0提问于2010-03-09得票数 1

回答已采纳

1回答

还有其他方法可以获得代理列表和站点抓取吗？

、

通过抓取，我使用随机代理中间件为Scrapy ()。首先，我通过抓取免费的代理站点(不使用代理旋转)获得list.txt (代理列表)，然后，当我通过两个不同的Scrapy项目运行它时，我会对另一个站点进行抓取(使用代理旋转)，它工作得很好。问题是如何将获取代理和抓取合并到一个粗糙的项目中，还是有其他方法来处理它？我试图在一个Scrapy项目中一起运行它，不幸的是，它不起作用。可能是因为在这种情况下，尝试使用list.txt进行代理旋转，此时请求释放代理站点是空的。

浏览 1提问于2019-06-23得票数 0

回答已采纳

1回答

如何在线程环境中管理多个代理？

、、、、

我希望每个线程使用不同的IP运行。是否可以为每个线程使用不同的ip？到目前为止，我不能为每个线程分配不同的IP地址。目标是在不被禁止的情况下进行网络抓取。 f1-> ip X f2-> ip y f3-> ip z 下面是我的代码：这是当前的回报：

浏览 28提问于2020-11-01得票数 0

1回答

银行是否可以直接提供提要，而不是屏幕抓取？如果是，我可以在哪里找到它的文档？

、、

作为Yodlee平台的新手，我了解聚合API的基本概念。有没有办法作为银行提供直接数据链接而不是屏幕抓取来提供yodlee plaf和要提供给开发人员的数据模型？

浏览 0提问于2015-01-25得票数 1

1回答

Schemacrawler根据表的数量对大型模式进行分区

我有一个使用案例，我使用schemacrawler从不同的数据库抓取元数据。然后在我的下游系统中使用这些元数据。我有很多可变大小的数据库需要抓取。表的数量从20到2000个不等。现在，我正在使用Schemacrawler API来运行爬虫。如果源数据库中的表数更多，我的应用程序就会崩溃，因为它试图一次抓取所有的表。在schemacrawler中有没有办法批量抓取数据库。也就是说，如果有1000个表，它将分5批爬行，每个批200个表？谢谢!

浏览 38提问于2020-11-02得票数 0

1回答

Linkedin/Facebook邮箱

、、

我想创建一个类似于linkedin和facebook的邮箱；当某个东西被粘贴在里面时，如果在其中检测到一个URL，那么就会创建一个缩略图。我的两个问题是：*这样一个现成的组件是否已经存在？我搜索了很多，但没有发现*如果我要自己做，我不明白的是，facebook和linkedin是如何检测到的正确图像来抓取和缩略图的。它似乎不需要随机图像，如果你有一篇带有标题图片的文章，他们就能捕捉到.我想知道你是否愿意这样做，你会采取什么样的方法？也许:抓取页面，解析图像，取最大的(但这似乎是太多的处理)？

浏览 4提问于2015-09-01得票数 0

回答已采纳

1回答

Google Sheet能从Google docs中抓取信息吗？

、、

我知道抓取网站是可能的，但有没有可能让Google Sheets抓取Google Doc中的数据呢？例如，如果我有一堆google文档，它们都有一行写着上次更新: mm/dd/yyyy。有没有可能有一张谷歌工作表，上面有指向文档的urls，并让它们抓取日期

浏览 0提问于2020-03-26得票数 1

1回答

创建可使用Python处理的Google扩展

、、

光环，我需要开发一个谷歌扩展，能够与python链接。我已经在python中编写了进程代码，我所需要的只是一个扩展，它可以抓取Twitter ID和Tweet，并通过python进行处理并将结果从python发回给扩展。这是可能的吗？需要使用什么库？它将类似于在扩展和python程序之间传递消息。

浏览 17提问于2020-09-16得票数 0

1回答

抓取问题(data-reactid)

、、、、

我正在尝试抓取一个网站，并根据我提取的数据编辑一个电子表格。我要抓取的网站是。我对抓取没有太多的经验，但我的方法是在html标签中找到独特的属性，并用它来抓取我想要的东西。所以对于这个网站，我的方法是首先抓取页面的URL列表，当你点击其中一个体验时，例如：，其次，在这个列表中循环，每次都要抓取相关的属性。然而，我被困在了第一步，因为我遇到的不是简单的"a href“标签，而是"data-reactid”标签，这会让事情变得混乱。我使用iMacros进行抓取，但我现在对Java语言相当在行，所以如果需要的话，我会学习用Java语言进行抓取(这似乎很有可能，因为iMacr

浏览 2提问于2015-04-30得票数 2

1回答

如何在Prometheus中获取Jenkins版本度量信息？

、、、

我在K8s集群中部署了一些Jenkins实例。目前，我能够在Prometheus，Grafana中抓取/获取Jenkins度量/日志。但是现在我的目的是看看是否所有Jenkins实例都有相同的版本。我没有在Grafana中找到任何查询来刮取Jenkins的版本度量。但是，我可以看到诸如CPU使用、内存使用、Jenkins (default_jenkins_uptime)等指标。有任何专家也有同样的问题吗？提前谢谢，保重

浏览 1提问于2020-09-15得票数 1

回答已采纳

1回答

在Azure中部署和调度控制台应用程序

、、、

我得到了一个使用C#控制台应用程序和Selenium Chrome驱动程序开发的web抓取工具。在Azure平台上是否有部署和计划每天运行的选项？

浏览 4提问于2017-11-08得票数 1

回答已采纳

1回答

Web抓取:下一个页面以Javascript呈现，我如何使用Scrapy获取它

、、、、

我一直在尝试使用Scrapy https://www.remax.com/homes-for-sale/ny/new-york/city/3651000来抓取这个网站。我可以获取页面上的内容，但不能转到下一个页面，因为它似乎是用javascript呈现的。如何做到这一点呢？

浏览 4提问于2020-11-30得票数 0

2回答

爬网后统计信息收集

、、

我想在抓取完成后收集和解析统计数据。我知道它会转储统计数据，但理想情况下，我希望有一个方法/钩子，该方法在抓取完成时运行，然后可以收集统计数据(因为我将使用它们来决定是否需要自动进行另一次抓取)。请不要建议使用某种外部脚本，我希望所有这些都包含在一个项目中。

浏览 1提问于2019-07-30得票数 0

1回答

如何在Flatlist内容较少时启动呈现以使用scroll - React Native

、、

我正在尝试做一个过滤无限的卷轴，我正在使用一个平面列表。这些物品的高度是可变的。如果抓取的列表只有一项或没有项，则不会触发onEndReached，因为没有滚动。所以，我不能获取新的项目。有什么解决方案吗？ class Vehicle extends Component{ loadMoreVehicles = () =>this.props.vehicleActions.fetchMoreVehicles (this.state.page); renderItem = ({ item,index }) => { return (this.filte

浏览 0提问于2018-04-29得票数 0

2回答

执行单元测试完成的一些高级操作？

、、、、

是否有可能在单元测试端执行一些高级操作？比如抓取所有的测试结果和日志，然后通过电子邮件发送给开发人员？希望解决方案，无论是在JUnit或与Gradle。

浏览 0提问于2016-10-13得票数 1

2回答

Scrapy图像管道

、、、

我在爬行器中编写了以下函数来抓取网站中的信息。我已经启用了Image管道，甚至可以将图像与相关的抓取数据一起抓取。使用这段代码，我可以生成图像或scraped_data (在最后第二行中注释)。谁能帮我解决这个问题，因为我怎样才能同时生成图像和scraped_info？ def parse_info(self, response): url = response.url title = str(response.xpath('//*[@dataitem="itemTitle"]/text()').extract_first()) img_

浏览 9提问于2018-01-17得票数 1

回答已采纳

9回答

如何做一个FlashHTML5画布图像“翻页”，就像你通常在JavaScript中看到的那样？

、、

有没有人尝试过用你在Adobe Flash中常见的带有JavaScript和HTML5的canvas标签的图像来重现翻页效果？有没有框架或JQuery插件可以实现这种效果？ Flash中的翻页功能允许您抓取模拟图书页面的一角，并像翻转真实图书的页面一样翻转页面。我真的很想学习如何使用JavaScript和HTML5的canvas标签做到这一点，但不确定从哪里开始，也不确定需要什么公式。

浏览 3提问于2009-12-03得票数 16

回答已采纳

1回答

上一页的document.title？

、、

我有一个HTML表单抓取前一页的网址和javasscript的页面标题，但我需要的页面标题也是前一页。它当前抓取它所在的页面。如何从上一页抓取页面标题？这是我的代码。 <script type="text/javascript">// <![CDATA[ function start() { var url = document.getElementById('url'); url.value = document.referrer; var ptitle = document.getElementBy

浏览 3提问于2013-05-17得票数 0

1回答

如何限制Apache Nutch 2.3.1抓取故事内容而不是侧边栏

、、、、

我得抓取一些新闻网站。我已经在Hadoop 2.7.4和Hbase集群上安装了apache Nutch 2.3.1。我必须通过solr 6.6.1提供搜索。在抓取一些网站后，我观察到Nutch抓取页面中的所有内容。在新闻网站中，有包含最新或热门新闻等内容的侧栏。这些侧栏内容会随着时间的推移而变化。有没有办法让Nutch抓取主要故事内容，并避免这样的侧栏。

浏览 1提问于2017-11-08得票数 0

4回答

按位置获取HashSet<T>的元素

、

有没有办法从HashSet中抓取第三行？喜欢 HashSet<string> ContinuedForums = new HashSet<string>(); ContinuedForums.add("a"); ContinuedForums.add("b"); string hellow = ContinuedForums[1]; 是的，我想用HashSet。

浏览 2提问于2013-05-29得票数 5