网络爬虫法律_网络爬虫_网络金融法律 - 腾讯云开发者社区

有没有办法让网络爬虫忽略robots.txt文件和标签？是的，我知道这可能会带来法律后果。这个问题很像，但答案非常模糊，我也不太明白。任何帮助都是非常感谢的。

浏览 0提问于2020-04-29得票数 0

1回答

网络爬虫会遇到什么危险？

我刚写完一个爬虫，一直在想为什么爬行某个网站会很糟糕。我知道现代浏览器的风险主要是由javascript造成的。因此，我的问题是，web爬虫(用PHP或Java编写)是否能够刮起可能会对爬虫造成损害的站点？

浏览 3提问于2014-11-08得票数 1

1回答

抓取OTT平台内容列表

、、

如何抓取OTT流媒体平台(Netflix、Prime video、HULU、Hotstar等)目录列表的细节，如flixjini，只是with和其他的怎么办？

浏览 6提问于2020-05-05得票数 0

3回答

网络爬虫反馈？

、、、

无论如何，作为对我上一个问题的跟进，我写了一个小的网络爬虫，可以访问网站。 - Main.java - HTMLUtils.java

浏览 12提问于2010-05-29得票数 2

回答已采纳

2回答

浏览器限制会影响网页爬虫吗？

、、

return Redirect("/h"); return View(); 问题:如果我限制一些浏览器访问我的主视图，它也会限制对网络爬虫的访问吗

浏览 0提问于2013-02-21得票数 0

回答已采纳

1回答

我正在寻找一个web应用程序，它可以以与搜索引擎非常相似的方式从网络上收集数据，但它不会将结果作为标题和摘要的列表，而是将结果转储到一个表中，试图从其内部索引中的页面中提取元数据。(很久以前，谷歌有一个叫做Google Squared的网络应用程序。今天还有其他类似的工具吗？这是维基百科页面中的相关描述: Google从整个网络中提取结构化数据，并以类似电子表格的格式显示其结果。每个搜索查询返回一个搜索结果表，其中有自己的一组列--与搜索主题相关联的公共属性。

浏览 0提问于2023-02-07得票数 2

1回答

避免限制机器人的Cloudfront地理限制

我有一个Cloudfront发行版，它启用了只允许巴西的地理限制。它工作得很好，但最近我发现了一个问题：我来这里是想问，有没有什么办法可以解决这个问题，比如“允许机器人”，或者有没有Facebook公司的一组IP，我可以“允许”并确保机器人可以到达正确的网页。

浏览 4提问于2021-10-05得票数 0

2回答

在网站和独立应用程序中使用Django框架

、

我计划为它写一个网络爬虫和一个基于网络的前端(或者至少是它找到的信息)。我想知道是否可以使用Django框架让网络爬虫使用与网站相同的MySQL后端(而不是让网络爬虫本身成为“网站”)。

浏览 1提问于2009-06-04得票数 1

回答已采纳

1回答

运行网站爬虫

、

我正在用java编写一个网站爬虫，我想知道运行它最明智的方式是什么？这不是一个真正的网络爬虫，因为它只关心x个网站，但我想不断循环通过这些网站(24小时)，以确保我有最新的内容。

浏览 0提问于2012-01-10得票数 0

回答已采纳

1回答

爬取白页的可能解决方案

、

我正处于一个我必须编写的程序的开始阶段，该程序将从我拥有的大型数据库中提取用户，并将其与任何类似于Whitepages电话簿的内容进行比较。这样做的原因是为了用更新的相关联系信息更新存储在我的数据库中的任何旧联系信息。到目前为止，我只接触过Whitepages Pro，它提供了一个API，允许我对他们的数据库运行一些查询，并返回我认为是最新的信息。我可以访问用户的电话号码、姓名和地址，因此最初的想法是将旧的电话号码+姓名与更新的数据库进行比较，以更正旧的数据。我的问题是，对于我的问题，这看起来是一个好的解决方案吗？Whitepages似乎是我唯一可以使用的工具(它确实花费了300美元，但如果它

浏览 1提问于2015-05-01得票数 0

5回答

有哪些好的基于Ruby的网络爬虫？

、

我正在考虑写我自己的，但我想知道是否有好的网络爬虫在那里是用Ruby编写的。除了一个成熟的网络爬虫，任何可能有助于构建网络爬虫的gem都将是有用的。我知道这个问题的这一部分在几个地方被涉及到了，但是一个适用于构建网络爬虫的宝石列表也是一个很好的资源。

浏览 2提问于2011-02-13得票数 21

回答已采纳

1回答

Facebook Linter / Open Graph截取URL路径

、、、、

我一直在网上和StackOverflow上寻找答案，但我没有找到完全适用于我的情况的案例。我使用Facebook Linter来调试FB抓取我的meta标签的方式。如果我在一个简单的About页面上使用它，它可以提取所有内容，特别是og:url元标记。当我抓取正常的内容页面时，问题就开始了。尽管我已经三次检查了我的标记格式是否正确，但FB Linter将URI从URL中删除，因此它报告og:url标记只有域名electionstats.com/！页面上实际存在的og:url标记如下所示：我怀疑这是FB缓存页面的问题，因为在我的About页面上，我进行了快速代码更改，更

浏览 3提问于2011-10-10得票数 0

回答已采纳

1回答

如何使用ApacheNutch2.2.1绕过robots.txt

、、、

有谁能告诉我apache在爬行时是否有任何方法可以忽略或绕过robots.txt。我用的是nutch 2.2.1。我发现"RobotRulesParser.java"(full RobotRulesParser.java RobotRulesParser.java)负责读取和解析robots.txt。有没有办法修改这个文件以忽略robots.txt并继续爬行？

浏览 4提问于2014-06-05得票数 0

回答已采纳

2回答