linux 爬虫工具 - 腾讯云开发者社区

腾讯云

开发者社区

文档建议反馈控制台

首页

文章/答案/技术大牛

发布

1回答

扫描仪/工具，用于生成包含网站所有表单和输入字段的列表

、、、、

是否有一个工具/爬虫来查找整个网站的所有表单和输入字段？我知道firefox和chrome的加载项，显示当前浏览网站的表单细节。我需要的是一个工具，像一个安全扫描器/网站爬虫，自动扫描整个网站的表单，并生成一个有用的文件或显示概述与表单和他们的输入字段。我使用linux，并希望检查一个本地开发的网站的表单和输入字段。编辑:我以前没有使用任何安全工具，只是从网上的书籍和文章中了解了一些基本知识。

浏览 0提问于2014-09-02得票数 -1

1回答

如何判断Apache是否按预期使用了我的.htaccess？

、

我根据谷歌网站管理员工具的建议，修改了我的.htaccess文件，使其包含以下几行代码： Header set X-Robots-Tag "noindex谷歌网站管理员工具声称爬虫仍然可以看到pdf，但它们似乎只用于robots.txt。有没有第三方工具(linux版)可以用来检查meta标签？

浏览 0提问于2012-04-13得票数 2

回答已采纳

2回答

通过IP过滤测试Web服务安全性的方法？

、

作为一种安全措施，我们现在只通过IP地址过滤对web服务方法的访问，只访问一小部分机器。因为我对测试的游戏比较陌生，所以我想知道这种IP过滤是否容易受到特定的攻击，或者使用这种IP过滤方法要测试什么样的陷阱。还要别的吗？

浏览 0提问于2012-01-06得票数 3

回答已采纳

1回答

Grails中的Web Crawler用于计算页面深度

、、

我在做爬虫申请。我希望爬行网站，并找到深度的网页检索。我读过不同的爬行和解析工具，但都没有用。它们似乎都没有为计算深度提供支持。我也不确定使用哪一种爬虫工具，哪种工具最接近所需的功能。

浏览 3提问于2014-06-25得票数 1

回答已采纳

2回答

谷歌搜索引擎优化，如何从谷歌隐藏链接，文本，图片

我有一些文本和链接生成，我想隐藏它从谷歌。有什么想法吗？谢谢

浏览 0提问于2011-06-18得票数 0

回答已采纳

1回答

如何更新Linkedin Open Graph Image？

、

我需要在被共享时更新linkedin的Open Graph Image。我在Facebook和Plus上修改了，但在Linkedin上没有。在这方面有什么解决方法吗？

浏览 1提问于2014-11-18得票数 3

1回答

Google Cloud的IP可以被普通用户使用吗？

在经历了几天的大规模攻击后，大多数攻击来自中国，今天我开始从谷歌云IP(他们甚至不遵循robots.txt文件)获得很多命中，我能知道这是谷歌机器人爬虫程序还是人们使用谷歌云IP爬取网站？

浏览 16提问于2017-08-03得票数 0

4回答

自动网络爬虫

、

我正在编写一个爬虫，需要从许多网站获取数据。问题是每个网站都有不同的结构。我如何才能轻松地编写一个从(许多)不同网站下载(正确)数据的爬虫？如果网站的结构发生变化，我是否需要重写爬虫，或者是否有其他方法？谢谢!

浏览 0提问于2012-07-20得票数 1

1回答

Facebook调试器身份验证

、、

我需要删除一个带有服务器身份验证的URL。我尝试在URL中传递登录名和密码，例如：http://login:password@example.com，但没有成功。你知道有没有可能通过Facebook Debugger的身份验证？

浏览 2提问于2016-02-24得票数 0

1回答

如何使用网络爬虫从flv文件中提取内容？

、、、

请建议我如何使用任何网络爬虫来实现这一点。如果这是不可能与网络爬虫，请建议我任何其他工具。谢谢你

浏览 0提问于2013-05-14得票数 0

回答已采纳

2回答

如何追踪记忆尖峰？

、、

它似乎从午夜开始，一直持续到早上7点(忽略图表上的时间-)从穆宁图表来看，mysql中似乎没有任何活动增加，以太网流量在这段时间内似乎也没有增加(这似乎否定了类似于机器人或爬虫的东西)。linux可以使用哪些工具来解决类似的问题？

浏览 0提问于2010-08-12得票数 8

3回答

如何在ABOT C#网络爬虫中获取html输出页面？

、

我正在尝试用ABOT在c#.i中制作网络爬虫，我搜索了很多例子，并添加了ABOT网络爬虫。从那我只能得到日志输出而不是超文本标记语言页面输出。我想得到超文本标记语言页面输出only.because，超文本标记语言输出是超文本标记语言敏捷工具的输入。帮助我从ABOT网络爬虫在C#中获得超文本标记语言输出。谢谢。

浏览 4提问于2013-09-12得票数 5

1回答

在Linux服务器上使用Selenium运行Scrapy Web Crawler

、、、、

我用scrapy和selenium(python)开发了一个网络爬虫。它可以在我的本地成功运行。我很好奇，我可以把我的整个爬虫项目上传到我的linux服务器上，然后像在本地一样运行吗？只有一个问题是在我的本地，当程序运行时，它会打开浏览器，模仿人类的动作，但在linux服务器上，就像你知道的，我们没有浏览器可以打开。所以我们可以这样做吗？

浏览 1提问于2016-02-26得票数 0

3回答

用自定义爬虫防止虚假分析统计

、、、

是否有办法通过使用PhantomJS和/或这样的红宝石爬虫来防止伪造的Google统计数据提前感谢

浏览 12提问于2013-11-15得票数 2

回答已采纳

1回答

为什么我的网站没有出现在谷歌搜索结果中？

、、、

我已经为一个朋友的面包店做了一个简单的网站，它没有出现在谷歌的搜索结果，即使我搜索整个域名的网站。怎么才能让它看起来？ (现场)

浏览 0提问于2014-06-12得票数 0

1回答

在ubuntu的后台运行时，爬虫停止。

、

我使用具有无限循环的python制作了一个简单的爬虫，所以它不能停止。随机延迟17 ~ 30，这个爬虫爬行相同的一个页面，并找到'href‘链接，定期更新，并存储到Mysql。因为我使用了Linux命令这个爬虫是在Ubuntu服务器背景下运行的。我想它已经运行了大约4个小时。但爬虫突然停止了。第二天我再试一次。

浏览 1提问于2014-05-20得票数 0

回答已采纳

1回答