防网站内容抓取工具 - 腾讯云开发者社区 - 腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

1回答

Amazon的和服分页错误

、、

例如，我在Amazon.co.uk搜索引擎上输入"Sony“，想要抓取结果以获得产品名称。我能够做到这一点为一个页面，但我想刮多页使用分页功能。到目前为止，我还不能让分页工作。

浏览 1提问于2015-11-30得票数 0

1回答

在未启用javascript的网页上使用机械化和美汤

、、、、

我正在尝试抓取一个网页，但它需要我先登录。我是网络抓取的新手，所以请容忍我的代码：import urllib2import mechanize browser

浏览 0提问于2015-08-18得票数 0

1回答

Scrapy访问被拒绝爬取网站的头部

、、、

我想抓取一个网站，但我得到了下一个错误： '<head>\n<title>Access Denied</title>\n</head>' 我只是在控制台中尝试： scrapy shell https:网站有没有防爬虫的方法？如何抓取这个网站？

浏览 27提问于2020-07-14得票数 1

回答已采纳

3回答

下载整个博客供脱机阅读/存档(不使用RSS提要)

如果没有一种简单的方法专门针对wordpress博客，那么对于一个好的通用网站下载工具有什么建议吗？

浏览 0提问于2011-09-03得票数 4

2回答

如何为SEO索引带选项卡的页

、、

其余的选项卡只能通过单击相应的选项卡才能看到；这些内容没有用AJAX加载，并且可以在页面加载时使用。但谷歌并没有对隐藏标签的内容进行索引。我想知道下面的方法是否会索引表内容。

浏览 0提问于2017-11-26得票数 1

1回答

基于js的Google索引网站

、、、

我在AngularJS上有一个网站，在NodeJs上有后台。我知道google可以抓取和索引基于js的网站，所以我在网站管理员的googles抓取和渲染工具上输入了一个url。在抓取工具上，谷歌显示的是页面源代码，而不是html，而是在呈现端，它向访问者显示了网站的完整渲染版本。我不确定谷歌是否能够

浏览 0提问于2015-12-14得票数 0

1回答

Perl绕过5秒等待页

、

我正在尝试获取webresolver.nl的网页内容。我试过几个代码。:00:00 GMT; path=/";location.href="https://webresolver.nl/";}, 500);</script></html> 我期望的网页内容是真正的一个

浏览 11提问于2019-11-10得票数 1

2回答

抓取将从ajax事件加载的响应

我正在使用抓取工具从网站上抓取内容，我需要你们的帮助如何从ajax动态加载的回应。当内容从ajax加载的同时，网址不变，保持不变，但内容会被改变，所以在这个事件上我需要抓取。

浏览 2提问于2012-03-06得票数 0

回答已采纳

2回答

谷歌网站管理员验证失败

、、

几个月前，我用谷歌网站管理员工具成功地验证了这个网站。然而，最近的网站管理员工具一直要求我验证我的网站。我再次尝试使用Meta标记和HTML文件来验证我的站点，但是现在我无法成功地验证它。从那时起，谷歌就一直没有抓取我网站的内容--尽管谷歌仍然在我的网站上抓取我的PDF内容。

浏览 0提问于2011-03-07得票数 2

1回答

在<button rel="next">上抓取

、

我使用Scrapy在kogan.com上抓取数据‘下一页’是一个没有href的rel="next"属性的按钮。所以我假设这是这个网站的防抓取机制？使页码超过10的唯一方法是单击<button>。下面是我正在爬行的链接。https://www.kogan.com/au/shop/phones/?

浏览 15提问于2019-04-29得票数 0

1回答

Selenium网页未正确加载

、、

我正试图从USNews网站上搜索大学排名信息。问题是，当我使用selenium打开网页时，'Load More Button‘不能正常工作。是网站的问题吗？

浏览 2提问于2022-11-24得票数 0

1回答

WebHarvest -使用身份验证抓取数据

我正在使用WebHarvest工具从几个网站抓取web数据。我已经看过了示例，但是找不到一种方法来在网站上进行身份验证，然后从网站上抓取数据。谁能举出一个通过身份验证实现web数据抓取的配置示例？如何发送登录参数，然后接收主页内容？感谢你在这方面的帮助。

浏览 9提问于2014-04-14得票数 1

2回答

如何使用selenium python登录到bet365

、、、

我知道这些网站会检测到硒，大多数人通常都会遇到问题。但是我没有得到任何常见的问题。网站加载良好，但当我尝试输入正确的登录详细信息。它显示无法识别登录详细信息。) 是来自网站的问题，还是网站只是说，因为我使用的是硒。

浏览 61提问于2021-10-24得票数 0

2回答

浏览器中的Html与Python中请求的Html不同

、、、

PapaGordsmack/", headers=headers)print(html_contents) 我试图从特定用户的sky.lea.moe网站上抓取网页

浏览 20提问于2020-02-09得票数 0

2回答

是否需要为每个目标站点编写抓取器？

、、、、

我使用Python语言和BeautifulSoup来抓取存储。我想知道比价网站是如何从所有在线商店中抓取数据的？他们对不同的在线商店有不同的代码，还是有通用的代码？他们会研究每个在线商店的HTML模式吗？

浏览 40提问于2014-12-28得票数 7

回答已采纳

2回答

NUTCH可以用来从电子商务网站获取数据吗？

、、、

我想从网站上获取数据。我想要易趣上不同商品的价格。我想把这些产品和它们的价格放在我的数据库里。纳奇在这里会有帮助吗？如果不是的话，我更喜欢哪种刮刀/爬行？

浏览 5提问于2014-06-17得票数 0

回答已采纳

5回答

监控、模拟、创建HTTP数据包

、

有没有更多这样的工具可以让你创建自己的HTTP消息？远程登录出现在脑海中可以很方便地看到你的网站是如何防黑客攻击的。

浏览 2提问于2009-01-04得票数 2

回答已采纳

1回答

使用Nokogiri/Open URI获取动态生成的HTML

、、

我试图通过在Chrome中查看网站的HTML并使用Nokogiri抓取数据来抓取网站。问题是有些标签是动态生成的，当使用open-uri时，它们不会与open(url)请求一起出现。有没有办法“强制”一个网站动态生成它的内容，以便像open uri这样的工具读取？

浏览 5提问于2013-07-07得票数 5

1回答

从网页捕获动态请求内容

、、

我正在尝试从网页中捕获动态内容。加载内容后，数据动态显示在网页上。在一个网页上，控制台中的响应是json格式的，第二个是html。下面是我尝试在scrappy中使用的内容。

浏览 1提问于2020-05-25得票数 1

1回答

Captcha安全与深度学习

、、、、

我偶然看到了一篇研究论文--我们如何使CAPTCHA安全，使其不被深度学习模式所忽略？

浏览 1提问于2021-08-16得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭