腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
如何知道你是否被屏蔽从一个网站的网页刮刮?
、
catch (e){}</script> <script type="text/javascript" src="/fundadst.rvezxdcvwbzdewcsbar.
js
浏览 6
提问于2019-11-01
得票数 0
回答已采纳
1
回答
在性能方面,为什么facebook不一次加载所有的
JS
文件?
、
登录后,我查看了facebook中的html代码,他们似乎对
JS
文件做了很多请求(根据firebug,多达20个)。所以,虽然我知道facebook需要加载许多
JS
和CSS文件(而不是一个
JS
和一个CSS文件),但我的问题是更通用的网站和
网络
爬虫
的状态。我们应该担心这些技术(通过ajax加载主要内容)会影响
网络
爬虫
(googlebot和朋友)吗?我想提高性能,加载“稍后需要”的内容(text/
js
/css)似乎是个好主意,但如果<e
浏览 2
提问于2013-03-18
得票数 3
1
回答
Instagram照片获取路径并保存到数据库中
、
、
、
嗨,我正在做我的网站,以把所有的instagram照片到我的网站。<div id="instafeed"></div> get: 'tagged', clientId: 'xxx', image_size: 'standard_resolution&
浏览 1
提问于2013-08-28
得票数 0
回答已采纳
1
回答
支持windows增量爬行的Web
爬虫
、
、
、
、
我需要一个开源的web
爬虫
在java开发的增量爬行支持。 Nutch -一个
网络
爬虫
,有更多的hadoop支持功能。但是我浏览了很多网站和
教程
,没有合适的文档,api可以在windows中通过编程方式定制它。我可
浏览 4
提问于2014-09-22
得票数 1
回答已采纳
2
回答
如何打开需要node.
js
的web应用程序
、
、
、
我必须运行微
爬虫
,这是一个
爬虫
网络
应用程序,与node.
js
运行。我不知道如何打开这个应用程序,我下载了node.
js
,当我在node.
js
命令行中编写install npm和install bower时,什么也没有发生。我也不知道如何在安装后启动web应用程序。
浏览 2
提问于2014-09-28
得票数 1
1
回答
带有简单动态内容"listener“的Perl webcrawler
、
我正在尝试用Perl做一个简单的
网络
爬虫
,但是很多网站都有动态内容加载,例如,使用javascript函数: $("#blabla").load('blublu/bla.php');因此,我正在尝试调整我已经拥有的
网络
爬虫
(获取HTML内容),以“等待”这些脚本加载,然后才获取整个(和完整)网站内容(HTML)。问题是,我对Perl编程和模块实现不是很在行,所以我想知道是否有好心的人愿意在这里
浏览 2
提问于2013-01-15
得票数 2
回答已采纳
2
回答
浏览器限制会影响网页
爬虫
吗?
、
、
return Redirect("/h"); return View(); 问题:如果我限制一些浏览器访问我的主视图,它也会限制对
网络
爬虫
的访问吗
浏览 0
提问于2013-02-21
得票数 0
回答已采纳
1
回答
如何在Heroku上连续运行和托管Node.
js
脚本?
、
我目前想部署一个网站排名API,为此,我需要一个
网络
爬虫
。事情是,我想让
网络
爬虫
运行24/7,以便它可以不断更新网站。但是,对于Heroku这样的服务,一个小时后服务器就停止了。我如何宿主一个总是在Heroku上活动的Node.
js
脚本。如果不可能,我还能做些什么呢?
浏览 0
提问于2021-01-21
得票数 1
回答已采纳
1
回答
搜索引擎,它根据非结构化数据创建有关主题的信息表。
、
、
、
我正在寻找一个web应用程序,它可以以与搜索引擎非常相似的方式从
网络
上收集数据,但它不会将结果作为标题和摘要的列表,而是将结果转储到一个表中,试图从其内部索引中的页面中提取元数据。(很久以前,谷歌有一个叫做Google Squared的
网络
应用程序。今天还有其他类似的工具吗?这是维基百科页面中的相关描述: Google从整个
网络
中提取结构化数据,并以类似电子表格的格式显示其结果。每个搜索查询返回一个搜索结果表,其中有自己的一组列--与搜索主题相关联的公共属性。
浏览 0
提问于2023-02-07
得票数 2
5
回答
如何在Java中设计一个
网络
爬虫
?
、
、
我在一个项目上工作,这需要在Java中设计一个
网络
爬虫
,可以采取用户查询一个特定的新闻主题,然后访问不同的新闻网站,然后从这些网页提取新闻内容,并将其存储在一些文件/数据库中。现在我有代码从单个页面提取新闻内容,这需要手动获取页面,但我不知道如何将它集成在一个
网络
爬虫
中,从不同的页面提取内容。有没有人可以提供一些好的Java
教程
或实现的链接,我可以根据需要使用或修改这些链接?
浏览 0
提问于2012-04-05
得票数 4
回答已采纳
2
回答
更新meta标签的content属性
、
我有这个:<meta name="keywords" content="" />谢谢
浏览 1
提问于2010-10-22
得票数 6
回答已采纳
1
回答
如何制作一个使用Javascript路由器的可索引网站?
、
、
、
、
我一直在开发一个使用Backbone.
js
路由器的项目,所有数据都是通过restful请求由javascript加载的。服务器使用可索引数据呈现此页面,当用户访问此页面时,我可以手动初始化Backbone.
js
路由器。当用户在某个地方共享该网站的网址时,它将不是一个可索引的页面,而且web
爬虫
可能无法识别该网址的内容。另外,
网络
爬虫
搜索页面中的额外字符串可能会让用户感到厌烦。我可以在服务器端从他们的用户代理中检测到流行的
网络
爬虫
,比如谷歌、雅虎、必应、Facebook,
浏览 1
提问于2013-01-06
得票数 2
回答已采纳
2
回答
需要'command_line_argument_parser‘吗?
、
、
我在这里遵循了一个简单的
网络
爬虫
()的
教程
,其中一行是require 'command_line_argument_parser'。 我的系统找不到宝石。这篇文章是在2009年写的。
浏览 4
提问于2012-07-19
得票数 0
1
回答
Python web抓取-从哪里开始
、
、
、
我试图建立一个
网络
爬虫
来收集来自多个投注网站的投注数据。我有一些编程经验,但我非常迷失在网页,网页抓取等世界。我以前用过Selenium来构建“机器人”,我想我可以用它做点什么,我也读过一些
教程
(urllib,Beautiful Soup等)。但是所有这些
教程
都是非常简单的页面,而我想要的似乎有些不同(也许是JavaScript?) 我怎样才能得到有赔率的事件,等等?
浏览 0
提问于2016-06-21
得票数 1
1
回答
HTTP:“差异:用户-代理”标题的单一页面反应应用程序,为机器人进行SSR?
、
、
、
、
我有反应
网络
应用程序。这是一个单一的页面应用程序,所以基本上有一个“空”HTML文件和一个
JS
包来完成这一切。我通过用户和机器人的User-Agent字符串来区分它们。所以这些都是可能的:ROBOT DESKTOP
浏览 0
提问于2021-01-07
得票数 0
回答已采纳
2
回答
在网站和独立应用程序中使用Django框架
、
我计划为它写一个
网络
爬虫
和一个基于
网络
的前端(或者至少是它找到的信息)。我想知道是否可以使用Django框架让
网络
爬虫
使用与网站相同的MySQL后端(而不是让
网络
爬虫
本身成为“网站”)。
浏览 1
提问于2009-06-04
得票数 1
回答已采纳
1
回答
爬取白页的可能解决方案
、
我正处于一个我必须编写的程序的开始阶段,该程序将从我拥有的大型数据库中提取用户,并将其与任何类似于Whitepages电话簿的内容进行比较。这样做的原因是为了用更新的相关联系信息更新存储在我的数据库中的任何旧联系信息。到目前为止,我只接触过Whitepages Pro,它提供了一个API,允许我对他们的数据库运行一些查询,并返回我认为是最新的信息。我可以访问用户的电话号码、姓名和地址,因此最初的想法是将旧的电话号码+姓名与更新的数据库进行比较,以更正旧的数据。我的问题是,对于我的问题,这看起来是一个好的解决方案吗?Whitepages似乎是我唯一可以使用的工具(它确实花费了300美元,但如果它
浏览 1
提问于2015-05-01
得票数 0
2
回答
Java CSS爬行器
、
、
、
、
我正在寻找一个具有抓取网页的CSS能力的
网络
爬虫
。我不需要任何其他花哨的爬行能力。大卫
浏览 0
提问于2011-01-17
得票数 1
回答已采纳
1
回答
node.
js
网络
爬虫
图像/视频
、
、
、
最近我一直在使用
网络
爬虫
,我已经想出了如何搜索文本,但有没有办法让我的
网络
爬虫
搜索其他东西,比如视频和图像,然后下载它们并组织它们。这是目前为止我的
网络
爬虫
:var cheerio = require('cheerio'); pagesToVisit.push(
浏览 3
提问于2016-09-04
得票数 0
1
回答
Facebook Linter / Open Graph截取URL路径
、
、
、
、
我一直在网上和StackOverflow上寻找答案,但我没有找到完全适用于我的情况的案例。我使用Facebook Linter来调试FB抓取我的meta标签的方式。如果我在一个简单的About页面上使用它,它可以提取所有内容,特别是og:url元标记。当我抓取正常的内容页面时,问题就开始了。尽管我已经三次检查了我的标记格式是否正确,但FB Linter将URI从URL中删除,因此它报告og:url标记只有域名electionstats.com/!页面上实际存在的og:url标记如下所示: 我怀疑这是FB缓存页面的问题,因为在我的About页面上,我进行了快速代码更改,更
浏览 3
提问于2011-10-10
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Python网络爬虫实战-Scrapy视频教程
Python3网络爬虫教程简介
Python3网络爬虫教程(1)urllib
Scrapy爬虫教程五 爬虫部署
python 爬虫教程
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券