腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(3093)
视频
沙龙
4
回答
网站爬行自动检测
web-crawler
是否可以编写代码来检测网站是否正在
爬
取
内容
?
浏览 1
提问于2009-04-08
得票数 1
1
回答
在SharePoint online库中查找最近添加的文件
microsoft-graph-api
、
onedrive
如果我在几分钟后搜索相同的
内容
,则请求成功。当我在我的客户站点上尝试相同的
内容
时,它有数百万个文档。我几乎要花20+几个小时才能成功地进行搜索 那么,图形api在任何SPO缓存上都能工作吗?
浏览 2
提问于2017-04-18
得票数 1
2
回答
Google可以访问受密码保护的子域吗?
.htaccess
我在子域文件夹中的.htaccess中添加了以下
内容
:AuthType BasicRequireuser username 我只想仔细检查一下,这将阻止谷歌(和其他机器人)
爬
取
内容
,这样我就不必处理重复
内容
的问题。
浏览 0
提问于2014-03-05
得票数 0
0
回答
新浪微博搜索是否禁用了huginn,有什么解决办法吗?
tcp/ip
比如,用huginn
爬
网这个链接: https://s.weibo.com/weibo?换了其他地方的机器,电脑和ip不同,huginn照样无法正常
爬
取
。而在同一台机器上用 下载工具甚至简单的脚本下载这个链接的网页
内容
,却可以实现,不知道是什么情况。
浏览 92
提问于2021-09-28
2
回答
Nutch-Hadoop:-我们怎么才能只抓取url中的更新来重新抓取呢?
java
、
hadoop
、
nutch
当页面要重新爬行时,我只想抓取页面的更新
内容
,而不是已经抓取的旧
内容
。提前谢谢。普拉亚..。
浏览 0
提问于2012-04-20
得票数 0
2
回答
Google的爬虫会索引异步加载的元素吗?
javascript
、
asynchronous
、
web-crawler
、
google-crawlers
javascript"; ns.src = "http://mydomain.com/myjavascript.
js
浏览 1
提问于2011-10-04
得票数 5
2
回答
HTML爬行到ePub的转换工具
html
、
parsing
、
epub
目前似乎还没有工具可用于
爬
取
站点并将
内容
转换为ePub格式。我认为,在没有得到网站所有者明确同意的情况下,在网站上执行这一行动是有法律含义的。
浏览 2
提问于2011-05-08
得票数 1
回答已采纳
3
回答
未调用Thread类中的Run方法
java
、
multithreading
、
iostream
、
processbuilder
我是线程领域的新手,一个星期以来我一直在尝试解决这个问题。 ProcessBuilder processBuilder = new ProcessBuilder(); processBuilder.command("/bin/sh", "-c", "echo \"w30000001z,none,16488,,181075\nw30000001z,none,16488,,181082\n\" | /home/beehive/
浏览 0
提问于2011-03-28
得票数 0
2
回答
在hadoop群集上使用HBase进行Nutch 2.2.1设置
apache
、
hadoop
、
web-crawler
、
hbase
、
nutch
我已经参考了本教程()来使用Hbase设置Nutch2.2.1。我已经完成了教程中给出的设置,但是没有清楚地提到如何抓取数据并将数据存储到Hbase表中。
浏览 3
提问于2014-01-15
得票数 3
2
回答
获取IIS工作进程崩溃转储
c#
、
asp.net
、
multithreading
、
debugging
、
iis
我在我的ASP.NET应用中做了一些
不好
的事情。这可能是我正在使用的任何数量的CTP库,或者我只是没有正确地处理一些东西。我已经将问题缩小到我的HTTP爬虫,这是一个多线程的野兽,当被请求时,它会
爬
取
站点以获取有用的信息。
浏览 0
提问于2008-09-10
得票数 9
回答已采纳
0
回答
java怎样
爬
取
js
动态请求的数据?
java
、
javascript
、
jquery ui
动态加载的数据获取不到(cd.fangfaxian.com)
浏览 210
提问于2020-04-28
2
回答
关闭浏览器或单击中止时,脚本不会停止
c#
、
asp.net
、
events
我写了一个网络爬虫,它在do while循环中调用网页,循环时间为3秒 总共有7000个网站...我解析数据并将其保存在我的数据库中。 有时因为脚本加载了很长时间,我在浏览器中遇到超时, 但在后台,我继续说。我在我的数据库里看到了。 我能防止这种情况吗?..现在,如果我停止webserver,这是可能的。 谢谢你,并致以最良好的问候。
浏览 0
提问于2010-01-22
得票数 0
2
回答
无法在indexed_search TYPO3 6中为页面编制索引
search
、
typo3
、
web-crawler
、
indexed
配置index_enable and index_externals设置为true 问题是,index表中没有显示任何
爬
取
的
内容
。info>Indexed Search将所有页面显示为“未索引”。
浏览 9
提问于2013-10-22
得票数 1
1
回答
IE 8的问题
internet-explorer-8
我的网站在mozila上工作正常,但当我们转到IE 8时,它在状态栏上显示错误User Agent: Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0) Line: 8Code: 0 <script type="text/javascript" charset="utf-8"&
浏览 0
提问于2011-04-04
得票数 0
1
回答
不希望包含的文件
内容
被
爬
网
html
、
seo
、
robots.txt
这是否足以防止该部分
内容
被
爬
取
?我读到过一个iFrame技巧,如果我所做的还不够充分,我可能会尝试一下。蒂娅。
浏览 0
提问于2014-05-01
得票数 0
1
回答
为电子商务网站提供9,000种独特产品的SEO
seo
、
e-commerce
我刚刚重建了我的电子商务网站,列出了大约9,000种不同的产品,分为12个不同的类别,分为许多子类别。每种产品都是独一无二的。谷歌似乎不太可能对我的完整目录进行索引,所以我正在考虑将rel=nofollow添加到我所有的分类链接中,只留下指向35页最高价值产品的链接。这是一个好策略吗?其他人在类似的情况下做了什么?
浏览 0
提问于2011-12-30
得票数 0
回答已采纳
1
回答
如何找出有多少人在使用你创建的脚本?
jquery
、
plugins
、
web-crawler
我创建了一个jQuery插件,想知道是否有人知道有多少人在使用它?有没有办法抓取网站,并返回一个是,如果网站正在使用它?
浏览 0
提问于2011-09-19
得票数 0
回答已采纳
1
回答
将GSA配置为仅对文件元数据进行
爬
网,而不对
内容
进行
爬
网
google-search
、
google-search-appliance
在GSA (Google Search Appliance)中,我正在研究如何让它只搜索元数据(名称、类型、大小、上次修改时间等),而不是文件的
内容
。归根结底,文件的元数据是公开的,但文件的
内容
是受限制的。虽然这似乎是一个安全方面的问题,但它稍微多了一点,因为我不希望GSA在索引中存储任何关于文件
内容
的信息。假设GSA服务器不受信任,无法保存
内容
。关于如何将GSA和连接器配置为仅
爬
取
元数据而不是
内容
,您有什么想法吗?
浏览 2
提问于2012-02-23
得票数 0
回答已采纳
1
回答
如何在htacces中将/page.php?1重命名为/welcome.html?
.htaccess
、
redirect
、
rename
、
file-rename
我有一个cms,不能生成友好的url 什么是最好的方式来重命名,而不得到重复的
内容
从谷歌。
浏览 2
提问于2010-12-02
得票数 0
回答已采纳
2
回答
网站
内容
评级有没有元标签?
metadata
、
content-management
、
rating
有没有办法对网页
内容
进行分级,这样它就不会被屏蔽了?我以前从来没有遇到过这个问题。
浏览 5
提问于2010-07-09
得票数 3
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
使用JS和NodeJS爬取Web内容
python爬取小说(一)目录和章节内容爬取
Node.js爬取豆瓣数据
使用Phantomjs来处理针对js渲染的页面的爬取
python笔记28-lxml.etree爬取html内容
热门
标签
更多标签
云服务器
即时通信 IM
ICP备案
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券