腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
为什么我用excel爬取的30多页数据,剩下的29页数据和第1页一样的?
excel
、
数据
浏览 246
提问于2020-07-23
1
回答
从HTML中提取文章的标题(使用Boilerpipe)
java
、
html
、
html-content-extraction
、
boilerpipe
Boilerpipe允许从网页中只提取文章的文本,清理掉所有的HTML乱七八糟的东西。但是,我如何提取文章的标题?有一种只使用页面标题的方法,但有时是不正确的,并且包含不需要的单词(例如“title - sitename")。
浏览 2
提问于2016-10-21
得票数 0
1
回答
如何保持网络
爬虫
运行?
javascript
、
node.js
、
web-crawler
我想用
JS
写
我自己的网络
爬虫
。我正在考虑使用node.
js
解决方案,如var keeRunning = true; // fetch data and process it every然而,如果我关闭我的电脑,我
可以
想象它将不再工作了。那么,我应该考虑什么样的解决方案来让脚本一直运行,
浏览 3
提问于2015-05-23
得票数 5
回答已采纳
1
回答
webkit crawler需要使用squid代理
吗
?
python
、
webkit
、
web-crawler
、
squid
我正在用webkit
写
一个
爬虫
,webkit会缓存东西
吗
?我需要使用squid作为我的基于webkit的
爬虫
的代理
吗
?
浏览 0
提问于2012-04-20
得票数 1
回答已采纳
4
回答
如何用python获取get浏览器的源代码
javascript
、
python
、
browser
我正在用scrapy
写
一个
爬虫
,但是,我遇到了一些用
js
渲染的网站,因此urllib2.open_url不能工作。我发现我
可以
用webbrowser.open_new(网址)打开浏览器,但是我不知道如何用webbrowser获取页面的源码。有没有什么方法
可以
用webbrowser来做这件事,或者有没有其他没有webbrowser的解决方案来处理
js
站点?
浏览 1
提问于2013-01-11
得票数 2
1
回答
Symfony DomCrawler如何单击执行
js
代码的链接
javascript
、
laravel
、
symfony
、
web-scraping
、
web-crawler
如何使用
爬虫
来点击执行
js
代码的链接,这个链接没有HREF属性。
爬虫
可以
通过客户端在页面上执行
js
代码
吗
?
浏览 82
提问于2021-02-03
得票数 0
3
回答
当Knockout可观察到的未定义的或
JS
禁用时显示默认值
javascript
、
razor
、
knockout.js
使用Knockout.
js
,是否有一种方法
可以
让元素的原始内容显示可观察到的绑定是否未定义?,每次
写
一次。沿着这条路走,如果
JS
被禁用,那么什么都不会出现。
爬虫
也是如此:他们只会看到一个空的<p>标记。然后,在浏览器中,如果启用了
JS
,我
可以</
浏览 4
提问于2014-11-20
得票数 2
回答已采纳
1
回答
编写可与任何服务器保持登录状态的crawler
c#
、
python
、
http
、
session
、
web-crawler
我正在
写
一个
爬虫
。一旦
爬虫
登录到一个网站,我想使
爬虫
“停留-始终登录”。我该怎么做呢?客户端(如浏览器、
爬虫
等)使服务器遵守此规则
吗
?当服务器在一天内允许有限的登录时,可能会出现这种情况。
浏览 0
提问于2009-11-26
得票数 0
回答已采纳
3
回答
如何检测文本文档之间的重复,并返回副本的相似度?
algorithm
、
information-retrieval
、
text-analysis
我正在
写
一个
爬虫
从一些网站获取内容,但内容
可以
重复,我想避免这种情况。因此,我需要一个函数
可以
在两个文本之间返回相同的百分比来检测两个内容--可能是重复的示例: 比较函数将文本2作为同一文本返回如果删除“一些文本”,那么文本2与相同的文本1(我需要检测情况).How我
可以
这样做
吗
?
浏览 2
提问于2014-04-14
得票数 5
5
回答
Python中的多线程
爬虫
真的
可以
提高速度
吗
?
python
、
multithreading
、
gil
我想用python
写
一个小的网络
爬虫
。我开始研究将其编写为多线程脚本,一个线程下载池和一个池处理结果。由于有了GIL,它真的
可以
同时下载
吗
?GIL对网络
爬虫
有什么影响?基本上我想问的是,用python做一个多线程
爬虫
真的比单线程能给我带来更多的性能
吗
? 谢谢!
浏览 4
提问于2010-05-14
得票数 10
回答已采纳
2
回答
在网站和独立应用程序中使用Django框架
python
、
django
我计划为它
写
一个网络
爬虫
和一个基于网络的前端(或者至少是它找到的信息)。我想知道是否
可以
使用Django框架让网络
爬虫
使用与网站相同的MySQL后端(而不是让网络
爬虫
本身成为“网站”)。
浏览 1
提问于2009-06-04
得票数 1
回答已采纳
1
回答
爬行url \如何在node.
js
中获取动态链接
node.js
、
web-crawler
我正在使用
js
爬虫
来抓取网站,现在我遇到了CNN,的那一部分(基于某种原因动态生成的urls)。事情是
爬虫
,不要真正接触脚本-我应该如何解决它?除了我的node.
js
爬虫
之外,我还应该编写自己的代码
吗
?是否有先进的
爬虫
知道如何处理这种动态行为?
浏览 1
提问于2016-07-23
得票数 2
回答已采纳
3
回答
高效网络
爬虫
的语言建议
javascript
、
asynchronous
、
node.js
、
web-crawler
我正在寻找一种语言来编写一个高效的网络
爬虫
。我所看重的东西:我试过node.
js
。您
可以
使用jQuery解析html。Node的异步特性允许我在不处理线程的情况下并行地爬行许多urls。V8对于解析来说是很好的和快速的。 实际上,node并不适合我。我的过程经常崩溃。
浏览 6
提问于2010-12-03
得票数 2
1
回答
Java/1.7.0_07作为用户代理
security
、
user-agent
我该担心
吗
?我应该用用户代理阻止任何包含"Java“的东西
吗
? 谢谢
浏览 0
提问于2012-10-17
得票数 2
回答已采纳
1
回答
如何在PHP中构建一个搜索引擎来搜索多个站点的实时内容?
php
、
curl
、
web-scraping
、
search-engine
我已经把谷歌自定义搜索引擎作为一个简单的选择,这很好用,但限制了我
可以
添加的页面数量。 我已经查看了cURL,但似乎没有提供我正在寻找的东西,除非我遗漏了什么?
浏览 5
提问于2013-02-21
得票数 0
1
回答
向机器人隐藏代码
javascript
、
html
、
css
、
seo
、
web-crawler
有没有一种方法只对
爬虫
隐藏页面的特定部分?那么,有没有办法对机器人隐藏某些部件,但在未来不会对用户隐瞒?不是整页,只是部分。但没有理由不让智能
js
阅读
爬虫
来隐藏它。麦芽酒
浏览 6
提问于2014-10-16
得票数 0
回答已采纳
1
回答
为什么我的Crawler会得到错误的HTML代码?
java
、
web-crawler
我想用java
写
一个
爬虫
来做一些学校练习。实际上,用jsoup库实现的
爬虫
代码
可以
工作,因为我的请求的结果是一些HTML代码,但是当我搜索一个明确写在网站上的单词时,没有找到它,因为一些div的来自于空的
爬虫
。我能做些什么来获得包含全部内容的HTML代码
吗
? 请求网址:
浏览 0
提问于2019-09-12
得票数 1
回答已采纳
1
回答
使用无限滚动页面的
爬虫
javascript
、
ajax
、
web-crawler
、
infinite-scroll
我正在寻找一个
爬虫
应用程序,扫描页面的javascript的AJAX请求,并寻找函数,执行AJAX调用,从而获得整个内容从头到尾。我会自己
写
一些东西,但我现在真的很忙,我想也许有人已经做了一个这样的
爬虫
。 在那里
吗
?
浏览 2
提问于2013-05-31
得票数 0
1
回答
禁用
js
时,在reactjs中设置动态元标记
reactjs
、
tags
我遇到了一些问题谷歌
爬虫
和元标签,我使用反应头盔(没有ssr)的反应ssr。反应头盔确实有效,但谷歌搜索似乎找不到我添加的标签。我知道
爬虫
在没有启用
js
的情况下运行网站,在测试时我
可以
看到,当
js
被禁用时,头盔不会呈现标签(启用时
可以
正常工作)。知道怎么做
吗
? 谢谢你的帮助。
浏览 0
提问于2020-12-28
得票数 0
回答已采纳
1
回答
Facelets SEO咨询意见
internationalization
、
seo
、
googlebot
我以前的站点版本是用JSF编写的,我注意到当我将它提交给google
爬虫
时,
爬虫
并没有从我的索引页面中找到我的站点的所有相关部分。1)我认为这是因为
爬虫
使用原始超链接锚在站点周围导航而不理解: h:outputlink?如果是这样的话,那么Facelets已经是一个改进,因为开发人员
可以
使用带有J证监会属性的原始锚点。有什么方法
可以
使站点元标签国际化
吗
?我只能认为要为每种语言
写
一个标签
吗
?您如何为
爬虫
和国际化优化这些?
浏览 0
提问于2011-08-27
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
《ChatGPT》可以写代码吗
JS可以写操作系统?Windows 95被装进Electron App
免费代理IP可以用来做爬虫吗
什么是爬虫?其运行原理是什么?只有Python才可以吗?
电子邮箱怎么写?邮件可以撤回吗?
热门
标签
更多标签
云服务器
即时通信 IM
ICP备案
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券