腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
如何用python
爬
取
数据并保存到excel?
python
利用python
爬
取
豆瓣电影排行榜(https://movie.douban.com/chart)的数据并保存到excel中。用相同代码
爬
取
网页
豆瓣top250的数据可以
爬
取到excel中,但将网址及相关信息改为
网页
豆瓣电影排行榜中的信息时便无法
爬
取
,也找不出问题所在。以下图片为完整代码。590859A8-9A1A-4E52-8E60-AD292B16B4A8.png 655
C
6D0E
浏览 298
提问于2021-01-09
1
回答
如何使用wget下载页面,但如果页面不存在,则忽略404错误消息?
wget
有没有办法让wget在下载网址或
爬
取
网页
时忽略HTTP错误响应码?
浏览 5
提问于2015-08-19
得票数 6
回答已采纳
0
回答
新浪微博搜索是否禁用了huginn,有什么解决办法吗?
tcp/ip
比如,用huginn
爬
网这个链接: https://s.weibo.com/weibo?换了其他地方的机器,电脑和ip不同,huginn照样无法正常
爬
取
。而在同一台机器上用 下载工具甚至简单的脚本下载这个链接的
网页
内容
,却可以实现,不知道是什么情况。
浏览 92
提问于2021-09-28
2
回答
关闭浏览器或单击中止时,脚本不会停止
c#
、
asp.net
、
events
我写了一个网络爬虫,它在do while循环中调用
网页
,循环时间为3秒 总共有7000个网站...我解析数据并将其保存在我的数据库中。
浏览 0
提问于2010-01-22
得票数 0
2
回答
请问一下页面上的图片,怎样获取它的URL呢?
php
、
云直播
浏览 314
提问于2020-10-26
1
回答
IE 8的问题
internet-explorer-8
我的网站在mozila上工作正常,但当我们转到IE 8时,它在状态栏上显示错误User Agent: Mozilla/4.0 (compatible; MSIE 8.0; Windows
浏览 0
提问于2011-04-04
得票数 0
4
回答
网站爬行自动检测
web-crawler
是否可以编写代码来检测网站是否正在
爬
取
内容
?
浏览 1
提问于2009-04-08
得票数 1
1
回答
在SharePoint online库中查找最近添加的文件
microsoft-graph-api
、
onedrive
Querytext='res1a2b3
c
4d5e‘那么,图形api在任何SPO缓存上都能工作吗?
浏览 2
提问于2017-04-18
得票数 1
5
回答
如何查看抓取的单码阿拉伯字符串?
python
、
unicode
、
web-crawler
我已经用Python抓取了一些
网页
。我去掉了html标签,只将这些页面的一些
内容
存储为repr(s)。这些
网页
中的大多数都不是英文的。现在,我如何才能以原始
语言
查看
爬
网
内容
?
浏览 2
提问于2011-04-28
得票数 1
回答已采纳
1
回答
这个
内容
是复制的吗?还是
内容
薄弱?
seo
、
duplicate-content
但如果我搜索的网站:,我只得到72个
内容
。 从这个url,它说可能是因为数据还没有从其他服务器传输。好吧,没问题,所以我得等一下。但我也怀疑
内容
在谷歌的观点中是重复的,或者是薄弱的
内容
。是复制的
内容
吗?或者它是一个薄弱的
内容
?这是个图片库。任何
内容
我都需要翻译。
浏览 0
提问于2012-03-15
得票数 2
2
回答
Google可以访问受密码保护的子域吗?
.htaccess
我在子域文件夹中的.htaccess中添加了以下
内容
:AuthType BasicRequireuser username 我只想仔细检查一下,这将阻止谷歌(和其他机器人)
爬
取
内容
,这样我就不必处理重复
内容
的问题。
浏览 0
提问于2014-03-05
得票数 0
1
回答
Nutch不
爬
网页
面
内容
php
、
search
、
solr
、
nutch
我有一个问题,我不能从一个网站抓取
内容
,其中包含一个php形式的
内容
。我假设这就是问题所在,因为所有其他页面都被爬行而没有问题。它设法提取菜单文本,但不提取主要
内容
。正如我所说的,域名上的所有其他页面都可以顺利地提取出来。
浏览 5
提问于2016-05-16
得票数 0
1
回答
如何避免
爬
取
CGI生成的日历
网页
web-crawler
、
nutch
网页
由CGI程序生成。大多数
网页
的URL都包含诸如?id=2323&title=foo之类的表达式。然而,我面临的一个问题是,这个网站有一个日历。也会生成一些类似日期的
网页
。这意味着纳奇将试图抓取一些无害的
网页
,如year=2030&month=12。如何在Nutch中避免这样的陷阱?编写很多正则表达式?
浏览 1
提问于2012-01-27
得票数 0
回答已采纳
1
回答
如何使用Apache Nutch抓取ajax网站?
nutch
我想
爬
这个网站:使用Apache。该
网页
动态加载ajax
内容
。如果我用默认配置爬行它,Nutch只会带来头和页脚,动态加载的
内容
就会丢失。我用的是Nutch 1.14。
浏览 0
提问于2018-06-08
得票数 0
回答已采纳
2
回答
Nutch-Hadoop:-我们怎么才能只抓取url中的更新来重新抓取呢?
java
、
hadoop
、
nutch
当页面要重新爬行时,我只想抓取页面的更新
内容
,而不是已经抓取的旧
内容
。提前谢谢。普拉亚..。
浏览 0
提问于2012-04-20
得票数 0
1
回答
htaccess
语言
检测高效代码
.htaccess
、
http-accept-language
在我的网站上,我希望将会说意大利语的访问者(他们的
语言
浏览器是意大利语)重定向到/it/,并将所有其他
语言
重定向到/en/#redirect to /it for italian#we are not in the admin panel这样,所有的条件都会被检查,如果
语言
是意大利语我猜所有
爬
取</
浏览 3
提问于2015-05-15
得票数 0
1
回答
如何找出有多少人在使用你创建的脚本?
jquery
、
plugins
、
web-crawler
我创建了一个jQuery插件,想知道是否有人知道有多少人在使用它?有没有办法抓取网站,并返回一个是,如果网站正在使用它?
浏览 0
提问于2011-09-19
得票数 0
回答已采纳
2
回答
Google的爬虫会索引异步加载的元素吗?
javascript
、
asynchronous
、
web-crawler
、
google-crawlers
s); </script></html> 有没有办法通知谷歌的爬虫在页面完全加载(异步JavaScript修改超文本标记
语言
之后
浏览 1
提问于2011-10-04
得票数 5
2
回答
HTML爬行到ePub的转换工具
html
、
parsing
、
epub
目前似乎还没有工具可用于
爬
取
站点并将
内容
转换为ePub格式。我认为,在没有得到网站所有者明确同意的情况下,在网站上执行这一行动是有法律含义的。
浏览 2
提问于2011-05-08
得票数 1
回答已采纳
1
回答
雅虎管道合法性
screen-scraping
、
yahoo-pipes
、
mashup
如果一个网站声明不抓取他们的网站,那么使用Yahoo Pipes或YQL这样的工具来创建mash up还合法吗?谢谢。
浏览 2
提问于2013-09-26
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Python使用标准库urllib模拟浏览器爬取网页内容
python爬取小说(一)目录和章节内容爬取
如何轻松爬取网页数据?
14行代码带你爬取网页小说
利用Python和BeautifulSoup进行网页爬取
热门
标签
更多标签
云服务器
即时通信 IM
ICP备案
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券