腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
如何用python
爬
取
数据并保存到excel?
python
利用python
爬
取
豆瓣电影排行榜(https://movie.douban.com/chart)的数据并保存到excel中。用相同代码
爬
取
网页豆瓣top250的数据可以
爬
取到excel中,但将网址及相关
信息
改为网页豆瓣电影排行榜中的
信息
时便无法
爬
取
,也找不出问题所在。以下图片为完整代码。
浏览 306
提问于2021-01-09
2
回答
如何查看我的网站上所有可公开访问的链接/
页面
的列表?
dns
、
hyperlink
、
public
我想在我的网站上看到所有公开访问链接的列表,这样我就知道用户可以访问哪些
页面
。是否有网站或应用程序可以抓取我的网站并显示此类
信息
?
浏览 1
提问于2011-12-04
得票数 0
1
回答
你好 可以把您那个
爬
取
二手房价
信息
的那些个源代码发我一份不?
scrapy
、
数据分析
、
可视化
Scrapy
爬
取
二手房
信息
+可视化数据分析 谢谢
浏览 78
提问于2021-12-30
1
回答
转换浏览器cookies并在cURL
爬
网中使用
php
、
curl
、
cookies
首先,这样做的目的是
爬
取
我们的一个登录应用程序,并获取有关作业运行的数据,而我可能无法通过任何其他方式获取这些数据。我可以通过浏览器登录,也可以检查我的cookie;那么我如何(及时地)将这些
信息
添加到cURL调用中,以便我可以使用PHP来解析返回
页面
(和链接)?
浏览 3
提问于2015-11-18
得票数 0
2
回答
Scrapy没有拿起我的url
python
、
scrapy
、
scrapy-spider
Postal Code': people.css('div.person-search__table--postalCode::text').extract_first(),但是我一直得到0个抓取的
页面
浏览 0
提问于2017-02-16
得票数 0
2
回答
Nutch-Hadoop:-我们怎么才能只抓取url中的更新来重新抓取呢?
java
、
hadoop
、
nutch
当
页面
要重新爬行时,我只想抓取
页面
的更新内容,而不是已经抓取的旧内容。提前谢谢。普拉亚..。
浏览 0
提问于2012-04-20
得票数 0
1
回答
Crawler4j计算
页面
深度
grails
、
groovy
、
depth
、
crawler4j
我正在用groovy & grails和mongodb开发一个网络爬虫,有没有办法用crawler4j计算
页面
的深度?我知道我可以限制到我想要
爬
取
的深度,但还没有遇到任何建议如何计算
页面
深度的东西。
浏览 2
提问于2014-06-26
得票数 0
2
回答
Facebook粉丝从何而来?
facebook
、
facebook-page
我想出的唯一办法就是抓取粉丝
页面
的整个feed,然后像墙上的帖子一样追踪第一个帖子。然而,这种方法并不十分准确。 有什么想法吗?
浏览 2
提问于2011-05-19
得票数 0
回答已采纳
1
回答
在if语句下索引链接?
php
、
seo
、
web-crawler
、
googlebot
索引Google会有任何链接在if语句下吗? <a"; if($user_category=="register2"){ $link="href='".$databaselink; echo $link;}"> BOOK</a>抓取可以看到并将被索引的链接的WIll?
浏览 0
提问于2013-01-06
得票数 0
1
回答
为什么谷歌机器人不能抓取这个robots.txt?
wordpress
、
robots.txt
、
googlebot
我不明白为什么谷歌机器人不能抓取和索引我创建的WordPress网站。这就是我的robots.txt:Disallow: /wp-admin/Disallow: /wp-login.phpDisallow: /content/
浏览 1
提问于2014-11-24
得票数 0
2
回答
大神有没有研究过美团的_token生成方法?
python
、
爬虫
、
数据分析
如题,我最近在做一个数据分析,想要用到美团的美食
信息
,于是就想用python
爬
取
美团的数据,但是在构造爬虫的时候发现美团有一个_token参数,百思不得其解,还请大神指教
浏览 2194
提问于2018-09-12
1
回答
关于正则表达式的问题?
html
、
爬虫
、
正则表达式
、
scrapy
、
title
图片哪位大神可以教教我应该怎么改正则表达式才可以匹配我想要的数据
浏览 93
提问于2023-09-27
1
回答
是否在导航到另一个
页面
时保持网站url不变?
.htaccess
、
url
、
browser
我希望我的站点地址栏在我转到子
页面
时不要更改它的地址,它应该显示我的index.html,即使我进入子
页面
。例如,如果我打开www.xyz.com并导航到任何
页面
,它仍然应该显示www.xyz.com。 我听说用.htaccess可以做到这一点,可能吗?
浏览 1
提问于2011-03-07
得票数 2
回答已采纳
2
回答
我如何“获得”数据的所有酒吧/俱乐部在美国的数据库。Yelp API?
java
、
database
、
json
、
screen-scraping
、
data-mining
我要做的是创建一个美国所有酒吧的数据库。我需要这个数据库半定期更新(大约每周),以包括新开的酒吧。
浏览 0
提问于2011-01-18
得票数 1
1
回答
如何处理UUIDS?
java
、
mongodb
、
bigdata
、
database
我有一组数据,其中包括网址,公司名称和一些其他有关公司的
信息
。我读取这些数据,获取URL,抓取它们,并用随机生成的UUID保存抓取的数据。我想要做的是看看哪些东西已经被
爬
取
,并更新它们,而不是添加新的记录。另外,这并不是读取URL并查看URL是否已被
爬
取
,因为公司可能会更改其URL,甚至更改其名称。那么如何生成这些UUID呢?
浏览 1
提问于2017-09-21
得票数 0
2
回答
Google的爬虫会索引异步加载的元素吗?
javascript
、
asynchronous
、
web-crawler
、
google-crawlers
我已经为网站构建了一些小部件,它在
页面
加载后异步加载: <head>...</head> <div>...javascript"; ns.src = "http://mydomain.com/myjavascript.
js
s.parentNode.insertBefore(ns, s
浏览 1
提问于2011-10-04
得票数 5
2
回答
Google Adsense是如何获得
页面
主题的?
adsense
Google不能访问我的用户的私人
页面
(我不想这样),所以我认为它只是爬行登录
页面
,但是,检查web服务器访问日志,谷歌似乎没有试图读取任何
页面
。 我猜它可能使用了某种缓存。
浏览 6
提问于2010-10-04
得票数 1
2
回答
TYPO3: indexed_search -索引所有
页面
而无需首先访问
search
、
typo3
通常,indexed_search只对已经访问过的
页面
进行索引。如果用户没有访问过该
页面
,则不会有搜索结果。有没有一种不需要访问就能索引所有
页面
的方法?或者我必须使用另一个扩展?
浏览 0
提问于2012-01-16
得票数 0
回答已采纳
2
回答
抓取网页
信息
的内部链接
python
、
scrapy
我正在尝试
爬
取
页面
这是我的代码片段: from scrapy.contrib.linkextractors.sgml
浏览 20
提问于2017-08-21
得票数 1
2
回答
Anemone Ruby spider -创建不带域名的键值数组
ruby
、
anemone
我正在使用来
爬
取
一个域,它工作得很好。启动
爬
网的代码如下所示: anemone.on_every_pagedo |page| end这将很好地打印出域的所有
页面
urls,如下所示: http://www.example.com
浏览 2
提问于2013-10-23
得票数 2
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
使用Phantomjs来处理针对js渲染的页面的爬取
Python 爬取Android xml页面信息数据采集分析
Node.js爬取豆瓣数据
使用JS和NodeJS爬取Web内容
python爬取小说(二)书籍基本信息爬取
热门
标签
更多标签
云服务器
即时通信 IM
ICP备案
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券