js爬取页面信息_信息数据爬取_python抓取js页面爬取 - 腾讯云开发者社区

python

利用python爬取豆瓣电影排行榜（https://movie.douban.com/chart)的数据并保存到excel中。用相同代码爬取网页豆瓣top250的数据可以爬取到excel中，但将网址及相关信息改为网页豆瓣电影排行榜中的信息时便无法爬取，也找不出问题所在。以下图片为完整代码。

浏览 315提问于2021-01-09

2回答

如何查看我的网站上所有可公开访问的链接/页面的列表？

dns、hyperlink、public

我想在我的网站上看到所有公开访问链接的列表，这样我就知道用户可以访问哪些页面。是否有网站或应用程序可以抓取我的网站并显示此类信息？

浏览 1提问于2011-12-04得票数 0

1回答

你好可以把您那个爬取二手房价信息的那些个源代码发我一份不？

scrapy、数据分析、可视化

Scrapy爬取二手房信息+可视化数据分析谢谢

浏览 81提问于2021-12-30

1回答

转换浏览器cookies并在cURL爬网中使用

php、curl、cookies

首先，这样做的目的是爬取我们的一个登录应用程序，并获取有关作业运行的数据，而我可能无法通过任何其他方式获取这些数据。我可以通过浏览器登录，也可以检查我的cookie；那么我如何(及时地)将这些信息添加到cURL调用中，以便我可以使用PHP来解析返回页面(和链接)？

浏览 3提问于2015-11-18得票数 0

2回答

Scrapy没有拿起我的url

python、scrapy、scrapy-spider

Postal Code': people.css('div.person-search__table--postalCode::text').extract_first(),但是我一直得到0个抓取的页面

浏览 0提问于2017-02-16得票数 0

2回答

Nutch-Hadoop:-我们怎么才能只抓取url中的更新来重新抓取呢？

java、hadoop、nutch

当页面要重新爬行时，我只想抓取页面的更新内容，而不是已经抓取的旧内容。提前谢谢。普拉亚..。

浏览 0提问于2012-04-20得票数 0

1回答

Crawler4j计算页面深度

grails、groovy、depth、crawler4j

我正在用groovy & grails和mongodb开发一个网络爬虫，有没有办法用crawler4j计算页面的深度？我知道我可以限制到我想要爬取的深度，但还没有遇到任何建议如何计算页面深度的东西。

浏览 2提问于2014-06-26得票数 0

2回答

Facebook粉丝从何而来？

facebook、facebook-page

我想出的唯一办法就是抓取粉丝页面的整个feed，然后像墙上的帖子一样追踪第一个帖子。然而，这种方法并不十分准确。有什么想法吗？

浏览 2提问于2011-05-19得票数 0

回答已采纳

1回答

在if语句下索引链接？

php、seo、web-crawler、googlebot

索引Google会有任何链接在if语句下吗？ <a"; if($user_category=="register2"){ $link="href='".$databaselink; echo $link;}"> BOOK</a>抓取可以看到并将被索引的链接的WIll？

浏览 0提问于2013-01-06得票数 0

1回答

为什么谷歌机器人不能抓取这个robots.txt？

wordpress、robots.txt、googlebot

我不明白为什么谷歌机器人不能抓取和索引我创建的WordPress网站。这就是我的robots.txt：Disallow: /wp-admin/Disallow: /wp-login.phpDisallow: /content/

浏览 1提问于2014-11-24得票数 0

2回答

大神有没有研究过美团的_token生成方法？

python、爬虫、数据分析

如题，我最近在做一个数据分析，想要用到美团的美食信息，于是就想用python爬取美团的数据，但是在构造爬虫的时候发现美团有一个_token参数，百思不得其解，还请大神指教

浏览 2207提问于2018-09-12

1回答

关于正则表达式的问题？

html、爬虫、正则表达式、scrapy、title

图片哪位大神可以教教我应该怎么改正则表达式才可以匹配我想要的数据

浏览 100提问于2023-09-27

1回答

是否在导航到另一个页面时保持网站url不变？

.htaccess、url、browser

我希望我的站点地址栏在我转到子页面时不要更改它的地址，它应该显示我的index.html，即使我进入子页面。例如，如果我打开www.xyz.com并导航到任何页面，它仍然应该显示www.xyz.com。我听说用.htaccess可以做到这一点，可能吗？

浏览 1提问于2011-03-07得票数 2

回答已采纳

2回答

我如何“获得”数据的所有酒吧/俱乐部在美国的数据库。Yelp API？

java、database、json、screen-scraping、data-mining

我要做的是创建一个美国所有酒吧的数据库。我需要这个数据库半定期更新(大约每周)，以包括新开的酒吧。

浏览 0提问于2011-01-18得票数 1

1回答

如何处理UUIDS？

java、mongodb、bigdata、database

我有一组数据，其中包括网址，公司名称和一些其他有关公司的信息。我读取这些数据，获取URL，抓取它们，并用随机生成的UUID保存抓取的数据。我想要做的是看看哪些东西已经被爬取，并更新它们，而不是添加新的记录。另外，这并不是读取URL并查看URL是否已被爬取，因为公司可能会更改其URL，甚至更改其名称。那么如何生成这些UUID呢？

浏览 1提问于2017-09-21得票数 0

2回答