从具有相同链接的页面中进行Web抓取_尝试从具有相同链接的多个页面中抓取_从所有具有相同跨度名称的网站中抓取 - 腾讯云开发者社区

python、web-scraping、xmlhttprequest

我想要做的是获取每个公司的行业信息，这些信息在特定于公司的页面中的"Om bolaget"-tab下提供。更具体地说，我想要获取的信息位于"Sektor“和"Branch”字段中。使用Python语言中的requests和BeautifulSoup可以很容易地获得指向公司特定页面的链接。当向这些链接发出get请求时，响应有时会包含以下形式<

浏览 13提问于2020-01-09得票数 2

回答已采纳

1回答

使用python从同一网页中的多个链接中提取数据

python、web-scraping、beautifulsoup、python-requests

我是蟒蛇和网络抓取的新手。测试索引有用于各种临床测试的测试组件的名称列表。单击每个名称将带您到另一个页面，其中包含有关单个测试组件的详细信息。我想从这一页中提取出有共同问题的部分。最后，将包含测试组件名称的数据框架放在一列中<

浏览 1提问于2018-01-19得票数 0

1回答

尝试从具有相同链接的多个页面中抓取

python、selenium

class_='sambavdoctorname'): print(link['href']) driver.close() 我正在试着刮这个页面，链接在所有页面都是一样的。我试图从所有多个页面提取链接，但它没有给出任何输出，也没有显示任何错误，只是程序结束。

浏览 12提问于2019-10-05得票数 0

1回答

web爬虫如何构建URL目录以抓取所需内容

web、web-scraping、web-crawler、search-engine

我在试着了解网络爬行是如何工作的。有三个问题：有没有用python编写的开源web爬虫？哪里是学习更多关于网络爬虫的最好的地方？

浏览 2提问于2018-10-11得票数 1

2回答

如何使用scrapy抓取多个页面？

python、scrapy

我发现的Scrapy的所有例子都是关于如何抓取单个页面，具有相同url模式的页面或网站的所有页面。我需要抓取一系列的页面A，B，C，在A中你得到了B的链接，依此类推。例如，网站结构为：----> BD我需要抓取所有的C页面，

浏览 3提问于2013-12-16得票数 8

3回答

包装/修改Html结果

c#、asp.net-mvc

基本上，我们处于一个非常棘手的境地。我们有几个网页，是从其他网站链接。然而，要求是这个网站有相同的布局，链接到我们的网站。这最初是通过请求原始页面、抓取布局并在布局中包装内容来完成的。这在Web表单中相当简单，因为我们可以简单地创建一个子类页面，该页面覆盖Render方法，然后包装我们在外部站点布局中生成的任何

浏览 1提问于2011-12-05得票数 2

回答已采纳

6回答

爬虫vs刮板

web-crawler、terminology、scraper

有人能在范围和功能方面区分爬虫和刮板吗？

浏览 0提问于2010-07-09得票数 71

回答已采纳

1回答

使用python beatifulsoup解析整个网站

python、web-scraping、beautifulsoup、scrapy

当我为了学习的目的而试图解析时。当我运行代码时，它只解析一个页面，我的意思是，主页。from bs4 import BeautifulSoupfrom urllib.request import urlopen df = pd.DataFrame(links) df.to_csv('li

浏览 1提问于2018-11-08得票数 1

1回答

如何获得不同页面的cURL响应？

python、curl、scrapy

我正在进行一个小的数据抓取项目，并希望从https://www.germanystartupjobs.com/网站获得所有的工作。这些作业作为POST请求加载。我可以进入各个页面，获取POST请求的POST，并在终端中播放，并获得一些JSON。我得到的JSON格式如下(我提供了从Firefox network tab获得的内容，cURL在终端中也提供了相同</e

浏览 4提问于2016-12-18得票数 0

回答已采纳

2回答

在android应用程序中查找google搜索的结果链接

java、android、windows

我需要在我的android应用程序中找到一些特定google搜索的结果链接。请任何人帮助我找到一种方法来做到这一点。我只需要通过谷歌搜索的链接。如果有人发布一些示例代码，它将对我非常有用。

浏览 1提问于2012-06-07得票数 0

3回答

Kentico 10使用的Web* Crawler引擎*

web-crawler、kentico

根据文档，是否有更多关于Kentico 10使用的网络爬虫技术/引擎的信息？我之所以问这个问题，是因为我想把它用于一个定制的爬虫项目，这个项目可以位于Kentico之外，并且仍然允许它与Kentico平台具有内在的兼容性。

浏览 0提问于2017-08-31得票数 7

回答已采纳

1回答

当导出到csv时，会重复爬行的数据。

python、selenium、web-scraping、beautifulsoup、web-crawler

我正在尝试从这个中抓取数据我的想法是爬行网络上的所有链接，然后使用for发送请求到每个链接，以获得详细的数据。这是我的，正如您所看到的，我使用selenium web驱动程序打开URL，然后使用漂亮的汤来抓取数据。它的工作非常成功，但是当它被导出到CSV文件时，第一个链接的从upload_date到number_employe

浏览 1提问于2021-02-03得票数 0

回答已采纳

1回答

有没有什么跨浏览器兼容的方法可以将网页URL保存到用户的桌面？

javascript、google-chrome、url、browser、desktop

我正在为某人工作的项目，希望用户能够从网页拖到他们的桌面上的网页网址，并本质上为他们的网站创建一个书签。他们希望图标(网站的徽标)始终与web URL一起保存。有没有办法明确地指定一个网站的桌面图标(而不是简单的接受图标)？出于隐私方面的考虑，我知道在JS中编写脚本书签和保存文件有些困难，但如果真的有任何编程方法来实现这一点，我也会感兴趣的。从我目前所尝试的情况

浏览 8提问于2019-06-26得票数 0

回答已采纳

1回答

具有相同URL的多个页面中的Web抓取表

r、web-scraping

我想在网上刮取股票的收益表("RENDIMENTOS")： html_nodes("tbody") %>% html_table(fill=TRUE)

浏览 7提问于2022-08-06得票数 1

2回答

我不能抓取每个链接内容的具体时间段从确实

python、selenium、selenium-webdriver、web-scraping、selenium-chromedriver

我是python和web scraping的新手。您的帮助我们将不胜感激。我在编程和练习方面是新手。我正在使用python和selenium进行web抓取。我正在试着从事实上抓取数据。目标是找到过去24小时内发布的所有工作，并刮刮外部链接，这是在工作详细信息页面上与链接文本“申请公司网站”，标题，公司，名称，位置，工作描述。我写了以下代码，但是它正确地获取了页面上的</e

浏览 33提问于2020-07-15得票数 1

回答已采纳

1回答

在一个id中保存一个变量的多个数据

php、mysql

我抓取了一个网页，例如，我抓取作者($author)和作者的链接。对于一个id，有时有两个作者，当我将他们保存在数据库中时，他们会被分成不同的id，=========================================================== 是否可以将它们保存在一个相同<em

浏览 0提问于2012-09-30得票数 0

回答已采纳

1回答

google爬虫的爬行策略

hadoop、solr、web-crawler、nutch、google-crawlers

我想知道一些大型搜索引擎的重新爬网策略是如何工作的。例如，让我们考虑一下谷歌。我们知道google正在使用动态间隔来重新抓取每个网站。假设根据google dynamic interval，每10分钟就有100k个站点需要重新抓取。因此，这100000个网站的抓取过程应该在10分钟内完成。可能有两种可能的情况： 1)谷歌机器人将获取每个这些网站的第一页，然后在此页面中生成URL列表。对于每个URL，它将检查此url是否在之前获取。如果

浏览 1提问于2014-06-02得票数 0

4回答

如何在抓取的CrawlSpider中访问特定的start_url？

python、django、scrapy

我正在使用Scrapy，特别是Scrapy的CrawlSpider类来抓取包含某些关键字的web链接。我有一个相当长的start_urls列表，它从一个连接到Django项目的SQLite数据库中获取条目。我想将抓取的web链接保存在此数据库中。所有抓取的网页链接都是start_urls列表中的</em

浏览 1提问于2012-05-15得票数 7

回答已采纳

5回答

如何编写可在网页上浏览和执行操作的自动化机器人

java、screen-scraping、bots

我需要编写一个需要执行以下操作的机器人代码：第四个可以通过屏幕抓取完成，我

浏览 9提问于2011-03-16得票数 7

回答已采纳

1回答

在网络抓取morningstar时获取空列表

python-3.x、web-scraping

我正在尝试迭代不同共同基金的符号，并使用这些符号从他们的Morningstar个人资料中提取一些信息。网址如下：在上面的例子中，ZVGIX是符号。我曾尝试使用xpath查找所需的数据，但是返回的是空列表。，这是由于页面内容是分阶段下载的。第一个链接的答案建议使用selenium和chromedriver，但考虑到我对抓取的数据量感兴趣，这是不切实际的。对第二个问题

浏览 12提问于2019-07-10得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云