Web链接抓取

、、

我正在做一个项目，它需要我从网站上抓取独特的链接，并将它们保存到CSV文件中。该程序被认为是从给定的域(见下面的代码)和域外的任何网络链接刮网络链接。cleaned_links: print ("URI's written to .CSV File") 该代码适用于baseURL内部的所有web链接，因此存在于该网站中，但不会捕获站点外部的任何点。

浏览 19提问于2019-04-13得票数 0

回答已采纳

1回答

Web抓取链接

、、、、

我正在从一个圣诞树农场的网站上抓取链接。首先，我使用本教程获取所有链接。然后，我注意到我想要的链接并没有正确的超文本传输协议，所以我创建了一个变量来连接。现在，我正在尝试创建一个if语句，它可以抓取每个链接并查找任何两个字符，后面跟着"xmastrees.php“。如果这是正确的，那么我的级联变量在它的前面。如果链接不包含特定文本，则将其删除。

浏览 3提问于2020-04-25得票数 1

回答已采纳

4回答

如何在抓取的CrawlSpider中访问特定的start_url？

、、

我正在使用Scrapy，特别是Scrapy的CrawlSpider类来抓取包含某些关键字的web链接。我想将抓取的web链接保存在此数据库中。所有抓取的网页链接都是start_urls列表中的一个开始网址的子网站。 web链接模型与起始url模型具有多对一关系，即web链接模型具有指向起始url模型的外键。为了将抓取的web链接

浏览 1提问于2012-05-15得票数 7

回答已采纳

1回答

Web抓取大量链接？

、、

我对Web抓取非常陌生。我已经开始在Python中使用BeautifulSoup了。我写了一段代码，它将遍历urls列表，并获得我需要的数据。这段代码适用于10-12个链接，但我不确定如果列表中有超过100个链接，同样的代码是否有效。有没有其他方法或者其他库可以通过输入大量url列表来获取数据，而不会以任何方式损害网站。

浏览 23提问于2020-07-28得票数 1

回答已采纳

1回答

使用python从同一网页中的多个链接中提取数据

、、、

我是蟒蛇和网络抓取的新手。我试图从这个链接中提取关于临床诊断测试的测试成分的信息。

浏览 1提问于2018-01-19得票数 0

1回答

我目前正在使用Python进行web抓取。我使用了Selenium和Beautifulsoup库来抓取。我最近知道Selenium适用于php/Laravel。我的问题是，我可以使用Laravel + Selenium web驱动程序抓取web吗？如果是，你能给我提供一些链接或存储库，以便我学习吗？我被迫在我的抓取工作中使用php/Laravel，因为他们说php很容易在服务器上部署/执行来进行实时抓取。

浏览 19提问于2019-11-19得票数 0

2回答

如何在R中处理迭代过程中的错误问题？

、、

在下面的代码中，我想要抓取数据表并将其集成为一个数据帧。在web抓取过程中，某些地址链接不起作用，web抓取会在抓取过程中停止和结束。(错误位置: doc = read_html(i，encoding = 'UTF-8') ) 我如何继续下一步的抓取过程并完成对整个向量的迭代，而忽略错误链接？

浏览 17提问于2019-01-21得票数 0

回答已采纳

2回答

如何绕过缺失的环节，继续抓取好的数据？

、

如何绕过缺失的环节，继续抓取好的数据？我正在抓取一个有多个链接到相关数据的网页。一些相关的链接丢失了，所以我需要一种方法来绕过丢失的链接并继续抓取。Web page 1 part description 2 w/o associated linkmore part descriptions with and

浏览 0提问于2015-12-29得票数 0

1回答

如何处理更改URL的web抓取

、、、

最近我一直在做一些关于网络抓取的工作。经过一些研究和分析，我可以找到窍门。但我坚持了一些观点，即使在谷歌搜索之后，我也找不到合适的答案。我坚持的一点是，通过web抓取，我使用登录用户和密码登录到intranet页面，对于代码中的给定URL，我能够获取数据，但是当URL更改时，我的代码由于代码击中错误的URL而无法登录。现在，点击链接的代码是一种Agent，它在刷新命令中点击URL。我想知道任何好的工具或书籍，可以帮助我理解如何将人工智能应用于Web抓取。这样，我就可以动态地处理我的代理

浏览 2提问于2013-06-19得票数 4

2回答

从web链接中抓取表

、、、

我想从中提取Holdings表，我有以下代码： test_html = read_html(turl) 但是，在运行它时，我会得到以下错误：矩阵中的错误(NA_character_，nrow = n，nrow = maxp)：无效的“no”值(过大或NA)，此外:警告消息: 1: In max(p)：不缺少参数到max；返回-Inf 2: In矩阵(NA_character_，nrow= n

浏览 3提问于2017-11-22得票数 2

1回答

用链接文本进行Web抓取

、、、

然而，在这种特殊情况下，className并不是唯一的，而且链接在访问页面后一直在变化，因此不可能获得直接链接。唯一唯一的组合是类和链接文本。

浏览 0提问于2019-05-15得票数 0

回答已采纳

1回答

Web从Tripadvisor抓取链接列表

、、、、

我正在尝试创建一个webscraper，它将从网站返回指向单个对象的链接列表。我编写的代码获取页面列表，并将链接列表返回到每个景点，但以错误的方式(链接不是一个接一个)：我将非常感谢您的帮助。

浏览 18提问于2022-05-16得票数 0

回答已采纳

2回答

Python Web抓取:查找特定链接

、、、

我试图从网页中分离出一个特定的图片链接，但无法完全实现。我可以返回许多链接，但我特别想要的链接是顶部显示的，它是唯一包含/photo/picture.jpg的链接。我试过使用和其他变体的答案，但还没有弄明白。有没有人能看一下？img', {'src': re.compile('^http://image\d+')}) print(link.text) 编辑:使用这些建议，我意识到

浏览 9提问于2017-03-11得票数 0

回答已采纳

1回答

web抓取Tableau所需的支持

、

有没有办法将下面链接中的表格上传到tableau，它每天都在刷新？它只显示了25行。我需要把所有的行都放在那里。

浏览 11提问于2021-01-15得票数 0

回答已采纳

1回答

使用python beatifulsoup解析整个网站

、、、

当我为了学习的目的而试图解析时。当我运行代码时，它只解析一个页面，我的意思是，主页。我尝试的代码如下：import re # To Export to csv file, we us

浏览 1提问于2018-11-08得票数 1

4回答

通过selenium单击链接

、、、、

我正在尝试通过Selenium做一些网络抓取。我的问题很简单:如何找到一个链接，然后如何点击它？例如:以下是我试图从web上抓取的HTML： <a href="javascript:selectDodasaDetdasdasy(220011643,'Kdasdası');" target="_self"> </a> <

浏览 40提问于2013-09-04得票数 37

回答已采纳

1回答

Web抓取:如何获取'href‘链接并从中抓取表格

、、、

我正在试着从链接上抓取表格。因此需要从其中抓取“href”链接，然后尝试从其中抓取表格。我尝试了下面的代码，但找不到：import requests url = 'http://www.stats.gov.cn/was5/web

浏览 0提问于2018-11-05得票数 1

2回答

Web抓取--如何获取Web链接的特定部分

、、

我有以下链接：+&cd=5&hl=en&ct=clnk 数据集中有多个链接。每个环节都是相同的模式。我想得到链接的一个特定部分，对于上面的链接，我将是上面链接的大胆部分。

浏览 10提问于2017-04-15得票数 0

回答已采纳

1回答

在facebook上单击我网站上的共享链接并不会将我带到我的网站，而是会打开我的应用程序

、、、、

这几乎就像是这里发生了一些不太正确的深度链接。或者我网站上的元数据不太正确。

浏览 3提问于2017-01-06得票数 0

2回答

winform中列表的空值异常

、、、

List<string> my_link = new List<string>();我从页面上抓取了一些链接，并将它们保存到“my_link”上；为此，我使用如下代码：HtmlAgilityPack.HtmlDocument doc = web.Load}catch (NullReferenceExc

浏览 2提问于2013-02-05得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Web抓取链接

如何在抓取的CrawlSpider中访问特定的start_url？

Web抓取大量链接？

使用python从同一网页中的多个链接中提取数据

用Laravel和Selenium进行Web抓取

如何在R中处理迭代过程中的错误问题？

如何绕过缺失的环节，继续抓取好的数据？

如何处理更改URL的web抓取

从web链接中抓取表

用链接文本进行Web抓取

Web从Tripadvisor抓取链接列表

Python Web抓取:查找特定链接

web抓取Tableau所需的支持

使用python beatifulsoup解析整个网站

通过selenium单击链接

Web抓取:如何获取'href‘链接并从中抓取表格

Web抓取--如何获取Web链接的特定部分

在facebook上单击我网站上的共享链接并不会将我带到我的网站，而是会打开我的应用程序

winform中列表的空值异常

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐