开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

Nokogiri返回链接的奇怪hrefs？

Nokogiri是一个用于解析和操作HTML/XML文档的Ruby库。它提供了一组强大的工具和方法，使开发人员能够轻松地从HTML/XML文档中提取所需的信息。

在使用Nokogiri解析HTML文档时，有时会遇到一些奇怪的hrefs链接。这可能是由于以下原因导致的：

相对路径问题：有时，HTML文档中的链接可能是相对路径，而不是完整的URL。这意味着链接的href属性只包含了相对于当前页面的路径，而不是完整的URL。在处理这些链接时，我们需要根据当前页面的URL来构建完整的链接。
错误的HTML结构：有时，HTML文档可能包含错误的标签嵌套或不完整的标签，这可能导致Nokogiri解析链接时出现奇怪的结果。在这种情况下，我们需要检查HTML文档的结构，并尝试修复任何错误。
动态生成的链接：某些网站使用JavaScript或其他技术动态生成链接。这些链接可能在页面加载后才会出现，而不是在HTML文档中静态存在。在这种情况下，我们可能需要使用其他工具或技术来模拟页面加载，并提取动态生成的链接。

针对这些奇怪的hrefs链接，我们可以采取以下方法来处理：

使用URI库解析链接：可以使用Ruby的URI库来解析链接。URI库提供了一组方法，可以将相对路径转换为完整的URL，并处理其他与链接相关的操作。通过使用URI库，我们可以确保获得正确的链接。
检查HTML结构：在遇到奇怪的hrefs链接时，我们应该检查HTML文档的结构，确保没有错误的标签嵌套或不完整的标签。可以使用Nokogiri提供的方法来检查和修复HTML结构。
使用其他工具或技术：如果链接是动态生成的，我们可以考虑使用其他工具或技术来模拟页面加载，并提取动态生成的链接。例如，可以使用Selenium WebDriver来模拟浏览器行为，并提取动态生成的链接。

总结起来，处理Nokogiri返回的奇怪hrefs链接需要注意相对路径问题、检查HTML结构以及使用其他工具或技术来处理动态生成的链接。通过这些方法，我们可以更好地解析和处理HTML文档中的链接。

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

一个奇怪的链接问题

前言链接是代码生成可执行文件中一个非常重要的过程。我们在使用一些库函数时，有时候需要链接库，有时候又不需要，这是为什么呢？了解一些链接的基本过程，能够帮助我们在编译时解决一些疑难问题。...比如，下面就有一种奇怪的现象。一个奇怪的链接问题程序功能很简单，计算e的n次方。...2.什么时候需要链接？事实上，C编译器总是主动传送libc.a或libc.so给链接器，也就是说，对于使用包含在libc.a或libc.so库中的函数，是不需要在编译时手动链接的。...这个就涉及到链接器的工作原理了，在此只简单说明一下：链接过程中，需要进行符号解析，并且是按照顺序解析；如果库链接在前，就可能出现库中的符号不会被需要，链接器不会把它加到未解析的符号集合中，那么后面引用这个符号的目标文件就不能解析该引用...因此链接库的一般准则是将它们放在命令行的结尾。总结通过前面的实例和分析，我们总结出以下几点：调用包含于libc库中的函数不需要链接。

1.6K2 0

奇怪的Java题：为什么128 == 128返回为false，而127 == 127会返回为true?

奇怪的Java题：为什么128 == 128返回为false，而127 == 127会返回为true? 在回答这个问题之前，我们先来看看int和Integer的对比，一步步揭开问题的答案。...实际是对象的引用，指向此new的Integer对象；int是直接存储数据值； (4) Integer的默认值是null；int的默认值是0。...基本类型（原始数据类型）在传递参数时都是按值传递，而封装类型是按引用传递的(其实“引用也是按值传递的”，传递的是对象的地址)。由于包装类型都是不可变量，因此没有提供改变它值的方法。...2. int与Integer的深入对比注：对于引用类型变量，==操作符比较的是两个引用是否指向同一个对象；对于基本类型变量，==操作符比较的是两个变量的值是否相等。...(1) 由于Integer变量实际上是对一个Integer对象的引用，所以两个通过new生成的Integer变量永远是不相等的。

2.2K3 1

奇怪的知识增加了，如何让 (a == 1 && a == 2 && a == 3) 返回 true

a == 3 这个表达式返回 true ？。...+A 的结果与 B 严格相等操作数 A 类型为 Boolean，并且调用 +A 的结果与 B 严格相等操作数 A 类型为 Object，并且调用 toString 或者 ValueOf 返回的结果与...方法，在这个方法内部，我们每次增加另一个变量的值并返回，就能够在这条表达式中使得 a 的结果有不同的值。...; } 同样的，Proxy 对象默认的 toString 和 valueOf 方法会返回这个被 getter 劫持过的结果，也能够在宽松相等的条件下满足题意。...在 ES5 之后，Object 新增 defineProperty 方法，它会直接在一个对象上定义一个新属性，或者修改一个对象的现有属性，并返回这个对象，对于定义的这个对象有两种描述它的状态，一种称之为数据

1K3 0

发现一个很奇怪的现象，MyBaits 的 insert方法一直返回-2147482646

前几天在做项目demo的时候，发现有一个很奇怪的现象，就是MyBatis发现更新和插入返回值一直为"-2147482646"，无论怎么改，这个值一直不变......> 这么一改果然好使，但是为啥会返回这个奇怪的数字呢...千呼万唤始出来，这个奇怪的数字原来在这里出来的，其中可以看到它是固定返回的，没有任何判断逻辑...这样就证明了一点，只要你的insert方法在配置文件中配置的是batch，那么它肯定返回这个值！...我找到了SimpleStatementHandler的update方法，可以看到它返回是statement.getUpdateCount返回的数字，也就是实际影响的行数，那么就是正常的数值。...总结本篇博客记录了一次源码追踪的过程，从而解释了为什么配置BATCH返回的是这个数字的原因，在实际的编程中，可能会遇到很多奇怪的问题，这时候就要敢于翻源码，答案一定在源码中，才能从根本上知道产生问题的原因

5492 0

php-获得网页的所有链接

php $url="http://www.baidu.com"; // 获取链接的HTML代码 $html=file_get_contents($url); // 创建DOMdocument对象 $dom...=new DOMdocument(); @$dom->loadHTML($html); $xpath=new DOMxpath($dom); // $xpath->evaluate对给定的XPath表达式并返回一个类型的结果...，如果可能的话 $hrefs = $xpath->evaluate('/html/body//a'); for($i=0;$ilength;$i++){ $href=$hrefs->...'; // 保留以http开头的链接 if(substr($url, 0, 4) == 'http') echo $url.''; } ?>

2.3K3 0

Ruby脚本：自动化网页图像下载的实践案例

此外，Ruby的Nokogiri库也为我们提供了解析HTML和XML文档的能力，这对于提取网页中的图像链接至关重要。准备工作在开始编写脚本之前，我们需要确保已经安装了Ruby环境以及必要的库。...这可以通过Ruby的包管理器gem来完成：bashgem install mechanize nokogiri实践案例分析自动化网页图像下载的基本流程包括以下几个步骤：1设置代理（可选）：如果需要通过代理服务器访问网页...3提取图像链接：使用Nokogiri库解析网页内容，提取所有图像的链接。4下载图像：遍历所有图像链接，使用Mechanize库下载图像并保存到本地。...4提取图像链接：使用Nokogiri::HTML解析网页内容，并通过css方法提取所有img标签的src属性，即图像链接。...5下载图像：遍历所有图像链接，对于每个链接，我们检查它是否是一个完整的URL（以http开头）。如果是，我们使用agent.get方法下载图像，并使用save方法保存到本地指定路径。

1001 0

ruby语言怎么写个通用爬虫程序？

= open('meeting.tencent', http_proxy: proxy)doc = Nokogiri::HTML(html)# 使用Watir库遍历网页中的所有视频链接browser...meeting.tencent'links = browser.linkslinks.each do |link| link_url = link.href if link_url =~ /video/ # 判断链接是否指向视频...，包括OpenURI、Nokogiri和Watir。...然后，它设置了爬虫ip服务器的主机名和端口号，并创建了一个爬虫ip服务器对象。接着，它使用Nokogiri库解析了指定网页的内容，并使用Watir库遍历了网页中的所有链接。...对于每个链接，它检查是否指向视频，如果是，则获取该视频的URL并打印出来。注意，这段代码需要在安装了OpenSSL和谷歌浏览器的环境中运行。

1914 0

HtmlAgilityPack 总结（一）

2、获取所有的超链接：doc.DocumentNode.Descendants(“a”) 3、获取name为kw的input，也就是相当于getElementsByName()：...//li/h3/a[@href]：所有li下面的h3包含a超级链接有href属性才符合。...sr.Close(); HttpWResp.Close(); HttpWReq.Abort(); 另一个问题就是很奇怪了。...= _doc.DocumentNode.SelectNodes(“//li/h3/a[@href]”); HtmlNodeCollection hrefs2 =...发布者：全栈程序员栈长，转载请注明出处：https://javaforall.cn/159672.html原文链接：https://javaforall.cn

1.4K4 0

前端js上传文件到COS对象存储后获取返回对象链接的方法

项目开发过程中往往会遇到前端js上传文件到COS对象存储没有返回对象链接的情况，今天跟大家分享一个CORS配置小技巧由于COS上传密钥放在前端不安全，我们使用腾讯云生产的临时密钥配置在前端，通过前端...js sdk上传文件到COS对象存储，在不做任何配置的情况下，COS返回的信息只有Status Code和headers信息 image.png 如果我们想直接获取到上传成功的文件链接，需要在COS控制台...--找到相应的存储桶--基础配置--跨域访问CORS设置中，添加如下规则：来源Origin 操作Methods Expose-Headers 超时Max-Age * PUT...GET POST DELETE HEAD Etag Content-Length x-cos-request-id 5 image.png 保存后重新通过JS SDK上传，此时就会返回上传成功后文件的链接啦

13.2K1 1

痞子衡嵌入式：一个奇怪的Keil MDK下变量链接强制对齐报错问题(--legacyalign)

大家好，我是痞子衡，是正经搞技术的痞子。今天痞子衡给大家分享的是一个奇怪的Keil MDK下变量链接强制对齐报错问题。　　...EMPTY Heap_Size { } ARM_LIB_STACK m_data_start+m_data_size EMPTY -Stack_Size { } } 　　编译工程得到一个如下图所示奇怪链接错误...4字节对齐的，在链接分配时需要插入一些填充空间来满足区内段的特殊对齐需求，链接器在处理填充时有两个策略：严苛策略--no_legacyalign（默认）：指示链接器插入填充以强制执行区首地址自然对齐，...读到这里，我们好像找到了一开始报错的原因，就是默认的--no_legacyalign捣的鬼，链接器应该根据LR_m_text区首地址按qh_buffer对齐要求来填充，但实际上链接器却直接撂挑子不干了，...至此，一个奇怪的Keil MDK下变量链接强制对齐报错问题痞子衡便介绍完毕了，掌声在哪里~~~

6411 0

Python爬取365好书中小说代码实例

需要转载的小伙伴转载后请注明转载的地址需要用到的库 from bs4 import BeautifulSoup import requests import time 365好书链接：http://www...NovelId=3026 获取小说的每个章节的名称和章节链接打开浏览器的开发者工具，查找一个章节：如下图，找到第一章的名称和href（也就是第一章节内容页面的链接），开始写代码 ?...hrefs=[] # 存储章节链接 for i in s: names.append(i.find('span').string) hrefs.append(url + i.get('href...')) # 将所有的章节和章节链接存入的列表中观察href后的链接和打开章节内容页面的链接是不完全的相同的，所以要拼接使得浏览器能直接打开章节内容获取到链接和章节名后打开一个章节获取文本内容；和获取章节名方法一致...text = [] for each in p: text.append(each.string) print(text) return text # 将获得的内容返回

5174 0

PHP 获取指定 URL 页面中的所有链接

以下代码可以获取到指定 URL 页面中的所有链接，即所有 a 标签的 href 属性： // 获取链接的HTML代码 $html = file_get_contents('http://www.example.com...>evaluate('/html/body//a'); for ($i = 0; $i length; $i++) { $href = $hrefs->item($i);...'; } 这段代码会获取到所有 a 标签的 href 属性，但是 href 属性值不一定是链接，我们可以在做个过滤，只保留 http 开头的链接地址： // 获取链接的HTML代码 $html...= $xpath->evaluate('/html/body//a'); for ($i = 0; $i length; $i++) { $href = $hrefs->item...($i); $url = $href->getAttribute('href'); // 保留以http开头的链接 if(substr($url, 0, 4) == 'http

7.6K2 0

小程序上传多张图片到springboot后台，返回可供访问的图片链接

最近在做小程序多图片上传到Java后台，Java后台是用springboot写的。也算是踩了不少坑，今天就来带大家来一步步实现小程序端多图片的上传。...首先看效果实现图小程序端上传成功的回调 [1240] Java端接受到图片后的打印 [1240] 链接可以直接在浏览器里打开查看 [1240] 其实这两个截图就可以看出，我们图片上传成功了，并且给小程序前端返回了可供访问的图片...到这里，我们的小程序多图片上传就算大工告成了，后面我会录制相关的视频出来，感兴趣的同学可以关注“编程小石头”公众号，回复“多图片上传”，即可获取源码。...下面把完整的代码贴出来给到大家 1，springboot对外提供接口供小程序访问 2，小程序上传单个图片和额外参数给后台 3，后台把图片写到本地，或者图片服务器，然后返回对应的图片url给到小程序端。...[1240] 通过上图可以看出，Java后台返回了对应的图片url给前端，并且可以拿到小程序前端传的用户名。我这里把完整的代码贴给大家。

1.6K0 0

小程序上传多张图片到springboot后台，返回可供访问的图片链接

最近在做小程序多图片上传到Java后台，Java后台是用springboot写的。也算是踩了不少坑，今天就来带大家来一步步实现小程序端多图片的上传。首先看效果实现图小程序端上传成功的回调 ?...Java端接受到图片后的打印 ? 链接可以直接在浏览器里打开查看 ? 其实这两个截图就可以看出，我们图片上传成功了，并且给小程序前端返回了可供访问的图片url。话不多说，直接看代码。...2，js文件再来看下js文件，js文件里最重要的就是uploadFile方法 ? uploadFile方法里我们请求自己的Java后台接口，进行图片上传。...return filePath; } 这里我给大家讲下实现步骤 1，springboot对外提供接口供小程序访问 2，小程序上传单个图片和额外参数给后台 3，后台把图片写到本地，或者图片服务器，然后返回对应的图片...通过上图可以看出，Java后台返回了对应的图片url给前端，并且可以拿到小程序前端传的用户名。我这里把完整的代码贴给大家。

2.1K2 0

爬取《The Hitchhiker’s Guide to Python!》python进阶书并制成pdf

这是日常学python的第15篇原创文章前几篇文章我们学习了requests库和正则，还有个urllib库，我上篇文章也用了requests库来教大家去爬那些返回json格式的网页，挺好玩的。...可以看到首页中有整本书的内容链接，所以可以直接爬首页获取整本书的链接。熟练地按下f12查看网页请求，非常容易找到这个 ?...请求网站为：http://pythonguidecn.readthedocs.io/zh/latest/ 请求方式为get，状态码为200，而且返回的是html元素，所以我们可以用正则来匹配所需要的内容...(self): '''获取书本的所有链接''' response = requests.get(self.url, self.headers) if response.status_code...__get_hrefs() content = self.

97517 0

一个简单的图片爬虫，Python图片采集下载

一个非常简单的图片爬虫，通过一个页面的链接采集，然后访问单页面获取想要的大图，实现采集下载的目的，比较简单，由于是国外网站，访问会比较慢，推荐使用代理工具来实现。...想要获取的链接有两个节点节点一 ? xpath语法 hrefs=req.xpath('//p[@class="data-import-preserve"]/a/@href') 节点二 ?...xpath语法 hrefs=req.xpath('//b[@class="data-import-preserve"]/a/@href') 通过以上两个节点应该能够获取到所有链接了，不过需要注意过滤一些无效链接...图片下载超时处理图片下载，做了一下超时处理，很简单的写法，try except处理，仅供参考。爬取效果 ? 采集效果 ? 下载效果 ?...=req.xpath('//b[@class="data-import-preserve"]/a/@href') print(len(hrefs)) return hrefs def

1.2K2 0

快速入门网络爬虫系列 Chapter08 | 使用Python库抽取

Xpath是一种查看XML文档内容的路径语言，定位文档中的节点位置获取网页标题中a标签的内容： //div//li//a/text() hrefs = page.xpath("//div//li//...a/text()") print() for href in hrefs: print(href) 1、获取网页中的所有链接(绝对链接和相对链接) 以百度百科为例： import requests from...上面取出了百度百科中的所有链接。得出的链接包括绝对链接和相对链接。...2、获取网页内部所指向的链接 import requests from lxml import etree s=requests.session() s.headers = {'User-Agent'...+标签名字定位标签的方法，只能选择第一个满足条件的节点 Find_all()方法能返回所有满足条件的标签的列表 find_all(name,attrs,recursive,text,**kwargs)

1.9K2 0

2015阿里校招前端在线题目

对于页面上非taobao.com域名下的链接。在用户点击时，须要在链接处弹出提示框，提示用户此链接非淘宝域名下的链接。并给与用户选择是否继续訪问。假设用户确认继续訪问，则在新窗体打开链接。...请写出对应的代码。 <!...= document.getElementsByTagName("a"); for(var i = 0, len = hrefs.length; i<len; i++){ var href...= hrefs[i].getAttribute("href"); hrefs[i].onclick = function(href){ return function(){...这样做的优点是避免了对每个a标签进行逐个绑定。节省了时间开销。另外代码更简洁。 <!

2041 0

One Piece 海贼王动漫壁纸 Python 爬取！

01 网站分析随意百度搜索找的一个网站！...目标网址： https://www.ivsky.com/bizhi/one_piece_t571/ 很明显，一个列表页，一共有24个链接，对应的24个图片，可惜只有缩略图！...所以，从列表页应该是获取不到大图的图片地址，考虑从内页获取！...当然需要注意的是，首页的列表页即为入口页，构造访问路径的时候用一个判断处理就可以实现了！...02 代码编写引用库 import requests,time from lxml import etree 列表链接源码列表链接xpath获取 hrefs=tree.xpath('//ul[@class

4562 0

Python抓取海量面经，直面秋招

在上图的页面中我们可以获取每个公司对应的href链接。利用简单的XPath即可得到各个企业的链接，企业的名字以及该企业的面经数量。我们先进入阿里巴巴的面经页面，并进行翻页观察url链接变化。...type=2&order=0&pageSize=30&expTag=0&query=&page=2 发现截至type=2便是之前获得的href链接。而后面的链接参数可以根据其英文来理解。...显然，控制翻页的参数应该是page，其他参数应该不是必要的。正所谓实践是检验真理的唯一标准，我们使用获取的href链接只加上page参数尝试一下，果真如此。 ?...接下来要做的事便是获取每一份面经的内容，并保存在本地。根据当前网页的源代码，我们还是利用简洁高效的XPath便可以得到面经的标题和其链接。...def get_article(self,enterprise_name,hrefs,titles): for i in range(len(hrefs)):

5011 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭