仅使用HtmlAgilityPack从SelectNode抓取一些内部文本

、、

我一直在使用HtmlAgilityPack来解析网页中的一些html。</div> </div>return node有没有一种方法可以排除&#

浏览 16提问于2020-03-11得票数 0

1回答

从HTML中抓取不是来自头的内部文本

、、

使用HTMLAgilityPack for C#，我将如何从不是来自<h1-6>的HTML中获取内部文本。我不想使用正则表达式，但是使用HTMLAgilityPack。document.LoadHtml (text);在处理大量文本时最好是删除标题标签，然后

浏览 5提问于2013-08-17得票数 0

回答已采纳

1回答

C# HtmlAgilityPack* -刮擦*

、

我想使用HtmlAgilityPack从GSMArena.com中抓取内容，具体来说，我想刮掉手机的技术规格。 i想要擦拭重量、尺寸等问题：节点路径在几乎所有模型之间都是不同的。例如，如果我想刮掉产品的重量，有没有办法告诉HTMLAgilityPack搜索一个标记，然后转到它后面的TD，然后刮掉TD的内部文本？

浏览 0提问于2014-12-03得票数 0

回答已采纳

2回答

我刚刚开始从网页上抓取基本文本，目前正在使用HTMLAgilityPack C#库。我在rivals.yahoo.com上的boxscore上取得了一些成功(体育是我的事情，所以为什么不刮点有趣的东西呢？)但是我被困在NHL的游戏摘要页面上了。我正在测试的页面是：乍一看，它看起来像是没有ajax或其他东西的基本文本，弄乱了一个基本的抓取器。然后我意识到由于一些javascript的原因我不能右击，所以我解决了这个问题。我在火狐中右击

浏览 1提问于2010-10-21得票数 2

回答已采纳

1回答

使用超文本标记语言敏捷包(VB.net)从WebBrowser活动中抓取文本

、、、

我想使用HTML agility pack在Windows form中提取WebBrowser活动中的字段/文本。我可以在后台抓取文本，但我想在表单内的WebBrowser中进行抓取。Imports SystemImports HtmlAgilityPack Private Sub Form1

浏览 15提问于2021-03-28得票数 0

回答已采纳

4回答

使用htmlAgilityPack从<a>标记中抓取所有内部文本

、、、、

我想从链接中删除所有单词，我尝试了这样的方法：HtmlAgilityPack.HtmlDocument doc = web.Load("http它显示“没有找到”意味着它返回null.How --在这种情况下，我能从<a>标签中获取所有的文本吗？？，谁能告诉我SelectNodes(“”)？？中应该是什么？

浏览 10提问于2013-02-22得票数 0

回答已采纳

4回答

读取c#？

、、

我正在用C#开发一个程序，我需要一些帮助。我正在尝试创建一个显示在某个网站上的数组或项目列表。我想要做的是读取锚文本，它是href。

浏览 0提问于2012-05-23得票数 3

回答已采纳

1回答

C#中的SendKeys类

、、

我有一个c#程序，它使用Process类启动Internet Explorer并转到一个url。我使用SendKeys.SendWait("abc")将字符串发送到Internet Explorer (活动窗口)中的页面。

浏览 2提问于2009-07-15得票数 1

3回答

如何在C#中获取网页中的所有显示文本

、

嗨，我在C#中从事数据抓取应用程序的工作。HtmlWeb web = new HtmlWeb();string str = doc.DocumentNode.InnerText; 这个内部的html也返回了一些标签和脚本，但是我只想得到对用户可见的显示文本

浏览 0提问于2013-10-26得票数 4

1回答

通过标签名称排除某些后代，然后抓取文本

、、、

我正在使用C#中的HtmlAgilityPack从网页上抓取一些数据。我得到了包含我想要获取的所有文本的元素，但问题是我想要排除某些元素，例如和元素。一些页面在随机位置有元素，目前HtmlAgilityPack正在将CSS规则作为文本包含在内。string.IsNullOrEmpty(x.InnerText)).ToList(); "paragraphElements“包含所有元素，但其中一些元素包含我不希

浏览 2提问于2015-05-13得票数 0

4回答

使用C#和.NET框架进行屏幕抓取、Web抓取、Web获取、Web数据提取等

、、、、

我正在开发一个用于网络采集、网络抓取、网络数据提取、屏幕抓取等功能的Microsoft .NET Application in C#，不管你怎么称呼它。我已经包括了一些规格和图像，我有到目前为止，并希望得到您的意见，我可以继续下去。基本上，我想做一些类似于Visual开膛手使用的布局，但我不知道他们是如何做到的。有什么想法吗？Specifications: 我的目标是使一个非常用户友好的点击式应用程序下载数据和图像从网上。我希望使用web浏览器加载HTML页面，并将分析

浏览 6提问于2012-02-28得票数 3

回答已采纳

4回答

删除HtmlAgilityPack中无用的TextNodes

、、

我正在使用HtmlAgilityPack抓取一些网站。问题是，它似乎坚持在大多数地方插入TextNodes，这些地方要么是空的，要么是包含大量\n、空格和\r的地方。当我计算子节点时，它们往往会给我带来问题，因为firebug不会显示它们，但HtmlAgilityPack会显示它们。有没有办法告诉HtmlAgilityPack停止这样做，或者至少清除这些文本节点？(不过我想保留一些有用的东西)。在这里，注释和脚本标记也是一样的。

浏览 0提问于2012-07-05得票数 5

1回答

如何在C#的HTML Source中按类或id抓取元素？

、、、

我正在尝试从基于类或id名称的HTML源抓取元素，使用C# windows窗体应用程序。我使用WebClient将源代码放入字符串中，并使用HtmlDocument将其插入到HTMLAgilityPack中。但是，我在HTMLAgilityPack包中找到的所有示例都是根据标签解析和查找项目的。我需要找到一个特定的id，比如html中的链接，并检索标记内部的值。这是可能的吗?最有效的方法是什么？

浏览 3提问于2011-10-19得票数 6

回答已采纳

1回答

在哪里可以得到用户代理的列表？理想情况下是API

我正在创建一个相当精细的API，它所做的部分工作是发出请求和抓取等等。我需要一个用户代理列表来供API使用。例如，有人可能会访问我的API，并请求使用最新的代理、IE6或默认代理来刮取FireFox。我的问题是，有人知道API吗?我可以检索大量的用户代理列表并定期更新我的列表吗？我找不到任何好的选择。

浏览 1提问于2013-11-15得票数 1

回答已采纳

3回答

使用C#的可编程WebCrawler

、、

我想从一个已知的Url中提取特定的数据:从html标签中提取，比如span，a，div...！谢谢！

浏览 0提问于2011-06-28得票数 0

回答已采纳

1回答

为XPath获得适当的SelectNodes

、、

我刚刚开始使用HtmlAgilityPack从网站上抓取一些文本。我已经进行了实验，发现一些网站在使用XPath方法时比其他网站更容易获得合适的SelectNodes。例如，在探索Google中的DOM时，我能够复制XPath：//*[@id="page"]/span/table[7]/tbody/tr[1]/td/span[2]/a，然后我会

浏览 2提问于2016-05-29得票数 0

回答已采纳

3回答

HtmlAgilityPack -如何在大型网页中抓取<DIV>数据

、、、

我试图从一个网页抓取数据，<DIV>的特殊类<DIV class="personal_info">它有10个类似的<DIV>S和是相同的类" personal_info“(如超文本标记语言代码所示)，现在我想提取类Rama Anand</span><br><br> Mobile: 9916184586<br>rama_asset@hotmail.com<br> Bangalore</div> 为了做必要

浏览 4提问于2011-07-01得票数 1

1回答

将HTML解析为父-子对象C#

、、、、

我正在解析html页面，而且我对这类解析还不熟悉，您能建议我按照html来解析吗？ HTML：这是我所能做的代码，但是没有添加到对象中，除了Fizzler，在本例中还有其他解析器可以完成。var html = new HtmlDocument(); // with HTML Agility pack html.LoadHtm

浏览 3提问于2014-04-11得票数 0

回答已采纳

2回答

C# Httpwebrequest -从链接下面获取表格数据

、、、、

., 'Example String')]我试过了 //a[contains(., 'Example

浏览 0提问于2018-03-20得票数 0

2回答

WebBrowser不更新DocumentText吗？

、

每当我通过HtmlElement.Id为一些元素分配Id，然后读取WebBrowser.DocumentText属性时，元素的Id并没有我分配给它的Id。我尝试通过HtmlElement.Id获取Id，Id就是我分配的Id，但我需要的是找到一种从HtmlDocument (.net)映射到HtmlAgilityPack.HtmlDocument的方法，所以我想为每个元素分配一个惟一的Id，然后在每次我想访问特定元素时使用HtmlAgilityPack读取DocumentText，然后在两端使用</

浏览 2提问于2010-06-30得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

从HTML中抓取不是来自头的内部文本

C# HtmlAgilityPack* -刮擦*

抓取.HTM文件时出现问题

使用超文本标记语言敏捷包(VB.net)从WebBrowser活动中抓取文本

使用htmlAgilityPack从<a>标记中抓取所有内部文本

读取c#？

C#中的SendKeys类

如何在C#中获取网页中的所有显示文本

通过标签名称排除某些后代，然后抓取文本

使用C#和.NET框架进行屏幕抓取、Web抓取、Web获取、Web数据提取等

删除HtmlAgilityPack中无用的TextNodes

如何在C#的HTML Source中按类或id抓取元素？

在哪里可以得到用户代理的列表？理想情况下是API

使用C#的可编程WebCrawler

为XPath获得适当的SelectNodes

HtmlAgilityPack -如何在大型网页中抓取<DIV>数据

将HTML解析为父-子对象C#

C# Httpwebrequest -从链接下面获取表格数据

WebBrowser不更新DocumentText吗？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐